使用單核苷酸多型性預(yù)測(cè)漢人白血球抗原基因型的試劑盒的制作方法
【專利摘要】本發(fā)明公開(kāi)了一種使用單核苷酸多型性預(yù)測(cè)漢人白血球抗原基因型的試劑盒及其應(yīng)用。針對(duì)亞洲人種的人類白血球抗原基因型(HLA-A、HLA-B、HLA-C、HLA-DPB1、HLA-DQB1、及HLA-DRB1)預(yù)測(cè)模型,且預(yù)測(cè)結(jié)果已達(dá)到模型的優(yōu)化。本發(fā)明由單核苷酸多型性基因定型預(yù)測(cè)亞洲人種典型人類白血球抗原對(duì)偶基因型,準(zhǔn)確率范圍為80.37%(HLA-B)至95.79%(HLA-DQB1),可達(dá)到高準(zhǔn)確率,此外,使用基因型預(yù)測(cè)白血球抗原對(duì)偶基因型的試劑盒可節(jié)省可觀的時(shí)間及花費(fèi)。
【專利說(shuō)明】使用單核苷酸多型性預(yù)測(cè)漢人白血球抗原基因型的試劑盒
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明是關(guān)于具有族群專一性的單核苷酸多型性可預(yù)測(cè)人類白血球抗原對(duì)偶基 因的試劑盒,特別的是,本發(fā)明是關(guān)于使用漢人的單核苷酸多型性來(lái)預(yù)測(cè)人類白血球抗原 基因型的試劑盒。
【背景技術(shù)】
[0002] 人類白血球組織抗原基因群位于第6對(duì)染色體上,分為主要組織兼容性復(fù) 合體第I類(HLA-A、HLA-B、及HLA-C)與主要組織兼容性復(fù)合體第II類(HLA-DR、 HLA-DQ、及HLA-DP)的對(duì)偶基因(alleles),而個(gè)體單一基因的多種對(duì)偶基因的多形性 (polymorphism)型態(tài),造成組織或器官移植時(shí)的移植物排斥(graft rejection)及移植物 排斥宿主疾病(graft-versus-host diseases)。人類白血球抗原對(duì)偶基因亦在群體遺傳 學(xué)及免疫相關(guān)疾病狀態(tài)(immune-related disease status)中扮演重要的角色。再者,先 前的比較研究顯示免疫系統(tǒng)通常有強(qiáng)的選擇性壓力(selective pressure),其可能由病 毒-宿主交互作用所造成。因?yàn)檫@些選擇性壓力,族群間的比較揭示人類白血球抗原對(duì)偶 基因的對(duì)偶基因分布的連鎖不平衡(linkage disequilibrium)及高可變形態(tài)(variable patterns)〇
[0003] 人類白血球組織抗原(human leukocyte antigen, HLA)的遺傳變異與免疫功能、 自體免疫疾病和某些癌癥有關(guān)。至今,大規(guī)模的研究由實(shí)驗(yàn)(經(jīng)由血清學(xué)或PCR)取得 人類白血球抗原基因的配型依然耗時(shí)與昂貴。因此,只需要較低價(jià)格的單核苷酸多型性 (single-nucleotide polymorphisms, SNPs)被廣泛使用于預(yù)測(cè)白血球抗原的基因型以節(jié) 省經(jīng)費(fèi)與實(shí)驗(yàn)時(shí)間。然而,大部分的人類白血球抗原基因型預(yù)測(cè)模型只有高加索人樣本,少 有研究報(bào)導(dǎo)包含非高加索人的樣本,而在不同的種族間其人類白血球組織抗原基因類別分 布相異。
[0004] Zheng等人于2011年BMC genetics期刊中強(qiáng)調(diào),在建構(gòu)完預(yù)測(cè)白血球組織抗原預(yù) 測(cè)模型后,此模型不能使用于不同種族的白血球抗原基因型。因此,Ayele等人于2011年 于PL0S ONE期刊中,已經(jīng)針對(duì)非洲人建構(gòu)出其特有白血球組織抗原預(yù)測(cè)模型;然而,目前尚 未有亞洲人的人類白血球組織抗原預(yù)測(cè)模型。因此,建構(gòu)出種族獨(dú)特的白血球組織抗原預(yù) 測(cè)模型有其必要性,尤其是漢人的的白血球組織抗原預(yù)測(cè)模型更有其需求。
【發(fā)明內(nèi)容】
[0005] 緣此,本發(fā)明提供一種單核苷酸多型性在制備預(yù)測(cè)人類白血球抗原對(duì)偶基因試劑 盒中的應(yīng)用,其步驟包含:(a)提供一人類核酸樣本;(b)判別該人類核酸樣本的一單核苷 酸多型性集合的基因型,該單核苷酸多型性集合集合包含位于人類白血球抗原基因上的各 個(gè)不同的單核苷酸多型性;( c)使用一預(yù)測(cè)模型分析步驟(b)中各單核苷酸多型性的基因 型以獲得一計(jì)算值,其中該預(yù)測(cè)模型是使用單核苷酸多型性基因型來(lái)預(yù)測(cè)人類白血球抗原 對(duì)偶基因;以及(d)依據(jù)步驟(c)所獲得的計(jì)算值預(yù)測(cè)該人類樣本的人類白血球抗原對(duì)偶 基因型;且其中該樣本為亞洲人族群,較佳為漢人族群。
[0006] 本發(fā)明的應(yīng)用中,該單核苷酸多型性集合所包含的各單核苷酸多型性來(lái)自(1) HLA-A、(2)HLA-B、(3)HLA-C、(4)HLA-DPB1、(5)HLA-DQB1、以及 ^)HLA-DRB1 基因,其中該來(lái) 自(l)HLA-A基因的是選自于一第1單核苷酸多型性集合、一第2單核苷酸多型性集合、一 第3單核苷酸多型性集合、及一第4單核苷酸多型性集合;
[0007] (i)該第1單核苷酸多型性集合是由rsl633085、rs2254071、rs407238、 rs9258881、rs2975046、rs2735096、rs417162、rs9260954、rs6917477、rs6457144、 rs9261394、及 rs2523990 所組成;
[0008] (ii)該第 2 單核苷酸多型性集合是由 rs4122198、rsl6895757、rsl632973、 rs9357086、rsll759549、rs3115628、rs3094165、rs2734925、rs2517755、rs2256919、 rsll756025、rs7382061、rs6457144、rs2517646、及 rs7744914 所組成;
[0009] (iii)該第 3 單核苷酸多型性集合是由 rs3094165、rs9258883、rs3132714、 rsl611493、 rs2524005、 rs2860580、 rsl2665039、 rs6457109、 rs3869062、 rs3893464、 rs5009448、rs2571375、rs7758512、及 rs9261394 所組成;
[0010] (iv)該第 4 單核苷酸多型性集合是由 rs2523409、rsl611133、rs3115628、 rs2517859、 rsl611732、 rs2523998、 rs2860580、 rsl2202296、 rs2248153、 rs2975046、 rs6457109、rs5009448、rs9260932、及 rs6457144 所組成;
[0011] 該來(lái)自(2) HLA-B基因的單核苷酸多型性是選自于一第5單核苷酸多型性集合、一 第6單核苷酸多型性集合、一第7單核苷酸多型性集合、及一第8單核苷酸多型性集合,其 中
[0012] (i)該第 5 單核苷酸多型性集合是由 rs3130944、rs3130532、rs3130534、 rs3134762、 rsl6899207、 rs2524089、 rs9366778、 rs2524166、 rs9295984、 rs4394275、 rs9378249、rs2523534、rs9266406、rs2844558、rs5022119rs3099848、rs4081552、 rs2848716、rs2596454、及 rs2248462 所組成;
[0013] (ii)該第 6 單核苷酸多型性集合是由 rsll966319、rs2853948、rs6906846、 rs9378228、 rs2524051、 rs9366778、 rsl6867947、 rs4394274、 rs4394275、 rs2523591、 rs9501572、rs7761068、rs2523535、rs9266406、rs5006724、rsl3198903、rs9266669、 rs9266689、rs3099849、rs2442749、rsl051796、rs2596464、rs3099836、及 rs3131622 所組 成;
[0014] (iii)該第 7 單核苷酸多型性集合是由 rs9264868、rs9264942、rs3094691、 rs2156875、rs2523619、rs2442719、rs2596501、rs2523589、rs2523554、rs2844573、 rs9266395、rs9266440、rs9295986、rs2442749、rs2596560、rs3128982、rs2284178、及 rs7758090 所組成;
[0015] (iv)該第 8 單核苷酸多型性集合是由 rs3094691、rs7453967、rs4394274、 rs4394275、rs2596509、rs2596501、rsl058026、rs2523591、rs2523589、rs2523554、 rs2523545> rs9501572> rs2844575> rs9266395> rs9266406> rs5006725> rs9295986> rs6933050、 rs4959068、 rs5022119、 rsl3198903、 rs9266689、 rs2251396、 rsl051796、 rs3094584、rs9765960、及 rs3128982 所組成;
[0016] 該來(lái)自(3)HLA-C基因的單核苷酸多型性是選自于一第9單核苷酸多型性集合、一 第10單核苷酸多型性集合、一第11單核苷酸多型性集合、及一第12單核苷酸多型性集合, 其中
[0017] (i)該第 9 單核苷酸多型性集合是由 rs2073724、rs3130713、rs3130531、 rs3095250、 rs3130532、 rs3130534、 rs2844615、 rs6906846、 rs2524067、 rs7382297、 rs2394963、rs2524095、rsl6899203、rs9366778、rs9295970、及 rs2523534 所組成;
[0018] (ii)該第 10 單核苷酸多型性集合是由 rs3130712、rs28480108、rs3134762、 rsl9966319、 rs9264523、 rs3132488、 rs3134745、 rs3130693、 rs3132486、 rs2853948、 『86906846、^9378228、^6457372、^2394963、^2524057、^12191877、及^9366776 所組 成;
[0019] (iii)該第 11 單核苷酸多型性集合是由 rs2516049、rs2858870、rs660895、 rs532098、 rs3129763、 rsl063355、 rs9275141、 rs9275184、 rs7774434、 rs7775228、及 rs9275224 所組成;
[0020] (iv)該第 12 單核苷酸多型性集合是由 rs9263957、rs9263969、rs3134762、 rsll966319、rs2248880、rs9264532、rs2524099、rs2074488、rs2395471、rs5010528、 rsl3207315、rs3132488、rs3130693、rs9391714、rs4386816、rs2524057、rsl6899205、及 rs9295970 所組成;
[0021] 該來(lái)自(4)HLA-DPB1基因的單核苷酸多型性是選自于一第13單核苷酸多型性集 合、一第14單核苷酸多型性集合、一第15單核苷酸多型性集合、及一第16單核苷酸多型性 集合,其中
[0022] (i)該第 13 單核苷酸多型性集合是由 rs3128955、rs3130588、rs9277194、 rs9348904、 rs9296073、 rs2856816、 rs3135021、 rsl431403、 rs3128963、 rs3117229、 rs7763822、rs2295120、rs3117242、rs6937034、及 rsl003979 所組成;
[0023] (ii)該第 14 單核苷酸多型性集合是由 rs9296068、rs9277183、rs3135402、 rs9348904、 rs2856830、 rs9296073、 rs2071350、 rsl431402、 rsl431403、 rs9277550、 rs3128963、rs3117229、rs9277567、rs3128918、及 rs6937034 所組成;
[0024] (iii)該第 15 單核苷酸多型性集合是由 rs206769、rs6920606、rs375912、 rsl431399、rs987870、rs3135021、rs9277535、rs9277554、rsl0484569、rs2281390、 rs3128917、rs2281388、rs3130215、及 rs2269346 所組成;
[0025] (iv)該第 16 單核苷酸多型性集合是由 rs2216264、rs423639、rs3097669、 rs987870、rsl431402、rsl431403、rs9277378、rs9277535、rs9277550、rs9277554、 rs9277565、rs2281390、rs2281388、rs3130215、rs6937034、rs6937061、及 rs2395357 所組 成;
[0026] 該來(lái)自(5) HLA-DQB1基因的單核苷酸多型性是選自于一第17單核苷酸多型性集 合、一第18單核苷酸多型性集合、一第19單核苷酸多型性集合、及一第20單核苷酸多型性 集合,其中
[0027] (i)該第 17 單核苷酸多型性集合是由 rs9269186、rs9270986、rs615672、 rs3129768、rs9272219、rs9272346、rs6908943、rs9275134、rs9469220、rs6457617、 rs2647046、rs2858308、及 rs9275418 所組成;
[0028] (ii)該第 18 單核苷酸多型性集合是由 rs2647073、rs502055、rs3129768、 rs9272535、rs9272723、rs34485459、rs3129716、rs7775228、rs6469219、rs5000634、 rs6457617、及 rs9275418 所組成;
[0029] (iii)該第 19 單核苷酸多型性集合是由 rs2516049、rs2858870、rs660895、 rs532098、 rs3129763、 rsl063355、 rs9275141、 rs9275184、 rs7774434、 rs7775228、及 rs9275224 所組成;
[0030] (iv)該第 20 單核苷酸多型性集合是由 rsl7533090、rs9272219、rsl7211510、 rs41269947、rs34485459、rsl063355、rs9275141、rs3129716、rs7774434、rs9405119、 rs9469219、rs9469220、及 rs9275224 所組成
[0031] 該來(lái)自(6) HLA-DRB1基因的單核苷酸多型性是選自于一第21單核苷酸多型性集 合、一第22單核苷酸多型性集合、一第23單核苷酸多型性集合、及一第24單核苷酸多型性 集合,其中
[0032] (i)該第 21 單核苷酸多型性集合是由 rs9268831、rs9268861、rs7747521、 rs9268877、rs9269186、rs2027852、rs615672、rs3129768、rs9272219、rs9272346、 rs9275134、rs7775228、rs9469220、rs6457617、rs2647046、及 rs2858308 所組成;
[0033] (ii)該第 22 單核苷酸多型性集合是由 rs9268877、rs4410767、rs7749092、 rsl7210980、rs2647073、rs615672、rs674343、rs502771、rs3997872、rs9271367、 rs9271720、rs2187668、rs34485459、rs3129716、及 rs9405119 所組成;
[0034] (iii)該第 23 單核苷酸多型性集合是由 rs9405098、rs3129871、rsl3209234、 rs9268832、rs6903608、rs602875、rs660895、rs9271366、rs3129769、rsl7211510、 rs2187668、rs9275141、rs9275184、rs9275383、rs2856717、rs2858305、rsl3192471、及 rs3104405 所組成;
[0035] (iv)該第 24 單核苷酸多型性集合是由 rs2395175、rs9405035、rs9268831、 rs6903608、 rs9268877、 rs9269186、 rs7749092、 rs2027852、 rsl7210980、 rs2516049、 rs615672、rs660895、rs674313、rs502771、rs3997872、rs9271366、rs2187668、rs34485459、 rs9275141、rs7755224、rs3129716、及 rs3104404 所組成。
[0036] 本發(fā)明的又一目的,是提供一種試劑盒(kit),在各容器中可能包括有一個(gè)或多個(gè) 單核苷酸多型性,包含判別HLA-A基因、HLA-B基因、HLA-C基因、HLA-DPB1基因、HLA-DQB1 基因、以及HLA-DRB1基因的本發(fā)明表5的單核苷酸多型性。
[0037] 本發(fā)明的另一目的是提供一種預(yù)測(cè)人類白血球抗原對(duì)偶基因的裝置,是包含不超 過(guò)200個(gè)核苷酸探針,其中該探針可檢測(cè)上述單核苷酸多型性;而其中該探針是固定于該 裝置上。
[0038] 本發(fā)明建構(gòu)對(duì)亞洲人種具有族群專一性的人類白血球抗原基因型預(yù)測(cè)模型,包含 437個(gè)具有Affymetrix5. 0及Illumina550K單核苷酸多型性的漢人血液樣本,其中214個(gè) 樣本亦有在Affymetrix6. 0單核苷酸多型性的數(shù)據(jù)。所有個(gè)體均在6個(gè)人類白血球抗原基 因座(loci)上分型至一 4位數(shù)分辨率并且用于人類白血球抗原基因型預(yù)測(cè)模型中作為驗(yàn) 證(training)及測(cè)試(testing)集。本發(fā)明的結(jié)果顯示較大的樣本數(shù)與較高的單核苷酸 多型性密度通常會(huì)導(dǎo)致較準(zhǔn)確的預(yù)測(cè)。此外,與本發(fā)明亞洲人種中人類白血球抗原對(duì)偶基 因有關(guān)的的優(yōu)化的flanking區(qū)域(flanking region)通常較高加索人的flanking區(qū)域?yàn)?短。在最準(zhǔn)確的模型中,flanking區(qū)域?yàn)闄M跨不同芯片數(shù)據(jù)集的人類白血球抗原對(duì)偶基因 的20-200kb (中位數(shù)為70kb)。當(dāng)該人類白血球抗原對(duì)偶基因較短時(shí),該flanking區(qū)域增 力口,而該人類白血球抗原對(duì)偶基因密度上升。本發(fā)明的最佳模型在亞洲人種中提供準(zhǔn)確的 預(yù)測(cè)。此外,本發(fā)明亦提供針對(duì)亞洲族群人類白血球抗原基因型預(yù)測(cè)模型的實(shí)際的建議,其 是關(guān)于對(duì)偶基因區(qū)域、芯片、及填補(bǔ)(Imputation)。本發(fā)明大約只需要20個(gè)單核甘酸多型 性就可正確的預(yù)測(cè)一個(gè)白血球抗原基因型,因此只需要1/10的價(jià)格就可以得到白血球抗 原基因型的信息。
[0039] 以下將配合圖式進(jìn)一步說(shuō)明本發(fā)明的實(shí)施方式,以下所列舉的實(shí)施例是用以闡明 本發(fā)明,并非用以限定本發(fā)明的范圍,任何熟習(xí)此技藝者,在不脫離本發(fā)明的精神和范圍 內(nèi),當(dāng)可做些許更動(dòng)與潤(rùn)飾,因此本發(fā)明的保護(hù)范圍當(dāng)視后附的權(quán)利要求書所界定的為準(zhǔn)。
【專利附圖】
【附圖說(shuō)明】
[0040] 圖1是與不同flanking區(qū)域大小相關(guān)的測(cè)試準(zhǔn)確率;就各6個(gè)人類白血球抗原對(duì) 偶基因而言,測(cè)試準(zhǔn)確率顯示隨著flanking區(qū)域大小增加而提升;圖中Affy6. 0芯片的數(shù) 據(jù)是以未填補(bǔ)單核苷酸多型性表示。
[0041] 圖2是由各基因定型芯片產(chǎn)生的優(yōu)化模型的測(cè)試準(zhǔn)確率;圖中顯示6個(gè)人類白血 球抗原對(duì)偶基因的測(cè)試準(zhǔn)確率與判讀率(可信度門坎為0);圖中顯示各3個(gè)基因定型芯片 及該三個(gè)基因定型芯片的合并芯片的填補(bǔ)(A)與未填補(bǔ)(B)單核苷酸多型性。
【具體實(shí)施方式】
[0042] 定義
[0043] 本說(shuō)明書中使用的用語(yǔ)是指在該領(lǐng)域中的一般涵義。下列在本說(shuō)明書中所討論到 的用語(yǔ),為了方便起見(jiàn),某些用語(yǔ)會(huì)以特別的字體格式標(biāo)示,例如使用斜體及/或括號(hào)。這 些字體格式的使用并不影響到其范圍及該用語(yǔ)本身的涵義。無(wú)論是否以特別的字體格式標(biāo) 示,其范圍及用語(yǔ)本身的涵義是相同的。因此,任何等效用語(yǔ)或同義詞的使用,并非用以改 變其本身的涵義。使用其中一或多種同義詞,并非排除其他同義詞的使用。在本發(fā)明實(shí)施 例中所使用的任何用語(yǔ)僅為說(shuō)明,并非用以限制其范圍及涵義。相同地,本發(fā)明的范圍亦不 僅受限于所出現(xiàn)的實(shí)施例。
[0044] 除非有特別予以定義,所有在此出現(xiàn)的技術(shù)及科學(xué)用語(yǔ),具有在本領(lǐng)域具有通常 知識(shí)者所認(rèn)知的通常涵義。
[0045] 本發(fā)明中所使用的「大約」、「約」等用語(yǔ),是指在20%的范圍內(nèi),較佳地是指在10% 的范圍內(nèi),更佳地是指在5%的范圍內(nèi)。在此提供的數(shù)字是為近似值,若未明確表達(dá)時(shí),即是 暗示具有大約或大致的意思。
[0046] 實(shí)施例
[0047] 本發(fā)明所提供的所有單核苷酸多型性(SNPs)的rsID,其序列及所含單核苷 酸變異的位置及其變異的堿基是于本發(fā)明申請(qǐng)前已公開(kāi)于美國(guó)國(guó)家生物技術(shù)信息中心 (National Center for Biotechnology Information,NCBI)的單核苷酸多型性數(shù)據(jù)庫(kù)(SNP database, dbSNP)。
[0048] 依據(jù)下列所述本發(fā)明實(shí)施例的儀器、裝置、方法及其相關(guān)結(jié)果等,僅為說(shuō)明之用, 并非用以限制本發(fā)明的范圍。在實(shí)施例中的名稱或其次名稱僅為方便閱讀,并非用以限制 本發(fā)明的范圍。進(jìn)一步地,在此所揭露的理論,無(wú)論其是否有誤,只要實(shí)施例可據(jù)以實(shí)施,皆 不應(yīng)限制本發(fā)明的范圍。
[0049] 研究設(shè)計(jì)
[0050] 利用估計(jì)等式方法(estimating equation approach),以建立混淆基因型 (unphased genotype)的人類白血球抗原基因型預(yù)測(cè)模型。就各對(duì)偶基因而言,該人類白血 球抗原基因型預(yù)測(cè)方法是以二個(gè)階段進(jìn)行。第一階段為建構(gòu)一預(yù)測(cè)的模型,而第二階段則 是驗(yàn)證由該第一階段所產(chǎn)生的模型。在該第一階段中,選擇一套混淆基因型來(lái)建立一預(yù)測(cè) 模型。該選擇是使用一目標(biāo)函數(shù)(objective function)來(lái)評(píng)估,其為人類白血球抗原對(duì)偶 基因特定的混淆基因型(基于Akaike Information Criterion)的負(fù)對(duì)數(shù)近似值(negative log-likelihood)。接著,基因型的選擇是以前進(jìn)選擇(forward-selection)及后退淘汰 (backward-elimination)的方法進(jìn)行。以與一人類白血球抗原對(duì)偶基因相關(guān)的基因型為 起始并逐次地增加一個(gè)基因型。該第二階段是使用一套獨(dú)立的樣本來(lái)驗(yàn)證第一階段的預(yù)測(cè) 模型。提供混淆基因型(unphased genotype)及非混淆人類白血球抗原對(duì)偶基因 (phased HLA alleles)作為該些獨(dú)立的樣本。依照最簡(jiǎn)化規(guī)則(parsimonious rule),最佳的預(yù)測(cè) 模型需使用最小可能性的flanking區(qū)域與最少可能性的單核苷酸多型性以產(chǎn)生最精準(zhǔn)的 預(yù)測(cè)。本發(fā)明所使用的樣本,是由臺(tái)灣地區(qū)華人細(xì)胞株及基因數(shù)據(jù)庫(kù)(Taiwan Han Chinese Cell and Genome Bank)取得的437個(gè)居住于臺(tái)灣地區(qū)漢人的血液樣本。
[0051] 基因型分析法
[0052] 本發(fā)明使用三種商用芯片:l)Affymetrix Genome-Wide Human SNP Array5. 0 芯 片(Affy5. 0) ;2)Affymetrix Genome-Wide Human SNP Array6. 0 芯片(Affy6. 0);及 3) Illumina' s HumanHap550Genotyping BeadChip 芯片(Illumina 550),其中使用 Affy5. 0 與Illumina550芯片對(duì)437個(gè)白血球DNA樣本進(jìn)行基因型分析,而437個(gè)樣本中的214 個(gè)樣本亦使用Affy6. 0芯片進(jìn)行基因定型。位于第6對(duì)染色體短臂上的人類主要組織 兼容性復(fù)合體(MHC)又稱為人類白血球抗原(HLA)基因群區(qū)域中,該Affy5.0芯片具 有1,406個(gè)單核苷酸多型性(3即 8);該4€€76.0芯片具有2,203個(gè)單核苷酸多型性; 該Illumina550K芯片具有1,939個(gè)單核苷酸多型性(如表1所示),而intra-MHC區(qū) 域是以位于著絲點(diǎn)端(centromeric end)的HLA-A對(duì)偶基因(6號(hào)染色體上的位置: 30, 018, 310 - 30, 021,632;NCBI build36. 3)與位于端粒端(telomeric end)的HLA-DPB1 對(duì) 偶基因(6號(hào)染色體上的位置:33, 151,738 - 33, 162, 954)為界。此區(qū)域包括第I類基因座 (HLA-A, HLA-B, HLA-C)及第 II 類基因座(HLA-DRB1, HLA-DQB1)。對(duì)于 HLA-A、-B、-C、-DQB1 及-DRB1 的對(duì)偶基因,是利用 Dynal RELI SS0 typing 套組(Dynal Biotech Ltd.,英國(guó))進(jìn) 行基因定型;對(duì)于HLA-DPB1的對(duì)偶基因,是利用Gold SSP HLA-DPBIHigh Resolution套組 (Invitrogen公司,美國(guó)加州)進(jìn)行基因定型。所有的基因定型皆由中央研究院國(guó)家基因體 醫(yī)學(xué)研究中心執(zhí)行,該些單核苷酸多型性的判讀率(call rate)皆大于98%。
[0053] 對(duì)于全基因體相關(guān)研究法(genome-wide association studies,GWASs),本發(fā)明 以基因型填補(bǔ)(Genotype imputation)評(píng)估在建構(gòu)人類白血球抗原基因型預(yù)測(cè)模型的實(shí)用 性。為了數(shù)據(jù)的連貫性及最佳填補(bǔ)表現(xiàn),本發(fā)明使用MaCH軟件及漢人北京(CHB)與日本東 京(JPT)的數(shù)據(jù)組作為參考,此是用來(lái)填補(bǔ)本發(fā)明單核苷酸多型性之外來(lái)自國(guó)際人類基因 組單體型圖計(jì)劃(HapMap Project)的基因型。本發(fā)明檢視所有在MHC區(qū)域中的單核苷酸 多型性,而通常在基因型填補(bǔ)前,采用quality-control評(píng)估并篩選單核苷酸多型性以控 制其質(zhì)量,當(dāng)嚴(yán)重違反Hardy-Weinberg equilibrium(ρ〈1(Γ4)時(shí),該些單核苷酸多型性判讀 率(callrate)〈0.95,少數(shù)對(duì)偶基因頻率(minor-allele frequency)〈0.01,則排除該些單 核苷酸多型性。再者,本發(fā)明的填補(bǔ)的單核苷酸多型性各自具有一由MaCH軟件分析結(jié)果 之貝氏定理事后機(jī)率(posterior probability) >0. 8、判讀率>0. 95、且少數(shù)對(duì)偶基因頻率 >0. 01。
[0054] 另一方面,為了測(cè)試該些芯片間單核苷酸多型性的重復(fù)性以及一致性,本發(fā)明比 較了各兩個(gè)芯片重迭的單核苷酸多型性數(shù)據(jù)。判斷基因型數(shù)據(jù)的一致性是以Cohen' s kappa coefficient來(lái)計(jì)算,而Kappa值大于0. 9通常表示兩個(gè)芯片的數(shù)據(jù)具有高一致 性。本發(fā)明亦比較各兩個(gè)芯片在建構(gòu)人類白血球抗原基因型預(yù)測(cè)模型過(guò)程中所選基因 型間的差異,以此判定所選的基因型是否對(duì)芯片具有專一性即獨(dú)特性。該差異定義為 其中啊及pi叫是兩個(gè)不同的芯片;u (啊利 是兩個(gè)不同芯片的單核苷酸多型性的聯(lián)集(union);而Π (plakplatp是兩個(gè)不同芯片的 單核苷酸多型性的交集(intersection)。不同族群間人類白血球抗原對(duì)偶基因頻率分布及 flanking區(qū)域大小差異
[0055] 不同族群間,人類白血球抗原對(duì)偶基因及其對(duì)偶分布有實(shí)質(zhì)上的差異,其是反應(yīng) 族群近代的演化歷史。再者,人類白血球抗原對(duì)偶基因分布于第6對(duì)染色體上不同的區(qū)域, 包括數(shù)個(gè)單核苷酸多型性。本發(fā)明探討國(guó)際人類基因組單體型圖計(jì)劃(HapMap Project) 中亞洲人樣本及高加索人樣本的對(duì)偶基因頻率分布。對(duì)于各人類白血球抗原對(duì)偶基因,本 發(fā)明使用卡方分布(chi-square)及費(fèi)雪精確性檢定(Fisher' s exact test)來(lái)決定人類 白血球抗原對(duì)偶基因在這兩個(gè)族群中是否有所差異。本發(fā)明以延伸±l〇kb至±400kb的 flanking區(qū)域來(lái)建構(gòu)該人類白血球抗原基因型預(yù)測(cè)模型。在漢人種中,各人類白血球抗原 對(duì)偶基因最適合的flanking區(qū)域是由上述最簡(jiǎn)化規(guī)則來(lái)決定。此外,本發(fā)明亦比較亞洲人 的flanking區(qū)域大小(Affy5. 0芯片)與已知高加索人的flanking區(qū)域大小。
[0056] 交叉驗(yàn)證(Corss-validation)
[0057] 在開(kāi)始人類白血球抗原預(yù)測(cè)分析之前,本發(fā)明將數(shù)據(jù)分成多組進(jìn)行交叉驗(yàn)證 (cross-validation, CV)。以十折(10-fold)交叉驗(yàn)證為例,該數(shù)據(jù)是分為一驗(yàn)證集 (training data set)(數(shù)據(jù)的 9/10)及一測(cè)試集(testing data set)(數(shù)據(jù)的 1/10)。就各 交叉驗(yàn)證子集(subset)而言,計(jì)算該測(cè)試集的準(zhǔn)確率且定義為f,其中Tv是正確預(yù)測(cè)測(cè) 試集中樣本的數(shù)量,而Νν是測(cè)試集中樣本的總數(shù)。平均測(cè)試準(zhǔn)確度是10個(gè)交叉驗(yàn)證子集 的平均值,表示所建構(gòu)的模型在預(yù)測(cè)人類白血球抗原對(duì)偶基因上的表現(xiàn)。人類白血球抗原 的預(yù)測(cè)可不經(jīng)由交叉驗(yàn)證,然而執(zhí)行交叉驗(yàn)證可避免預(yù)測(cè)模型的過(guò)適( over-fitting)且可 節(jié)省獲得一獨(dú)立樣本組用于評(píng)估的時(shí)間與成本。本發(fā)明是建構(gòu)人類白血球抗原基因型預(yù)測(cè) 模型,故,使用十折交叉驗(yàn)證。
[0058] 可信度門坎(Confidence threshold)
[0059] 就在測(cè)試集中的各樣本而言,其P值(probability value)是被分配給特定單型 的每個(gè)可能的人類白血球抗原對(duì)偶基因?qū)Α_@些數(shù)值是基于所提供的混淆基因型及非混淆 的人類白血球抗原對(duì)偶基因?qū)Α8怕史峙浜螅粼摳怕食^(guò)一預(yù)先指定的可信度門坎,則選 擇具有最大概率的人類白血球抗原對(duì)偶基因?qū)ΑMǔ?lái)說(shuō),可信度門坎設(shè)為0,表示判讀率 (call rate)為100%(即所有樣本均會(huì)被預(yù)測(cè))。若可信度門坎設(shè)為0. 5 (或任何大于0的 值),則僅會(huì)使用最大預(yù)測(cè)概率超過(guò)可信度門坎的樣本。本發(fā)明將可信度門坎設(shè)為〇、〇. 5、 或0. 9來(lái)評(píng)估可信度門坎對(duì)建構(gòu)人類白血球抗原基因型預(yù)測(cè)模型的影響。
[0060] 結(jié)果
[0061] 本發(fā)明使用214個(gè)樣本由三個(gè)不同芯片(Affy5. 0、Affy6. 0、及Illumina550K芯 片)基因定型的樣本來(lái)計(jì)算6個(gè)典型人類白血球抗原(HLA-A,HLA-B,HLA-C,HLA-DRB1,HL A-DQB1,HLA-DPB1)對(duì)偶基因的頻率分布。本發(fā)明亦分析180個(gè)從國(guó)際人類基因組單體型 圖計(jì)劃取得的高加索人樣本,然而無(wú)該些樣本的HLA-DPB1數(shù)據(jù)。人類白血球抗原基因座最 多是為HLA-B。在漢人種中觀察到44個(gè)對(duì)偶基因橫跨HLA-B區(qū)域,而在國(guó)際人類基因組單 體型圖計(jì)劃中的高加索人種中觀察到32個(gè)對(duì)偶基因橫跨HLA-B區(qū)域。如卡方分布及費(fèi)雪 精確性檢定所示,在高加索人和漢人間,HLA-A、-B、-C、-DQB1、及-DRB1對(duì)偶基因的對(duì)偶基 因頻率分布具有顯著的差異(所有P值〈〇. 〇〇〇1 ;HLA-A、-B、-C、-DQB1、及-DRB1的自由度 (degree of freedom)分別為29、62、23、16、及35),由此可見(jiàn),人類白血球抗原對(duì)偶基因頻 率分布在不同人種間有很大的差異,也就是說(shuō),由一族群的人類白血球抗原對(duì)偶基因所建 構(gòu)的人類白血球抗原基因型預(yù)測(cè)模型,在預(yù)測(cè)不同族群人種時(shí)會(huì)產(chǎn)生不良的預(yù)測(cè)。
[0062] 未填補(bǔ)的不同的芯片
[0063] 僅使用單一的基因定型技術(shù)可能使得人類白血球抗原對(duì)偶基因的預(yù)測(cè)存在偏見(jiàn)。 為了克服此問(wèn)題,本發(fā)明的臺(tái)灣地區(qū)214個(gè)漢人樣本是以三個(gè)芯片來(lái)基因定型(Affy5.0、 Affy6.0、及Illumina550K)。各芯片的結(jié)果及這三個(gè)芯片的合并芯片(Union)的結(jié)果是被 用來(lái)建構(gòu)人類白血球抗原預(yù)測(cè)的模型。最后,本發(fā)明評(píng)估由這三個(gè)數(shù)據(jù)集所衍生的預(yù)測(cè)模 型是否產(chǎn)出具有比較性的預(yù)測(cè)。
[0064] 各芯片對(duì)之間少有數(shù)據(jù)的重迭(如表1所示)。Affy6. 0有最多在人類MHC區(qū)域 中的單核苷酸多型性,而Affy5.0則為最少(如表1所示)。表2則顯示,芯片對(duì)之間關(guān)于 所觀察基因型的一致性系數(shù)。比較兩個(gè)Affymetrix數(shù)組,同時(shí)存在于兩個(gè)數(shù)組的基因型的 一致性系數(shù)高達(dá)0. 9926,此高程度的一致性表示高質(zhì)量的基因定型,其更由比較不同芯片 間的基因型獲得支持。
[0065] 表1、國(guó)際人類基因組單體型圖計(jì)劃及三個(gè)基因定型芯片間在延伸的MHC區(qū)域中 重迭的單核苷酸多型性 1
[0066]
【權(quán)利要求】
1. 一種單核苷酸多型性在制備預(yù)測(cè)人類白血球抗原基因型試劑盒中的應(yīng)用,其步驟包 含: (a) 提供人類核酸樣本; (b) 判別該人類核酸樣本的單核苷酸多型性集合的基因型,該單核苷酸多型性集合包 含位于人類白血球抗原基因上的各個(gè)不同的單核苷酸多型性; (c) 使用預(yù)測(cè)模型分析步驟(b)中各單核苷酸多型性的基因型以獲得計(jì)算值,其中該 預(yù)測(cè)模型是使用單核苷酸多型性基因型來(lái)預(yù)測(cè)人類白血球抗原對(duì)偶基因;以及 (d) 依據(jù)步驟(c)所獲得的計(jì)算值預(yù)測(cè)該人類核酸樣本的人類白血球抗原對(duì)偶基因 型。
2. 如權(quán)利要求1所述的應(yīng)用,其中該單核苷酸多型性集合所包含的各單核苷酸多型性 是來(lái)自 (1) HLA-A 基因、 (2) HLA-B 基因、 (3) HLA-C 基因、 (4) HLA-DPB1 基因、 (5) HLA-DQB1基因、以及 (6) HLA-DRB1 基因。
3. 如權(quán)利要求2所述的應(yīng)用,其中該來(lái)自(l)HLA-A基因的單核苷酸多型性是選自于 第1單核苷酸多型性集合、第2單核苷酸多型性集合、第3單核苷酸多型性集合、及第4單 核苷酸多型性集合所組成的群組,其中 (i) 該第 1 單核苷酸多型性集合是由 rsl633085、rs2254071、rs407238、rs9258881、 rs2975046、rs2735096、rs417162、rs9260954、rs6917477、rs6457144、rs9261394、及 rs2523990 所組成; (ii) 該第 2 單核苷酸多型性集合是由 rs4122198、rsl6895757、rsl632973、rs9357086、 rsll759549、 rs3115628、 rs3094165、 rs2734925、 rs2517755、 rs2256919、 rsll756025、 rs7382061、rs6457144、rs2517646、及 rs7744914 所組成; (iii) 該第 3 單核苷酸多型性集合是由 rs3094165、rs9258883、rs3132714、rsl611493、 rs2524005> rs2860580> rsl2665039> rs6457109> rs3869062> rs3893464> rs5009448> rs2571375、rs7758512、及 rs9261394 所組成; (iv) 該第 4 單核苷酸多型性集合是由 rs2523409、rsl611133、rs3115628、rs2517859、 rsl611732、rs2523998、rs2860580、rsl2202296、rs2248153、rs2975046、rs6457109、 rs5009448、rs9260932、及 rs6457144 所組成。
4. 如權(quán)利要求2所述的應(yīng)用,該來(lái)自(2) HLA-B基因的單核苷酸多型性是選自于第5單 核苷酸多型性集合、第6單核苷酸多型性集合、第7單核苷酸多型性集合、及第8單核苷酸 多型性集合所組成的群組,其中 (i)該第 5 單核苷酸多型性集合是由 rs3130944、rs3130532、rs3130534、rs3134762、 rsl6899207、rs2524089、rs9366778、rs2524166、rs9295984、rs4394275、rs9378249、 rs2523534、rs9266406、rs2844558、rs5022119rs3099848、rs4081552、rs2848716、 rs2596454、及 rs2248462 所組成; (ii) 該第 6 單核苷酸多型性集合是由 rsll966319、rs2853948、rs6906846、rs9378228、 rs2524051、rs9366778、rsl6867947、rs4394274、rs4394275、rs2523591、rs9501572、 rs7761068> rs2523535> rs9266406> rs5006724> rsl3198903> rs9266669> rs9266689> rs3099849、rs2442749、rsl051796、rs2596464、rs3099836、及 rs3131622 所組成; (iii) 該第 7 單核苷酸多型性集合是由 rs9264868、rs9264942、rs3094691、rs2156875、 rs2523619、rs2442719、rs2596501、rs2523589、rs2523554、rs2844573、rs9266395、 rs9266440、rs9295986、rs2442749、rs2596560、rs3128982、rs2284178、及 rs7758090 所組 成; (iv) 該第 8 單核苷酸多型性集合是由 rs3094691、rs7453967、rs4394274、rs4394275、 rs2596509, rs2596501, rsl058026, rs2523591, rs2523589, rs2523554, rs2523545, rs9501572> rs2844575> rs9266395> rs9266406> rs5006725> rs9295986> rs6933050> rs4959068、 rs5022119、 rsl3198903、 rs9266689、 rs2251396、 rsl051796、 rs3094584、 rs9765960、及 rs3128982 所組成。
5. 如權(quán)利要求2所述的應(yīng)用,該來(lái)自(3)HLA-C基因的單核苷酸多型性是選自于第9單 核苷酸多型性集合、第10單核苷酸多型性集合、第11單核苷酸多型性集合、及第12單核苷 酸多型性集合所組成的群組,其中 (i) 該第 9 單核苷酸多型性集合是由 rs2073724、rs3130713、rs3130531、rs3095250、 rs3130532、 rs3130534、 rs2844615、 rs6906846、 rs2524067、 rs7382297、 rs2394963、 rs2524095、rsl6899203、rs9366778、rs9295970、及 rs2523534 所組成; (ii) 該第10單核苷酸多型性集合是由rs3130712、rs28480108、rs3134762、 rsl9966319、 rs9264523、 rs3132488、 rs3134745、 rs3130693、 rs3132486、 rs2853948、 『86906846、^9378228、^6457372、^2394963、^2524057、^12191877、及189366776 所組 成; (iii) 該第 11 單核苷酸多型性集合是由 rs2516049、rs2858870、rs660895、rs532098、 rs3129763、rsl063355、rs9275141、rs9275184、rs7774434、rs7775228、及 rs9275224 所組 成; (iv) 該第12單核苷酸多型性集合是由rs9263957、rs9263969、rs3134762、 rsll966319、rs2248880、rs9264532、rs2524099、rs2074488、rs2395471、rs5010528、 rsl3207315、rs3132488、rs3130693、rs9391714、rs4386816、rs2524057、rsl6899205、及 rs9295970 所組成。
6. 如權(quán)利要求2所述的應(yīng)用,該來(lái)自(4) HLA-DPB1基因的單核苷酸多型性是選自于第 13單核苷酸多型性集合、第14單核苷酸多型性集合、第15單核苷酸多型性集合、及第16單 核苷酸多型性集合所組成的群組,其中 (i) 該第 13 單核苷酸多型性集合是由 rs3128955、rs3130588、rs9277194、rs9348904、 rs9296073、 rs2856816、 rs3135021、 rsl431403、 rs3128963、 rs3117229、 rs7763822、 rs2295120、rs3117242、rs6937034、及 rsl003979 所組成; (ii) 該第 14 單核苷酸多型性集合是由 rs9296068、rs9277183、rs3135402、rs9348904、 rs2856830、 rs9296073、 rs2071350、 rsl431402、 rsl431403、 rs9277550、 rs3128963、 rs3117229、rs9277567、rs3128918、及 rs6937034 所組成; (iii) 該第 15 單核苷酸多型性集合是由 rs206769、rs6920606、rs375912、rsl431399、 rs987870、 rs3135021、 rs9277535、 rs9277554、 rsl0484569、 rs2281390、 rs3128917、 rs2281388、rs3130215、及 rs2269346 所組成; (iv) 該第 16 單核苷酸多型性集合是由 rs2216264、rs423639、rs3097669、rs987870、 rsl431402、rsl431403、rs9277378、rs9277535、rs9277550、rs9277554、rs9277565、 rs2281390、rs2281388、rs3130215、rs6937034、rs6937061、及 rs2395357 所組成。
7. 如權(quán)利要求2所述的應(yīng)用,該來(lái)自(5) HLA-DQB1基因的單核苷酸多型性是選自于第 17單核苷酸多型性集合、第18單核苷酸多型性集合、第19單核苷酸多型性集合、及第20單 核苷酸多型性集合所組成的群組,其中 (i) 該第 17 單核苷酸多型性集合是由 rs9269186、rs9270986、rs615672、rs3129768、 rs9272219、rs9272346、rs6908943、rs9275134、rs9469220、rs6457617、rs2647046、 rs2858308、及 rs9275418 所組成; (ii) 該第 18 單核苷酸多型性集合是由 rs2647073、rs502055、rs3129768、rs9272535、 rs9272723、rs34485459、rs3129716、rs7775228、rs6469219、rs5000634、rs6457617、及 rs9275418 所組成; (iii) 該第 19 單核苷酸多型性集合是由 rs2516049、rs2858870、rs660895、rs532098、 rs3129763、rsl063355、rs9275141、rs9275184、rs7774434、rs7775228、及 rs9275224 所組 成; (iv) 該第20單核苷酸多型性集合是由rsl7533090、rs9272219、rsl7211510、 rs41269947、rs34485459、rsl063355、rs9275141、rs3129716、rs7774434、rs9405119、 rs9469219、rs9469220、及 rs9275224 所組成。
8. 如權(quán)利要求2所述的應(yīng)用,該來(lái)自(6) HLA-DRB1基因的單核苷酸多型性是選自于第 21單核苷酸多型性集合、第22單核苷酸多型性集合、第23單核苷酸多型性集合、及第24單 核苷酸多型性集合所組成的群組;其中 (i) 該第 21 單核苷酸多型性集合是由 rs9268831、rs9268861、rs7747521、rs9268877、 rs9269186、rs2027852、rs615672、rs3129768、rs9272219、rs9272346、rs9275134、 rs7775228、rs9469220、rs6457617、rs2647046、及 rs2858308 所組成; (ii) 該第22單核苷酸多型性集合是由rs9268877、rs4410767、rs7749092、 rsl7210980、rs2647073、rs615672、rs674343、rs502771、rs3997872、rs9271367、 rs9271720、rs2187668、rs34485459、rs3129716、及 rs9405119 所組成; (iii) 該第23單核苷酸多型性集合是由rs9405098、rs3129871、rsl3209234、 rs9268832、rs6903608、rs602875、rs660895、rs9271366、rs3129769、rsl7211510、 rs2187668、rs9275141、rs9275184、rs9275383、rs2856717、rs2858305、rsl3192471、及 rs3104405 所組成; (iv) 該第 24 單核苷酸多型性集合是由 rs2395175、rs9405035、rs9268831、rs6903608、 rs9268877、 rs9269186、 rs7749092、 rs2027852、 rsl7210980、 rs2516049、 rs615672、 rs660895、rs674313、rs502771、rs3997872、rs9271366、rs2187668、rs34485459、 rs9275141、rs7755224、rs3129716、及 rs3104404 所組成。
9. 如權(quán)利要求1所述的應(yīng)用,其中該人類核酸樣本是為亞洲人族群。
10. 如權(quán)利要求1所述的應(yīng)用,其中該人類核酸樣本是為漢人族群。
11. 一種預(yù)測(cè)人類白血球抗原對(duì)偶基因的裝置,是包含不超過(guò)200個(gè)核苷酸探針,其中 該探針可檢測(cè)如權(quán)利要求2所述的單核苷酸多型性。
12. 如權(quán)利要求1所述的裝置,其中該探針是固定于該裝置上。
【文檔編號(hào)】C12Q1/68GK104109710SQ201410154791
【公開(kāi)日】2014年10月22日 申請(qǐng)日期:2014年4月17日 優(yōu)先權(quán)日:2013年4月17日
【發(fā)明者】范盛娟, 張?zhí)焘x, 楊偉勛, 陳沛隆, 謝璦如, 陳垣崇, 朱正中 申請(qǐng)人:中央研究院