本技術涉及表型預測領域,尤其涉及一種作物基因型預測表型方法、控制裝置和設備。
背景技術:
1、隨著全球人口增長與氣候變化加劇,提升作物育種效率對糧食安全至關重要。傳統(tǒng)育種依賴田間試驗,周期長且成本高,而基因組預測技術通過基因型-表型關聯(lián)分析加速育種進程。現(xiàn)有方法如blup和基因組選擇雖有一定效果,但這些方法存在顯著局限,比如過于依賴系譜信息,難以適應復雜群體、僅捕捉加性效應,忽略基因型-表型間的非線性關系及上位效應。近年來,深度學習為基因組預測提供了新思路,但其應用仍面臨挑戰(zhàn):基于卷積神經網絡的模型雖能提取局部基因型特征,卻難以兼顧全局特征與長距離依賴關系;循環(huán)神經網絡等結構訓練效率低,難以處理高維基因型數(shù)據(jù);現(xiàn)有模型在整合多尺度特征、平衡計算效率與預測精度方面存在不足。
2、因此,開發(fā)一種作物基因型預測表型方法,提高作物表型的預測精準度對實現(xiàn)智能育種、縮短育種周期具有重要價值。
技術實現(xiàn)思路
1、本技術提供一種作物基因型預測表型方法、控制裝置和設備,該方法不僅能夠對數(shù)據(jù)特征進行深層次的理解與提取,還可以捕獲基因型與表型之間的復雜關系,進而提高了模型的表達能力以及預測準確性,為育種工作提供支持。
2、第一方面,提供一種作物基因型預測表型方法,該方法包括:
3、s1:構建輸入層,輸入層用于接受基因型數(shù)據(jù),輸入層用于對基因型數(shù)據(jù)進行預處理和編碼;
4、s2:構建數(shù)據(jù)特征提取層對基因型數(shù)據(jù)進行特征提取,數(shù)據(jù)特征提取層包括:
5、卷積神經網絡,卷積神經網絡用于提取基因型數(shù)據(jù)的局部特征;
6、自編碼器,自編碼器用于對局部特征進行降維操作,生成低維全局特征;
7、s3:將低維全局特征輸入特征關系捕獲層,特征關系捕獲層基于自注意力機制捕捉基因型數(shù)據(jù)的長距離依賴關系;
8、s4:構建輸出層,輸出層用于將特征關系捕獲層的輸出映射為表型預測值。
9、應理解,該方法可以處理復雜高維的基因型數(shù)據(jù),從中提取出具有代表性的特征,可以更好地捕獲基因型與表型之間的復雜關系,能夠基于基因型數(shù)據(jù)預測作物表型值,從而為育種工作提供支持。
10、結合第一方面,在第一方面的某些實現(xiàn)方式中,基因型數(shù)據(jù)包括單核苷酸多態(tài)性(snp)標記編碼的數(shù)值矩陣。
11、應理解,通過對個體基因組的測序或基因分型技術得到基因型數(shù)據(jù),能夠反應反映個體在dna水平上的遺傳變異,除了snp之外,還有幾種常見的變異類型,例如,插入缺失(indels),結構變異(structural?variations,?svs)等。snp指的是在基因組特定位置上存在一個核苷酸變異的現(xiàn)象,它廣泛存在,比較穩(wěn)定,不容易突變,容易被檢測出來。
12、結合第一方面,在第一方面的某些實現(xiàn)方式中,卷積神經網絡為1d卷積神經網絡,1d卷積神經網絡使用多個不同尺度的卷積核提取局部基因型特征;1d卷積神經網絡包括非線性激活函數(shù),并通過池化操作降低特征維度。
13、應理解,這種設計能夠進行特征提取和數(shù)據(jù)降維,有利于之后模型的處理與結果輸出。
14、結合第一方面,在第一方面的某些實現(xiàn)方式中,自編碼器包括編碼器和解碼器,其中:
15、編碼器包括多層卷積神經網絡,編碼器用于將高維數(shù)據(jù)進行降維并提取關鍵特征;
16、解碼器為編碼器的鏡像架構,解碼器用于重構輸入數(shù)據(jù)以確認編碼器識別到的特征的有效性。
17、應理解,低維全局特征包括從基因型數(shù)據(jù)中提取出來的低維度的遺傳信息。
18、應理解,數(shù)據(jù)特征提取層中卷積神經網絡專注于捕捉基因型數(shù)據(jù)中的局部相關性,提取局部特征。編碼器(autoencoder)用于從高維的基因型數(shù)據(jù)中提取出全局特征,同時降低特征維度,減少冗余信息,這對于減少數(shù)據(jù)維度、去除噪聲并捕獲潛在遺傳結構非常有效。此外,autoencoder通過編碼器和解碼器實現(xiàn)數(shù)據(jù)的壓縮和重建,能夠處理高維的復雜的基因型數(shù)據(jù),降低模型計算復雜度,實現(xiàn)數(shù)據(jù)的快速處理和分析,同時保留盡可能多的有用信息,這有助于提高后續(xù)模型的泛化能力。
19、結合第一方面,在第一方面的某些實現(xiàn)方式中,特征關系捕獲層采用transformer架構,包括:
20、多頭自注意力層,多頭自注意力層用于計算snp數(shù)據(jù)位點間的關聯(lián)權重;
21、位置編碼模塊,位置編碼模塊用于將snp數(shù)據(jù)位點的染色體位置信息嵌入至特征表示中;
22、前饋神經網絡,前饋神經網絡用于對多頭自注意力層輸出進行非線性變換。
23、應理解,transformer架構是一種基于注意力機制的模型,最初用于自然語言處理任務,但也適用于其他類型的數(shù)據(jù)。本技術特征關系捕獲層基于transformer架構設計,這種設計利用自注意力機制能夠直接捕捉序列中任意兩個位置之間的依賴關系,不受距離限制,使得模型能夠從低維特征中有效捕捉特征之間的復雜關系。此外,transformer架構通過位置編碼保留了序列中元素的位置信息,幫助模型理解snp在染色體上的具體位置及其對表型的影響,有利于保持基因組結構的重要性。
24、應理解,在基因型數(shù)據(jù)的背景下,長距離依賴關系指的是基因序列中相隔較遠位置的snp之間存在的相互作用或相關性,意味著即使是相隔很遠的snp也能夠被直接比較和關聯(lián)起來,從而發(fā)現(xiàn)那些影響作物表型的潛在長距離相互作用。
25、結合第一方面,在第一方面的某些實現(xiàn)方式中,位置編碼模塊通過正弦-余弦函數(shù)生成位置向量,并與低維全局特征進行疊加,以保留snp數(shù)據(jù)位點的空間位置信息。
26、應理解,正弦-余弦位置編碼與低維特征疊加的設計通過數(shù)學函數(shù)生成多維位置向量,能同時捕捉局部位點的連鎖效應(如相鄰位點突變關聯(lián))和全局染色體區(qū)域的長程遺傳依賴性。
27、結合第一方面,在第一方面的某些實現(xiàn)方式中,卷積神經網絡與自編碼器的連接方式包括:
28、將卷積神經網絡輸出特征圖展平為向量;
29、通過編碼器將向量映射至低維潛在空間;
30、在編碼器與解碼器之間引入正則化層以抑制過擬合。
31、應理解,將卷積神經網絡輸出的特征圖展平為向量并通過編碼器映射至低維潛在空間,能夠有效提取并壓縮卷積層學習到的多尺度空間特征。低維潛在空間的構建不僅減少了數(shù)據(jù)冗余,還通過保留關鍵特征增強了模型對復雜模式的抽象能力;在編碼器與解碼器間引入正則化層,可約束潛在空間的分布平滑性,抑制噪聲干擾導致的過擬合現(xiàn)象,同時提升模型對不同尺度數(shù)據(jù)變化的魯棒性。
32、結合第一方面,在第一方面的某些實現(xiàn)方式中,輸出層包括全連接網絡,全連接網絡包括:
33、至少一個隱藏層,隱藏層通過非線性激活函數(shù)進行變換;
34、最終線性映射層,最終線性映射層用于輸出連續(xù)型表型預測值。
35、應理解,在輸出層設計中采用含非線性激活函數(shù)的隱藏層與線性映射層的全連接網絡,可以通過分層結構實現(xiàn)特征抽象與輸出適配的平衡。隱藏層引入非線性激活函數(shù)(如relu),能夠捕捉數(shù)據(jù)中的復雜模式,突破線性模型的表達能力瓶頸;而最終線性層通過無激活函數(shù)的加權組合,將高階特征直接映射為連續(xù)型表型值,既避免激活函數(shù)對輸出范圍的限制,又滿足回歸任務對數(shù)值連續(xù)性的需求。這種設計通過非線性層提升模型擬合能力,再以線性層實現(xiàn)平滑預測,兼顧預測精度與輸出穩(wěn)定性。
36、第二方面,提供一種控制裝置,該控制裝置包括處理器和存儲器,處理器與存儲器耦合,存儲器用于存儲計算機程序或指令,處理器用于執(zhí)行存儲器中的計算機程序或指令,使得如第一方面中任一實現(xiàn)方式所述的方法被執(zhí)行。
37、第三方面,提供一種設備,該設備包括如第二方面所述的控制裝置。