本發(fā)明涉及基因工程,更具體地說(shuō),本發(fā)明涉及一種輸入型感染疾病基因序列快速檢測(cè)方法及系統(tǒng)。
背景技術(shù):
1、輸入型感染疾病是指本國(guó)或地區(qū)原不存在、尚未發(fā)現(xiàn)或已經(jīng)消滅而由外界傳入的感染疾病,隨著我國(guó)近年來(lái)的飛速發(fā)展,與世界接軌成為了當(dāng)下國(guó)家發(fā)展的必然選擇,而國(guó)家開(kāi)放雖然利好與人們生活的方方面面,但也伴隨著輸入型感染疾病的風(fēng)險(xiǎn),得益于國(guó)家的快速發(fā)展,醫(yī)療手段也在逐年進(jìn)步,如何能夠更好的利用當(dāng)今醫(yī)療手段,防范輸入型感染疾病,成為了有關(guān)部門(mén)需要面對(duì)的一大難題。
2、申請(qǐng)公開(kāi)號(hào)為cn101751517b的專(zhuān)利公開(kāi)了一種基因組短序列映射的快速處理方法及系統(tǒng),通過(guò)將測(cè)序序列按預(yù)設(shè)長(zhǎng)度短串的堿基值排序,并將?contig逐個(gè)堿基切割成預(yù)設(shè)長(zhǎng)度的短串,依次根據(jù)contig中所切割成的短串的堿基值在排序后的測(cè)序序列中杏找相應(yīng)的測(cè)序序列,建立映射關(guān)系,技術(shù)方案從contig和參與拼接的序列之間的比對(duì)出發(fā),利用基于de?bruijn圖組裝出contig所具有的在定長(zhǎng)的短串上不存在重復(fù)的特點(diǎn),實(shí)現(xiàn)了用于短序列組裝中的短序列映射,所需處理時(shí)間明顯縮短、效率大幅提高。
3、然而上述一種基因組短序列映射的快速處理方法及系統(tǒng),雖然通過(guò)建立映射關(guān)系,一定程度上達(dá)到了縮短護(hù)理時(shí)間和提升效率的目的,但在輸入型感染疾病基因序列快速檢測(cè)中,如何能夠更好的利用輸入型感染疾病基因序列的信息,為工作人員提供更多的便利及信息反饋,是當(dāng)下有關(guān)部門(mén)亟需解決的一大問(wèn)題。
4、鑒于此,本發(fā)明提出一種輸入型感染疾病基因序列快速檢測(cè)方法及系統(tǒng)以解決上述問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、為了克服現(xiàn)有技術(shù)的上述缺陷,為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:包括:
2、數(shù)據(jù)采集模塊,用于采集檢測(cè)數(shù)據(jù)集和樣本數(shù)據(jù)集,并進(jìn)行預(yù)處理,檢測(cè)數(shù)據(jù)集包括病毒基因序列數(shù)據(jù)、真菌基因序列數(shù)據(jù)和寄生蟲(chóng)基因序列數(shù)據(jù),樣本數(shù)據(jù)集包括本土病毒基因序列數(shù)據(jù)、本土真菌基因序列數(shù)據(jù)和本土寄生蟲(chóng)基因序列數(shù)據(jù);
3、進(jìn)一步地,采集檢測(cè)數(shù)據(jù)集和樣本數(shù)據(jù)集的方式包括:
4、通過(guò)對(duì)檢測(cè)樣本中的遺傳物質(zhì)進(jìn)行高通量測(cè)序,分別采集檢測(cè)樣本中病毒、真菌和寄生蟲(chóng)的遺傳物質(zhì)序列,得到病毒基因序列數(shù)據(jù)、真菌基因序列數(shù)據(jù)和寄生蟲(chóng)基因序列數(shù)據(jù);
5、通過(guò)讀取本土疾病基因數(shù)據(jù)庫(kù),分別采集數(shù)據(jù)庫(kù)中病毒、真菌和寄生蟲(chóng)的基因組序列,得到本土病毒基因序列數(shù)據(jù)、本土真菌基因序列數(shù)據(jù)和本土寄生蟲(chóng)基因序列數(shù)據(jù);
6、進(jìn)行預(yù)處理的方式包括數(shù)據(jù)清洗、數(shù)據(jù)去噪和歸一化處理;
7、數(shù)據(jù)處理模塊,用于對(duì)檢測(cè)數(shù)據(jù)集和樣本數(shù)據(jù)集進(jìn)行分析,得到輸入型感染疾病數(shù)據(jù)組,并進(jìn)行檢測(cè),得到病毒危害程度分類(lèi)結(jié)果;
8、進(jìn)一步地,對(duì)檢測(cè)數(shù)據(jù)集和樣本數(shù)據(jù)集進(jìn)行分析的步驟包括:
9、q1:基于檢測(cè)數(shù)據(jù)集,讀取檢測(cè)數(shù)據(jù)集中的病毒基因序列數(shù)據(jù)、真菌基因序列數(shù)據(jù)和寄生蟲(chóng)基因序列數(shù)據(jù),從檢測(cè)數(shù)據(jù)集中的基因序列的第一個(gè)堿基開(kāi)始,每次取一個(gè)長(zhǎng)度為k的短序列,記為k-mer,基于滑動(dòng)窗口的方式,遍歷檢測(cè)數(shù)據(jù)集中所有的基因數(shù)列,得到一系列的k-mer;
10、q2:采集m組歷史特征向量,作為樣本集,將樣本集劃分為70%m的訓(xùn)練集、15%m的測(cè)試集和15%m的驗(yàn)證集;
11、q3:基于樣本集建立基因序列分類(lèi)模型,獲取獲取訓(xùn)練集中的歷史特征向量,預(yù)設(shè)包含數(shù)據(jù)簇l1和不含數(shù)據(jù)簇l2,在訓(xùn)練集中通過(guò)人為設(shè)定選擇兩個(gè)數(shù)據(jù)點(diǎn)作為第一簇中心,分別代表包含數(shù)據(jù)簇l1和不含數(shù)據(jù)簇l2;
12、q4:通過(guò)代入計(jì)算式:得到數(shù)據(jù)項(xiàng)之間的距離,計(jì)算訓(xùn)練集中的數(shù)據(jù)項(xiàng)分別與包含數(shù)據(jù)簇l1和不含數(shù)據(jù)簇l2的距離,并將數(shù)據(jù)項(xiàng)分配至距離最近的數(shù)據(jù)簇,得到兩個(gè)個(gè)新的數(shù)據(jù)簇集作為第二簇中心,其中和為數(shù)據(jù)點(diǎn)的坐標(biāo)值,和為兩個(gè)數(shù)據(jù)點(diǎn)分別在個(gè)子數(shù)據(jù)項(xiàng)上的值,為子數(shù)據(jù)項(xiàng)的數(shù)量;
13、q5:分別計(jì)算第二簇中心中兩個(gè)新的數(shù)據(jù)簇集的均值,作為新的第一簇中心進(jìn)行再次計(jì)算;
14、q6:重復(fù)q4和q5,直至達(dá)到預(yù)設(shè)迭代次數(shù),得到疾病分類(lèi)模型;
15、q7:將特征向量輸入疾病分類(lèi)模型,輸出得到輸入型感染疾病數(shù)據(jù)組;
16、進(jìn)一步地,進(jìn)行檢測(cè)的方式包括:
17、獲取輸入型感染疾病數(shù)據(jù)組,基于宏基因組二代測(cè)序技術(shù),檢測(cè)輸入型感染疾病數(shù)據(jù)組中病毒、真菌或寄生蟲(chóng)中毒力因子的毒性系數(shù);
18、預(yù)設(shè)毒力閾值區(qū)間(r1,r2),當(dāng)毒性系數(shù)小于r1時(shí),生成微型毒性信號(hào),當(dāng)毒性系數(shù)大于r1小于r2時(shí),生成中型毒性信號(hào),當(dāng)毒性系數(shù)大于r2時(shí),生成高型毒性信號(hào);
19、微型毒性信號(hào)包含一組代表疾病基因序列中含有微量毒性的字段,中型毒性包含一組代表疾病基因序列中含有中量毒性的字段,高型毒性信號(hào)包含一組代表疾病基因序列中含有高量毒性的字段;
20、打包微型毒性信號(hào)、中型毒性信號(hào)和高型毒性信號(hào),得到病毒危害程度分類(lèi)結(jié)果;
21、決策推送模塊,用于對(duì)病毒危害程度分類(lèi)結(jié)果進(jìn)行分析,得到?jīng)Q策建議結(jié)果;
22、進(jìn)一步地,對(duì)病毒危害程度分類(lèi)結(jié)果進(jìn)行分析的方式包括:
23、當(dāng)病毒危害程度分類(lèi)結(jié)果為微型毒性信號(hào)時(shí),通過(guò)通訊單元向展示分析模塊發(fā)送微量毒性短信,當(dāng)病毒危害程度分類(lèi)結(jié)果為中型毒性信號(hào)時(shí),通過(guò)通訊單元向展示分析模塊發(fā)送中量毒性短信,當(dāng)病毒危害程度分類(lèi)結(jié)果為高型毒性信號(hào)時(shí),通過(guò)通訊單元向展示分析模塊發(fā)送高量毒性短信;
24、微量毒性短信包括說(shuō)明檢測(cè)樣本中輸入型感染性疾病存在微量的毒性,提醒工作人員對(duì)患者和樣本實(shí)施持續(xù)監(jiān)測(cè)以觀察毒性變化、向患者或公眾提供有關(guān)輸入型感染疾病的預(yù)防信息和定期檢查醫(yī)療防護(hù)物資;
25、中量毒性短信包括說(shuō)明檢測(cè)樣本中輸入型感染性疾病存在中量的毒性,要求工作人員將患者隔離于指定地點(diǎn)、追蹤檢測(cè)與患者存在接觸的人員和為患者提供醫(yī)療救治;
26、高量毒性短信包括說(shuō)明檢測(cè)樣本中輸入型感染性疾病存在高量的毒性,要求工作人員立即將與患者存在接觸的人員進(jìn)行隔離、對(duì)可能受到污染的環(huán)境進(jìn)行封鎖消毒和集中優(yōu)勢(shì)醫(yī)療資源救治患者;
27、打包微量毒性短信、中量毒性短信和高量毒性短信,得到?jīng)Q策建議結(jié)果;
28、展示分析模塊,用于展示決策建議結(jié)果,并對(duì)毒性系數(shù)進(jìn)行分析,得到相似度結(jié)果;
29、進(jìn)一步地,對(duì)毒性系數(shù)進(jìn)行分析的方式包括讀取本土疾病基因數(shù)據(jù)庫(kù),基于pandas庫(kù)工具,將毒性系數(shù)帶入本土疾病基因數(shù)據(jù)庫(kù)進(jìn)行比對(duì),輸出得到相似度結(jié)果;
30、進(jìn)一步地,s1:采集檢測(cè)數(shù)據(jù)集和樣本數(shù)據(jù)集,并進(jìn)行預(yù)處理,檢測(cè)數(shù)據(jù)集包括病毒基因序列數(shù)據(jù)、真菌基因序列數(shù)據(jù)和寄生蟲(chóng)基因序列數(shù)據(jù),樣本數(shù)據(jù)集包括本土病毒基因序列數(shù)據(jù)、本土真菌基因序列數(shù)據(jù)和本土寄生蟲(chóng)基因序列數(shù)據(jù);
31、s2:對(duì)檢測(cè)數(shù)據(jù)集和樣本數(shù)據(jù)集進(jìn)行分析,得到輸入型感染疾病數(shù)據(jù)組,并進(jìn)行檢測(cè),得到病毒危害程度分類(lèi)結(jié)果;
32、s3:對(duì)病毒危害程度分類(lèi)結(jié)果進(jìn)行分析,得到?jīng)Q策建議結(jié)果;
33、s4:展示決策建議結(jié)果,并對(duì)毒性系數(shù)進(jìn)行分析,得到相似度結(jié)果。
34、本發(fā)明一種輸入型感染疾病基因序列快速檢測(cè)方法及系統(tǒng)的技術(shù)效果和優(yōu)點(diǎn):
35、本發(fā)明通過(guò)對(duì)檢測(cè)數(shù)據(jù)集和樣本數(shù)據(jù)集的分析,得到的輸入型感染疾病數(shù)據(jù)組,可以快速完成對(duì)輸入型感染性疾病的甄別,相較于傳統(tǒng)監(jiān)測(cè),不僅提升了檢測(cè)速度和精度,還能達(dá)到降低檢測(cè)成本,通過(guò)對(duì)病毒危害程度分類(lèi)結(jié)果的分析,得到的決策建議結(jié)果,可以輔助工作人員依據(jù)檢測(cè)樣本的毒性系數(shù),快速實(shí)施針對(duì)性較強(qiáng)的應(yīng)對(duì)措施,大大降低了因決策時(shí)間較長(zhǎng)而帶來(lái)的疾病范圍擴(kuò)散,通過(guò)對(duì)毒性系數(shù)的分析,得到的相似度結(jié)果,可以有效反映出輸入型感染疾病的毒性程度與本土存在感染疾病之間的毒性強(qiáng)度關(guān)系,有利于工作人員依據(jù)過(guò)往應(yīng)對(duì)感染疾病的經(jīng)驗(yàn),進(jìn)行進(jìn)一步實(shí)施針對(duì)感染疾病的應(yīng)對(duì)和完善措施,總體而言,本發(fā)明具有樣本快速檢測(cè)能力強(qiáng)、應(yīng)對(duì)措施輔助效率高和反饋疾病毒性程度作用大的顯著優(yōu)點(diǎn)。