專利名稱:一種大黃魚刺激隱核蟲病害程度的判別方法
技術領域:
本發明涉及大黃魚,尤其是涉及一種大黃魚刺激隱核蟲病害程度的判別方法。
背景技術:
刺激隱核蟲是目前嚴重威脅海洋魚類的一種傳播性極強的寄生蟲,已被列為農業部2008年12月11日發布的新版《一、二、三類動物疫病病種名錄》中的二類動物疫病。特別是該病給大黃魚養殖產業帶來了嚴重損失。例如,2005年起,刺激隱核蟲病及細菌性繼發感染每年給大黃魚養殖產業帶來了超過3億元的經濟損失。大黃魚刺激隱核蟲病的嚴重暴發流行與我國大黃魚主產區這一動態、不穩定的開放復雜養殖生態系統密切相關,受養殖海域的水文、物理、化學及生物因子的多重影響明顯。例如,刺激隱核蟲病的季節性流行規律直接與氣溫和水溫等氣候條件的周年變化相關;鹽度、溶解氧、水深、水流速度等水文物理條件以及COD、氨氮、亞硝酸鹽和硝酸鹽等水質因子直接反映著養殖海區的水環境質量, 并影響著刺激隱核蟲感染附著、增殖暴發乃至流行進程。流行病學研究表明,大黃魚刺激隱核蟲病發生及其分布具有明顯的時空差異,不同海域或同一海域不同養殖水環境時期,該病發生進程與嚴重程度明顯不同。生產中,養殖戶常在刺激隱核蟲病發季節適時進行拖排作業,將漁排轉移到低發病率的較安全海區, 在一定程度上可以避免刺激隱核蟲病造成的重大損失。然而,養殖戶自身對于環境因子與疾病發生關系的認知是感性而片面的、定性而非定量的、相對模糊和不精確的!如果能闡明養殖水環境因子與疾病發生的內在定量關系,準確理解刺激隱核蟲病發生的時空變化規律,將有助于指導養殖戶對大黃魚宜養海域的選擇,并在刺激隱核蟲病高發期間適時移排、 適地安置、布局優化,具有重大的產業應用前景。雖然我國自上世紀90年代就開展了大黃魚刺激隱核蟲病相關的流行病學研究探索,2005年,我國系統開展了大黃魚主產區的環境監測和疾病監測工作,迄今已積累了大量的水環境因子監測數據和疾病觀測數據,但是至今仍主要偏重于定性解釋,在大黃魚刺激隱核蟲病與環境因子之間的定量分析方面的研究工作十分缺乏,我國已有依據透明度、溫度和平均風速對大黃魚養殖疾病(所有疾病)的預測方法(中國專利200710068792. 6)。 但是,大黃魚養殖疾病種類多樣,流行特點各異,特別是同一時間點內多種疾病并發時所涉及的環境因子效應非常復雜,影響不同疾病的主效因子不完全相同,依據特定的水質因子對所有疾病實施預測難度較大。而且水質對疾病影響很可能是一種非線性的關系,上述專利采用的是線性模型的擬合,準確性較低,而且沒有考慮到其他因子的影響,比較片面。用大量的因子來分析對疾病的影響,并篩選對疾病影響權重較大的因子,用這些因子來預測疾病的發生嚴重程度是個比較合理、周全的思路。而且目前用機器學習方法來分析非線性問題,分析大量因子對某些事件的影響并預測某些事件可能發生的等級比較先進、合理、準確性高,并且也有不少的專利報導,如西北電網有限公司所發明的《基于神經網絡的風速預測方法》(中國專利200910219123.31);浙江大學發明的《一種風電場短期風速預測方法》 (中國專利201019146035.5);中國石油化工股份有限公司發明的《基于支持向量機的熱裂解產物收率的預測方法》(中國專利200810225363.X);北京大學發明的《基于對比模式的隨機森林分類方法和分類器》(中國專利201010265846.X)等等,而目前還沒有報導用機器學習法分析并預測水質因子對水產動物疾病發生的影響,再者很多文獻表明隨機森林法在分類、預測性能上好過與其他方法。
發明內容
本發明的目的在于提供一種大黃魚刺激隱核蟲病害程度的判別方法。本發明包括以下步驟1)數據預處理,具體方法如下(1)將可能引發刺激隱核蟲病的水環境因子分類,具體方法如下從水環境監測數據中選取14個可能影響刺激隱核蟲病發生的水文、氣候、物理、 化學、生物等影響因子年份、月份、監測站位、水溫、透明度、溶解氧、COD、活性磷酸鹽、 Ν03--Ν、Ν02—Ν、ΝΗ4+-Ν、石油類,并依次用數字1 14排序;(2)疾病嚴重程度賦值根據其嚴重程度分為正常、少量發病、中等程度發病、大面積發病4個等級,記錄為1 4 ;(3)構建環境因子-疾病情況對應數據列表建立“環境因子-疾病情況.txt”文檔,所述文檔的特征是①純數據文檔只含序號、監測值、疾病嚴重程度值等純數據不含各因子標題;②排序方式所有數據按照序號, 14個影響因子數據和1個疾病嚴重程度數據從左到右依次排列,即16列;2)全部14個影響因子數學方法構建將全部影響因子都用于構建數學方法,具體方法如下(1)數據隨機分組數據分組所有的數據按用途被隨機分為兩大類①訓練集用于構建數學方法; ②測試集用于評價所構建數學方法的準確率和可靠性;分組方式隨機抽取初始數據組2/3的數據作為訓練集,剩下1/3數據作為測試集;(2)構建數學判別方法用隨機森林分類算法(以下簡記為RF)分析訓練集數據,建立14個影響因子對大黃魚刺激隱核蟲病發生情況的全因子判別方法,所用的程序是R軟件環境中加載的隨機森林程序包;(3)方法的準確性評價用所獲測試集數據中的14個影響因子數據代入所建數學判別方法中,計算出疾病發生嚴重程度值,并與實測疾病嚴重程度賦值進行比較,分析準確率和可靠性;3)降維方法構建上述全因子判別方法需要采集14個水環境因子進行疾病判別,利用隨機森林算法計算各個影響因子重要性,并選擇部分較能反應方法效率的因子集合,構建維度較低的方法,具體步驟如下(1)權重因子排序對每個水環境因子效應進行評價,計算影響刺激隱核蟲病發生的權重值,并選擇出權重最大的5個影響因子;(2)低維疾病判別方法(降維方法)構建及篩選分別建立權重最大的3個影響因子(月份、水溫、溶解氧)、4個影響因子(月份、 水溫、溶解氧、NH4+-N)、5個影響因子(月份、水溫、溶解氧、NH4+-N、C0D)對疾病情況的判別方法,降維方法構建方法同上述未降維(全因子)判別方法的構建方法,并分別進行準確性分析;確定因子維度合適的判別方法根據準確率(不低于90% )和因子數量(宜少), 篩選出判別大黃魚刺激隱核蟲疾病發生情況的理想因子,確定因子維度合適的判別方法;(3)降維方法準確性評價降維方法與全因子方法準確率比較及差異顯著性分析分別將全因子方法與降維方法判別的疾病值輸出,與原始的疾病值一一對應,用SPSS18.0中的相關性分析、配對樣品T檢驗分析功能分別分析降維方法判別值-全因子方法判別值、降維方法判別值-原始疾病值及全因子方法判別值-原始疾病值之間顯著性差異。本發明所提供的一種判別刺激隱核蟲病與水環境因子相互關系的理想判別方法是基于月份、水溫、溶解氧、NH4+-N這4個因子所構建的降維簡化方法。本發明從14個水環境因子中篩選出對大黃魚刺激隱核蟲病發生影響權重最大的幾個水環境因子,進而構建降維簡化的數學方法,以便在保證較高準確率和可靠性的基礎上,只需要采集較少的水環境數據信息,就能達到判別刺激隱核蟲病發生程度的目的。本發明提供先進算法的數學方法,確保判別準確率和可靠性,本發明公開該數學方法的用途,表明它可通過水環境因子的測定,判別在某一特定海域養殖大黃魚時刺激隱核蟲病的可能發生狀況及嚴重程度,方便指導大黃魚刺激隱核蟲病的有效防控。與現有技術相比,本發明具有以下優點1)定量判別本發明闡明了刺激隱核蟲病與水環境因子的定量關系。現有技術對二者之間相互關系僅有定性的描述,尚無定量判別的公開報道。2)簡單方便現有技術未能闡明影響刺激隱核蟲病的主效因子。本發明從眾多可能的影響因子中甄別和篩選出影響該病的4個主效因子,構建了維度較低的方法,不僅方便養殖戶運用該方法判別疾病發生狀況,而且簡化了水環境因子的需測數據,大大減少了
工作量。3)準確率高本發明提供的降維方法判別準確率超過90%,與全因子方法的準確
率無顯著差異。4)應用前景較好現有技術僅對刺激隱核蟲病的定性描述,無法有力指導養殖戶根據水環境質量判斷養殖海區是否合適養殖大黃魚,是否會暴發嚴重的刺激隱核蟲病。本發明提供的判別方法不僅可解決上述問題,適用于判別大黃魚刺激隱核蟲病發生,而且還可為其它海水魚類刺激隱核蟲的發生提供重要參考。
圖1為基于隨機森林的全因子數學方法構建的步驟流程圖。圖2為隨機森林算法中每棵樹生長的流程圖。圖3為用生成的方法對測試集進行測試的原理圖。
具體實施例方式下面結合實施例對本發明作進一步說明,但并不作為本發明對權利范圍的限制。實施例11.數據預處理獲取福建寧德三都灣、福州羅源灣、福鼎沙埕港3個海水網箱人工大黃魚養殖最集中的海域的水質等環境因子的月監測數據(見表1),及其對應的刺激隱核蟲病發生情況 (水質數據來自國家海洋局東海分局閩東海洋環境監測中心站,疾病數據來自福建省海洋水產技術推廣總站病防科,數據采集、分析均按照國家規范標準),為計算方便,影響因子按表1中順序分別記錄為1 14 ;疾病情況根據其嚴重程度分為正常、少量發病、中等程度發病、大面積發病4個等級記錄為1 4 ;月份按1 12月分別記為1 12 ;監測站位按三都灣、羅源灣、沙埕港分別記錄為1 3 ;最后建立“環境因子-疾病情況.txt”文檔,數據按照影響因子和疾病情況從左到右依次排列,即15列,且該文檔只含數據不含各因子標題。表.1數據分析所用影響因子列表
權利要求
1. 一種大黃魚刺激隱核蟲病害程度的判別方法,其特征在于包括以下步驟1)數據預處理,具體方法如下(1)將可能引發刺激隱核蟲病的水環境因子分類;(2)疾病嚴重程度賦值根據其嚴重程度分為正常、少量發病、中等程度發病、大面積發病4個等級,記錄為1 4;(3)構建環境因子-疾病情況對應數據列表建立“環境因子-疾病情況.txt”文檔,所述文檔的特征是①純數據文檔只含序號、 監測值、疾病嚴重程度值等純數據不含各因子標題;②排序方式所有數據按照序號,14個影響因子數據和1個疾病嚴重程度數據從左到右依次排列,即16列;2)構建全部14個影響因子數學方法將全部影響因子都用于構建數學方法,具體方法如下(1)數據隨機分組數據分組所有的數據按用途被隨機分為兩大類①訓練集用于構建數學方法;②測試集用于評價所構建數學方法的準確率和可靠性;分組方式隨機抽取初始數據組2/3的數據作為訓練集,剩下1/3數據作為測試集;(2)構建數學判別方法用隨機森林分類算法,分析訓練集數據,建立14個影響因子對大黃魚刺激隱核蟲病發生情況的全因子判別方法,所用的程序是R軟件環境中加載的隨機森林程序包;(3)方法的準確性評價用所獲測試集數據中的14個影響因子數據代入所建數學判別方法中,計算出疾病發生嚴重程度值,并與實測疾病嚴重程度賦值進行比較,分析準確率和可靠性;3)構建降維方法全因子判別方法需要采集14個水環境因子進行疾病判別,利用隨機森林算法計算各個影響因子重要性,并選擇部分較能反應方法效率的因子集合,構建維度較低的方法,具體步驟如下(1)權重因子排序對每個水環境因子效應進行評價,計算影響刺激隱核蟲病發生的權重值,并選擇出權重最大的5個影響因子;(2)低維疾病判別方法構建及篩選分別建立權重最大的3個影響因子、4個影響因子、5個影響因子對疾病情況的判別方法,降維方法構建方法同上述未降維判別方法的構建方法,并分別進行準確性分析;確定因子維度合適的判別方法根據準確率和因子數量,篩選出判別大黃魚刺激隱核蟲疾病發生情況的理想因子,確定因子維度合適的判別方法;(3)降維方法準確性評價降維方法與全因子方法準確率比較及差異顯著性分析分別將全因子方法與降維方法判別的疾病值輸出,與原始的疾病值一一對應,用SPSS18. 0中的相關性分析、配對樣品T檢驗分析功能分別分析降維方法判別值-全因子方法判別值、降維方法判別值-原始疾病值及全因子方法判別值-原始疾病值之間顯著性差異。
2.如權利要求1所述的一種大黃魚刺激隱核蟲病害程度的判別方法,其特征在于在步驟1)第(1)部分中,所述將可能引發刺激隱核蟲病的水環境因子分類的具體方法如下從水環境監測數據中選取14個可能影響刺激隱核蟲病發生的水文、氣候、物理、化學、 生物等影響因子年份、月份、監測站位、水溫、透明度、溶解氧、COD、活性磷酸鹽、NO3-N, N02--N、NH4+-N、石油類,并依次用數字1 14排序。
3.如權利要求1所述的一種大黃魚刺激隱核蟲病害程度的判別方法,其特征在于在步驟3)第(2)部分中,所述3個影響因子為月份、水溫、溶解氧。
4.如權利要求1所述的一種大黃魚刺激隱核蟲病害程度的判別方法,其特征在于在步驟3)第⑵部分中,所述4個影響因子為月份、水溫、溶解氧、NH4+-N。
5.如權利要求1所述的一種大黃魚刺激隱核蟲病害程度的判別方法,其特征在于在步驟3)第⑵部分中,所述5個影響因子為月份、水溫、溶解氧、NH4+-N、COD。
全文摘要
一種大黃魚刺激隱核蟲病害程度的判別方法,涉及大黃魚。先數據預處理,再構建全部14個影響因子數學方法,最后構建降維方法。具有定量判別、簡單方便、高準確率和高可靠性等特點。隨機抽樣測試表明,通過所提供的方法,利用水環境因子實測數值能夠準確判定大黃魚刺激隱核蟲病可能發生的嚴重程度,判別準確率可達90%以上。適用于判定大黃魚刺激隱核蟲病可能發生的海域及嚴重程度,指導大黃魚刺激隱核蟲病的有效防控。適用于判別大黃魚刺激隱核蟲病發生,而且還可為其它海水魚類刺激隱核蟲的發生提供重要參考。
文檔編號A01K61/00GK102550455SQ201210009919
公開日2012年7月11日 申請日期2012年1月13日 優先權日2012年1月13日
發明者丁少雄, 呂偉航, 毛勇, 王軍, 王洪杰, 蘇永全, 蔡曉鵬 申請人:廈門大學