本發明涉及食品安全與人工智能技術交叉領域,具體涉及自然語言處理(naturallanguage?processing,nlp)和知識圖譜(knowledge?graph,kg)相結合的食品實驗室標準數字化解析方法。
背景技術:
1、數字化實驗室,通過采用智能化的儀器設備自動化地完成一些復雜的實驗操作,如樣品前處理、儀器檢測、數據分析等,大大減少了人工操作的時間和精力。同時,采用數字化軟件工具優化實驗室數據管理,使得實驗結果收集、評估和存儲更加便捷高效,確保了分析結果的準確性和可靠性。
2、數字化實驗室實現的難點是:不同行業的實驗室均涉及復雜的方法標準體系,每個行業的標準大概有幾千種,實驗室需要根據不同的實驗樣品,依照方法標準配置不同的樣品進樣條件,選擇不同的儀器及其配件使用條件,并根據標準對數據處理結果保留相應精度要求等。由于方法標準的復雜性,數字化實驗室主要通過人工方式將方法標準內容進行手動拆分,導入實驗室信息管理系統(laboratory?information?management?system,lims)的基礎數據庫中。這種人工拆解標準的方法成本高昂,效率低下。
技術實現思路
1、本發明針對現有技術存在的問題,提出一種nlp和kg相結合的食品實驗室標準數字化解析方法,目的在于解決人工拆分標準成本高昂,效率低下的問題。
2、本發明為解決其技術問題提出以下技術方案:
3、一種nlp和kg相結合的食品實驗室標準數字化解析方法,其特點是:包括以下步驟:
4、步驟一、向解析平臺輸入多個食品安全國家標準;所述解析平臺為基于自然語言(nlp)和知識圖譜(kg)相結合的食品實驗室標準數字化解析平臺;
5、步驟二、確定當前要解析的食品安全國家標準;
6、步驟三、對當前標準進行基于nlp和kg相結合的標準屬性解析;
7、步驟四、對當前標準進行基于nlp和kg相結合的標準儀器和設備參數解析;
8、步驟五、對當前標準進行基于nlp和kg相結合的標準前處理過程解析;
9、步驟六、對當前標準進行基于nlp和kg相結合的標準數據分析過程解析;
10、步驟七、將所有對應關系保存到解析平臺數據庫。
11、進一步地,所述步驟三的nlp和kg相結合的標準屬性解析,具體過程如下:
12、1)確定當前標準屬性解析的內容:包括標準號、標準名稱、食品檢測項目、方法序號、方法類型;
13、2)用nlp解析當前標準首頁中的標準號、標準名稱;
14、3)用nlp結合kg解析當前標準“范圍”章節中的食品檢測項目;其中,用kg為nlp提供食品檢測項目的檢索關鍵詞,該檢索關鍵詞對應知識圖譜食品檢測項目本體下的第四級、第五級;
15、4)用nlp從當前標準內容里面解析方法序號;
16、5)用nlp結合kg解析方法序號對應標題名稱的方法類型,或該標題名稱下面的“原理”章節中的方法類型;其中,kg為nlp提供方法類型的檢索關鍵詞,該檢索關鍵詞在kg食品檢測方法本體下的第三級、第四級;
17、該標準號和標準名稱為一對一關系;
18、該標準名稱和食品檢測項目為一對多關系;
19、該食品檢測項目和方法類型為一對多的關系;
20、方法序號和方法類型為一對一的關系;
21、進一步地,所述步驟三過程3)的用kg為nlp提供食品檢測項目的檢索關鍵詞,該kg包括更新后的kg,所述更新后的kg,即:當前知識圖譜食品檢測項目本體下的第四級、第五級中找不到當前標準屬性中的對應的食品檢測項目時,解析平臺根據當前標準屬性中的對應的食品檢測項目更新kg。
22、進一步地,所述步驟三過程5)的kg為nlp提供方法類型的檢索關鍵詞,該kg包括更新后的kg,所述更新后的kg,即:知識圖譜食品檢測方法本體下的第三級、第四級找不到當前標準屬性中的方法類型時,解析平臺根據當前標準屬性中的對應的方法類型更新知識圖譜。
23、進一步地,所述步驟四的對當前標準進行基于nlp和kg相結合的標準儀器和設備參數設置解析,具體過程如下:
24、1)確定當前標準的儀器和設備參數:包括檢測設備、檢測設備參數、前處理設備及參數;
25、2)用nlp結合kg解析當前標準方法序號所述“儀器和設備”章節中的檢測設備,該檢測設備對應kg食品檢測方法本體下的第四級、第五級;其中,kg為nlp提供檢測設備的檢索關鍵詞;
26、3)nlp從當前標準里面提煉和該檢索關鍵詞唯一匹配的檢測設備及其參數。
27、4)將nlp解析的“儀器和設備”章節中的內容去除檢測設備及參數,都歸于前處理設備及參數。
28、進一步地,所述kg為nlp提供檢測設備的檢索關鍵詞,該kg包括更新后的kg,所述更新后的kg,即:知識圖譜食品檢測方法本體下的第四級、第五級找不到當前標準的檢測設備時,解析平臺根據當前標準中對應的檢測設備更新知識圖譜。
29、進一步地,步驟五的對當前標準進行基于nlp和知識圖譜相結合的標準前處理過程解析;具體過程如下:
30、1)確定當前標準的標準前處理過程:包括標準品名稱及濃度參考值、標準品系列配置、環境要求、制樣要求、稱量/取樣體積推薦、食品類別、前處理步驟;
31、2)用nlp結合所述方法序號到當前標準里面解析標準品名稱及濃度參考值、標準品系列配置、環境要求、制樣要求、稱量/取樣體積推薦、分析步驟;
32、3)用nlp結合kg解析當前標準的分析步驟的食品類別,該食品類別對應知識圖譜食品類別本體下的第三級、第四級;其中,kg為nlp提供食品類別的檢索關鍵詞;
33、4)nlp根據解析的食品類別在當前標準里解析前處理步驟;
34、該方法種類分別和標準品名稱及濃度參考值、標準品系列配置、環境要求、制樣要求、稱量/取樣體積推薦為一對一關系;
35、方法類型→食品類別為一對多的關系;
36、食品類別→前處理步驟為一對一關系。
37、進一步地,所述步驟六的對當前標準進行基于nlp和kg相結合的標準數據分析過程解析,具體過程如下:
38、1)確定當前標準的標準數據分析過程,包括:計算公式、定容體積、稀釋倍數、換算系數、結果表述、精密度、檢出限、定量限;
39、2)nlp根據當前標準的方法序號唯一匹配所述計算公式、定容體積、稀釋倍數、換算系數、結果表述、精密度、檢出限、定量限。
40、進一步地,將標準號→標準名稱的一對一關系數據、標準名稱→食品檢測項目的一對多關系數據、食品檢測項目→方法序號的一對多的關系數據、方法序號→檢測設備、檢測設備參數、前處理設備及參數的一對一關系數據、方法序號→標準品名稱及濃度參考值、標準品系列配置、環境要求、制樣要求、稱量/取樣體積推薦的一對一關系數據;方法序號→食品類別的一對多的關系數據;食品類別→前處理步驟的一對一關系數據。
41、本發明優點效果
42、1、本發明通過“多對一”解析方法、“一對多”解析方法、“一分為二”解析方法、“二合一”的解析方法,解決了《標準》中食品檢測項目描述不規范、方法類型描述不規范、檢測設備和前處理設備描述不規范的問題的技術難題,實現了基于nlp和kg相結合的食品實驗室標準數字化的自動化解析方法,從而解決了現有技術人工拆分標準成本高昂,效率低下的問題。
43、2、本發明通過動態知識圖譜,保證了《標準》和知識圖譜的更新同步,從而進一步保證了食品實驗室標準數字化自動化解析的可靠性。