環境自動監測網絡的數據異常值標識方法及系統的制作方法
【專利摘要】本發明公開了一種環境自動監測網絡的數據異常值標識方法及系統,方法包括:根據基站系統自動識別、基站人工審核和實時數據平臺的專家識別、平臺人工審核這四個數據來源對環境監測網絡的數據標識體系進行統一定義,得到來源類型標識、模式標識、模式跟蹤數據標識、演繹標識和刪除標識的數據結構;根據來源類型標識、模式標識、模式跟蹤數據標識、演繹標識和刪除標識的數據結構,對基站層和平臺層的異常值進行識別,并采用改進的數據標識同步算法實現基站層異常值和平臺層異常值的同步。本發明增設了模式跟蹤數據和標識演繹標識,并提出了實時數據平臺的異常值識別算法,溯源效率高、精確度高、全面、可靠、科學和準確,可廣泛應用于環境監測領域。
【專利說明】環境自動監測網絡的數據異常值標識方法及系統
【技術領域】
[0001]本發明涉及環境監測領域,尤其是環境自動監測網絡的數據異常值標識方法及系統。
【背景技術】
[0002]環境自動監測網絡是環境質量科學表征的重要數據來源,其目的是獲得高質量的環境監測數據,并由此推斷整個環境現有的質量特征。環境自動監測網絡除了擁有一般環境監測的要素外,自身還具備基站長期實時不間斷監測、基站與實時數據平臺數據同步對接、實時數據平臺對海量數據自動分析統計等特點。針對環境自動監測網絡獨有的技術特點,研發異常值標識技術,將提升環境自動監測網絡數據審核工作的科學性和邏輯性,極大提高了環境自動監測網絡的數據質量,保證數據審核質量和效率。
[0003]目前,監測網絡數據的異常值標識技術存在以下問題:
(一)數據標識的不完善
目前對網絡數據的異常值采取在其后嵌入數據標識的技術方法。這種方法可有效地避免異常值納入數據統計,但因其對質控工作溯源時沒有對異常值的原因(如儀器質控和外界環境因素等)進行垂直的追蹤,平臺數據管理人員無法追蹤判斷數據質量的真實情況。為解決此問題,數據管理人員需查詢基站的工作日志和詢問基站維護人員,質控工作的溯源工作效率低下且導致容易因詢問導致出錯。
[0004](二)識別來源的缺失或不統一
環境自動監測網絡的數據異常值的來源包括基站系統自動識別、基站人工審核和實時數據平臺的專家識別和平臺人工審核等,這四種來源在網絡的數據審核體系里是互相聯系、互相制約和不可割裂的,應作為一個系統整體的有機結合。
[0005]但目前仍沒有相關的技術把四類數據標識歸納統一,導致不同階層的數據審核者往往只能考慮一個來源的數據標識,不夠全面和可靠。
[0006](三)環境自動監測實時數據平臺統計算法的缺失
實時數據平臺識別異常值的技術源自統計學、軟件工程和計算機科學。統計學對統計數據異常值的識別雖有很多研究成果,但大多是從數學的角度并針對一些特殊分布例如多維正態分布、r分布等來實現的。然而,環境自動監測數據大多不符合這些分布,難以直接采用這些研究成果來進行檢驗和識別。因此環境自動監測實時數據平臺缺乏能檢查和審核統計數據可靠性和準確性的統計算法。
[0007]此外,目前的異常值識別技術將監測數據的異常值直接刪除,很難容納統計學理論識別異常值的方法。因為統計學理論能推算監測數據里的異常值,但不代表該異常值在真實環境是絕對錯誤的,如果直接刪除被推算為異常的數據則不尊重客觀現實,不夠科學和準確。
【發明內容】
[0008]為了解決上述技術問題,本發明的目的是:提供一種溯源效率高、精確度高、全面、可靠、科學和準確的環境自動監測網絡的數據異常值標識方法及系統。
[0009]本發明解決其技術問題所采用的技術方案是:
環境自動監測網絡的數據異常值標識方法,包括:
A、根據基站系統自動識別、基站人工審核和實時數據平臺的專家識別、平臺人工審核這四個數據來源對環境監測網絡的數據標識體系進行統一定義,從而得到來源類型標識、模式標識、模式跟蹤數據標識、演繹標識和刪除標識的數據結構;
B、根據來源類型標識、模式標識、模式跟蹤數據標識、演繹標識和刪除標識的數據結構,對基站層和平臺層的異常值進行識別,并采用改進的數據標識同步算法實現基站層異常值和平臺層異常值的同步。
[0010]進一步,所述來源類型標識根據數據的來源進行定義,包括網絡命令標識、基站系統標識、基站儀器自動執行命令標識、基站人工審核標識、實時數據平臺標識;所述模式標識用于對基站自動監測網絡各種形式的信息進行表征、描述和分類,由信息名稱的英文或漢語拼音的第一個字母的縮寫組成,包括監測數據狀態標識、質控質保任務標識和基站監測系統及儀器故障標識;所述刪除標識,用于表示不能參與統計的監測數據,具體數據格式為:刪除標識/來源類型標識。
[0011 ] 進一步,所述模式跟蹤數據標識包括結果導向標識和過程導向標識,
所述結果導向標識的數據結構為:模式標識(特征標識1,特征標識2,……,特征標識η) /來源類型標識;所述結果導向標識的生成過程為:選擇結果導向標識的數據結構,然后把代表結果的模式標識、以及與該模式標識相關聯的特征標識I到特征標識η導入到選擇的數據結構中;其中,特征標識是指基站監測系統開發者定義的關于系統、儀器的狀況標識或基站采集系統的環境狀況標識,特征標識1,特征標識2,……,特征標識η是指與代表結果的模式標識相關聯的特征標識;
所述過程導向標識的數據結構為:模式標識(數值基準標識I,數值過程標識1,……,數值基準標識I,數值過程標識m) /來源類型標識;所述過程導向標識的生成過程為:選擇過程導向標識的數據結構;然后把代表過程的模式標識、以及與該模式標識產生過程相關聯的基準標識I,數值過程標識I……數值基準標識1,數值過程標識m導入到選擇的數據結構中;
其中,基準標識是指執行質控任務時所采用標準樣品的濃度值,數值過程標識是執行質控任務時監測儀器測標準樣品所得的結果濃度值,數值過程標識1,數值過程標識2,……,數值過程標識m是指與代表過程的模式標識相關聯的數值過程標識,且數值過程標識m按數據標識產生過程的時間先后順序排列。
[0012]進一步,所述演繹標識是指容納統計學理論識別異常值的標識,具體數據格式為:演繹標識/來源類型標識;所述演繹標識并不參與數據統計,只用于反映和記錄計算機智能診斷出來的異常值,若人工診斷確認該異常值為真實的異常值,演繹標識會自動轉為刪除標識。
[0013]進一步,所述步驟B中根據來源類型標識、模式標識、模式跟蹤數據標識、演繹標識和刪除標識的數據結構,對基站層異常值進行識別這一步驟,其包括:
Biu對基站層數據進行監測,從而獲得異常數據信號; B12、將異常數據信號轉換成計算機可識別的數據信號;
B13、將轉換后的異常數據信號與數據標識知識庫的數據進行匹配,判斷數據標識知識庫是否存在與異常數據信號相匹配的數據,若是,則執行步驟B14,反之,則結束基站層異常值識別流程;
B14、判斷異常數據信號所屬的數據標識類型,并根據判斷結果執行相應的數據標識賦予流程;
B15、將新賦予的數據標識記錄存入基站數據庫和同步數據庫。
[0014]進一步,所述步驟B中根據來源類型標識、模式標識、模式跟蹤數據標識、演繹標識和刪除標識的數據結構,對平臺層異常值進行識別這一步驟,其包括:
B21、從平臺數據庫中提取監測數據,判斷提取的數據是否包含不合理的值,若是,則為提取的數據賦予刪除標識,反之,則執行步驟B22,所述不合理的值是指負值、超出儀器量程范圍的值、連續不變的值或基于箱線圖統計方法判別為離群值的數據;
B22、判斷提取的數據是否包含連續4次以上的不變值,若是,則為提取的數據賦予演繹標識,反之,則執行步驟B23 ;
B23、自當前時刻開始往前追溯,從監測數據中獲取連續的X個監測值,其中,X為預設的數值,且滿足7 < X ( 3y,y為維修人員在基站儀器發生故障時趕到現場進行維護的最長允許時間;
B24、對獲取的X個監測值進行計算,從而得到這X個監測值的下四分位數Q1、中位數Q2、上四分位數Q3和四分位距IQR,所述X個監測倌的四分位距IQR的計算公式為:IQR=Q3 — Ql ;
B25、根據計算的結果自動對X個監測值的異常值進行識別,并為識別出的異常值賦予相應的演繹標識;
B26、對含有演繹標識的監測數據進行人工審核,若確認監測數據為真實異常值,則將監測數據的演繹標識取消,并重新為監測數據賦予刪除標識。
[0015]進一步,所述步驟B中采用改進的數據標識同步算法實現基站層和平臺層異常值的同步這一步驟,其包括:
51、基站與平臺建立socket連接;
52、判斷是否需要同步數據標識數據庫,若是,則執行步驟S3,反之,則執行步驟S4;
53、基站向平臺發送修改數據標識數據庫的請求,并在平臺同意修改和同步標識匹配檢查完成后向平臺發送數據標識記錄數據包,從而使平臺進行應答修改;
54、平臺向基站發送修改數據標識知識庫的請求,并在基站同意修改后向基站發送數據標識知識庫修改數據包,從而使基站進行應答修改。
[0016]進一步,所述步驟S3,其包括:
531、基站向平臺發送修改數據標識數據庫的請求;
532、平臺發出同意修改請求的響應;
533、基站接收到同意響應后向平臺發送同步標識為last的數據標識數據包M;
534、平臺檢查數據包M是否與平臺同步數據庫中的同步標識為last的數據匹配,若是則執行步驟S35,反之,則順序執行步驟S36?S38 ;
535、基站向平臺傳輸同步標識為next的數據包及其后的數據,然后結束同步過程; 536、服務器向基站發送平臺同步標識為last的數據包L;
537、基站在基站同步數據庫中搜索與數據包L匹配的數據記錄,并把搜索到的匹配數據的同步標識修改為last,同時基站把下一時刻數據記錄的同步標識修改為next ;
538、基站向平臺傳輸同步標識為next的數據標識記錄數據包R及其后的數據,然后結束同步過程。
[0017]進一步,所述步驟S4,其包括:
541、平臺向基站發送修改數據標識知識庫的請求;
542、基站發出同意修改的響應;
543、平臺在接收到同意的響應后向基站發送數據標識知識庫修改數據包;
544、平臺通知基站數據包發送完畢,基站應答;
545、基站根據修改數據包修改基站的數據標識知識庫。
[0018]本發明解決其技術問題所采用的另一技術方案是:
環境自動監測網絡的數據異常值標識系統,包括:
統一定義模塊,用于對環境監測網絡的數據標識體系進行統一定義,從而得到來源類型標識、模式標識、模式跟蹤數據標識、演繹標識和刪除標識的數據結構;
識別和同步模塊,用于根據來源類型標識、模式標識、模式跟蹤數據標識、演繹標識和刪除標識的數據結構,對基站層和平臺層的異常值進行識別,并采用改進的數據標識同步算法實現基站層和平臺層異常值的同步;
所述統一定義模塊的輸出端與識別和同步模塊的輸入端連接。
[0019]本發明的有益效果是:采用了一種全新結構的數據標識類型一模式跟蹤數據標識,能有效地記錄監測網絡質控的歷史過程,為質控工作的溯源提供技術依據,提高了溯源的工作效率,降低了出錯率;根據基站系統自動識別、基站人工審核和實時數據平臺的專家識別、平臺人工審核這四個數據來源對環境監測網絡的數據標識體系進行統一定義,使不同級別的數據審核者在進行審核時能整體考慮四個來源的數據標識,更加全面和可靠;增設了演繹標識,不直接刪除監測數據的異常值,而是為監測數據的異常值賦予演繹標識,以輔助數據實時平臺數據管理人員準確識別監測數據的異常值是否為真實的異常值,能容納統計學理論識別異常值的方法,更加科學和準確;采用改進的數據標識同步算法實現基站層異常值和平臺層異常值的同步,能保證平臺層和基站層的數據標識能同步更新以及對基站層的數據標識知識庫進行修改。進一步,采用經改進帶有同步標識的同步算法實現基站層異常值和平臺層異常值的同步,能防止平臺服務器因停電等因素而導致的數據丟失故障,而且可以對基站人工修改的數據標識進行更新,更加安全和方便。進一步,提出了環境自動監測實時數據異常值數據識別的完整算法,能很好地對負值、超出儀器量程范圍的值、連續不變的值、基于箱線圖統計方法判別為離群值的數據進行識別,同時能很好地容納統計學理論在平臺異常值自動識別中的運用,更加可靠和科學。
【專利附圖】
【附圖說明】
[0020]下面結合附圖和實施例對本發明作進一步說明。
[0021]圖1為本發明一種環境自動監測網絡的數據異常值標識方法的整體流程圖;
圖2為本發明步驟B中對基站層異常值進行識別這一步驟的流程圖; 圖3為本發明步驟B中對平臺層異常值進行識別這一步驟的流程圖;
圖4為本發明步驟B中采用改進的數據標識同步算法實現基站層和平臺層異常值的同步這一步驟的流程圖;
圖5為本發明步驟S3的流程圖;
圖6為本發明步驟S4的流程圖;
圖7為本發明一種環境自動監測網絡的數據異常值標識系統的結構框圖;
圖8為本發明實施例二環境自動監測網絡數據標識體系的結構框圖。
【具體實施方式】
[0022]參照圖1,環境自動監測網絡的數據異常值標識方法,包括:
A、根據基站系統自動識別、基站人工審核和實時數據平臺的專家識別、平臺人工審核這四個數據來源對環境監測網絡的數據標識體系進行統一定義,從而得到來源類型標識、模式標識、模式跟蹤數據標識、演繹標識和刪除標識的數據結構;
B、根據來源類型標識、模式標識、模式跟蹤數據標識、演繹標識和刪除標識的數據結構,對基站層和平臺層的異常值進行識別,并采用改進的數據標識同步算法實現基站層異常值和平臺層異常值的同步。
[0023]進一步作為優選的實施方式,所述來源類型標識根據數據的來源進行定義,包括網絡命令標識、基站系統標識、基站儀器自動執行命令標識、基站人工審核標識、實時數據平臺標識;所述模式標識用于對基站自動監測網絡各種形式的信息進行表征、描述和分類,由信息名稱的英文或漢語拼音的第一個字母的縮寫組成,包括監測數據狀態標識、質控質保任務標識和基站監測系統及儀器故障標識;所述刪除標識,用于表示不能參與統計的監測數據,具體數據格式為:刪除標識/來源類型標識。
[0024]進一步作為優選的實施方式,所述模式跟蹤數據標識包括結果導向標識和過程導向標識,
所述結果導向標識的數據結構為:模式標識(特征標識1,特征標識2,……,特征標識η)/來源類型標識;所述結果導向標識的生成過程為:選擇結果導向標識的數據結構,然后把代表結果的模式標識、以及與該模式標識相關聯的特征標識I到特征標識η導入到選擇的數據結構中;其中,特征標識是指基站監測系統開發者定義的關于系統、儀器的狀況標識或基站采集系統的環境狀況標識,特征標識1,特征標識2,……,特征標識η是指與代表結果的模式標識相關聯的特征標識;
所述過程導向標識的數據結構為:模式標識(數值基準標識1,數值過程標識1,……,數值基準標識I,數值過程標識m)/來源類型標識;所述過程導向標識的生成過程為:選擇過程導向標識的數據結構;然后把代表過程的模式標識、以及與該模式標識產生過程相關聯的基準標識I,數值過程標識I……數值基準標識1,數值過程標識m導入到選擇的數據結構中;
其中,基準標識是指執行質控任務時所采用標準樣品的濃度值,數值過程標識是執行質控任務時監測儀器測標準樣品所得的結果濃度值,數值過程標識1,數值過程標識2,……,數值過程標識m是指與代表過程的模式標識相關聯的數值過程標識,且數值過程標識m按數據標識產生過程的時間先后順序排列。
[0025]進一步作為優選的實施方式,所述演繹標識是指容納統計學理論識別異常值的標識,具體數據格式為:演繹標識/來源類型標識;所述演繹標識并不參與數據統計,只用于提示數據審核人員計算機智能診斷出來的異常值,若人工診斷確認為該異常值為真實的異常值,則該演繹標識會自動轉為刪除標識。
[0026]其中,演繹標識能容納計算機通過統計學理論、人工智能算法等方法自動識別的異常值。
[0027]參照圖2,進一步作為優選的實施方式,所述步驟B中根據來源類型標識、模式標識、模式跟蹤數據標識、演繹標識和刪除標識的數據結構,對基站層異常值進行識別這一步驟,其包括:
B11、對基站層數據進行監測,從而獲得異常數據信號;
B12、將異常數據信號轉換成計算機可識別的數據信號;
B13、將轉換后的異常數據信號與數據標識知識庫的數據進行匹配,判斷數據標識知識庫是否存在與異常數據信號相匹配的數據,若是,則執行步驟B14,反之,則結束基站層異常值識別流程;
B14、判斷異常數據信號所屬的數據標識類型,并根據判斷結果執行相應的數據標識賦予流程;
B15、將新賦予的數據標識記錄存入基站數據庫和同步數據庫。
[0028]參照圖3,進一步作為優選的實施方式,所述步驟B中根據來源類型標識、模式標識、模式跟蹤數據標識、演繹標識和刪除標識的數據結構,對平臺層異常值進行識別這一步驟,其包括:
B21、從平臺數據庫中提取監測數據,判斷提取的數據是否包含不合理的值,若是,則為提取的數據賦予刪除標識,反之,則執行步驟B22,所述不合理的值是指負值、超出儀器量程范圍的值、連續不變的值或基于箱線圖統計方法判別為離群值的數據;
B22、判斷提取的數據是否包含連續4次以上的不變值,若是,則為提取的數據賦予演繹標識,反之,則執行步驟B23 ;
B23、自當前時刻開始往前追溯,從監測數據中獲取連續的X個監測值,其中,X為預設的數值,且滿足7 < X ( 3y,y為維修人員在基站儀器發生故障時趕到現場進行維護的最長允許時間;
B24、對獲取的X個監測值進行計算,從而得到這X個監測值的下四分位數Q1、中位數Q2、上四分位數Q3和四分位距IQR,所述X個監測倌的四分位距IQR的計算公式為:IQR=Q3 — Ql ;
B25、根據計算的結果自動對X個監測值的異常值進行識別,并為識別出的異常值賦予相應的演繹標識;
B26、對含有演繹標識的監測數據進行人工審核,若確認監測數據為異常值,則將監測數據的演繹標識取消,并重新為監測數據賦予刪除標識。
[0029]其中,所述步驟B25,其具體為:設這X個監測值中任一值為Tx,若(Q3 + 3IQR)>Tx>(Q3 + 1.51QR)或(Ql — 3IQR) <Tx〈(Q1-1.51QR)時,則認定Tx為溫和的異常值,此時賦予 Tx 演繹標識 mild outliers (溫和演繹標識);若 Tx> (Q3 + 3IQR)或 Tx< (Q3 — 31QR),則認定Tx為極端的異常值,此時賦予Tx演繹標識extreme outliers (極端演繹標識)。
[0030]對含有演繹標識的監測數據進行人工審核時,若確認監測數據實際上并不是異常值,則結束對基站層異常值進行識別的流程。
[0031]參照圖4,進一步作為優選的實施方式,所述步驟B中采用改進的數據標識同步算法實現基站層和平臺層異常值的同步這一步驟,其包括:
51、基站與平臺建立socket連接;
52、判斷是否需要同步數據標識數據庫,若是,則執行步驟S3,反之,則執行步驟S4;
53、基站向平臺發送修改數據標識數據庫的請求,并在平臺同意修改和同步標識匹配檢查完成后向平臺發送數據標識記錄數據包,從而使平臺進行應答修改;
54、平臺向基站發送修改數據標識知識庫的請求,并在基站同意修改后向基站發送數據標識知識庫修改數據包,從而使基站進行應答修改。
[0032]參照圖5,進一步作為優選的實施方式,所述步驟S3,其包括:
531、基站向平臺發送修改數據標識數據庫的請求;
532、平臺發出同意修改請求的響應;
533、基站接收到同意響應后向平臺發送同步標識為last的數據標識數據包M;
534、平臺檢查數據包M是否與平臺同步數據庫中的同步標識為last的數據匹配,若是則執行步驟S35,反之,則順序執行步驟S36?S38 ;
535、基站向平臺傳輸同步標識為next的數據包及其后的數據,然后結束同步過程;
536、服務器向基站發送平臺同步標識為last的數據包L;
537、基站在基站同步數據庫中搜索與數據包L匹配的數據記錄,并把搜索到的匹配數據的同步標識修改為last,同時基站把下一時刻數據記錄的同步標識修改為next ;
538、基站向平臺傳輸同步標識為next的數據標識記錄數據包R及其后的數據,然后結束同步過程。
[0033]其中,服務器設置在平臺上。
[0034]參照圖6,進一步作為優選的實施方式,所述步驟S4,其包括:
541、平臺向基站發送修改數據標識知識庫的請求;
542、基站發出同意修改的響應;
543、平臺在接收到同意的響應后向基站發送數據標識知識庫修改數據包;
544、平臺通知基站數據包發送完畢,基站應答;
545、基站根據修改數據包修改基站的數據標識知識庫。
[0035]參照圖7,環境自動監測網絡的數據異常值標識系統,包括:
統一定義模塊,用于對環境監測網絡的數據標識體系進行統一定義,從而得到來源類型標識、模式標識、模式跟蹤數據標識、演繹標識和刪除標識的數據結構;
識別和同步模塊,用于根據來源類型標識、模式標識、模式跟蹤數據標識、演繹標識和刪除標識的數據結構,對基站層和平臺層的異常值進行識別,并采用改進的數據標識同步算法實現基站層和平臺層異常值的同步;
所述統一定義模塊的輸出端與識別和同步模塊的輸入端連接。
[0036]下面結合說明書附圖和具體實施例對本發明作進一步詳細說明。
[0037]實施例一
本實施例對本發明數據標識的數據結構進行介紹。
[0038]出于對環境監測網絡的數據審核工作整體性和相對性的考量,本發明通過基站系統自動識別、基站人工審核和實時數據平臺的專家識別、平臺人工審核這四個來源重新統一定義環境監測網絡的數據標識體系,以提高數據審核效率和降低出錯率。
[0039]本發明的數據標識包括:
(一)來源類型標識
為了克服傳統數據標識體系沒有對數據標識的來源進行區分的缺陷,本發明定義了來源類型標識,能很好地區分每種數據標識的來源,方便數據審核工作溯源,并能根據數據來源來對審核工作進行評估。
[0040]來源類型標識表示環境自動監測網絡數據標識的來源和產生方式,具體格式及定義如下表I所示:
表I來源類型標識的格式與定義
序號標識名稱具體格式定義—
網絡命令標識表示數據標識的來源是實時
網絡np Y標
1^nt 數據平臺遠程發送到基站監鍘系統自動執
* 行的命令
基站系統標識表不數據標識的來源是基站
基站殺或標
2^bs 監測系統自動運行的過程參數及由傳感器識 探測到的站房環境參數。
基站儀器自基站系統自動執行命令標識表示數據標識
3動執行命令 ad 的來源是基站監鍘系統與儀器通訊而獲得
標識的,儀器自動完成的操作。
基站人工數基站人工數據審核標識表示數據標識的來
4mo
據審核標識源是基站的現場人工數據審核工作。
實時數據平實時數據平臺標識表示數據標識的來源是
5dp
____實時數據平臺層的數據管理工作。
(二)模式標識
模式標識是指對基站自動監測網絡各種形式的信息進行表征、描述和分類的數據標識,由信息名稱的英文或漢語拼音的第一個字母的縮寫組成。模式標識可分為:
(I)監測數據狀態標識監測數據狀態標識的具體格式為:
污染物監測濃度數據超儀器上限一+ ;濃度數據超下限--;
有效統計數據不足——H ;數據前向標識一一Q (2)質控質保任務標識質控質保任務標識反映了技術人員對基站監測系統進行質控質保任務時對監測數據的影響,實際應用時需根據具體的監測對象作相應的調整,下面以地表水自動監測為例,其質控質保任務標識的格式為:
標樣值-SV ;空白試驗-bt ;空白試驗不及格-btf ;
標樣核查——sc ;標樣核查不及格——scf ;加標回收——ra ;
加標回收不及格-raf ;校零-cz ;校標-Cs ;
線性檢查——Ii ;線性檢查不及格——Iif0
[0041](3)基站監測系統及儀器故障標識
基站監測系統及儀器故障標識反映了基站監測系統運行過程中系統本身及周圍環境的故障問題,應根據具體的監測對象作相應的調整,下面以地表水自動監測為例,其基站監測系統及儀器故障標識的格式為:電源故障——p(國標);維護——M(國標);儀器故障——D(國標);通訊故障(或數據采集失敗)——C ;儀器離線——S;
缺試劑-1r (lack reagent);缺純水-1p (字母I);
缺水樣一Iw (字母I);缺標樣一Is (字母I);取水點無水樣一Z
(三)模式跟蹤數據標識
模式跟蹤數據標識是一種全新的數據標識結構,僅在基站自動監測系統產生。它不僅記錄了基站自動監測系統的監測數據所面臨的監測環境情況或所進行的質控質保的具體任務,還對監測環境情況的特征或質控質保任務的數值進行深層挖掘。
[0042]本發明根據數據的管理理念和核心思想將模式跟蹤數據標識分為結果導向和過程導向這兩種。對于基站系統自動運行和一些不可預測的環境因素留下的數據標識記錄,應以結果為導向(結果一原因)進行管理,分析其產生的根本原因;而對于基站由人工組織執行的質控質保工作,有一套標準具體化的工作流程,對該類操作產生的數據標識,應以流程為導向(過程一結果)進行管理。故本發明提出了模式跟蹤數據標識兩種數據結構及相應的產生流程。
[0043]1、結果導向標識
(I)數據結構
結果導向標識的格式為:模式標識(特征標識I,特征標識2……特征標識η) /來源類型標識。
[0044]其中,特征標識1,特征標識2……特征標識η等的默認值為空。
[0045]特征標識是基站監測系統開發者定義的關于系統、儀器的狀況標識(故障等)或基站采集系統的環境狀況(天氣因素、水文等),不同基站監測系統開發者可有不同的定義。
[0046](2)結果導向模式跟蹤數據標識的具體產生過程結果導向模式跟蹤數據標識的具體產生過程為:
a.選擇結果導向標識的數據結構。
[0047]b.把代表結果(或結論)的模式標識、以及與該模式標識關聯的特征標識I至特征標識η導入到選擇的數據結構中。
[0048]2、過程導向標識
(I)數據結構
過程導向標識的數據結構為:模式標識(數值基準標識1,數值過程標識I……數值基準標識1,數值過程標識m)/來源類型標識。
[0049]其中,數值基準標識I,數值過程標識I……數值基準標識I,數值過程標識m等的默認值為空。
[0050]數值基準標識是執行質控任務時所采用標準樣品的濃度值,空白試驗時為O。
[0051]數值過程標識是執行質控任務時監測儀器測標準樣品時所得的結果濃度值。
[0052](2)過程導向模式跟蹤數據標識的具體產生過程過程導向模式跟蹤數據標識的具體產生過程為:
a.選擇過程導向標識的數據結構。
[0053]b.把代表過程的模式標識、以及該模式標識產生過程的基準標識1,數值過程標識I……數值基準標識1,數值過程標識m導入到這個數據結構中。
[0054]c.將數值過程標識m按數據標識產生過程的時間先后順序排列。
[0055](四)演繹標識
演繹標識,顧名思義,它不是由具體監測的環境變量結果或由設定的監測閥值一步推斷得到的結果,而是通過統計學、數據挖掘等理論,對海量監測數據中的異常值進行識別而得到的,其數據格式為:演繹標識/來源類型標識。
[0056](五)刪除標識——del
刪除標識表示監測數據不能參與統計。可用于以下情況:
擁有刪除權限的數據管理人員經各種途徑判定該數據無效,或數據實時平臺對超出設定監測閥值的異常值直接刪除。
[0057]刪除標識的具體數據格式為:刪除標識/來源類型標識。
[0058]實施例二
參照圖8,本發明的第二實施例:
本發明環境自動監測網絡數據標識系統按數據標識產生的流程分為基站層、基站一平臺數據標識同步傳輸層、平臺層。
[0059]基站層包括基站數據標識知識庫、基站數據庫、數據標識更新模塊、基站同步數據庫。基站數據庫保存了基站監測系統所有原始數據和數據標識的記錄。基站數據標識知識庫提供了環境自動監測網絡數據標識的知識存儲、提取、檢索及應用服務;數據標識更新模塊可調用數據標識知識庫的知識,診斷基站監測系統的數據并賦予數據標識,同時把更新后的數據標識存入基站數據庫和基站同步數據庫。基站同步數據庫保存了尚未上傳到平臺,需要同步的環境自動監測網絡數據標識。
[0060]基站一平臺數據標識同步傳輸層包括基站同步傳輸模塊和平臺同步傳輸模塊。基站同步傳輸模塊和平臺同步傳輸模塊遵循約定的數據包格式及同步方法,保證基站的數據標識的變化能同步更新到平臺的數據庫中。
[0061]平臺層包括平臺同步數據庫、平臺異常值識別模塊、平臺數據標識知識庫和平臺數據庫。平臺同步數據庫保存最近從基站獲取的更新數據標識,并存入到平臺數據庫中。平臺數據標識知識庫保存環境監測網絡的數據標識方案最新修改的版本,并及時對基站數據標識知識庫進行更新。平臺異常值識別模塊包括服務器軟件自動識別和人工審核兩部分,負責對網絡內的監測數據進行最終的審核。
[0062]實施例三
本實施例對基站層異常值標識技術進行說明。
[0063]基站環境監測系統是監測網絡所有數據的發源地,也是數據審核的第一道防線,整合基站層異常值標識技術內容,包括基站系統異常值自動識別和基站人工識別,是數據審核最重要的環節,本發明基站層異常值標識的實現過程為:
1、基站監測系統識別到異常數據信號,該信號可來自系統自動感知或基站值守人員的人工輸入。
[0064]2、基站監測系統把監測數據轉換成計算機可識別的數據信號。
[0065]3、數據標識更新模塊提取數據標識知識庫的數據,看是否和異常信號相匹配,如不匹配結束流程。
[0066]4、數據標識更新模塊判斷屬于哪類型的數據標識,并執行相應的數據標識賦予流程。
[0067]5、把新賦予的數據標識記錄存入基站數據庫和同步數據庫。
[0068]實施例四
本實施例對本發明的數據標識同步方法實現過程進行介紹。
[0069]本發明對現有的數據標識同步算法進行了改進,提出了數據標識通訊包、同步標識、沖突策略及同步方法等技術,來保證平臺層能同步更新和對基站層數據標識的修改。
[0070](一)通訊模式
基站自動監測系統與實時數據平臺通信基于TCP/IP協議以及Socket進程通信機制。Socket通信的主要模式是客戶端/服務器端(Client / Server),這里基站自動監測系統相當于客戶端,實時數據平臺的服務器進程屬于服務器端。實時數據平臺的服務器進程初始化Socket,然后與端口綁定(bind),監聽端口(listen),調用accept阻塞,等待基站自動監測系統連接。基站自動監測系統如需通信,發起一個Socket,然后連接到服務器(connect),如果連接成功,基站自動監測系統與實時數據平臺通信的連接可成功建立。基站自動監測系統與實時數據平臺建立連接后,就可以發送和接收數據了。
[0071]客戶端向服務器傳達發送數據請求,服務器接收請求并確認準備接收,并在處理該請求的響應數據后將其發送到客戶端,客戶端讀取數據,最后關閉連接即可完成一次交互。
[0072](二)數據通訊包結構
本發明的數據通訊包包括數據標識記錄數據包和數據標識知識庫修改數據包。其具體格式為:
1、數據標識記錄數據包格式為:
包頭標識數據時間基站編號污染物類別環境自動監測網絡數據標識污染物監測值數據包長度校驗碼域包尾標識
2、數據標識知識庫修改數據包格式為:
包頭標識舊環境自動監測網絡數據標識格式新環境自動監測網絡數據標識格式數據包長度校驗碼域包尾標識
其中,包頭標識和包尾標識是為了方便封包、拆包和后期對數據包進行解析處理。在設計包頭和包尾標識時需避免和真實數據重合,本發明設計的包頭標識為###,包尾標識為
&&&G
[0073]而數據時間需具體到秒,如2014年06月08日01時00分00秒,表示為20140608010000。
[0074]校驗碼目的是為了驗證接收到的數據與發送方發出的數據是否相同,這里采用循環冗余校驗(CRC)算法。
[0075](三)沖突處理策略
在服務器和客戶端的數據庫中修改相同的數據項,可能會產生沖突。為避免數據源和目的數據同步時發生數據沖突,本發明制定了如下沖突處理策略:
若數據標識知識庫以服務器端為主,當發生同步數據沖突時,則根據服務器端數據來更新基站數據庫數據。
[0076]若數據標識數據庫以客戶端為主,當發生同步數據沖突時,則根據基站數據來更新服務器端數據庫數據。
[0077](四)同步標識
基站和平臺的實時數據庫有兩種同步標志Last和Next,總是在同步發起時被傳送。Last同步標志從發送設備的角度描述了上一個數據庫同步中的數據記錄,Next同步標志從發送設備的角度描述了當前的同步事件。正常情況下,基站和平臺同步數據庫里同步標識為last的數據記錄是一致的。
[0078](五)基站一平臺實現數據標識一致性的同步算法本發明基站一平臺實現數據標識一致性的同步算法包括:
1、基站一平臺兩端數據標識數據庫同步算法
基站一平臺兩端數據標識數據庫同步算法包括:
(O基站同步傳輸模塊與平臺同步傳輸模塊建立socket連接,兩端準備傳輸和接收數據。
[0079](2)基站向平臺發送修改數據標識數據庫的請求。
[0080](3)平臺發出同意修改的響應。
[0081](2)基站向平臺發送同步標識為last的數據標識數據包A。
[0082](3)平臺檢查數據包A是否與平臺同步數據庫的同步標識為last的數據匹配。
[0083](4)如果基站和平臺同步標識為last的數據記錄匹配,則平臺應答允許傳輸,此時基站向平臺傳輸同步標識為next的數據包及其后的數據。
[0084](5)如果基站和平臺同步標識為last的數據記錄不匹配,則服務器向基站發送平臺同步標識為last的數據包B。
[0085](6)基站在基站同步數據庫搜索與數據包B匹配的數據記錄,并把其同步標識改為last,同時把下一時刻的數據記錄的同步標識改為next。
[0086](7)基站向平臺傳輸同步標識為next的數據包C及其后的數據。
[0087]2、基站一平臺兩端數據標識知識庫同步算法
基站一平臺兩端數據標識知識庫同步算法的實現過程為:
(O平臺同步傳輸模塊與基站同步傳輸模塊建立socket連接,兩端準備傳輸和接收數據。
[0088](2)平臺向基站發送修改數據標識知識庫的請求。
[0089](3)基站發出同意修改的響應。
[0090](4)平臺向基站發送數據標識知識庫修改數據包。
[0091](5)平臺通知基站數據包發送完畢,基站應答。
[0092](6)基站根據修改數據包修改基站的數據標識知識庫。
[0093]實施例五本實施例對平臺層異常值數據標識技術的實現過程進行說明。
[0094]本發明提出了平臺異常值數據識別的完整算法,能很好地對負值、超出儀器量程范圍的值、連續不變的值、基于箱線圖統計方法判別為離群值的數據進行識別,同時能很好地容納統計學理論在平臺異常值自動識別的運用。
[0095]當所有基站的數據上傳到數據平臺后,為確保網絡內監測數據的真實性,避免基站層數據審核工作失誤帶來的影響,應對平臺層匯總的監測數據作最后的數據審核,對其中的異常數據進行識別和剔除,以提高數據質量。
[0096]本發明的平臺異常值數據標識技術主要針對的異常值包括:負值、超出儀器量程范圍的值、連續不變的值、基于箱線圖統計方法判別為離群值的數據。
[0097]本發明的平臺層異常值數據標識流程為:
1、平臺自動掃描監測數據中包含的不合理值,并賦予刪除標識。
[0098]2、平臺自動掃描監測數據中包含的連續4次以上不變的數據,并賦予演繹標識outlier。
[0099]3、平臺自動從當前時間往前追溯,取監測連續的X個監測值(根據當地質控工作要求規范,以當基站儀器出現故障時,維修人員I小時內必須趕到現場維護的條例為依據,y〈X〈3y,例如X取24的倍數)。
[0100]4、平臺自動算出這X個監測值的下四分位數Q1,中位數Q2,上四分位數。
[0101]5、平臺自動計算四分位距IQR=Q3 — Ql。
[0102]6、平臺自動判斷:設在這X個監測值中任一值為Tx,若(Q3 + 3IQR)>Tx>( Q3 +1.5IQR)或(Ql — 3IQR)<Tx<(Ql-1.5IQR)時,則認定為溫和的異常值,賦予Tx演繹標識mild outliers ;當Tx> (Q3 + 3IQR)或Tx〈(Q3 — 3IQR)時,則認定為極端的異常值,賦予Tx 演擇標識 extreme outliers。
[0103]7、平臺數據管理人員對含有演繹標識的數據進行人工審核,如確認為真實的異常值,則為該數據賦予刪除標識,同時取消該數據的演繹標識。
[0104]實施例六
本發明環境自動監測網絡的數據標識法則為:
(一)為保障環境自動監測網絡數據的真實性,避免人為篡改、偽造監測數據,基站監測系統和實時數據平臺均只允許數據管理人員進行添加數據標識和刪除數據等兩種數據審核操作,不允許手工修改數據。
[0105](二)演繹標識僅代表了理論推導結果,以輔助數據實時平臺數據管理人員識別異常數據,被賦予演繹標識的數據,如在平臺人工審核的過程中沒有予以確認是真實的異常值,仍能參與平臺的數據統計及其它數據應用。。
[0106](三)刪除標識僅表示監測數據被數據實時平臺宣告數據無效,不參與數據統計,但監測數據實質沒有被刪除,仍存在基站自動監測系統和數據實時平臺的數據庫里。
[0107](四)數據標識全部采用英文字母和數字。
[0108]以上是對本發明的較佳實施進行了具體說明,但本發明創造并不限于所述實施例,熟悉本領域的技術人員在不違背本發明精神的前提下還可做作出種種的等同變形或替換,這些等同的變形或替換均包含在本申請權利要求所限定的范圍內。
【權利要求】
1.環境自動監測網絡的數據異常值標識方法,其特征在于:包括: A、根據基站系統自動識別、基站人工審核和實時數據平臺的專家識別、平臺人工審核這四個數據來源對環境監測網絡的數據標識體系進行統一定義,從而得到來源類型標識、模式標識、模式跟蹤數據標識、演繹標識和刪除標識的數據結構; B、根據來源類型標識、模式標識、模式跟蹤數據標識、演繹標識和刪除標識的數據結構,對基站層和平臺層的異常值進行識別,并采用改進的數據標識同步算法實現基站層異常值和平臺層異常值的同步。
2.根據權利要求1所述的環境自動監測網絡的數據異常值標識方法,其特征在于:所述來源類型標識根據數據的來源進行定義,包括網絡命令標識、基站系統標識、基站儀器自動執行命令標識、基站人工審核標識、實時數據平臺標識;所述模式標識用于對基站自動監測網絡各種形式的信息進行表征、描述和分類,由信息名稱的英文或漢語拼音的第一個字母的縮寫組成,包括監測數據狀態標識、質控質保任務標識和基站監測系統及儀器故障標識;所述刪除標識,用于表示不能參與統計的監測數據,具體數據格式為:刪除標識/來源類型標識。
3.根據權利要求2所述的環境自動監測網絡的數據異常值標識方法,其特征在于:所述模式跟蹤數據標識包括結果導向標識和過程導向標識, 所述結果導向標識的數據結構為:模式標識(特征標識1,特征標識2,……,特征標識η) /來源類型標識;所述結果導向標識的生成過程為:選擇結果導向標識的數據結構,然后把代表結果的模式標識、以及與該模式標識相關聯的特征標識I到特征標識η導入到選擇的數據結構中;其中,特征標識是指基站監測系統開發者定義的關于系統、儀器的狀況標識或基站采集系統的環境狀況標識,特征標識1,特征標識2,……,特征標識η是指與代表結果的模式標識相關聯的特征標識; 所述過程導向標識的數據結構為:模式標識(數值基準標識I,數值過程標識1,……,數值基準標識I,數值過程標識m)/來源類型標識;所述過程導向標識的生成過程為:選擇過程導向標識的數據結構;然后把代表過程的模式標識、以及與該模式標識產生過程相關聯的基準標識I,數值過程標識I……數值基準標識1,數值過程標識m導入到選擇的數據結構中; 其中,基準標識是指執行質控任務時所采用標準樣品的濃度值,數值過程標識是執行質控任務時監測儀器測標準樣品所得的結果濃度值,數值過程標識1,數值過程標識2,……,數值過程標識m是指與代表過程的模式標識相關聯的數值過程標識,且數值過程標識m按數據標識產生過程的時間先后順序排列。
4.根據權利要求2所述的環境自動監測網絡的數據異常值標識方法,其特征在于:所述演繹標識是指容納統計學理論異常值識別方法的標識,具體數據格式為:演繹標識/來源類型標識;所述演繹標識并不參與數據統計,只用于反映和記錄計算機智能診斷出來的異常值,若人工診斷確認該異常值為真實的異常值,演繹標識會自動轉為刪除標識。
5.根據權利要求1所述的環境自動監測網絡的數據異常值標識方法,其特征在于:所述步驟B中根據來源類型標識、模式標識、模式跟蹤數據標識、演繹標識和刪除標識的數據結構,對基站層異常值進行識別這一步驟,其包括: B11、對基站層數據進行監測,從而獲得異常數據信號; B12、將異常數據信號轉換成計算機可識別的數據信號; B13、將轉換后的異常數據信號與數據標識知識庫的數據進行匹配,判斷數據標識知識庫是否存在與異常數據信號相匹配的數據,若是,則執行步驟B14,反之,則結束基站層異常值識別流程; B14、判斷異常數據信號所屬的數據標識類型,并根據判斷結果執行相應的數據標識賦予流程; B15、將新賦予的數據標識記錄存入基站數據庫和同步數據庫。
6.根據權利要求5所述的環境自動監測網絡的數據異常值標識方法,其特征在于:所述步驟B中根據來源類型標識、模式標識、模式跟蹤數據標識、演繹標識和刪除標識的數據結構,對平臺層異常值進行識別這一步驟,其包括: B21、從平臺數據庫中提取監測數據,判斷提取的數據是否包含不合理的值,若是,則為提取的數據賦予刪除標識,反之,則執行步驟B22,所述不合理的值是指負值、超出儀器量程范圍的值、連續不變的值或基于箱線圖統計方法判別為離群值的數據; B22、判斷提取的數據是否包含連續4次以上的不變值,若是,則為提取的數據賦予演繹標識,反之,則執行步驟B23 ; B23、自當前時刻開始往前追溯,從監測數據中獲取連續的X個監測值,其中,X為預設的數值,且滿足y < X < 3y,y為維修人員在基站儀器發生故障時趕到現場進行維護的最長允許時間; B24、對獲取的X個監測值進行計算,從而得到這X個監測值的下四分位數Q1、中位數Q2、上四分位數Q3和四分位距IQR,所述X個監測值的四分位距IQR的計算公式為:IQR=Q3 — Ql ; B25、根據計算的結果自動對X個監測值的異常值進行識別,并為識別出的異常值賦予相應的演繹標識; B26、對含有演繹標識的監測數據進行人工審核,若確認監測數據為異常值,則將監測數據的演繹標識取消,并重新為監測數據賦予刪除標識。
7.根據權利要求5所述的環境自動監測網絡的數據異常值標識方法,其特征在于:所述步驟B中采用改進的數據標識同步算法實現基站層和平臺層異常值的同步這一步驟,其包括: 51、基站與平臺建立socket連接; 52、判斷是否需要同步數據標識數據庫,若是,則執行步驟S3,反之,則執行步驟S4; 53、基站向平臺發送修改數據標識數據庫的請求,并在平臺同意修改和同步標識匹配檢查完成后向平臺發送數據標識記錄數據包,從而使平臺進行應答修改; 54、平臺向基站發送修改數據標識知識庫的請求,并在基站同意修改后向基站發送數據標識知識庫修改數據包,從而使基站進行應答修改。
8.根據權利要求7所述的環境自動監測網絡的數據異常值標識方法,其特征在于:所述步驟S3,其包括: 531、基站向平臺發送修改數據標識數據庫的請求; 532、平臺發出同意修改請求的響應; 533、基站接收到同意響應后向平臺發送同步標識為last的數據標識數據包Μ; 534、平臺檢查數據包M是否與平臺同步數據庫中的同步標識為last的數據匹配,若是則執行步驟S35,反之,則順序執行步驟S36?S38 ; 535、基站向平臺傳輸同步標識為next的數據包及其后的數據,然后結束同步過程; 536、服務器向基站發送平臺同步標識為last的數據包L; 537、基站在基站同步數據庫中搜索與數據包L匹配的數據記錄,并把搜索到的匹配數據的同步標識修改為last,同時基站把下一時刻數據記錄的同步標識修改為next ; 538、基站向平臺傳輸同步標識為next的數據標識記錄數據包R及其后的數據,然后結束同步過程。
9.根據權利要求7所述的環境自動監測網絡的數據異常值標識方法,其特征在于:所述步驟S4,其包括: 541、平臺向基站發送修改數據標識知識庫的請求; 542、基站發出同意修改的響應; 543、平臺在接收到同意的響應后向基站發送數據標識知識庫修改數據包; 544、平臺通知基站數據包發送完畢,基站應答; 545、基站根據修改數據包修改基站的數據標識知識庫。
10.環境自動監測網絡的數據異常值標識系統,其特征在于:包括: 統一定義模塊,用于對環境監測網絡的數據標識體系進行統一定義,從而得到來源類型標識、模式標識、模式跟蹤數據標識、演繹標識和刪除標識的數據結構; 識別和同步模塊,用于根據來源類型標識、模式標識、模式跟蹤數據標識、演繹標識和刪除標識的數據結構,對基站層和平臺層的異常值進行識別,并采用改進的數據標識同步算法實現基站層和平臺層異常值的同步; 所述統一定義模塊的輸出端與識別和同步模塊的輸入端連接。
【文檔編號】G06F17/30GK104135521SQ201410367544
【公開日】2014年11月5日 申請日期:2014年7月29日 優先權日:2014年7月29日
【發明者】黎如昊, 肖文, 向運榮, 張苒 申請人:廣東省環境監測中心