本發明涉及數據處理,具體涉及異常數據檢測方法及裝置。
背景技術:
1、隨著工業、物聯網和科技的快速發展,各大企業開始大量使用傳感器等設備監控設備和系統,這些設備不斷產生海量數據。從海量數據中提取主要指標進行異常檢測,是防止事故發生和減小經濟損失的重要手段。異常檢測是識別意外項目或事件的重要過程,是數據挖掘過程的重要任務。通過數據挖掘能夠進一步提高設備安全性、保障用戶使用體驗、延長設備壽命、降低維修成本。
2、相關技術中的異常檢測方案主要針對工業生產設備故障、金融分析等技術領域,并且異常檢測方案主要用于檢測個別用例,通常異常數據是個別數據。然而燃氣熱水器等家用場景下的設備工況數據存在較多異常數據,并且該場景下的數據多為無標注數據或者是異常點不足以標注并進行異常檢測模型訓練的數據,與相關技術中異常檢測所適用的技術領域數據具有較大的差別。因此,相關技術的異常檢測方法不適用于燃氣熱水器等家用場景下設備工況數據的異常檢測。
技術實現思路
1、有鑒于此,本發明提供了一種異常數據檢測方法及裝置,以解決相關技術的異常檢測方法不適用于燃氣熱水器等家用場景下設備工況數據的異常檢測的問題。
2、第一方面,本發明提供了一種異常數據檢測方法,方法包括:
3、獲取設備運行數據,設備運行數據包括帶標簽的源域數據和需求進行異常檢測的無標簽的目標域數據;
4、采用深度卷積自動編碼器提取設備運行數據的低維特征;
5、將低維特征重構映射至設備運行數據的原始輸入空間,得到重構特征;
6、根據重構特征,確定深度卷積自動編碼器的重構誤差;
7、確定源域數據和目標域數據的最大均值誤差;
8、確定設備運行數據的非線性預測誤差;
9、根據重構誤差、最大均值誤差和非線性預測誤差,確定判定數據異常的決策閾值;
10、基于決策閾值,檢測目標域數據中的異常數據。
11、本發明實施例異常數據檢測方法,對設備運行數據進行重構得到重構,并確定重構過程中采用的深度卷積自動編碼器的重構誤差,確定源域數據和目標域數據的最大均值誤差以及設備運行數據的非線性預測誤差,從而根據重構誤差、最大均值誤差和非線性預測誤差,確定判定數據異常的決策閾值,并基于決策閾值,檢測目標域數據中的異常數據。由此,對于多是無標注數據或異常點不足的燃氣熱水器等應用場景下的數據分布異常問題,通過域自適應方法,采用最大均值誤差,拉進源域數據和目標域數據之間特征分布,從而有效減少數據間的分布差異問題,有效識別和檢測燃氣熱水器等應用場景下的異常數據,提高燃氣熱水器等設備的安全性,顯著提升用戶體驗。
12、在一種可選的實施方式中,在采用深度卷積自動編碼器提取設備運行數據的低維特征之前,方法還包括:
13、對設備運行數據進行數據預處理;
14、數據預處理包括以下至少之一:清洗、去除噪聲和標準化處理。
15、本發明實施例異常數據檢測方法,通過對設備運行數據進行清洗、去除噪聲和標準化處理等數據預處理,有效提升原始數據的有效性,避免明顯的冗余數據對數據異常檢測結果的影響。
16、在一種可選的實施方式中,采用深度卷積自動編碼器包括編碼器和解碼器,編碼器采用如下公式(1)提取設備運行數據的得到低維特征:
17、ze=e(x)???(1)
18、其中,ze表示低維特征;
19、x是設備運行數據的數據時間序列表示。
20、本發明實施例異常數據檢測方法,采用深度卷積自動編碼器提取設備運行數據的低維特征,深度卷積自動編碼器通過多個卷積層提取局部特征,每個池化層提取特征圖譜每個片段最大值,生成更小的特征圖,保留更重要的信息,為實現對設備運行數據進行重構提供有效的輸入數據。
21、在一種可選的實施方式中,將低維特征重構映射至設備運行數據的原始輸入空間,得到重構特征,包括:
22、采用如下公式(2),通過解碼器,得到重構特征:
23、x′=d(ze)?????????????????????(2)
24、其中,x′表示重構特征;
25、ze表示低維特征。
26、在一種可選的實施方式中,根據重構特征,確定深度卷積自動編碼器的重構誤差,包括:
27、采用如下公式(3),確定重構誤差:
28、
29、其中,lr表示重構誤差;
30、x是設備運行數據的數據時間序列表示;
31、x′表示重構特征;
32、為弗羅貝尼烏斯范數的平方。
33、在一種可選的實施方式中,確定源域數據和目標域數據的最大均值誤差,包括:
34、將源域和目標域的數據投影至希爾伯特空間中;
35、采用如下公式(4),確定最大均值誤差:
36、
37、其中,mmd定義了一個特征映射即x空間映射投影至再生核希爾伯特空間h;
38、假設在空間x上,z為低維特征的在空間中的分布,pz為特征表示z(i)在再生核希爾伯特空間h目標的高斯分布;lmmd(z,pz)為這兩個分布的最大均值誤差;
39、為低維特征表示;
40、表示將低維特征z(i)映射到希爾伯特空間的表示;
41、給定潛在表示其中,d是一個潛在空間,v為一個迭代周期的所有時間步長,為v×d維度的實數集。
42、本發明實施例異常數據檢測方法,采用域適應最大均值差異,使得源域數據和目標域數據的數據特征分布進一步拉近,縮小了設備運行數據的類間距離。同時,將源域和目標域的數據投影至希爾伯特空間中,保留了更多的非線性信息。
43、在一種可選的實施方式中,確定設備運行數據的非線性預測誤差,包括:
44、基于帶注意力機制的雙向長短期記憶,采用如下公式(5),確定設備運行數據的非線性預測誤差:
45、
46、其中,ln表示非線性預測誤差;
47、zv為雙向長短期記憶的給定輸入;
48、yv為雙向長短期記憶的隱藏狀態輸出;
49、為弗羅貝尼烏斯范數的平方;
50、yv=∑vav*yv′,其中,a為權重矩陣。
51、本發明實施例異常數據檢測方法,利用帶注意力機制的雙向長短期記憶學習設備運行數據的時間序列中時間相關的整體和局部上下文信息,從而解決燃氣熱水器等家用場景下設備運行數據的時間序列隨時間發生多樣化變化的問題。最大程度保留設備運行數據的原始信息的基礎上確定設備運行數據的非線性預測誤差。從而在其他操作中結合該非線性預測誤差,更加準確的確定判定數據異常的決策閾值。
52、在一種可選的實施方式中,根據重構誤差、最大均值誤差和非線性預測誤差,確定判定數據異常的決策閾值,包括:
53、基于重構誤差、最大均值誤差和非線性預測誤差,構建目標函數;
54、利用梯度下降法進行模型訓練,迭代更新目標函數的參數,直至目標函數收斂,得到判定數據異常的決策閾值。
55、本發明實施例異常數據檢測方法,基于重構誤差、最大均值誤差和非線性預測誤差,構建目標函數,并利用梯度下降法進行模型訓練,迭代更新目標函數的參數,直至目標函數收斂,得到判定數據異常的決策閾值。其中重構誤差的確定過程中采用深度卷積自動編碼器,最大限度保留更重要的信息,最大均值誤差的確定過程中采用域適應最大均值差異,使得源域數據和目標域數據的數據特征分布進一步拉近,從而縮小了設備運行數據正常數據和異常數據之間的類間距離。非線性預測誤差采用帶注意力機制的雙向長短期記憶,準確計算隱藏狀態時的整體或者局部的上下文信息。由此,對設備運行數據進行多角度檢測,得到更為準確的判定數據異常的決策閾值,從而得到更為準確的異常數據檢測結果。
56、在一種可選的實施方式中,目標函數為如下公式(6)所示的函數:
57、f(σ)=lr+αlmmd+βln??????(6)
58、其中,f(σ)為目標函數;
59、lr表示重構誤差;
60、lmmd表示最大均值差異;
61、ln表示非線性預測誤差;
62、α、β為目標函數的損失函數參數。
63、第二方面,本發明提供了一種異常數據檢測裝置,裝置包括:
64、獲取模塊,用于獲取設備運行數據,設備運行數據包括帶標簽的源域數據和需求進行異常檢測的無標簽的目標域數據;
65、低維模塊,用于采用深度卷積自動編碼器提取設備運行數據的低維特征;
66、重構模塊,用于將低維特征重構映射至設備運行數據的原始輸入空間,得到重構特征;
67、重構誤差模塊,用于根據重構特征,確定深度卷積自動編碼器的重構誤差;
68、均值誤差模塊,用于確定源域數據和目標域數據的最大均值誤差;
69、預測誤差模塊,用于確定設備運行數據的非線性預測誤差;
70、決策模塊,用于根據重構誤差、最大均值誤差和非線性預測誤差,確定判定數據異常的決策閾值;
71、檢測模塊,用于基于決策閾值,檢測目標域數據中的異常數據。