麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種基于行為特征文本嵌入和遷移學習的未知Android惡意應用的檢測方法

文檔序號:41761754發布日期:2025-04-29 18:31閱讀:3來源:國知局
一種基于行為特征文本嵌入和遷移學習的未知Android惡意應用的檢測方法

本發明涉及應用檢測方法領域,具體涉及一種基于行為特征文本嵌入和遷移學習的未知android惡意應用的檢測方法。


背景技術:

1、android惡意軟件是移動設備安全的重大威脅,它們不僅威脅著用戶的個人隱私和財務安全,還會導致設備性能下降、系統崩潰和設備被遠程操控等問題。例如,2021年美國重要管道的實施被最新勒索軟件攻擊,最終以高昂的金錢損失關閉整個管道運營。截至目前,安卓惡意軟件數量總量達到了35,083,006,而新的惡意軟件在2024期間增長了631,716個。新型惡意軟件的數量呈現顯著增長趨勢的同時,真實世界涌現出大量對眾多現有檢測器而言尚屬未知的惡意軟件。因此,如何有效檢測真實世界未知惡意軟件是一個亟待解決的問題。

2、在android惡意軟件檢測領域,眾多研究工作已基于公認的數據集提出了具有優異效果的檢測方法。然而,真實世界中未知惡意軟件不斷涌現,這些方法的檢測效能存在失效風險。未知惡意軟件存在于真實世界中,它對于檢測器來說是從未學習過的知識。chen等研究發現使用一年的數據訓練惡意軟件分類器后,在面對新的測試樣本部署6個月后,該分類器的f1值從0.99迅速降到0.76。為了能夠模擬這一場景,本發明收集真實世界軟件數據集并保證該數據集中的數據未被模型學習。同時,遷移學習的應用策略為識別真實世界中未知惡意軟件提供了新穎的思路。其核心在于,將基于已有數據集構建的惡意軟件檢測模型視為一個源領域,而將針對未知應用程序的檢測任務視為一個目標領域,其間可運用遷移學習技術以有效利用源領域的知識與經驗。


技術實現思路

1、本發明要解決的技術問題是針對以上不足,提供一種基于行為特征文本嵌入和遷移學習的未知android惡意應用的檢測方法。

2、為解決以上技術問題,本發明采用以下技術方案:

3、一種基于行為特征文本嵌入和遷移學習的未知android惡意應用的檢測方法,其特征在于,包括以下步驟:

4、步驟1、建立惡意應用樣本數據集和良性應用樣本數據集;

5、步驟2、對數據集中的每個apk樣本進行特征提取,所提取的特征包括權限信息、api調用記錄以及源代碼中的url特征;

6、步驟3、設定行為描述模板,將上一步提取的權限信息、api調用記錄以及源代碼中的url特征,和對應權限和api調用的官方可解釋性文本一起插入行為描述模板中,生成行為描述特征;

7、步驟4、將所有樣本的行為描述特征通過預訓練的嵌入模型bge進行文本嵌入;

8、步驟5、計算每個惡意樣本嵌入后的文本與所有良性樣本嵌入后的文本的點積相似度,選取點積相似度最高的良性樣本作為最相似樣本,剔除每個惡意樣本的行為描述特征中與最相似樣本對應的良性行為描述特征,得到處理后的惡意應用樣本數據集;

9、步驟6、建立優化后的lstm分類模型,利用上一步得到的處理后的惡意應用樣本數據集和步驟1的良性應用樣本數據集對優化后的lstm分類模型進行訓練,得到訓練后惡意應用檢測模型,所述優化后的lstm分類模型的損失函數采用l1正則化后的損失函數;

10、步驟7、將待檢測的應用輸入惡意應用檢測模型,模型輸出檢測結果。

11、進一步的,所述步驟2中的提取方法具體包括以下步驟:

12、步驟2-1、使用apktool反編譯apk文件,獲取到原apk文件的manifest.xml文件中permissionandroid:name的信息作為該apk文件的權限特征,對于權限特征去除冗余字段和符號;

13、步驟2-2、使用apktool反編譯得到的classes.dex文件,提取apk的api調用特征和url特征,在提取api調用特征時,去除無語義性或無關的api調用,僅保留有意義的api調用信息。

14、進一步的,所述步驟3具體包括以下步驟:

15、步驟3-1、建立行為描述模板,在模板中對具有表示應用程序行為的特征構建合適的語境;

16、步驟3-2、根據官方開發者文檔,獲取與權限和api調用相關的可解釋性說明;

17、步驟3-3、將提取的特征與對應的可解釋性說明一一對應,并輸入到步驟3-1建立的行為描述模板中,生成完整的行為描述特征。

18、進一步的,所述步驟4具體包括以下步驟:

19、步驟4-1、將已知數據集中行為描述特征輸入到預訓練的嵌入模型bge中進行文本嵌入轉換為向量,其中文本嵌入的過程公式表達為:為已知數據集,xi表示數據集中的第i個樣本,n為樣本總數,用預訓練嵌入模型bgem將xi轉換為向量表示vi:vi=m(xi)for?all?i=1,2,…,n;

20、步驟4-2、對進行了文本嵌入后的樣本進行文本相似度計算,其中設惡意軟件樣本集為其中包含了m個惡意軟件樣本,良性軟件樣本集為其中包含了b個良性軟件樣本,對任意一對惡意軟件樣本和良性軟件樣本它們之間的點積相似度定義為:根據計算相似度得到最相似的惡意軟件和良性軟件對;

21、步驟4-3、針對步驟4-2中得到的最相似樣本對,將每個惡意軟件的行為描述特征與對應的最相似的良性軟件進行對比,剔除惡意樣本的行為描述特征中與最相似的良性軟件對應的良性行為描述特征。

22、進一步的,所述步驟5中,先將上一步處理后得到的惡意應用樣本數據集和步驟1的良性應用樣本數據集中的20%樣本輸入到多層堆疊自編碼器神經網絡進行樣本重構,得到重構后的數據集,再與其他未重構的數據集數據一起對優化后的lstm分類模型進行訓練。

23、本發明的有益效果為:

24、(1)本發明采用了增強模型泛化能力的訓練方法來對抗android未知惡意軟件;

25、(2)本發明設計并實現了一種基于nlp的特征優化和增強方法,通過利用文本嵌入技術將特征轉換為向量表達,并進一步通過文本相似度量算法實現了對惡意軟件易混淆特征的過濾,這顯著地降低了特征提取的使用資源并提取出了更具代表性的特征從而提高模型的檢測效果;

26、(3)本發明設計并實現了一種行為描述模板,將靜態特征更好地整合為一段完整、全面的自然語言文本,最終生成行為描述特征;

27、(4)本發明采用了l1正則化、堆疊自編碼器以增強模型的泛化能力,在模型訓練中引入l1正則化方法能夠有效促使模型在面對真實世界中的未知惡意軟件時展現出對少數幾個關鍵特征的強依賴性,而非全面依賴所有特征。sae由多個自編碼器組成,每個自編碼器的隱藏層作為下一個自編碼器的輸入層,形成多層結構,每一層都可以提取出數據的不同特征。。

28、(5)提出了一種基于行為特征文本嵌入和改進的遷移學習模型的新型方法,用于檢測真實世界中的未知android惡意軟件。該方法從目標應用程序中提取權限、api調用和url以捕獲其行為,并通過將行為特征與量身定制的行為描述模板相結合,將行為特征映射到自然語言描述中。該方法基于文本嵌入對目標應用程序的行為描述進行編碼,并計算特征文本的語義相似性,從而進一步提取影響檢測結果的關鍵特征。為了增強模型對真實世界未知惡意軟件的魯棒性,該方法在訓練階段整合了遷移學習并采用了l1正則化。

29、下面結合附圖和實例對本發明進行詳細說明。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 当阳市| 嘉禾县| 内黄县| 大方县| 延寿县| 浦城县| 黄龙县| 衡南县| 安顺市| 土默特左旗| 陇西县| 桂阳县| 连州市| 华池县| 黔东| 江山市| 昌平区| 枞阳县| 南岸区| 吉木萨尔县| 西青区| 开鲁县| 利津县| 马山县| 武穴市| 临颍县| 垫江县| 通江县| 府谷县| 叶城县| 长岭县| 武宁县| 溆浦县| 都匀市| 潮安县| 大丰市| 奉新县| 鲁山县| 清水河县| 勃利县| 呼玛县|