本發(fā)明涉及數據管理,尤其涉及一種基于大數據識別短信內容中有害信息的方法。
背景技術:
1、隨著無線通信服務的發(fā)展和完善,使得短信業(yè)務為用戶提供便捷信息的同時也為有害信息的傳播提供了途徑。特別是對于未成年人群體,面臨有害信息的恐嚇或騷擾會造成心理陰影,傳統(tǒng)的識別短信內容中有害信息方法只局限于短信文本的字面直接表述含義來判斷是否有害,難以精準識別且有效管控有害垃圾的傳播。
2、綜上所述,如何精準識別并有效管控有害信息是基于大數據識別短信內容中有害信息的方法亟待解決優(yōu)化的問題。
技術實現思路
1、本發(fā)明提供了一種基于大數據識別短信內容中有害信息的方法,解決如何精準識別并有效管控有害信息的技術問題。
2、為了解決上述技術問題,本發(fā)明提供了一種基于大數據識別短信內容中有害信息的方法,具體技術方案如下:
3、一種基于大數據識別短信內容中有害信息的方法,包括以下步驟:
4、s100,采集多種有害信息短信歷史樣本,以獲取有害信息歷史樣本集;將樣本集中的有害信息關鍵詞匯編成多種語言版本,以訓練得到信息識別模型,并輸出有害信息特征識別結果;所述信息識別模型包含第一模塊、第二模塊和第三模塊;
5、s200,將發(fā)送端實時發(fā)送的短信數據輸入到信息識別模型中;所述第一模塊接收所述短信數據進行掃描讀取,以輸出初始有害信息可疑短信數據;
6、s300,將經過第一模塊識別后的短信數據傳輸到所述第二模塊,所述第二模塊識別所述初始有害信息可疑數據中的有害信息可疑字符特征,并獲取可疑字符含義,以輸出二級有害信息可疑短信數據;
7、s400,將經過所述第二模塊識別后的短信數據輸入到第三模塊,所述第三模塊對短信數據發(fā)送端的ip地址進行追溯,以獲取短信數據發(fā)送端溯源信息,根據溯源信息以輸出最終有害信息可疑短信數據識別結果;當識別到存在有害信息的短信數據時,執(zhí)行步驟s500;
8、s500,對所述存在有害信息的短信數據進行發(fā)送特征分析,以獲取有害信息發(fā)送規(guī)則特征數據;基于所述有害信息發(fā)送規(guī)則特征數據,以獲取用戶號碼當前定義標簽數據,并對所述用戶號碼當前定義標簽進行更新,以獲取安全用戶號碼。
9、作為本發(fā)明的進一步優(yōu)化方案,采集多種有害信息短信歷史樣本,以獲取有害信息歷史樣本集;將所述有害信息歷史樣本集匯編成多種語言版本訓練得到信息識別模型,以輸出有害信息特征識別結果;所述信息識別模型包含第一模塊、第二模塊和第三模塊,包括:
10、采集各類存在有害信息的短信源歷史樣本數據,所述歷史樣本數據包含詐騙短信、恐怖血腥、色情污穢以及病毒鏈接;
11、基于所述歷史樣本數據,將所述歷史樣本數據中的存在有害信息的關鍵詞轉換成多種目標語言版本;并將多個關鍵詞的多種目標語言版本進行語義校驗,以獲取準確譯文數據集;
12、將所述準確譯文數據集,通過:si={wsim(ki,w)>α},以獲取多個關鍵詞的相似詞;式中,w表示相似詞特征參數;ki表示關鍵詞;α表示相似度閾值;基于獲得的所述多個關鍵詞的相似詞,通過:以獲取關鍵詞相似語義擴充集合;并將關鍵詞相似語義擴充集合與關鍵詞ki融合為綜合樣本集;式中,表示最終的多語言相似關鍵詞擴充集合;m表示相似關鍵詞數量;表示擴充函數;
13、將所述綜合樣本集構建成訓練集:g={n1,n2,…,ni};式中,ni表示第i個準確譯文數據項;將訓練集g輸入信息識別模型中訓練,以輸出有害信息特征識別結果。
14、作為本發(fā)明的進一步優(yōu)化方案,將發(fā)送端實時發(fā)送的短信數據輸入到信息識別模型中;所述第一模塊接收所述短信數據進行掃描讀取,以輸出初始有害信息可疑短信數據,包括:
15、將新發(fā)出的短信數據輸入到信息識別模型中,所述第一模塊對多次重現類似格式模板的短信數據進行提取,以獲取相似模板文本數據;
16、對所述相似模板文本數據d進行前置篩分,通過設定格式相似規(guī)則集合{ri}ni=1;通過遍歷短信數據中的每個模板文本tj;對每個tj模板文本數據進行格式特征分析,以獲取模板文本數據格式規(guī)則ri的匹配情況;若tj不符合ri格式規(guī)則,則保留在格式不一模板文本數據中,否則丟棄;以濾除格式統(tǒng)一的模板文本數據;所述格式統(tǒng)一模板文本數據即為初始有害信息可疑數據。
17、作為本發(fā)明的進一步優(yōu)化方案,將經過第一模塊識別后的短信數據傳輸到所述第二模塊,所述第二模塊識別所述初始有害信息可疑數據中的有害信息可疑字符特征,并獲取可疑字符含義,以輸出二級有害信息可疑短信數據,包括:
18、將所述格式不一的模板文本數據進一步讀取短信文本字符,以獲取文本中可疑字符特征數據集;所述可疑字符特征數據包含多語種誤導性字詞;
19、對每個可疑字符特征數據進行識別標注,以得到對應類別數據集;所述對應類別數據集包含將多語種字詞標注為詐騙類、暴力血腥類、色情污穢類以及恐怖類;
20、基于所述可疑字符特征數據集,將所述格式不一的模板文本數據根據上下文解析,通過:以判斷字符特征數據集的字符數據項意義可疑,式中,f(ti)表示字符數據項最終解析含義;ti表示第i個模板文本片段含義;c(ti)表示模板片段ti的推斷參數;t表示對應類別數據集;表示推斷符號;
21、基于獲取的判斷結果,通過:以獲取可疑字符存在頻率,式中,f?i表示短信數據可疑字符出現頻率;c表示可疑字符出現次數;w表示短信數據總字符數量;并對存在可疑字符的短信數據進行二級篩分,以得到二級有害信息可疑數據。
22、作為本發(fā)明的進一步優(yōu)化方案,對每個可疑字符特征數據進行識別標注,以得到對應類別數據集;所述對應類別數據集包含將多語種字詞標注為詐騙類、暴力血腥類、色情污穢類以及恐怖類,包括:
23、基于所述對應類別數據集,對短信中的可疑字詞進行抓取,并使短信數據中可疑字詞與對應類別數據集進行匹配,以獲取匹配數據集;基于所述匹配數據集,以建立未成年人敏感詞庫;
24、基于所述未成年人敏感詞庫,對未成年人敏感詞庫中敏感詞或不當詞語替換為安全且適宜未成年人的潛代詞,以得到潛代詞數據集;
25、通過將短信數據中存在的可疑字詞與潛代詞數據集進行比對,并判斷潛代詞的可疑度,以分析可疑潛代詞的有害風險,以得到風險短信信息;
26、將所述風險短信信息與未成年人敏感詞庫中敏感詞進行相似度檢測,以判定短信數據中的潛代詞為有害信息數據。
27、作為本發(fā)明的進一步優(yōu)化方案,將所述風險短信信息與未成年人敏感詞庫中敏感詞進行相似度檢測,以判定短信數據中的可疑字詞為有害信息數據,包括:
28、根據所述相似度檢測,以獲取未成年敏感詞匹配度;基于所述匹配度,對所述風險短信信息進一步模糊匹配分析,以獲取準確匹配數據;
29、基于準確匹配數據,判定短信數據中的潛代詞為有害信息數據,并設置信息反饋通道;
30、基于所述反饋通道,及時反饋不當信息并對反饋信息自動歸類和優(yōu)先級排序,以更新未成年人敏感詞庫得到反饋結果。
31、作為本發(fā)明的進一步優(yōu)化方案,將經過所述第二模塊識別后的短信數據輸入到第三模塊,所述第三模塊對短信數據發(fā)送端的ip地址進行追溯,以獲取短信數據發(fā)送端溯源信息,根據溯源信息以輸出最終有害信息可疑短信數據識別結果,包括:
32、根據所述短信數據發(fā)送的元數據追溯ip地址;所述元數據包含發(fā)送號碼前八位、http請求頭以及短信鏈接的域名備案信息;
33、基于所述元數據,以獲取短信數據的ip地址,當短信ip地址為境外地址,則有害信息可疑程度高;并進一步結合短信數據文本信息進行判斷;當文本信息識別出關于錢財和人身安全字眼時,及時向所述接收端的用戶號碼發(fā)出警惕信息;以識別最終有害信息可疑短信數據。
34、作為本發(fā)明的進一步優(yōu)化方案,對所述存在有害信息的短信數據進行發(fā)送特征分析,以獲取有害信息發(fā)送規(guī)則特征數據;基于所述有害信息發(fā)送規(guī)則特征數據,以獲取用戶號碼當前定義標簽數據,并對所述用戶號碼當前定義標簽進行更新,以獲取安全用戶號碼,包括:
35、將存在有害信息的短信數據發(fā)送時間、發(fā)送用戶信息以及發(fā)送內容進行統(tǒng)計,以獲取有害信息發(fā)送特征數據;
36、基于所述有害信息發(fā)送特征數據,對頻繁接收有害信息的用戶號碼進行使用行為分析,所述用戶號碼使用行為包含:瀏覽、讀取、發(fā)送及接收短信數據;以獲取使用行為安全性分析數據;
37、基于使用行為安全性分析數據,以得到有害信息發(fā)送規(guī)則特征數據;根據所述有害信息發(fā)送規(guī)則特征數據,以獲取用戶號碼當前定義標簽數據;對所述用戶號碼當前定義標簽數據進行更新,以獲取安全用戶號碼。
38、作為本發(fā)明的進一步優(yōu)化方案,根據所述有害信息發(fā)送規(guī)則特征數據,以獲取用戶號碼當前定義標簽數據,包括:
39、根據所述使用行為安全性分析數據,通過:以獲取用戶號碼使用異常度;式中,du表示用戶號碼使用異常度;fu表示用戶接收到的有害信息頻率,即在時間窗口h內接收到的有害短信數量;μ表示所有用戶接收到的有害信息的平均頻率;σ表示所有用戶接收到有害信息頻率的標準差;
40、設定預設閾值范圍,將用戶號碼使用異常度du與預設閾值范圍進行比較,基于比較結果,以判斷用戶號碼使用行為為正常行為或異常行為;
41、根據用戶號碼的使用行為,對用戶號碼進行標簽定義,以獲取用戶號碼當前定義標簽數據;所述用戶號碼當前定義標簽數據包含正常和異常兩種標簽。
42、作為本發(fā)明的進一步優(yōu)化方案,對所述用戶號碼當前定義標簽數據進行更新,以獲取安全用戶號碼,包括:
43、基于所述用戶號碼當前定義標簽數據,獲取用戶號碼所用系統(tǒng)平臺的登錄信息、購買行為、瀏覽記錄或互動記錄,以獲取標簽來源數據集;
44、基于所述標簽來源數據集,提供用戶選擇性清洗標簽提示;以使用戶將當前定義標簽數據進行清理更新,以得到初始化定義標簽;
45、基于所述初始化定義標簽,以使當前用戶號碼為安全號碼。
46、本發(fā)明至少存在以下有益效果:本發(fā)明通過采集多種有害信息短信歷史樣本,可以構建一個包含不同類型和語言版本的有害信息樣本集。這個過程有助于模型學習到不同語言、文化背景下的有害信息模式,從而提高模型的準確性與廣泛適用性;關鍵詞識別能力增強:通過將樣本集中的有害信息關鍵詞匯編成多個語言版本,可以增強模型對有害信息的識別能力,確保其能夠識別多語種的有害內容,提升跨語言的防護效果。
47、將短信數據實時輸入到信息識別模型中,可以及時檢測到潛在的有害信息,確保能夠在最短的時間內做出響應,避免有害信息的擴散;自動將短信數據輸入到信息識別模型中,減少人工干預,提高處理效率。
48、通過第一模塊的掃描,能夠快速篩選出潛在的有害信息短信,進行初步的懷疑數據標記。這一步驟提高了系統(tǒng)對有害信息的敏感度,使得后續(xù)的分析可以更加聚焦于潛在的風險;第一模塊的工作可以在海量數據中快速識別并標記出可疑數據,確保后續(xù)處理更加高效。
49、第二模塊不僅僅是簡單的文本掃描,還進一步分析短信中的字符特征,挖掘更深層次的潛在有害信息。這種多層次的識別方式極大增強了檢測的準確度;通過識別可疑字符的含義并深入分析其潛在的風險,有助于精確識別真正的有害信息,減少誤報率,提高識別的可信度。
50、通過對有害信息發(fā)送特征的分析,可以識別出發(fā)送者的行為模式,進一步建立“有害信息發(fā)送規(guī)則”。基于這些特征,可以采取更有針對性的防范措施,對高風險用戶進行特別關注和管理;通過更新用戶號碼的標簽,可以動態(tài)地調整對用戶的安全監(jiān)控措施。例如,如果某個用戶頻繁發(fā)送有害信息,可以將其標記為高風險用戶,從而在未來對其行為進行更加嚴格的審查;基于發(fā)送特征與標簽更新,可以有效降低惡意信息擴散的風險,確保用戶通信環(huán)境的安全性。