本發明涉及短信數據處理,尤其涉及一種基于哈希匹配算法的短信過濾處理方法和裝置。
背景技術:
1、隨著社會與經濟的快速發展,萬物互聯互通,各行各業都離不開互聯網,很多“黑色行業”利用短信便捷途徑,肆意散播“不良短信內容”,給人民群眾和國家造成了非常嚴重的危害。如今“不良短信”制造者開始對短信進行各類加工,使得運營商對于一些短信難以分辨、難以進行及時監視攔截。
2、手機短信具有可移動性、價格低廉以及收發便捷等優勢深受用戶喜歡,其也成為人們比較重要的傳送信息方式和交流手段。但由于互聯網移動通訊技術的日漸發展,也衍生出譬如涉詐、涉騙、涉及不符合社會風俗行為(例如賭博)相關的短信,上述這些統稱為“垃圾短信”。垃圾短信現象覆蓋全球任何角落,已然成為世界性的難題,對運營商也產生了嚴重的負面影響。為了維護短信服務的正常秩序,保障正常業務暢通和信息安全,需要運營商迫采取有效手段來解決垃圾短信過濾問題。
3、現有技術對于垃圾短信過濾基本上采取兩種主要方式,一是根據接收到的短信整體內容進行處理,通常會使用關鍵詞匹配、匹配授信數據庫、提取關鍵詞特征等方式,無法對短信內容進行甄別,并且甄別往往存在遺漏。二是判斷用戶行為,依照用戶發送頻次和發送號碼的規律進行攔截,這種方式具有局限性,并且“不良消息”制造者可輕易規避。此外,由于關鍵詞匹配主觀性較強,短信內容復雜,容易造成誤攔現象,導致短信過濾治理中影響到正常用戶。而隨著詐騙分子花樣繁多的短信內容,無法及時補充關鍵詞。如果想隨時進行關鍵詞添加或補充,就會極大增加運營商服務器的運營成本,同時影響系統處理短消息的水平。
4、因此,有必要提供一種高效且實用的短信過濾處理方法,以解決上述問題。
技術實現思路
1、本發明意在提供一種基于哈希匹配算法的短信過濾處理方法和裝置,以解決現有技術中無法對短信內容進行有效甄別,因僅依照用戶發送頻次和發送號碼的規律進行攔截而導致攔截有誤等的技術問題,本發明要解決的技術問題通過以下技術方案來實現。
2、本發明第一方面提出一種基于哈希匹配算法的短信過濾處理方法,包括:
3、收集待處理短信,對待處理短信的短信內容進行多種預處理,并對多種預處理后的待處理短信進行預審審核;采用雙向最大匹配分詞方法,對通過了預審審核的待處理短信的短信內容進行雙向匹配分詞,得到待處理短信的分詞結果;
4、根據所得到的待處理短信的分詞結果,確定在預設哈希表中的字符分布情況,以確定所述待處理短信的投訴率;根據所確定的所述待處理短信的投訴率與指定閾值的比較結果,并基于關鍵詞匹配規則進行關鍵詞匹配,確定多層級評估計算以進一步進行多層級控制。
5、本發明第二方面提出一種基于哈希匹配算法的短信過濾處理裝置,其執行本發明第一方面所述的基于哈希匹配算法的短信過濾處理方法,所述短信過濾處理裝置包括:收集模塊,收集待處理短信,對待處理短信的短信內容進行多種預處理,并對多種預處理后的待處理短信進行預審審核;分詞模塊,采用雙向最大匹配分詞方法,對通過了預審審核的待處理短信的短信內容進行雙向匹配分詞,得到待處理短信的分詞結果;第一確定模塊,根據所得到的待處理短信的分詞結果,確定在預設哈希表中的字符分布情況,以確定所述待處理短信的投訴率;第二確定模塊,根據所確定的所述待處理短信的投訴率與指定閾值的比較結果,并基于關鍵詞匹配規則進行關鍵詞匹配,確定多層級評估計算以進一步進行多層級控制。
6、本發明第三方面提供一種電子設備,包括:一個或多個處理器;存儲裝置,用于存儲一個或多個程序;當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現本發明第一方面所述的基于哈希匹配算法的短信過濾處理方法。
7、本發明第四方面提供一種計算機可讀介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現本發明第一方面所述的基于多層級的云手機應用安全管控方法。
8、本發明實施例包括以下優點:
9、與現有技術相比,本發明通過對多種預處理后的待處理短信進行預審審核,對待處理短信進行多種預處理,能夠有效細致化地剔除繁冗信息以獲得更精煉的短信內容,便于采用雙向最大匹配算法進行分詞操作;采用雙向最大匹配分詞方法,對通過了預審審核的待處理短信的短信內容進行雙向匹配分詞,得到待處理短信的分詞結果,確定在預設哈希表中的字符分布情況,以確定所述待處理短信的投訴率,根據所確定的所述待處理短信的投訴率與指定閾值的比較結果,并基于關鍵詞匹配規則進行關鍵詞匹配,確定多層級評估計算以進一步進行多層級控制,通過短信內容進行管控內以對風險號碼進行管控。
10、此外,對不同地區具體情況計算相應的風險評估值,并配合加入層次評估開關,能夠靈活切換控制層級,進而能夠實現更有效的多層級控制。
1.一種基于哈希匹配算法的短信過濾處理方法,其特征在于,包括:
2.根據權利要求1所述的基于哈希匹配算法的短信過濾處理方法,其特征在于,所述根據所得到的待處理短信的分詞結果,確定在預設哈希表中的字符分布情況,以確定所述待處理短信的投訴率,包括:
3.根據權利要求1所述的基于哈希匹配算法的短信過濾處理方法,其特征在于,進一步包括:
4.根據權利要求3所述的基于哈希匹配算法的短信過濾處理方法,其特征在于,進一步包括:
5.根據權利要求1所述的基于哈希匹配算法的短信過濾處理方法,其特征在于,包括:
6.根據權利要求1所述的基于哈希匹配算法的短信過濾處理方法,其特征在于,進一步包括:
7.根據權利要求1所述的基于哈希匹配算法的短信過濾處理方法,其特征在于,進一步包括:
8.一種基于哈希匹配算法的短信過濾處理裝置,其特征在于,其執行權利要求1至7中任一項所述的基于哈希匹配算法的短信過濾處理方法,所述短信過濾處理裝置包括:
9.根據權利要求8所述的基于哈希匹配算法的短信過濾處理裝置,其特征在于,包括:
10.根據權利要求8所述的基于哈希匹配算法的短信過濾處理裝置,其特征在于,進一步包括: