專利名稱:針對文本特征的廣告過濾系統及其過濾方法
技術領域:
本發明涉及一種針對文本特征的廣告過濾系統及其過濾方法,尤其涉及一種針對互聯網互動產品的特點,對灌水及商業廣告等信息進行準確過濾的過濾系統及其過濾方法,屬于網絡信息安全技術領域。
背景技術:
現階段,互聯網上各大論壇、博客等都面臨著廣告帖的大量灌入,極度影響用戶的互動體驗。一般,論壇、博客都有提供給版主刪除廣告、違法信息的操作后臺,但是人工不能保證及時的屏蔽廣告。本發明正是嵌入在這樣的操作后臺,使用多種方法提取文本特征。這些方法可以看做弱分類器,根據Boosting思想,我們使用人工神經網絡將多種識別方法自適應融合。本發明識別速度快、識別率高,支持無人工操作。目前,各個網站針對此情況一般都是采用如下的技術措施
I.將發帖過多或間隔時間過短的帖子交予人工審查。這種方法可以對一部分廣告做到過濾,但是面對過多用戶同時發布多篇廣告帖時,需要審查的帖子數量過多,管理員壓力巨大,審查時間也會過長。2.網友舉報發布廣告帖的用戶對于廣告帖,網友可以進行舉報,每人可舉報一次,當舉報數超過一定數量時,對被舉報用戶進行禁言措施。此種方法需要活躍用戶自發參與,但若數量太大或馬甲重復發帖,單憑網友力量很難解決。3.關鍵詞過濾方式使用常見廣告詞匯作為關鍵詞,包含關鍵詞禁止發布。此種方法只能處理低級廣告,若出現詞變形或繞關鍵詞,則無法識別。4.使用預先設定的過濾參數,過濾參數不能根據不斷變化的廣告帖自動變化,即使出現過多誤判,也只能人工對參數更新,而不能自我學習,無法適應廣告帖發展趨勢。5.只是使用預訂參數自動過濾,對人工操作沒有給予考慮當一些經過過濾系統過濾認為并不存在問題的帖子,可能由于其他規則被人工操作刪除后,由于不會學習人工操作,下次系統遇到相似的帖子仍然不會過濾。針對現有技術的種種不足,本發明嵌入到互動產品用戶生成內容管理后臺,根據內容及用戶行為過濾廣告帖內容。需要解決如下問題
1.根據內容特點識別及過濾廣告帖等不良內容;
2.結合用戶歷史及內容歷史提高識別準確度;
3.分析每次人工操作,并在后續過濾中發揮作用;
4.自動對比機器與人工操作結果,自動調整參數。
發明內容
本發明所要解決的技術問題在于提供一種針對文本特征的廣告過濾系統及其過濾方法,可以對廣告帖等不良信息進行自動過濾。為實現上述的發明目的,本發明采用下述的技術方案一種針對文本特征的廣告過濾系統,其特征在于所述廣告過濾系統包括內容輸入接口、特征分析模塊、以及決策計算模塊、數據記錄模塊、信息庫、指令輸出接口、人工操作輸入接口和機器學習模塊;其中,內容輸入接口用于接收來自于互聯網互動產品的用戶生成內容;特征分析模塊用于分析用戶生成內容,提取用戶生成內容的多種特征,并根據特征歷史情況及人工操作記錄計算特征值,生成特征向量;信息庫用于存儲用戶生成內容的各項特征數據;決策計算模塊用于根據特征分析模塊生成的特征向量綜合判斷是否對用戶生成內容進行過濾;數據記錄模塊用于將特征數據、分類數據以及人工操作記錄寫入信息庫; 指令輸出接口用于將決策計算模塊判斷的結果整理成顯示/屏蔽操作指令,同步給互聯網互動產品;人工操作輸入接口用于接收并解析人工修改過濾結果的操作;機器學習模塊利用每次分析的結果以及人工操作記錄進行學習,并根據學習更新決策計算模塊。所述內容輸入接口包括數據輸入接口,校驗輸入的用戶生成內容數據的數據格式以及完整性;解析器,解析輸入的用戶生成內容數據,獲得ID、標題、內容、用戶ID、發布時間等信息。所述特征分析模塊包括分詞器、相似度分析模塊、文本內容分類模塊、聯系方式分析模塊以及用戶分析模塊。所述分詞器使用漢語詞法分析系統對用戶生成內容中的文本內容進行分詞;
所述相似度分析模塊對分詞后的詞進行分析,得到與當前內容相似的內容發布次數, 并根據人工操作記錄或相似發布次數得到當前用戶生成內容可能為廣告的相似度特征值。所述文本內容分類模塊使用分詞后的詞在文本分類特征詞集合進行映射得到詞向量,使用支持向量機對詞向量進行分類,得出的刪除概率作為文本內容分類模塊特征值。所述聯系方式分析模塊用于提取解析后的用戶生成內容數據中可能存在的聯系方式,并對該聯系方式進行分析,得到與當前聯系方式相同的聯系方式發布過多少次,并根據人工操作記錄或聯系方式發布次數得到當前用戶生成內容可能為廣告的聯系方式特征值。所述用戶分析模塊從用戶庫中查詢用戶發文記錄,根據用戶發帖被刪除和通過次數進行計算用戶特征值。所述信息庫具有聯系方式庫、用戶庫、文章庫以及相似度倒排索引,其中
聯系方式庫用于存儲聯系方式內容、聯系方式種類、聯系方式出現次數以及廣告過濾
通過和刪除次數;用戶庫用于存儲用戶ID和上次發帖時間;圖片特征庫用于存儲圖片特征、圖片出現次數以及廣告過濾通過和刪除次數;
所述決策計算模塊根據相似度分析模塊、文本內容分類模塊、聯系方式分析模塊、以及用戶分析模塊產生的特征值生成一個多維特征向量,并經由神經網絡進行分類,確定輸入的用戶生成內容是否為廣告帖。所述機器學習模塊通過對特征數據和分類數據的分析,使用反向傳播算法對降噪后的數據進行機器學習,找到最優的決策神經網絡,并對當前神經網絡進行更新;
所述機器學習模塊還通過對詞和分類數據的分析,使用X2統計選擇文本分類特征詞, 并更新文本分類特征詞庫。一種針對文本特征的廣告過濾方法,基于上述廣告過濾系統實現,其特征在于包括如下的步驟
a.接收用戶生成內容;b.對用戶生成內容進行解析;
c.分析用戶生成內容,并提取用戶生成內容的多種特征;
d.根據多種特征分別得到用戶內容可能為廣告的多個特征值;
e.根據多個特征值生成一個多維特征向量;
f.利用多維特征向量對用戶生產數據進行神經網絡分類,確定輸入的用戶生成內容是否為廣告帖;
g.更新信息庫;
h.輸出顯示或屏蔽操作指令至互動產品;
i.可接收人工操作結果,并提升之后的過濾效果;
j.定時對每次分析和過濾的結果以及人工操作記錄進行學習,并根據學習更新神經網絡分類方法和更新文本分類特征詞集合。所述步驟c中提取用戶生成內容的多種特征具體包括
提取相似度特征,用于分析與當前內容相似的內容發布次數并結合人工操作記錄來獲得相似度特征;
提取文本分類特征,用于分析用戶生成內容文字特點,使用支持向量機進行分類,得出刪除概率,從而獲得文本分類特征;
提取聯系方式特征,用于提取用戶生成內容數據中可能存在的聯系方式,并對該聯系方式進行分析,得到與當前聯系方式相同的聯系方式發布過多少次并結合人工操作記錄來獲得聯系方式特征;
提取用戶特征,根據用戶發帖被刪除和通過次數并結合人工操作記錄來獲得用戶特征。所述步驟d中得到用戶內容可能為廣告的多個特征值包括
相似度特征值、文本分類特征值聯系方式特征值和用戶特征值。所述步驟f使用人工神經網絡分類算法對步驟e生成的特征向量進行分類。所述步驟g中更新信息庫包括
更新聯系方式庫、URL庫、用戶庫、文章庫以及相似度倒排索引、圖片特征庫,其中更新聯系方式庫更新聯系方式內容、聯系方式種類以及聯系方式出現次數還有人工操作通過和刪除次數;
更新用戶庫更新用戶ID和上次發帖時間還有人工操作通過和刪除次數;
更新文章庫更新文章ID和廣告過濾通過/刪除次數還有人工操作通過和刪除次數; 更新相似度倒排索引。所述步驟j中對每次分析和過濾的結果進行學習包括
加載特征數據和分類數據,依據文本ID合并特征數據及分類數據,降噪后使用反向傳播算法對降噪后的數據進行機器學習,并更新神經網絡;
加載詞數據和分類數據,依據文本ID合并詞數據及分類數據,使用X2統計選擇文本分類特征詞,并更新文本分類特征詞庫。利用本發明所提供的針對文本特征的廣告過濾系統及其過濾方法,可以有效解決背景技術中提及的四個問題
I.具有自主學習能力,能夠根據每次的過濾結果每次分析和過濾的結果進行學習,并根據學習更新系統,與自動根據廣告帖發展趨勢做出適應性過濾策略調整。2.覆蓋了內容過濾及多種行為過濾。相對于其他方法,識別更全面,召回率很有優勢,漏刪少。3.自動結合人工操作,將人工操作作為自動過濾過濾的重要考慮因素,并能夠根據人工操作記錄進行智能學習更新。4.使用神經網絡對特征向量進行決策計算,全體特征值對決策均有貢獻。相對其他技術,準確率很有優勢,誤刪少。下面結合附圖和具體實施方式
對本發明作進一步的詳細說明。下面結合附圖和具體實施方式
對本發明作進一步的詳細說明。
圖I為本發明所提供的廣告過濾系統的整體結構示意圖2為本發明所提供的廣告過濾系統的計算流程圖3為本發明所提供的廣告過濾系統的神經網絡學習流程圖4為本發明所提供的廣告過濾系統的文本分類特征學習流程圖。
圖5為本發明所提供的廣告過濾系統的決策計算模塊的人工神經網絡結構圖。
具體實施例方式為了提高本發明對不良信息的過濾效果,發明人對大量互聯網互動產品中的灌水、廣告帖進行了分析,發現灌水或廣告帖包括以下特點的一點或幾點
I.多次發布發布廣告者希望更多的人看到廣告,會在多個版塊、重復發相同或相似內容。2.留有聯系方式包括座機號、手機號、QQ號、電子郵件,網址。3.統一的文本特征廣告帖內容與正常帖有較大的不同,會出現很多正常貼中很少出現的文字。4.發布廣告帖的ID,不會發正常帖。本發明使用的技術有
I.文本相似度計算
顧名思義,文本相似度為測量若干文本間的相似程度。一般需要使用到的有,停用詞過濾、特征選擇、加權、相似度測量方法。本發明中采用簡化模式,要求匹配速度。故采用了倒排索引的方法來記錄特征詞。2.停用詞
即已被認定為沒有必要收錄的詞。若使用這些詞作為特征,對效果有負面影響。如不會一他的又 3. ICTCLAS 分詞
中國科學院計算技術研究所在多年研究工作積累的基礎上,研制出了漢語詞法分析系統ICTCLAS (Institute of Computing Technology, Chinese Lexical Analysis System), 主要功能包括中文分詞;詞性標注;命名實體識別;新詞識別;同時支持用戶詞典。4.人工神經網絡分類器
8人工神經網絡是由大量處理單元互聯組成的非線性、自適應信息處理系統。它是在現代神經科學研究成果的基礎上提出的,試圖通過模擬大腦神經網絡處理、記憶信息的方式進行信息處理。人工神經網絡通過提供的訓練樣本、驗證樣本進行自學習,學習算法叫反向傳播。神經網絡是分類器的一種。是常見的特征自學習權重計算的方法。輸入數據為特征分析模塊提取出的由若干個
區間實數構成的特征向量。輸出數據為兩個實數,分別表示判定為正常帖或廣告帖的數值。若正常帖數值大, 則判定為正常帖,否則為垃圾帖。如圖5所示。5. X2統計特征選擇
若干文檔中,存在設定好的分類C: {Cl, C2, C3…Cm},文檔總數為N,t為待選擇詞,Ci為第i個分類。以A表示所有文檔中t和Ci同時發生的次數;
B表示所有文檔中t發生和Ci不發生的次數;
C表示所有文檔中t不發生和Ci發生的次數;
6.SVM分類器
SVM方法是通過一個非線性映射P,把樣本空間映射到一個高維乃至無窮維的特征空間中(Hilbert空間),使得在原來的樣本空間中非線性可分的問題轉化為在特征空間中的線性可分的問題。SVM應用核函數的展開定理,就不需要知道非線性映射的顯式表達式;由于是在高維特征空間中建立線性學習機,所以與線性模型相比,不但幾乎不增加計算的復雜性,而且在某種程度上避免了 “維數災難這一切要歸功于核函數的展開和計算理論. 選擇不同的核函數,可以生成不同的SVM,常用的核函數有以下4種
(1)線性核函數K(x,y)=x· y ;
(2)多項式核函數K (X,y) = [(x · y)+l]d ;
(3)徑向基函數K (x, y) =exp (_ I x-y I ~2/d~2)
(4)二層神經網絡核函數 K(x, y)=tanh(a(x · y) +b).
本發明使用LibSVM軟件包實現。LIBSVM是臺灣大學林智仁(Lin Chih-Jen)副教授等開發設計的一個簡單、易于使用和快速有效的SVM模式識別與回歸的軟件包,他不但提供了編譯好的可在Windows系列系統的執行文件,還提供了源代碼,方便改進、修改以及在其它操作系統上應用;該軟件對SVM所涉及的參數調節相對比較少,提供了很多的默認參數,利用這些默認參數可以解決很多問題。如附圖I所示,本發明所提供的廣告過濾系統包括內容輸入接口、特征分析模塊、以及決策計算模塊、數據記錄模塊、信息庫、指令輸出接口、人工操作輸入接口和機器學習模塊;其中,
內容輸入接口用于接收來自于互聯網互動產品的用戶生成內容;
特征分析模塊用于分析用戶生成內容,提取用戶生成內容的多種特征,并根據特征歷史情況及人工操作記錄計算特征值,生成特征向量;
信息庫用于存儲用戶生成內容的各項特征數據;
決策計算模塊用于根據特征分析模塊生成的特征向量綜合判斷是否對用戶生成內容進行過濾;數據記錄模塊用于將特征數據、分類數據以及人工操作記錄寫入信息庫;
指令輸出接口用于將決策計算模塊判斷的結果整理成顯示或屏蔽操作指令,同步給互聯網互動產品;
人工操作輸入接口用于接收并解析人工修改過濾結果的操作。機器學習模塊利用每次分析的結果以及人工操作記錄進行學習,并根據學習更新決策計算模塊。內容輸入接口包括
數據輸入接口 對輸入數據進行校驗,數據格式、完整性。解析器解析數據,獲得ID、標題、內容(包含鏈接、圖片信息)、用戶ID、發布時間。下面結合附圖2,對本發明提供的廣告過濾系統的計算流程進行詳細說明 特征分析模塊包括分詞器、相似度分析模塊、文本內容分類模塊、聯系方式分析模塊
和用戶分析模塊。所述分詞器使用漢語詞法分析系統(ICTCLAS )對用戶生成內容中的文本內容進行分詞;
分詞器工作流程
(1)使用漢語詞法分析系統(ICTCLAS)進行分詞
(2)過濾所有詞中的停用詞
(3)提取出名詞、動詞、形容詞、位置詞
(4)提交至相似度分析、文本內容分類
相似度分析模塊對分詞后的詞進行分析,得到與當前內容相似的內容發布過多少次, 并根據相似發布次數得到當前用戶生成內容可能為廣告的相似度特征值。相似度分析模塊工作流程
提取分詞后詞頻最高的20個詞,構成詞向量;
依次在相似度倒排索引中查詢,得到文本集合;
查看文本集合中詞命中次數大于閾值的文本ID集合;
依次對集合中文本取文本操作庫數據,是否有人工操作記錄
若總人工操作文本數大于2,使用人工操作傾向性(正常/廣告),公式
Simiiar = NpB33 + Ndel+l
否則,使用相似內容發布次數判定是否有廣告帖傾向,出現越多值越大,次數0-12的值分別為{0,O, O. 2, O. 3, O. 4, O. 5, O. 6, O. 7, O. 7, O. 8, O. 8, O. 9, O. 9},12 以上為 O. 9。文本內容分類模塊使用分詞后的詞在文本分類特征詞集合中做映射,得到一個特征詞向量。使用已訓練完成的SVM (支持向量機)對特征詞向量進行分類計算,得出當前用戶生成內容為廣告內容的概率,作為文本內容分類的特征值。文本內容分類模塊工作流程
使用詞,對文本分類特征詞集合(已預先學習)進行映射,得到一個特征詞向量使用SVM(支持向量機)對特征詞向量進行分類,得出當前用戶生成內容為廣告的概率(
區間的實數),作為文本內容分類的特征值。所述聯系方式分析模塊用于提取解析后的用戶生成內容數據中可能存在的聯系方式,并對該聯系方式進行分析,得到與當前聯系方式相同的聯系方式發布過多少次,并根據聯系方式發布次數得到當前用戶生成內容可能為廣告的聯系方式特征值。聯系方式分析模塊工作流程
I.提取可能存在的聯系方式
聯系方式可能包括QQ號、手機號、座機號,這些一般都是由數字組成的,考慮到阿拉伯數字有很多種變形,廣告帖經常會發布變形的數字,如I可以變為一、壹、one、①,需要對上述變形進行轉換。I)手機號識別手機號有固定構成形式,故用正則表達式識別。a)按照變形詞表,將文本內所有變形數字轉為原始數字(如①_>1)
b)去掉多余空格及符號
c)使用正則表達式識別
r\\d]ir\\d] {O, 2} ([3|5] r\\d] {O, 2}
{1} 8[~\\d] {O, 2} O | 8 [~\\d] {0,2} 5 8[~\\d] {0,2}6|8[~\\d] {0,2}7|8[~\\d] {0,2} 8 | 8 [~\\d] {0,2} 9) [~\\d] {0,2} (
r\\d] {0, 2}) {7}
[~\\d]
2) QQ號、座機號識別并不是所有連續數字就是聯系方式,也有可能是身份證,中獎號等。所以,存在類別詞表{ “Q”,“Q”},{ “企”,“鵝”},{ “電”,“話”},{ “致”,“電”} 等,用于標記數字串的類別,一般出現在連續6位以上(包括6位)數字串前。a)按照變形詞表,將文本內所有變形數字轉為原始數字(如①_>1)
b)對于每個連續6位以上(包括6位)數字串,位置在檢查數字串前的5位字符串是否順序包含名稱詞表內容。(WdfWd] {O, 2}) {5,} Wd
c)若存在,則標記為聯系方式。變形詞表:O,零0,0,◎01,一丑,①1,12,一貳,②11,23,二叁,③111,34,四肆,④IV, 45,五伍,⑤V, 56,六陸,⑥VI,67,七柒,⑦VII,78,八捌,⑧VIII, ȹ,九玖,⑨IX,9
類別詞表 {"Q","Q"} Γ滕 {"pho
Γ 騰〃,〃訊 〃},{"Q",""}, 訊〃},Γ滕〃,〃迅〃},Γ騰〃 ne〃},{〃 電〃,〃話 〃},{〃 移動
Γ訂〃,〃購〃}
〃迅〃},{〃 手〃,〃機 〃}, ,〃電話〃},{〃群〃,〃號
11Γ座〃,〃機〃},Γ請〃,〃撥〃},Γ聯系〃,〃方式〃},Γ扣〃,〃扣〃},
Γ 企〃,〃鵝 〃},Γ 交〃,〃流 〃},Γ 聯〃,〃系 〃},Γ 熱〃,〃線 〃},
Γ 短〃,〃信 〃},Γ 專",〃線"}
2.對于得到的聯系方式,根據如下方式計算特征值
循環對每個聯系方式取聯系方式庫數據,做如下計算
a)若人工操作數大于2,使用人工操作傾向性(正常/廣告),公式
權利要求
1.一種針對文本特征的廣告過濾系統,其特征在于所述廣告過濾系統包括內容輸入接口、特征分析模塊、以及決策計算模塊、數據記錄模塊、信息庫、指令輸出接口、人工操作輸入接口和機器學習模塊;其中,內容輸入接口用于接收來自于互聯網互動產品的用戶生成內容;特征分析模塊用于分析用戶生成內容,提取用戶生成內容的多種特征,并根據特征歷史情況及人工操作記錄計算特征值,生成特征向量;信息庫用于存儲用戶生成內容的各項特征數據;決策計算模塊用于根據特征分析模塊生成的特征向量綜合判斷是否對用戶生成內容進行過濾;數據記錄模塊用于將特征數據、分類數據以及人工操作記錄寫入信息庫;指令輸出接口用于將決策計算模塊判斷的結果整理成顯示/屏蔽操作指令,同步給互聯網互動產品;人工操作輸入接口用于接收并解析人工修改過濾結果的操作;機器學習模塊利用每次分析的結果以及人工操作記錄進行學習,并根據學習更新決策計算模塊。
2.如權利要求I所述的廣告過濾系統,其特征在于所述內容輸入接口包括數據輸入接口,校驗輸入的用戶生成內容數據的數據格式以及完整性;解析器,解析輸入的用戶生成內容數據,獲得ID、標題、內容、用戶ID、發布時間等信肩、O
3.如權利要求I所述的廣告過濾系統,其特征在于所述特征分析模塊包括分詞器、相似度分析模塊、文本內容分類模塊、聯系方式分析模塊以及用戶分析模塊。
4.如權利要求3所述的廣告過濾系統,其特征在于所述分詞器使用漢語詞法分析系統對用戶生成內容中的文本內容進行分詞;所述相似度分析模塊對分詞后的詞進行分析,得到與當前內容相似的內容發布次數, 并根據人工操作記錄或相似發布次數得到當前用戶生成內容可能為廣告的相似度特征值。
5.如權利要求3所述的廣告過濾系統,其特征在于所述文本內容分類模塊使用分詞后的詞在文本分類特征詞集合進行映射得到詞向量, 使用支持向量機對詞向量進行分類,得出的刪除概率作為文本內容分類模塊特征值。
6.如權利要求3所述的廣告過濾系統,其特征在于所述聯系方式分析模塊用于提取解析后的用戶生成內容數據中可能存在的聯系方式, 并對該聯系方式進行分析,得到與當前聯系方式相同的聯系方式發布過多少次,并根據人工操作記錄或聯系方式發布次數得到當前用戶生成內容可能為廣告的聯系方式特征值。
7.如權利要求3所述的廣告過濾系統,其特征在于所述用戶分析模塊從用戶庫中查詢用戶發文記錄,根據用戶發帖被刪除和通過次數進行計算用戶特征值。
8.如權利要求I所述的廣告過濾系統,其特征在于所述信息庫具有聯系方式庫、用戶庫、文章庫以及相似度倒排索引,其中所述聯系方式庫用于存儲聯系方式內容、聯系方式種類、聯系方式出現次數以及廣告過濾通過和刪除次數;用戶庫用于存儲用戶ID和上次發帖時間;文章庫用于存儲文章ID和廣告過濾通過和刪除次數;相似度倒排索引用于快速匹配文本相似度。
9.如權利要求I所述的用戶生成內容過濾系統,其特征在于所述決策計算模塊根據相似度分析模塊、文本內容分類模塊、聯系方式分析模塊、以及用戶分析模塊產生的特征值生成一個多維特征向量,并經由神經網絡進行分類,確定輸入的用戶生成內容是否為廣告帖。
10.如權利要求I所述的用戶生成內容過濾系統,其特征在于所述機器學習模塊通過對特征數據和分類數據的分析,使用反向傳播算法對降噪后的數據進行機器學習,找到最優的決策神經網絡,并對當前神經網絡進行更新;所述機器學習模塊還通過對詞和分類數據的分析,使用X2統計選擇文本分類特征詞, 并更新文本分類特征詞庫。
11.一種針對文本特征的廣告過濾方法,基于權利要求1-10之一的的廣告過濾系統實現,其特征在于包括如下的步驟a.接收用戶生成內容;b.對用戶生成內容進行解析;c.分析用戶生成內容,并提取用戶生成內容的多種特征;d.根據多種特征分別得到用戶內容可能為廣告的多個特征值;e.根據多個特征值生成一個多維特征向量;f.利用多維特征向量對用戶生產數據進行神經網絡分類,確定輸入的用戶生成內容是否為廣告帖;g.更新信息庫;h.輸出顯示或屏蔽操作指令至互動產品;i.可接收人工操作結果,并提升之后的過濾效果;j.定時對每次分析和過濾的結果以及人工操作記錄進行學習,并根據學習更新神經網絡分類方法和更新文本分類特征詞集合。
12.如權利要求11所述的廣告過濾方法,其特征在于所述步驟c中提取用戶生成內容的多種特征具體包括提取相似度特征,用于分析與當前內容相似的內容發布次數并結合人工操作記錄來獲得相似度特征;提取文本分類特征,用于分析用戶生成內容文字特點,使用支持向量機進行分類,得出刪除概率,從而獲得文本分類特征;提取聯系方式特征,用于提取用戶生成內容數據中可能存在的聯系方式,并對該聯系方式進行分析,得到與當前聯系方式相同的聯系方式發布過多少次并結合人工操作記錄來獲得聯系方式特征;提取用戶特征,根據用戶發帖被刪除和通過次數并結合人工操作記錄來獲得用戶特征。
13.如權利要求11所述的廣告過濾方法,其特征在于所述步驟d中得到用戶內容可能為廣告的多個特征值包括相似度特征值、文本分類特征值、聯系方式特征值、用戶特征值。
14.如權利要求11所述的廣告過濾方法,其特征在于所述步驟f使用人工神經網絡分類算法對步驟e生成的特征向量進行分類。
15.如權利要求11所述的廣告過濾方法,其特征在于所述步驟g中更新信息庫包括更新聯系方式庫、用戶庫、文章庫以及相似度倒排索引,其中更新聯系方式庫更新聯系方式內容、聯系方式種類以及聯系方式出現次數還有人工操作通過和刪除次數;更新用戶庫更新用戶ID和上次發帖時間還有人工操作通過和刪除次數;更新文章庫更新文章ID和廣告過濾通過/刪除次數還有人工操作通過和刪除次數; 更新相似度倒排索引。
16.如權利要求11所述的廣告過濾方法,其特征在于所述步驟j中對每次分析和過濾的結果進行學習包括加載特征數據和分類數據,依據文本ID合并特征數據及分類數據,降噪后使用反向傳播算法對降噪后的數據進行機器學習,并更新神經網絡;加載詞數據和分類數據,依據文本ID合并詞數據及分類數據,使用X2統計選擇文本分類特征詞,并更新文本分類特征詞庫。
全文摘要
一種針對文本特征的廣告過濾系統及其過濾方法,包括內容輸入接口、特征分析模塊、以及決策計算模塊、數據記錄模塊、信息庫、指令輸出接口、人工操作輸入接口和機器學習模塊;其中,內容輸入接口用于接收來自于互聯網互動產品的用戶生成內容;特征分析模塊用于分析用戶生成內容,提取用戶生成內容的多種特征,并根據特征歷史情況及人工操作記錄計算特征值,生成特征向量;信息庫用于存儲用戶生成內容的各項特征數據;決策計算模塊用于根據特征分析模塊生成的特征向量綜合判斷是否對用戶生成內容進行過濾;數據記錄模塊用于將特征數據、分類數據以及人工操作記錄寫入信息庫;指令輸出接口用于將決策計算模塊判斷的結果整理成顯示/屏蔽操作指令,同步給互聯網互動產品;人工操作輸入接口用于接收并解析人工修改過濾結果的操作;機器學習模塊利用每次分析的結果以及人工操作記錄進行學習,并根據學習更新決策計算模塊。
文檔編號G06F17/30GK102591854SQ201210005620
公開日2012年7月18日 申請日期2012年1月10日 優先權日2012年1月10日
發明者劉宇, 史金城, 吳華鵬, 曾明 申請人:鳳凰在線(北京)信息技術有限公司