麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種互聯網圖片廣告過濾系統及其過濾方法

文檔序號:6362731閱讀:178來源:國知局
專利名稱:一種互聯網圖片廣告過濾系統及其過濾方法
技術領域
本發明涉及一種互聯網圖片廣告過濾系統及其過濾方法,尤其涉及一種針對互聯網互動產品的特點,對灌水及商業廣告等信息進行準確過濾的過濾系統及其過濾方法,屬于網絡信息安全技術領域。
背景技術
現階段,互聯網上各大論壇、博客等都面臨著廣告帖的大量灌入,極度影響用戶的互動體驗。一般,論壇、博客都有提供給版主刪除廣告、違法信息的操作后臺,但是人工不能保證及時的屏蔽廣告。本發明正是嵌入在這樣的操作后臺,使用多種方法提取文本特征。這些方法可以看做弱分類器,根據Boosting思想,我們使用人工神經網絡將多種識別方法自適應融合。本發明識別速度快、識別率高,支持無人工操作。目前,各個網站針對此情況一般都是采用如下的技術措施1.將發帖過多或間隔時間過短的帖子交予人工審查。這種方法可以對一部分廣告做到過濾,但是面對過多用戶同時發布多篇廣告帖時,需要審查的帖子數量過多,管理員壓力巨大,審查時間也會過長。2.網友舉報發布廣告帖的用戶對于廣告帖,網友可以進行舉報,每人可舉報一次,當舉報數超過一定數量時,對被舉報用戶進行禁言措施。此種方法需要活躍用戶自發參與,但若數量太大或馬甲重復發帖,單憑網友力量很難解決。3.關鍵詞過濾方式使用常見廣告詞匯作為關鍵詞,包含關鍵詞禁止發布。此種方法只能處理低級廣告,若出現詞變形或繞關鍵詞,則無法識別。4.使用預先設定的過濾參數,過濾參數不能根據不斷變化的廣告帖自動變化,即使出現過多誤判,也只能人工對參數更新,而不能自我學習,無法適應廣告帖發展趨勢。5.只是使用預訂參數自動過濾,對人工操作沒有給予考慮當一些經過過濾系統過濾認為并不存在問題的帖子,可能由于其他規則被人工操作刪除后,由于不會學習人工操作,下次系統遇到相似的帖子仍然不會過濾。針對現有技術的種種不足,本發明嵌入到互動產品用戶生成內容管理后臺,根據內容及用戶行為過濾廣告帖內容。需要解決如下問題1.根據內容特點識別及過濾廣告帖等不良內容;2.結合用戶歷史及內容歷史提高識別準確度;3.根據圖片的發布特征識別廣告帖。

發明內容
本發明所要解決的技術問題在于提供一種互聯網圖片廣告過濾系統及其過濾方法,可以對廣告帖等不良信息進行自動過濾。為實現上述的發明目的,本發明采用下述的技術方案一種互聯網圖片廣告過濾系統,包括內容輸入接口、特征分析模塊、以及決策計算模塊、數據記錄模塊、信息庫、指令輸出接口、人工操作輸入接口和機器學習模塊;其中,內容輸入接口用于接收來自于互聯網互動產品的用戶生成內容;特征分析模塊用于分析用戶生成內容,提取用戶生成內容的多種特征,并根據特征歷史情況及人工操作記錄計算特征值,生成特征向量;信息庫用于存儲用戶生成內容的各項特征數據;決策計算模塊用于根據特征分析模塊生成的特征向量綜合判斷是否對用戶生成內容進行過濾;指令輸出接口用于將決策計算模塊判斷的結果整理成顯示/屏蔽操作指令,同步給互聯網互動產品; 所述內容輸入接口包括數據輸入接口,校驗輸入的用戶生成內容數據的數據格式以及完整性;解析器,解析輸入的用戶生成內容數據,獲得ID、標題、內容、用戶ID、發布時間等
fn息ο所述特征分析模塊包括發帖間隔分析模塊、URL提取器、URL分析模塊、圖片內容分析模塊以及用戶分析模塊。發帖間隔分析模塊根據用戶ID對比該用戶上次發帖時間與本次時間,得到發帖時間間隔,并根據發帖時間間隔得到當前用戶生成內容可能為廣告的發帖間隔特征值;URL提取器從解析后的數據中識別出所有URL ;URL分析模塊對每個URL進行次數統計,并根據出現次數最多的URL次數得到當前用戶生成內容可能為廣告的URL特征值。所述圖片內容分析模塊從解析后的用戶生成內容數據的圖片中選取一個或多個特定點,計算圖片校驗值;對該圖片校驗值進行分析,得到與當前圖片校驗值相同的值出現過多少次就代表相同圖片發布過多少次,并根據相同圖片發布次數得到當前用戶生成內容可能為廣告的圖片特征值。所述用戶分析模塊從用戶庫中查詢用戶發文記錄,根據用戶發帖被刪除和通過次數進行計算用戶特征值。所述信息庫具有用戶庫、圖片特征庫、URL庫,其中,用戶庫用于存儲用戶ID和上次發帖時間;圖片特征庫用于存儲圖片特征、圖片出現次數以及廣告過濾通過和刪除次數; URL庫用于存儲tol內容、URL出現次數以及廣告過濾通過和刪除次數;所述決策計算模塊根據發帖間隔分析模塊、URL分析模塊、圖片內容分析模塊以及用戶分析模塊產生的特征值生成一個多維特征向量,并經由神經網絡進行分類,確定輸入的用戶生成內容是否為廣告帖。一種互聯網圖片廣告過濾方法,基于上述廣告過濾系統實現,其特征在于包括如下的步驟a.接收用戶生成內容;b.對用戶生成內容進行解析;c.分析用戶生成內容,并提取用戶生成內容的多種特征;d.根據多種特征分別得到用戶內容可能為廣告的多個特征值;
e.根據多個特征值生成一個多維特征向量;f.利用多維特征向量對用戶生產數據進行神經網絡分類,確定輸入的用戶生成內容是否為廣告帖;g.更新信息庫;h.輸出顯示或屏蔽操作指令至互動產品。所述步驟c中提取用戶生成內容的多種特征具體包括提取發帖間隔特征,用于根據用戶ID對比該用戶上次發帖時間與本次時間,得到發帖時間間隔特征;提取URL特征,用于分析與當前URL相同的URL出現過多少次來獲得 URL特征;提取圖片特征,用于分析與當前圖片相同的圖片出現過多少次來獲得圖片特征; 提取用戶特征,根據用戶發帖被刪除和通過次數來獲得用戶特征。所述步驟d中得到用戶內容可能為廣告的多個特征值包括發帖間隔特征值、URL 特征值、圖片特征值和用戶特征值。所述步驟f使用人工神經網絡分類算法對步驟e生成的特征向量進行分類。所述步驟g中更新信息庫包括更新URL庫、用戶庫、以及圖片特征庫,其中更新 URL 庫更新URL內容及其出現次數還有人工操作通過和刪除次數;更新用戶庫更新用戶ID和上次發帖時間還有人工操作通過和刪除次數;更新圖片特征庫更新圖片校驗值、相同圖片出現次數和廣告過濾通過/刪除次數還有人工操作通過和刪除次數。利用本發明所提供的廣告過濾系統及其過濾方法可以有效解決背景技術中提及的四個問題本發明提供的廣告過濾系統及其過濾方法1.具有自主學習能力,能夠根據每次的過濾結果每次分析和過濾的結果進行學習,并根據學習更新系統,與自動根據廣告帖發展趨勢做出適應性過濾策略調整。2.覆蓋了內容過濾及多種行為過濾。相對于其他方法,識別更全面,召回率很有優勢,漏刪少。4.使用神經網絡對特征向量進行決策計算,全體特征值對決策均有貢獻。相對其他技術,準確率很有優勢,誤刪少。下面結合附圖和具體實施方式
對本發明作進一步的詳細說明。


圖1為本發明所提供的廣告過濾系統的整體結構示意圖;圖2為本發明所提供的廣告過濾系統的流程圖;圖3為本發明所提供的廣告過濾系統的神經網絡學習流程圖;圖4本發明所提供的廣告過濾系統的決策計算模塊的人工神經網絡結構圖;圖5本發明所提供的廣告過濾系統的發帖間隔分析的高斯函數圖;圖6是一廣告貼示例圖。
具體實施方式
為了提高本發明對不良信息的過濾效果,發明人對大量互聯網互動產品中的灌水、廣告帖進行了分析,發現灌水或廣告帖包括以下特點的一點或幾點1.多次發布發布廣告者希望更多的人看到廣告,會在多個版塊、重復發相同或相似內容。2.發布時間間隔短由于使用廣告發布機之類的軟件,發布時間間隔比用戶正常發布時間間隔短。3.留有聯系方式包括座機號、手機號、QQ號、電子郵件,網址。4.統一的文本特征廣告帖內容與正常帖有較大的不同,會出現很多正常貼中很少出現的文字。5.發布廣告帖的ID,不會發正常帖。6.很有可能用圖片代替文字,但同一張圖會重復發多次。本發明使用的技術有1.人工神經網絡分類器人工神經網絡是由大量處理單元互聯組成的非線性、自適應信息處理系統。它是在現代神經科學研究成果的基礎上提出的,試圖通過模擬大腦神經網絡處理、記憶信息的方式進行信息處理。人工神經網絡通過提供的訓練樣本、驗證樣本進行自學習,學習算法叫反向傳播。神經網絡是分類器的一種。是常見的特征自學習權重計算的方法。輸入數據為特征分析模塊提取出的由若干個
區間實數構成的特征向量。輸出數據為兩個實數,分別表示判定為正常帖或廣告帖的數值。若正常帖數值大, 則判定為正常帖,否則為垃圾帖。如圖5所示。2.高斯函數(正態分布)由于函數圖右半段適合于隨時間衰減的狀況,故在本發明中使用高斯函數計算發帖時間間隔的特征計算。高斯函數圖如圖6所示。如附圖1所示,本發明所提供的互聯網圖片廣告過濾系統包括內容輸入接口、特征分析模塊、以及決策計算模塊、數據記錄模塊、信息庫、指令輸出接口、人工操作輸入接口和機器學習模塊;其中,內容輸入接口用于接收來自于互聯網互動產品的用戶生成內容; 特征分析模塊用于分析用戶生成內容,提取用戶生成內容的多種特征,并根據特征歷史情況及人工操作記錄計算特征值,生成特征向量;信息庫用于存儲用戶生成內容的各項特征數據;決策計算模塊用于根據特征分析模塊生成的特征向量綜合判斷是否對用戶生成內容進行過濾;指令輸出接口用于將決策計算模塊判斷的結果整理成顯示或屏蔽操作指令,同步給互聯網互動產品;人工操作輸入接口用于接收并解析人工修改過濾結果的操作。內容輸入接口包括數據輸入接口 對輸入數據進行校驗,數據格式、完整性。解析器解析數據,獲得ID、標題、內容(包含鏈接、圖片信息)、用戶ID、發布時間。下面結合附圖2,對本發明提供的廣告過濾系統的計算流程進行詳細說明特征分析模塊包括發帖間隔分析模塊、URL提取器、URL分析模塊、圖片內容分析模塊和用戶分析模塊。發帖間隔分析模塊根據用戶ID對比該用戶上次發帖時間與本次時間,得到發帖時間間隔,并根據發帖時間間隔得到當前用戶生成內容可能為廣告的發帖間隔特征值;發帖間隔分析模塊工作流程
7
根據用戶ID,在用戶庫中獲得上次發帖時間;對比上次發帖時間與本次時間,得到發帖間隔;使用高斯函數計算時間間隔對應的特征值y ^ e~W其中,e就是自然對數底,t為發帖間隔,單位為秒;參數K 一般選324,可視需求提
尚οURL提取器從解析后的數據中識別出所有URL。URL提取器工作流程(1)使用正則表達式識別所有URL ;(2)使用URL分析模塊對每個URL進行分析。URL分析樽塊對每個URL進行次數統計,并根據出現次數最多的URL次數得到當前用戶生成內容可能為廣告的URL特征值。URL分析模塊工作流程循環對每個URL,取URL庫數據,做如下計算(1)若人工操作數大于2,使用人工操作傾向性(正常/廣告),公式
__Tj-^dgi_= Wiw1(2)否則,使用URL出現次數作為判定是否有廣告帖傾向依據,URL出現越多值越大,URL 出現次數 0-12 的值為{0,0,0. 2,0. 5,0. 7,0. 9,0. 9,0. 9,0. 9,0. 9,0. 9,0. 9,0. 9},12 以上為0.9。(3)使用所有URL中具有的最大值的作為URL特征值圖片內容分析樽塊從解析后的用戶生成內容數據的圖片中選取一個或多個特定點,計算圖片校驗值;對該圖片校驗值進行分析,得到與當前圖片校驗值相同的值出現過多少次就代表相同圖片發布過多少次,并根據人工操作記錄或相同圖片發布次數得到當前用戶生成內容可能為廣告的圖片特征值。圖片內容分析模塊工作流程(1)從圖片中每個不重疊4*4像素中取位置(2,2)的點,生成MD5碼;(2)使用本次MD5比對過去的所有MD5,MD5相同代表圖片相同;(3)對于所有相同圖片,取圖片特征庫數據,若總人工操作文本數大于2,使用人工操作傾向性(正常/廣告),公式._^del
^Npfiss+NtJeI+1(4)否則,使用相同圖片發布次數判定是否有廣告帖傾向依據,相同圖片出現越多值越大,相同圖片出現次數 0-12 的值為{0,0,0. 2,0.4,0.6,0.8,0.9,0.9,0.9,0.9,0.9, 0. 9,0. 9},12 以上為 0.9 ;(5)使用所有圖片中V最大的作為特征值。用戶分析模塊從用戶庫中查詢用戶發文記錄,根據用戶發帖被刪除和通過次數進行計算用戶特征值。
用戶分析模塊工作流程(1)從用戶庫中查詢用戶發文記錄(2)若人工操作數大于2,使用人工操作傾向性(正常/廣告),公式
權利要求
1.一種互聯網圖片廣告過濾系統,其特征在于所述廣告過濾系統(使用圖片發布廣告的過濾系統)包括內容輸入接口、特征分析模塊、以及決策計算模塊、信息庫、指令輸出接口 ;其中,內容輸入接口用于接收來自于互聯網互動產品的用戶生成內容; 特征分析模塊用于分析用戶生成內容,提取用戶生成內容的多種特征,并根據特征歷史情況及人工操作記錄計算特征值,生成特征向量; 信息庫用于存儲用戶生成內容的各項特征數據;決策計算模塊用于根據特征分析模塊生成的特征向量綜合判斷是否對用戶生成內容進行過濾;指令輸出接口用于將決策計算模塊判斷的結果整理成顯示/屏蔽操作指令,同步給互聯網互動產品。
2.如權利要求1所述的廣告過濾系統,其特征在于 所述內容輸入接口包括數據輸入接口,校驗輸入的用戶生成內容數據的數據格式以及完整性;解析器,解析輸入的用戶生成內容數據,獲得ID、標題、內容、用戶ID、發布時間等信肩、ο
3.如權利要求1所述的廣告過濾系統,其特征在于所述特征分析模塊包括發帖間隔分析模塊、URL提取器、URL分析模塊、圖片內容分析模塊以及用戶分析模塊。
4.如權利要求3所述的廣告過濾系統,其特征在于發帖間隔分析模塊根據用戶ID對比該用戶上次發帖時間與本次時間,得到發帖時間間隔,并根據發帖時間間隔得到當前用戶生成內容可能為廣告的發帖間隔特征值。
5.如權利要求3所述的廣告過濾系統,其特征在于 URL提取器從解析后的數據中識別出所有URL ;URL分析模塊對每個URL進行次數統計,并根據出現次數最多的URL次數得到當前用戶生成內容可能為廣告的URL特征值。
6.如權利要求3所述的廣告過濾系統,其特征在于所述圖片內容分析模塊從解析后的用戶生成內容數據的圖片中選取一個或多個特定點,計算圖片校驗值;對該圖片校驗值進行分析,得到與當前圖片校驗值相同的值出現過多少次就代表相同圖片發布過多少次,并根據相同圖片發布次數得到當前用戶生成內容可能為廣告的圖片特征值。
7.如權利要求3所述的廣告過濾系統,其特征在于所述用戶分析模塊從用戶庫中查詢用戶發文記錄,根據用戶發帖被刪除和通過次數進行計算用戶特征值。
8.如權利要求1所述的廣告過濾系統,其特征在于 所述信息庫具有用戶庫、圖片特征庫、URL庫,其中用戶庫用于存儲用戶ID和上次發帖時間;圖片特征庫用于存儲圖片特征、圖片出現次數以及廣告過濾通過和刪除次數;URL庫用于存儲URL內容、URL出現次數以及廣告過濾通過和刪除次數。
9.如權利要求1所述的用戶生成內容過濾系統,其特征在于所述決策計算模塊根據發帖間隔分析模塊、URL分析模塊、圖片內容分析模塊以及用戶分析模塊產生的特征值生成一個多維特征向量,并經由神經網絡進行分類,確定輸入的用戶生成內容是否為廣告帖。
10.一種互聯網圖片廣告過濾方法,基于權利要求1-9之一的的廣告過濾系統實現,其特征在于包括如下的步驟a.接收用戶生成內容;b.對用戶生成內容進行解析;c.分析用戶生成內容,并提取用戶生成內容的多種特征;d.根據多種特征分別得到用戶內容可能為廣告的多個特征值;e.根據多個特征值生成一個多維特征向量;f.利用多維特征向量對用戶生產數據進行神經網絡分類,確定輸入的用戶生成內容是否為廣告帖;g.更新信息庫;h.輸出顯示或屏蔽操作指令至互動產品。
11.如權利要求10所述的廣告過濾方法,其特征在于 所述步驟C中提取用戶生成內容的多種特征具體包括提取發帖間隔特征,用于根據用戶ID對比該用戶上次發帖時間與本次時間,得到發帖時間間隔特征;提取URL特征,用于分析與當前URL相同的URL出現過多少次并結合人工操作記錄來獲得URL特征;提取圖片特征,用于分析與當前圖片相同的圖片出現過多少次并結合人工操作記錄來獲得圖片特征;提取用戶特征,根據用戶發帖被刪除和通過次數獲得用戶特征。
12.如權利要求10所述的廣告過濾方法,其特征在于所述步驟d中得到用戶內容可能為廣告的多個特征值包括 發帖間隔特征值、URL特征值、圖片特征值和用戶特征值。
13.如權利要求10所述的廣告過濾方法,其特征在于所述步驟f使用人工神經網絡分類算法對步驟e生成的特征向量進行分類。
14.如權利要求10所述的廣告過濾方法,其特征在于 所述步驟g中更新信息庫包括更新URL庫更新URL內容及其出現次數還有人工操作通過和刪除次數; 更新用戶庫更新用戶ID和上次發帖時間還有人工操作通過和刪除次數; 更新圖片特征庫更新圖片校驗值、相同圖片出現次數和廣告過濾通過/刪除次數還有人工操作通過和刪除次數。
全文摘要
一種互聯網圖片廣告過濾系統及其過濾方法,包括內容輸入接口、特征分析模塊、以及決策計算模塊、信息庫、指令輸出接口;其中,內容輸入接口用于接收來自于互聯網互動產品的用戶生成內容;特征分析模塊用于分析用戶生成內容,提取用戶生成內容的多種特征,并根據特征歷史情況及人工操作記錄計算特征值,生成特征向量;信息庫用于存儲用戶生成內容的各項特征數據;決策計算模塊用于根據特征分析模塊生成的特征向量綜合判斷是否對用戶生成內容進行過濾;指令輸出接口用于將決策計算模塊判斷的結果整理成顯示/屏蔽操作指令,同步給互聯網互動產品。
文檔編號G06Q30/02GK102419777SQ201210004669
公開日2012年4月18日 申請日期2012年1月10日 優先權日2012年1月10日
發明者劉宇, 史金城, 吳華鵬, 曾明 申請人:鳳凰在線(北京)信息技術有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 石嘴山市| 通江县| 柏乡县| 无为县| 巩义市| 科技| 蓬安县| 莱芜市| 昔阳县| 天台县| 漳州市| 萨迦县| 上饶市| 远安县| 张家港市| 阿拉善右旗| 宕昌县| 湖南省| 保山市| 榕江县| 焉耆| 醴陵市| 白玉县| 红河县| 涿鹿县| 青冈县| 武清区| 安龙县| 罗定市| 伊宁市| 新密市| 靖边县| 乌兰浩特市| 铅山县| 新郑市| 沙洋县| 高陵县| 榆树市| 麦盖提县| 通海县| 江山市|