本發明涉及互聯網技術領域,具體而言,涉及一種互聯網廣告異常點擊檢測方法、裝置、設備及可讀存儲介質。
背景技術:
cpc廣告是目前互聯網中最為常見的一種廣告形式,其為costperclick的英文縮寫,即每次點擊付費廣告,當用戶點擊某個投放廣告的媒體網站上的cpc廣告后,該媒體網站即會獲得相應的廣告收入。隨著cpc廣告投放量越來越大,一些媒體網站為了獲取更大利益,使用軟件模擬正常用戶的廣告點擊行為。這些虛假點擊不能為廣告主實現利益轉化,確需要廣告主付費,損害了廣告主的利益,且不利于廣告生態的健康有序發展。
目前通常采用通過專家經驗確立規則或者通過簡單統計方法來識別互聯網廣告的異常點擊行為。但這兩種方法在使用中均存在局限性,如根據專家經驗確立的規則過于固化,無法適應作弊手段的變化;而簡單統計方法處理數據空間有限,不能利于海量數據多維度精細化的分析。
在所述背景技術部分公開的上述信息僅用于加強對本發明的背景的理解,因此它可以包括不構成對本領域普通技術人員已知的現有技術的信息。
技術實現要素:
有鑒于此,本發明提供一種互聯網廣告異常點擊檢測方法、裝置、設備及可讀存儲介質,能夠有效實現異常點擊的自動檢測。
本發明的其他特性和優點將通過下面的詳細描述變得顯然,或部分地通過本發明的實踐而習得。
根據本發明的一方面,提供一種互聯網廣告異常點擊檢測方法,包括:從多條日志數據中分別篩選出廣告點擊量大于一預設的第一閾值的多個樣本數據,所述樣本數據為基于不同維度聚合后的點擊量數據;根據所述多個樣本數據,基于配置化文件,分別確定相應維度的各統計特征的特征值;建立所述各統計特征的特征值的第一高斯分布,并獲得各第一高斯分布的第一均值和第一標準差;以及根據所述各統計特征的特征值的第一高斯分布的第一均值和第一標準差,分別判斷所述多個樣本數據是否異常;其中,所述配置化文件包括用于確定所述各統計特征的特征值的計算算子。
根據本發明的一實施方式,根據所述各統計特征的特征值的第一高斯分布的第一均值和第一標準差,分別判斷所述多個樣本數據是否異常包括:針對各統計特征i,去除所述多個樣本數據中其統計特征i的特征值小于u(i)-2*σ(i)或者大于u(i)+2*σ(i)的樣本數據,其中u(i)為統計特征i的特征值的第一高斯分布的第一均值,σ(i)為統計特征i的特征值的第一高斯分布的第一標準差;根據剩余的所述樣本數據,分別重新建立相應維度的各統計特征i的特征值的第二高斯分布,并重新獲得各第二高斯分布的第二均值u2(i)和第二標準差σ2(i);確定各統計特征i的特征值的第二高斯分布中的第一分位點概率密度cp(i)、第二分位點概率密度bp(i)及第三分位點概率密度ap(i);分別確定所有統計特征的所述第一分位點概率密度的乘積cp、所述第二分位點概率密度的乘積bp及所述第三分位點概率密度的乘積ap;分別計算各樣本數據的所有統計特征的特征值的乘積y;以及根據cp、bp、ap及各樣本數據的y,分別判斷各樣本數據是否異常。
根據本發明的一實施方式,根據cp、bp、ap及y,分別判斷各樣本數據是否異常包括:當所述樣本數據的y小于cp時,確定該樣本數據為極端異常;當所述樣本數據的y小于bp時,確定該樣本數據為嚴重異常;當所述樣本數據的y小于ap時,確定該樣本數據為一般異常。
根據本發明的一實施方式,上述方法還包括:根據各樣本數據相應維度的各統計特征的特征值及各統計特征的特征值的第二高斯分布,分別對各條日志數據進行離線標注,獲得各條日志數據的標注結果,以確定各條日志中的離線點擊是否異常;對各條日志數據中的所述離線點擊的基礎特征與所述標注結果之間的關系進行學習,獲得訓練生成模型;以及根據所述訓練生成模型,對實時點擊是否為異常點擊進行實時判斷。
根據本發明的一實施方式,根據各樣本數據相應維度的各統計特征的特征值及各統計特征的特征值的第二高斯分布,分別對各條日志數據進行離線標注,獲得各條日志數據的標注結果,以確定各條日志中的離線點擊是否異常包括:分別對各條日志數據執行如下操作:確定各統計特征的特征值;根據各統計特征的特征值及其第二高斯分布的第二均值u2(i)及第二標準差σ2(i),確定各統計特征的異常度分數為:
確定該條日志數據的總異常度為各統計特征的異常度分數的加和;以及當所述總異常度大于一預設的第二閾值時,判斷所述離線點擊為異常點擊;當所述總異常度小于所述第二閾值時,判斷所述離線點擊為正常點擊;其中,score(i)為統計特征i的所述異常度分數,fval(i)為統計特征i的所述特征值。
根據本發明的一實施方式,根據所述訓練生成模型,對實時點擊是否為異常點擊進行實時判斷包括:解析所述實時點擊的基礎特征;根據所述實時點擊的基礎特征與所述訓練生成模型,確定一預估值,所述預估值的區間為[0,1];以及當所述預估值大于一預設的第三閾值時,判斷所述實時點擊為異常點擊;當所述預估值小于或等于所述第三閾值時,判斷所述實時點擊為正常點擊。
根據本發明的一實施方式,所述基礎特征包括:廣告位id、ip地址、點擊時間。
根據本發明的一實施方式,所述維度包括:廣告位維度、ip地址維度。
根據本發明的另一個方面,提供一種互聯網廣告異常點擊檢測裝置,包括:樣本提取模塊,用于從多條日志數據中分別篩選出廣告點擊量大于一預設的第一閾值的多個樣本數據,所述樣本數據為基于不同維度聚合后的點擊量數據;特征值確定模塊,用于根據所述多個樣本數據,基于配置化文件,分別確定相應維度的各統計特征的特征值;分布建立模塊,用于建立所述各統計特征的特征值的第一高斯分布,并獲得各第一高斯分布的第一均值和第一標準差;以及異常判斷模塊,用于根據所述各統計特征的特征值的第一高斯分布的第一均值和第一標準差,分別判斷所述多個樣本數據是否異常;其中,所述配置化文件包括用于確定所述各統計特征的特征值的計算算子。
根據本發明的再一個方面,提供一種計算機設備,包括:存儲器、處理器及存儲在所述存儲器中并可在所述處理器中運行的可執行指令,所述處理器執行所述可執行指令時實現如上述任意一種方法。
根據本發明的再一個方面,提供一種計算機可讀存儲介質,其上存儲有計算機可執行指令,所述可執行指令被處理器執行時實現如上述任意一種方法。
根據本發明實施方式的互聯網廣告異常點擊檢測方法,通過配置文件,可實現統計特征的特征值提取的自動化及點擊量分布生成的自動化,從而根據自動生成的點擊量的分布來實現異常點擊的檢測。此外,通過對統計特征中使用到的算子的配置,可以靈活的對統計特征進行擴展,實現新特征的無縫接入。
另外,根據一些實施方式,本發明的互聯網廣告異常點擊檢測方法,利用離線高斯異常檢測的結果,進一步提供對實時點擊的異常檢測,一方面提供了更為精細粒度的檢測方法,另一方面滿足了對應實時計費的檢測需求。
應當理解的是,以上的一般描述和后文的細節描述僅是示例性的,并不能限制本發明。
附圖說明
通過參照附圖詳細描述其示例實施例,本發明的上述和其它目標、特征及優點將變得更加顯而易見。
圖1是根據一示例性實施方式示出的一種互聯網廣告異常點擊檢測系統的框圖。
圖2是根據一示例性實施方式示出的一種互聯網廣告異常點擊檢測方法的流程圖。
圖3是根據圖2所示的互聯網廣告異常點擊檢測方法的一示例性實施例的流程圖。
圖4是根據一示例性實施方式示出的又一種互聯網廣告異常點擊檢測方法的流程圖。
圖5是根據圖4所示的互聯網廣告異常點擊檢測方法的一示例性實施例的流程圖。
圖6是根據圖4所示的互聯網廣告異常點擊檢測方法的另一示例性實施例的流程圖。
圖7是根據一示例性實施方式示出的一種互聯網廣告異常點擊檢測裝置的框圖。
圖8是根據一示例性實施方式示出的一種計算機系統的結構示意圖。
具體實施方式
現在將參考附圖更全面地描述示例實施方式。然而,示例實施方式能夠以多種形式實施,且不應被理解為限于在此闡述的范例;相反,提供這些實施方式使得本發明將更加全面和完整,并將示例實施方式的構思全面地傳達給本領域的技術人員。附圖僅為本發明的示意性圖解,并非一定是按比例繪制。圖中相同的附圖標記表示相同或類似的部分,因而將省略對它們的重復描述。
此外,所描述的特征、結構或特性可以以任何合適的方式結合在一個或更多實施方式中。在下面的描述中,提供許多具體細節從而給出對本發明的實施方式的充分理解。然而,本領域技術人員將意識到,可以實踐本發明的技術方案而省略所述特定細節中的一個或更多,或者可以采用其它的方法、組元、裝置、步驟等。在其它情況下,不詳細示出或描述公知結構、方法、裝置、實現或者操作以避免喧賓奪主而使得本發明的各方面變得模糊。
本發明實施方式的互聯網廣告異常點擊檢測方法,可應用于廣告主的后臺服務器中。當用戶點擊媒體網站中廣告主投放的廣告后,其會自動鏈接到廣告主的網頁中,廣告主可以基于不同的媒體網站(即廣告位)和/或用戶的ip地址等信息對點擊進行不同維度的統計,從而實現對異常點擊的檢測。廣告主的后臺服務器可以為單一的一臺服務器,也可以為分布式的服務器群,本發明不以此為限。
圖1是根據一示例性實施方式示出的一種互聯網廣告異常點擊檢測系統的框圖。如圖1所示,該系統1包括:離線模塊11及在線模塊12。其中離線模塊11主要負責通過對離線的日志數據中的點擊量進行統計,并采用高斯異常檢測來對離線點擊進行異常檢測及等級劃分等;此外,為了更細粒度以及實時的異常點擊檢測,離線模塊11進一步對高斯異常檢測時建立的分布進行離線標注、模型訓練,從而生成模型文件。在線模塊12通過離線模塊11所生成的模型文件對實時點擊進行異常檢測。
基于該系統,下面具體說明本發明的方法實施方式。
圖2是根據一示例性實施方式示出的一種互聯網廣告異常點擊檢測方法的流程圖。參考圖1及圖2,方法10例如可以由離線模塊11實現,方法10包括:
在步驟s102中,從多條日志數據中分別篩選出廣告點擊量大于一預設的第一閾值的多個樣本數據,所述樣本數據為基于不同維度聚合后的點擊量數據。
為了保證統計特征計算的有效性,需要選取出的樣本數據中的廣告點擊量滿足大于第一閾值的要求。此外,該樣本數據中為基于不同維度聚合后的點擊量數據,不同維度例如可以包括:廣告位維度、點擊用戶的ip地址維度等。也即該樣本數據可以為來自同一廣告位的點擊量數據的聚合,或者為來自同一ip地址的點擊量數據的聚合。
第一閾值在實際應用中可根據實際需求而設定,在此不做限定。
在步驟s104中,根據多個樣本數據,基于配置化文件,分別確定相應維度的各統計特征的特征值。
統計特征通??梢猿橄鬄槿悾簡稳罩咎卣鳌⒕酆咸卣骷敖M合特征。其中不同的聚合特征具有不同的計算方式,為了實現特征提取的配置化,可以將特征的計算過程抽象為不同的算子,每一算子對應一種計算方式,例如:count算子,用于計算點擊數量;sum算子,用于計算點擊量的代數和;ratio算子,用于計算比例;max算子,用于計算最大值;min算子,用于計算最小值;avg算子,用于計算平均值;distinct算子,用于計算不同元素的個數;topnratio算子,用于計算topn元素占比總和。如可以通過topnratio算子計算同一廣告位中統計特征pos_userid_top5的特征值,即計算top5的用戶id的點擊占總點擊量的比例。
通過在配置文件中通過指定算子、字段列等,使得離線模塊11可以通過加載配置文件獲得對應的特征值。
在步驟s106中,建立各統計特征的特征值的第一高斯分布,并獲得各第一高斯分布的第一均值和第一標準差。
針對每個統計特征,如統計特征i,分別計算不同樣本數據的該統計特征的特征值,并根據不同的特征值,建立該統計特征的第一高斯分布,并計算的到該第一高斯分布的第一均值u(i)及第一標準差σ(i)。
在步驟s108中,根據各統計特征的特征值的第一高斯分布的第一均值和第一標準差,分別判斷多個樣本數據是否異常。
根據本發明實施方式的互聯網廣告異常點擊檢測方法,通過配置文件,可實現統計特征的特征值提取的自動化及點擊量分布生成的自動化,從而根據自動生成的點擊量的分布來實現異常點擊的檢測。此外,通過對統計特征中使用到的算子的配置,可以靈活的對統計特征進行擴展,實現新特征的無縫接入。
應清楚地理解,本發明描述了如何形成和使用特定示例,但本發明的原理不限于這些示例的任何細節。相反,基于本發明公開的內容的教導,這些原理能夠應用于許多其它實施方式。
圖3是根據圖2所示的互聯網廣告異常點擊檢測方法的一示例性實施例的流程圖。圖3進一步為圖2中所示的步驟s108提供了一種實施方法,如圖3所示,步驟s108包括:
在步驟s1082中,針對各統計特征i,去除多個樣本數據中其統計特征i的特征值小于u(i)-2*σ(i)或者大于u(i)+2*σ(i)的樣本數據。
其中u(i)為統計特征i的特征值的第一高斯分布的第一均值,σ(i)為統計特征i的特征值的第一高斯分布的第一標準差。
在步驟s1084中,根據剩余的樣本數據,分別重新建立相應維度的各統計特征i的特征值的第二高斯分布,并重新獲得各第二高斯分布的第二均值u2(i)和第二標準差σ2(i)。
在步驟s1086中,確定各統計特征i的特征值的第二高斯分布中的第一分位點概率密度cp(i)、第二分位點概率密度bp(i)及第三分位點概率密度ap(i)。
其中,第一分位點例如可以為0.0001分位點,第二分位點例如可以為0.0125分位點,第三分位點例如可以為0.025分位點。
在步驟s1088中,分別確定所有統計特征的第一分位點概率密度的乘積cp、第二分位點概率密度的乘積bp及第三分位點概率密度的乘積ap。
設共有n個統計特征,則即cp=cp(1)*cp(2)*......*cp(n),bp=bp(1)*bp(2)*......*bp(n),ap=ap(1)*ap(2)*......*ap(n)。
在步驟s1090中,分別計算各樣本數據的所有統計特征的特征值的乘積y。
即y=x(1)*x(2)*......*x(n),其中x(i)為統計特征i的特征值。
在步驟s1092中,根據cp、bp、ap及各樣本數據的y,分別判斷各樣本數據是否異常。
例如,當某一樣本數據的y小于cp時,確定該樣本數據為極端異常;當某一樣本數據的y小于bp時,確定該樣本數據為嚴重異常;當某一樣本數據的y小于ap時,確定該樣本數據為一般異常。
在上述高斯異常檢測中,可以對不同維度如廣告位、ip地址等的統計特征進行判斷,從而確定樣本數據是否異常。但一個廣告位上可能只有部分流量是作弊的,其他流量是正常的,為了進行更細粒度的檢測及實時檢測,本發明實施方式進一步提供了基于高斯異常檢測的實時檢測方法。
圖4是根據一示例性實施方式示出的又一種互聯網廣告異常點擊檢測方法的流程圖。與圖2所示的方法10不同之處在于,圖4所示的方法20在方法10的基礎上,還包括:
在步驟202中,根據各樣本數據相應維度的各統計特征的特征值及各統計特征的特征值的第二高斯分布,分別對各條日志數據進行離線標注,獲得各條日志數據的標注結果,以確定各條日志中的離線點擊是否異常。
離線標注需要使用高斯異常檢測時所建立的各統計特征的特征值的高斯分布,從而為離線點擊根據高斯異常檢測時建立的分布進行標注,獲得各條日志數據的標注結果,以確定各條日志中的離線點擊是否異常。
在步驟s204中,對各條日志數據中的離線點擊的基礎特征與標注結果之間的關系進行學習,獲得訓練生成模型。
通過離線標注能夠離線的識別點擊是否作弊,但廣告點擊是實時扣費的,需要實時的判斷點擊是否為異常點擊。實時的點擊日志里只有基礎特征,如包括:廣告位id、ip地址、點擊時間等,沒有離線標注中用到的聚合特征。因此,需要一個模型能學習到基礎特征與異常點擊檢測(即標注結果)之間的關系。
具體地,在進行上述離線標注后,提取離線點擊的基礎特征,例如使用深度神經網絡模型(deepneutralnetwork,dnn)進行學習基礎特征與標注結果的關。深度神經網絡模型是現有的比較成熟的技術,theano、tensorflow等開源框架都有提供,為了避免模糊本發明,對利用深度神經網絡進行學習的說明不再贅述。
在步驟s206中,根據訓練生成模型,對實時點擊是否為異常點擊進行實時判斷。
該步驟可以由圖1中實時在線模塊12實施,其利用離線模塊11生成的訓練生成模型,對實時點擊是否為異常點擊進行實時判斷。
根據本發明實施方式的互聯網廣告異常點擊檢測方法,利用離線高斯異常檢測的結果,進一步提供對實時點擊的異常檢測,一方面提供了更為精細粒度的檢測方法,另一方面滿足了對應實時計費的檢測需求。
圖5是根據圖4所示的互聯網廣告異常點擊檢測方法的一示例性實施例的流程圖。圖5進一步為圖4中所示的步驟s202提供了一種實施方法,如圖5所示,步驟s202包括:分別對各條日志數據執行如下操作:
在步驟s2022中,確定各統計特征的特征值。
在步驟s2024中,根據各統計特征的特征值及其第二高斯分布的第二均值u2(i)及第二標準差σ2(i),確定各統計特征的異常度分數為:
其中,score(i)為統計特征i的異常度分數,fval(i)為統計特征i的特征值。
在步驟s2026中,確定該條日志數據的總異常度為各統計特征的異常度分數的加和。
即
其中n為統計特征的數量。
在步驟s2028中,當總異常度大于一預設的第二閾值時,判斷離線點擊為異常點擊;當總異常度小于第二閾值時,判斷所述離線點擊為正常點擊。
第二閾值的取值在實際應用中可根據實際需求而設定,在此不做限定。
圖6是根據圖4所示的互聯網廣告異常點擊檢測方法的另一示例性實施例的流程圖。圖6進一步為圖4中所示的步驟s202提供了一種實施方法,圖6可以由圖1所示的在線模塊12實施,如圖6所示,步驟s206包括:
在步驟s2062中,解析實時點擊的基礎特征。
基礎特征如廣告位id、ip地址、點擊時間等。
在步驟s2064中,根據實時點擊的基礎特征與訓練生成模型,確定一預估值,預估值的區間為[0,1]。
在步驟s2066中,當預估值大于一預設的第三閾值時,判斷實時點擊為異常點擊;當預估值小于或等于第三閾值時,判斷實時點擊為正常點擊。
第三閾值例如可以為0.5,但本發明不以此為限,在實際應用中第三閾值可根據實際需求而具體設定。
本領域技術人員可以理解實現上述實施方式的全部或部分步驟被實現為由cpu執行的計算機程序。在該計算機程序被cpu執行時,執行本發明提供的上述方法所限定的上述功能。所述的程序可以存儲于一種計算機可讀存儲介質中,該存儲介質可以是只讀存儲器,磁盤或光盤等。
此外,需要注意的是,上述附圖僅是根據本發明示例性實施方式的方法所包括的處理的示意性說明,而不是限制目的。易于理解,上述附圖所示的處理并不表明或限制這些處理的時間順序。另外,也易于理解,這些處理可以是例如在多個模塊中同步或異步執行的。
下述為本發明裝置實施例,可以用于執行本發明方法實施例。對于本發明裝置實施例中未披露的細節,請參照本發明方法實施例。
圖7是根據一示例性實施方式示出的一種互聯網廣告異常點擊檢測裝置的框圖。如圖7所示,裝置30包括:樣本提取模塊302、特征值確定模塊304、分布建立模塊306及異常判斷模塊308。
其中,樣本提取模塊302用于從多條日志數據中分別篩選出廣告點擊量大于一預設的第一閾值的多個樣本數據,所述樣本數據為基于不同維度聚合后的點擊量數據。
特征值確定模塊304用于根據所述多個樣本數據,基于配置化文件,分別確定相應維度的各統計特征的特征值。
所述配置化文件包括用于確定所述各統計特征的特征值的計算算子。
分布建立模塊306用于建立所述各統計特征的特征值的第一高斯分布,并獲得各第一高斯分布的第一均值和第一標準差。
異常判斷模塊308用于根據所述各統計特征的特征值的第一高斯分布的第一均值和第一標準差,分別判斷所述多個樣本數據是否異常。
在一些實施例中,異常判斷模塊308包括:樣本去除子模塊、分布建立子模塊、概率密度確定子模塊、第一乘積確定子模塊、第二乘積確定子模塊及異常檢測子模塊。其中,樣本去除子模塊用于針對各統計特征i,去除所述多個樣本數據中其統計特征i的特征值小于u(i)-2*σ(i)或者大于u(i)+2*σ(i)的樣本數據,其中u(i)為統計特征i的特征值的第一高斯分布的第一均值,σ(i)為統計特征i的特征值的第一高斯分布的第一標準差;分布建立子模塊用于根據剩余的所述樣本數據,分別重新建立相應維度的各統計特征i的特征值的第二高斯分布,并重新獲得各第二高斯分布的第二均值u2(i)和第二標準差σ2(i);概率密度確定子模塊用于確定各統計特征i的特征值的第二高斯分布中的第一分位點概率密度cp(i)、第二分位點概率密度bp(i)及第三分位點概率密度ap(i);第一乘積確定子模塊用于分別確定所有統計特征的所述第一分位點概率密度的乘積cp、所述第二分位點概率密度的乘積bp及所述第三分位點概率密度的乘積ap;第二乘積確定子模塊用于分別計算各樣本數據的所有統計特征的特征值的乘積y;異常檢測子模塊用于根據cp、bp、ap及各樣本數據的y,分別判斷各樣本數據是否異常。
在一些實施例中,異常檢測子模塊還用于當所述樣本數據的y小于cp時,確定該樣本數據為極端異常;當所述樣本數據的y小于bp時,確定該樣本數據為嚴重異常;當所述樣本數據的y小于ap時,確定該樣本數據為一般異常。
在一些實施例中,裝置30還包括:離線標注模塊、模型訓練模塊及實時檢測模塊。其中離線標注模塊用于根據各樣本數據相應維度的各統計特征的特征值及各統計特征的特征值的第二高斯分布,分別對各條日志數據進行離線標注,獲得各條日志數據的標注結果,以確定各條日志中的離線點擊是否異常;模型訓練模塊用于對各條日志數據中的所述離線點擊的基礎特征與所述標注結果之間的關系進行學習,獲得訓練生成模型;實時檢測模塊用于根據所述訓練生成模型,對實時點擊是否為異常點擊進行實時判斷。
在一些實施例中,離線標注模塊包括:特征值確定子模塊、異常度確定子模塊、總異常度確定子模塊及點擊判斷子模塊。各子模塊分別對各條日志數據執行如下操作:特征值確定子模塊用于確定各統計特征的特征值;異常度確定子模塊用于根據各統計特征的特征值及其第二高斯分布的第二均值u2(i)及第二標準差σ2(i),確定各統計特征的異常度分數為:
其中,score(i)為統計特征i的所述異常度分數,fval(i)為統計特征i的所述特征值;總異常度確定子模塊用于確定該條日志數據的總異常度為各統計特征的異常度分數的加和;點擊判斷子模塊用于當所述總異常度大于一預設的第二閾值時,判斷所述離線點擊為異常點擊;當所述總異常度小于所述第二閾值時,判斷所述離線點擊為正常點擊。
在一些實施例中,實時檢測模塊包括:基礎特征解析子模塊、預估值確定子模塊及點擊檢測子模塊。其中,基礎特征解析子模塊用于解析所述實時點擊的基礎特征;預估值確定子模塊用于根據所述實時點擊的基礎特征與所述訓練生成模型,確定一預估值,所述預估值的區間為[0,1];點擊檢測子模塊用于當所述預估值大于一預設的第三閾值時,判斷所述實時點擊為異常點擊;當所述預估值小于或等于所述第三閾值時,判斷所述實時點擊為正常點擊。
需要注意的是,上述附圖中所示的框圖是功能實體,不一定必須與物理或邏輯上獨立的實體相對應??梢圆捎密浖问絹韺崿F這些功能實體,或在一個或多個硬件模塊或集成電路中實現這些功能實體,或在不同網絡和/或處理器裝置和/或微控制器裝置中實現這些功能實體。
圖8是根據一示例性實施方式示出的一種計算機系統的結構示意圖。需要說明的是,圖8示出的計算機系統僅僅是一個示例,不應對本申請實施例的功能和使用范圍帶來任何限制。
如圖8所示,計算機系統600包括中央處理單元(cpu)601,其可以根據存儲在只讀存儲器(rom)602中的程序或者從存儲部分608加載到隨機訪問存儲器(ram)603中的程序而執行各種適當的動作和處理。在ram603中,還存儲有系統600操作所需的各種程序和數據。cpu601、rom602以及ram603通過總線604彼此相連。輸入/輸出(i/o)接口605也連接至總線604。
以下部件連接至i/o接口605:包括鍵盤、鼠標等的輸入部分606;包括諸如陰極射線管(crt)、液晶顯示器(lcd)等以及揚聲器等的輸出部分607;包括硬盤等的存儲部分608;以及包括諸如lan卡、調制解調器等的網絡接口卡的通信部分609。通信部分609經由諸如因特網的網絡執行通信處理。驅動器610也根據需要連接至i/o接口605??刹鹦督橘|611,諸如磁盤、光盤、磁光盤、半導體存儲器等等,根據需要安裝在驅動器610上,以便于從其上讀出的計算機程序根據需要被安裝入存儲部分608。
特別地,根據本公開的實施例,上文參考流程圖描述的過程可以被實現為計算機軟件程序。例如,本公開的實施例包括一種計算機程序產品,其包括承載在計算機可讀介質上的計算機程序,該計算機程序包含用于執行流程圖所示的方法的程序代碼。在這樣的實施例中,該計算機程序可以通過通信部分609從網絡上被下載和安裝,和/或從可拆卸介質611被安裝。在該計算機程序被中央處理單元(cpu)601執行時,執行本申請的系統中限定的上述功能。
需要說明的是,本申請所示的計算機可讀介質可以是計算機可讀信號介質或者計算機可讀存儲介質或者是上述兩者的任意組合。計算機可讀存儲介質例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導體的系統、裝置或器件,或者任意以上的組合。計算機可讀存儲介質的更具體的例子可以包括但不限于:具有一個或多個導線的電連接、便攜式計算機磁盤、硬盤、隨機訪問存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本申請中,計算機可讀存儲介質可以是任何包含或存儲程序的有形介質,該程序可以被指令執行系統、裝置或者器件使用或者與其結合使用。而在本申請中,計算機可讀的信號介質可以包括在基帶中或者作為載波一部分傳播的數據信號,其中承載了計算機可讀的程序代碼。這種傳播的數據信號可以采用多種形式,包括但不限于電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質還可以是計算機可讀存儲介質以外的任何計算機可讀介質,該計算機可讀介質可以發送、傳播或者傳輸用于由指令執行系統、裝置或者器件使用或者與其結合使用的程序。計算機可讀介質上包含的程序代碼可以用任何適當的介質傳輸,包括但不限于:無線、電線、光纜、rf等等,或者上述的任意合適的組合。
附圖中的流程圖和框圖,圖示了按照本申請各種實施例的系統、方法和計算機程序產品的可能實現的體系架構、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,上述模塊、程序段、或代碼的一部分包含一個或多個用于實現規定的邏輯功能的可執行指令。也應當注意,在有些作為替換的實現中,方框中所標注的功能也可以以不同于附圖中所標注的順序發生。例如,兩個接連地表示的方框實際上可以基本并行地執行,它們有時也可以按相反的順序執行,這依所涉及的功能而定。也要注意的是,框圖或流程圖中的每個方框、以及框圖或流程圖中的方框的組合,可以用執行規定的功能或操作的專用的基于硬件的系統來實現,或者可以用專用硬件與計算機指令的組合來實現。
描述于本申請實施例中所涉及到的單元可以通過軟件的方式實現,也可以通過硬件的方式來實現。所描述的單元也可以設置在處理器中,例如,可以描述為:一種處理器包括發送單元、獲取單元、確定單元和第一處理單元。其中,這些單元的名稱在某種情況下并不構成對該單元本身的限定,例如,發送單元還可以被描述為“向所連接的服務端發送圖片獲取請求的單元”。
作為另一方面,本申請還提供了一種計算機可讀介質,該計算機可讀介質可以是上述實施例中描述的設備中所包含的;也可以是單獨存在,而未裝配入該設備中。上述計算機可讀介質承載有一個或者多個程序,當上述一個或者多個程序被一個該設備執行時,使得該設備包括:
從多條日志數據中分別篩選出廣告點擊量大于一預設的第一閾值的多個樣本數據,所述樣本數據為基于不同維度聚合后的點擊量數據;
根據所述多個樣本數據,基于配置化文件,分別確定相應維度的各統計特征的特征值;
建立所述各統計特征的特征值的第一高斯分布,并獲得各第一高斯分布的第一均值和第一標準差;以及
根據所述各統計特征的特征值的第一高斯分布的第一均值和第一標準差,分別判斷所述多個樣本數據是否異常;
其中,所述配置化文件包括用于確定所述各統計特征的特征值的計算算子。
以上具體地示出和描述了本發明的示例性實施方式。應可理解的是,本發明不限于這里描述的詳細結構、設置方式或實現方法;相反,本發明意圖涵蓋包含在所附權利要求的精神和范圍內的各種修改和等效設置。