麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

用戶識別方法與裝置的制作方法

文檔序號:3264668閱讀:360來源:國知局
專利名稱:用戶識別方法與裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別是涉及一種用戶識別方法與裝置。
背景技術(shù)
目前隨著互聯(lián)網(wǎng)技術(shù)應(yīng)用的越來越廣泛,人們很多的日常工作和娛樂都在網(wǎng)絡(luò)上進行。在很多網(wǎng)絡(luò)應(yīng)用場景下,用戶在訪問網(wǎng)絡(luò)時,服務(wù)器需要對用戶進行識別。較為廣泛采用的用戶識別方法包括通過IP地址識別、通過ADSL賬號識別和通過網(wǎng)站的COOKIE識別坐寸ο
其中,通過IP地址識別用戶時,由于IP資源有限,而上網(wǎng)用戶卻越來越多,目前的寬帶用戶一般都使用動態(tài)IP,以避免用戶不上網(wǎng)也占用寶貴的IP資源,這樣,就造成同一個IP地址被多個不同用戶使用,無法準確識別用戶。
通過ADSL賬號識別用戶時,通常與UA (用戶使用的瀏覽器版本)相結(jié)合,但是這種通過ADSL+UA的方式的粒度太粗,會出現(xiàn)一個ADSL對應(yīng)多個用戶,同樣難以精確確定用戶。
當(dāng)通過網(wǎng)站的COOKIE識別用戶時,網(wǎng)站采用COOKIE技術(shù)跟蹤用戶在本網(wǎng)站下的行為,然而每個網(wǎng)站只能跟蹤用戶在本網(wǎng)站或者是嵌入本網(wǎng)站COOKIE的第三方網(wǎng)站的訪問行為,無法對整個互聯(lián)網(wǎng)的用戶行為進行跟蹤,因而也無法準確識別用戶。
可見,不論上述哪種情況,都無法達到準確識別用戶,而只有服務(wù)器能夠準確識別客戶端和用戶,才能進行后續(xù)的高精度操作,如高精度投放廣告等,以減低信息交互成本和信息交互量,提升用戶對網(wǎng)絡(luò)的訪問體驗。發(fā)明內(nèi)容
本發(fā)明提供了一種用戶識別方法與裝置,以解決現(xiàn)有方案無法準確識別用戶的問題。
為了解決上述問題,本發(fā)明公開了一種用戶識別方法,包括從網(wǎng)絡(luò)訪問日志報文中獲取設(shè)定時間段內(nèi)用戶標(biāo)識相同,且所述用戶標(biāo)識與設(shè)定網(wǎng)站的網(wǎng)站COOKIE—一對應(yīng)的報文;從獲取的所述報文中獲取四元組信息,其中,所述四元組信息包括所述用戶標(biāo)識指示的用戶訪問網(wǎng)站的域名、所述用戶標(biāo)識、所述用戶訪問網(wǎng)站的COOKIE字段、和所述 COOKIE字段的值;對所述四元組信息進行統(tǒng)計,獲得每個所述用戶訪問網(wǎng)站的訪問信息; 對所述每個用戶訪問網(wǎng)站的訪問信息進行過濾,獲取所述每個用戶訪問網(wǎng)站標(biāo)識所述用戶的COOKIE字段;建立獲取的所述COOKIE字段與所述用戶標(biāo)識的對應(yīng)關(guān)系,根據(jù)所述對應(yīng)關(guān)系識別所述用戶。
優(yōu)選地,所述用戶標(biāo)識包括用戶賬號和瀏覽器版本號;所述用戶訪問網(wǎng)站的訪問信息包括所述用戶訪問網(wǎng)站的域名、所述域名的頁面瀏覽量、所述域名的頁面瀏覽量占比、所述用戶訪問網(wǎng)站的COOKIE字段、用戶標(biāo)識相同的頁面瀏覽次數(shù)、用戶標(biāo)識不同的頁面瀏 覽次數(shù)、所述用戶標(biāo)識不同的頁面瀏覽次數(shù)比例、用戶標(biāo)識相同的獨立訪客次數(shù)、用戶標(biāo)識不同的獨立訪客次數(shù)、所述用戶標(biāo)識不同的獨立訪客比例。
優(yōu)選地,在所述對所述每個用戶訪問網(wǎng)站的訪問信息進行過濾的步驟之前,還包括按照所述用戶標(biāo)識不同的頁面瀏覽次數(shù)比例和/或所述用戶標(biāo)識不同的獨立訪客比例對所述每個用戶訪問網(wǎng)站的訪問信息進行排序。
優(yōu)選地,所述對所述每個用戶訪問網(wǎng)站的訪問信息進行過濾,獲取所述每個用戶訪問網(wǎng)站標(biāo)識所述用戶的COOKIE字段的步驟包括使用所述域名的頁面瀏覽量、或者互信息,或者信息增益,對所述每個用戶訪問網(wǎng)站的訪問信息進行過濾,獲取所述每個用戶訪問網(wǎng)站標(biāo)識所述單用戶的COOKIE字段。
優(yōu)選地,所述用戶識別方法還包括根據(jù)所述獲取的報文,獲取COOKIE名相同的兩個網(wǎng)站的網(wǎng)站訪問信息,其中,所述網(wǎng)站訪問信息包括所述兩個網(wǎng)站的COOKIE字段、 所述COOKIE字段的值、所述兩個網(wǎng)站的域名、用戶標(biāo)識相同的頁面瀏覽次數(shù)、用戶標(biāo)識不同的頁面瀏覽次數(shù)、所述用戶標(biāo)識不同的頁面瀏覽次數(shù)比例、用戶標(biāo)識相同的獨立訪客次數(shù)、用戶標(biāo)識不同的獨立訪客次數(shù)、所述用戶標(biāo)識不同的獨立訪客比例;按照所述用戶標(biāo)識不同的頁面瀏覽次數(shù)比例和/或所述用戶標(biāo)識不同的獨立訪客比例對所述兩個網(wǎng)站的訪問信息進行排序;對排序后的所述訪問信息進行過濾,確定所述兩個網(wǎng)站是否使用相同的 COOKIE字段;若是,則建立所述兩個網(wǎng)站的關(guān)聯(lián),根據(jù)所述關(guān)聯(lián)和所述COOKIE字段與所述用戶標(biāo)識的對應(yīng)關(guān)系識別所述用戶。
優(yōu)選地,所述用戶識別方法還包括若用于標(biāo)識所述用戶的所述COOKIE字段包括多個COOKIE字段的值,則在所述多個COOKIE字段的值之間進行關(guān)聯(lián);根據(jù)所述關(guān)聯(lián)和所述 COOKIE字段與所述用戶標(biāo)識的對應(yīng)關(guān)系識別所述用戶。
為了解決上述問題,本發(fā)明還公開了一種用戶識別裝置,包括第一獲取模塊,用于從網(wǎng)絡(luò)訪問日志報文中獲取設(shè)定時間段內(nèi)用戶標(biāo)識相同,且所述用戶標(biāo)識與設(shè)定網(wǎng)站的網(wǎng)站COOKIE—一對應(yīng)的報文;第二獲取模塊,用于從獲取的所述報文中獲取四元組信息, 其中,所述四元組信息包括所述用戶標(biāo)識指示的用戶訪問網(wǎng)站的域名、所述用戶標(biāo)識、所述用戶訪問網(wǎng)站的COOKIE字段、和所述COOKIE字段的值;第三獲取模塊,用于對所述四元組信息進行統(tǒng)計,獲得每個所述用戶訪問網(wǎng)站的訪問信息;第四獲取模塊,用于對所述每個用戶訪問網(wǎng)站的訪問信息進行過濾,獲取所述每個用戶訪問網(wǎng)站標(biāo)識所述用戶的COOKIE字段;識別模塊,用于建立獲取的所述COOKIE字段與所述用戶標(biāo)識的對應(yīng)關(guān)系,根據(jù)所述對應(yīng)關(guān)系識別所述用戶。
優(yōu)選地,所述用戶標(biāo)識包括用戶賬號和瀏覽器版本號;所述用戶訪問網(wǎng)站的訪問信息包括所述用戶訪問網(wǎng)站的域名、所述域名的頁面瀏覽量、所述域名的頁面瀏覽量占比、所述用戶訪問網(wǎng)站的COOKIE字段、用戶標(biāo)識相同的頁面瀏覽次數(shù)、用戶標(biāo)識不同的頁面瀏覽次數(shù)、所述用戶標(biāo)識不同的頁面瀏覽次數(shù)比例、用戶標(biāo)識相同的獨立訪客次數(shù)、用戶標(biāo)識不同的獨立訪客次數(shù)、所述用戶標(biāo)識 不同的獨立訪客比例。
優(yōu)選地,所述用戶識別裝置還包括排序模塊,用于在所述第四獲取模塊對所述每個用戶訪問網(wǎng)站的訪問信息進行過濾之前,按照所述用戶標(biāo)識不同的頁面瀏覽次數(shù)比例和 /或所述用戶標(biāo)識不同的獨立訪客比例對所述每個用戶訪問網(wǎng)站的訪問信息進行排序。
優(yōu)選地,所述第四獲取模塊,用于使用所述域名的頁面瀏覽量、或者互信息,或者信息增益,對所述每個用戶訪問網(wǎng)站的訪問信息進行過濾,獲取所述每個用戶訪問網(wǎng)站標(biāo)識所述單用戶的C00KIE字段。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點
本發(fā)明中,先通過確定設(shè)定網(wǎng)站的COOKIE與用戶標(biāo)識的對應(yīng)關(guān)系,從而確定該用戶標(biāo)識標(biāo)示的用戶是否是單個用戶,進而獲取該單個用戶的報文。
其中,設(shè)定網(wǎng)站通常為訪問量較大的網(wǎng)站,其COOKIE公知且唯一,能夠根據(jù)這些網(wǎng)站與用戶標(biāo)識是否是一一對應(yīng)而確定該用戶標(biāo)識標(biāo)示的用戶是否是單用戶。
在確定用戶標(biāo)識標(biāo)示的用戶是單用戶的情況下,對該用戶的所訪問網(wǎng)站的網(wǎng)絡(luò)訪問日志報文進行一系列的提取、統(tǒng)計和過濾等處理,從而獲取用戶訪問的網(wǎng)站可以用來唯一標(biāo)識用戶的COOKIE字段,進而建立該COOKIE字段與用戶標(biāo)識的對應(yīng)關(guān)系,在后續(xù)的訪問中,網(wǎng)站可以根據(jù)該對應(yīng)關(guān)系識別用戶。
因為網(wǎng)絡(luò)訪問日志報文中包含有大量的信息,其中某些COOKIE字段的信息實際上可以作為身份信息來使用,本發(fā)明的方案根據(jù)COOKIE信息的這一特點,自動化地將能作為身份信息的C00KIE字段從大量的信息中解析出來,然后分析確定各個網(wǎng)站中哪些 COOKIE字段是可以唯一標(biāo)識用戶身份的,建立這些COOKIE字段和用戶標(biāo)識的對應(yīng)關(guān)系,使用該對應(yīng)關(guān)系來準確識別用戶。
通過本發(fā)明,解決了現(xiàn)有方案無法準確識別用戶的問題,達到了準確識別用戶的效果,進而,網(wǎng)站能夠根據(jù)該高精度的識別結(jié)果進行后續(xù)的高精度操作,如高精度投放廣告等,減低了信息交互成本和信息交互量,提升了用戶對網(wǎng)絡(luò)的訪問體驗。


圖1是根據(jù)本發(fā)明實施例一的一種用戶識別方法的步驟流程圖
圖2是根據(jù)本發(fā)明實施例二的一種用戶識別方法的步驟流程圖
圖3是根據(jù)本發(fā)明實施例三的一種用戶識別方法的步驟流程圖
圖4是根據(jù)本發(fā)明實施例四的一種用戶識別裝置的結(jié)構(gòu)框圖。
具體實施方式
為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體實施方式
對本發(fā)明作進一步詳細的說明。
實施例一
參照圖1,示出了根據(jù)本發(fā)明實施例一的一種用戶識別方法的步驟流程圖。
本實施例的用戶識別方法包括以下步驟
步驟S102 :從網(wǎng)絡(luò)訪問日志報文中獲取設(shè)定時間段內(nèi)用戶標(biāo)識相同,且用戶標(biāo)識與設(shè)定網(wǎng)站的網(wǎng)站COOKIE——對應(yīng)的報文。
其中,設(shè)定時間段可以由本領(lǐng)域技術(shù)人員根據(jù)實際情況適當(dāng)設(shè)置,如一天或幾個小時或幾天等,本發(fā)明對此不作限制。設(shè)定網(wǎng)站通常是訪問量較大的、用戶經(jīng)常使用的,其能標(biāo)識用戶身份的COOKIE字段可以通過統(tǒng)計分析方法獲得的那些網(wǎng)站,如百度、谷歌、淘寶等,這些網(wǎng)站,其COOKIE公知且唯一,能夠根據(jù)這些網(wǎng)站與用戶標(biāo)識是否是一一對應(yīng)而確定該用戶標(biāo)識標(biāo)示的用戶是否是單用戶,進而獲取相應(yīng)的單用戶報文。
步驟S104 :從獲取的報文中獲取四元組信息。
其中,四元組信息包括用戶標(biāo)識指示的用戶訪問網(wǎng)站的域名、用戶標(biāo)識、用戶訪問網(wǎng)站的COOKIE字段、和COOKIE字段的值。
獲取的四元組信息可以包括上述設(shè)定網(wǎng)站的四元組信息,也可以是包括除上述設(shè)定網(wǎng)站之外的那些網(wǎng)站的四元組信息。
步驟S106 :對四元組信息進行統(tǒng)計,獲得每個用戶訪問網(wǎng)站的訪問信息。
網(wǎng)站的訪問信息是與網(wǎng)站訪問相關(guān)的信息,如PV (PageView,頁面瀏覽量)信息、 UV (Unique Visitor,獨立訪客)信息等。如,可以根據(jù)每個網(wǎng)站的訪問報文,統(tǒng)計一個網(wǎng)站下的COOKIE值的不同個數(shù)以及用戶標(biāo)識如userid的不同個數(shù),獲取每個用戶訪問網(wǎng)站的訪問信息。
步驟S108 :對每個用戶訪問網(wǎng)站的訪問信息進行過濾,獲取每個用戶訪問網(wǎng)站標(biāo)識所述用戶的COOKIE字段。
對訪問信息進行過濾的目的是過濾掉那些不能標(biāo)識用戶的COOKIE字段。
步驟SllO :建立獲取的COOKIE字段與用戶標(biāo)識的對應(yīng)關(guān)系,根據(jù)對應(yīng)關(guān)系識別所述用戶。
例如,假設(shè)通過上述過程確定某一網(wǎng)站的COOKIE字段中的COOKIE ID能夠唯一標(biāo)識一個用戶,則建立的對應(yīng)關(guān)系為UID — >C00KIE ID,其中UID表示用戶標(biāo)識,如一個用戶的用戶標(biāo)識為ADSL1+UA1,COOKIE ID為4500,則當(dāng)該用戶訪問該網(wǎng)站時,服務(wù)器獲取到網(wǎng)站的訪問報文,從中獲取到COOKIE ID為4500時,則可以確定相對應(yīng)的用戶為ADSL1+UA1。
通過本實施例,先通過確定設(shè)定網(wǎng)站的COOKIE與用戶標(biāo)識的——對應(yīng)關(guān)系,從而確定該用戶標(biāo)識標(biāo)示的用戶是否是單個用戶,進而獲取該單個用戶的報文。其中,設(shè)定網(wǎng)站通常為訪問量較大的網(wǎng)站,其COOKIE公知且唯一,能夠根據(jù)這些網(wǎng)站與用戶標(biāo)識是否是一一對應(yīng)而確定該用戶標(biāo)識標(biāo)示的用戶是否是單用戶。在確定用戶標(biāo)識標(biāo)示的用戶是單用戶的情況下,對該用戶的所訪問網(wǎng)站的網(wǎng)絡(luò)訪問日志報文進行一系列的提取、統(tǒng)計和過濾等處理,從而獲取用戶訪問的網(wǎng)站可以用來唯一標(biāo)識用戶的COOKIE字段,進而建立該 COOKIE字段與用戶標(biāo)識的對應(yīng)關(guān)系,在后續(xù)的訪問中,網(wǎng)站可以根據(jù)該對應(yīng)關(guān)系識別用戶。 因為網(wǎng)絡(luò)訪問日志報文中包含有大量的信息,其中某些COOKIE字段的信息實際上可以作為身份信息來使用,本發(fā)明的方案根據(jù)C00KIE信息的這一特點,自動化地將能作為身份信息的COOKIE字段從大量的信息中解析出來,然后分析確定各個網(wǎng)站中哪些COOKIE字段是可以唯一標(biāo)識用戶身份的,建立這些COOKIE字段和用戶標(biāo)識的對應(yīng)關(guān)系,使用該對應(yīng)關(guān)系來準確識別用戶。通過本實施例,解決了現(xiàn)有方案無法準確識別用戶的問題,達到了準確識別用戶的效果,進而,網(wǎng)站能夠根據(jù)該高精度的識別結(jié)果進行后續(xù)的高精度操作,如高精度投放廣告等,減低了信息交互成本和信息交互量,提升了用戶對網(wǎng)絡(luò)的訪問體驗。
實施例二`
參照圖2,示出了根據(jù)本發(fā)明實施例二的一種用戶識別方法的步驟流程圖。
本實施例的用戶識別方法包括以下步驟
步驟S202 :服務(wù)器從網(wǎng)絡(luò)訪問日志報文中獲取設(shè)定時間段內(nèi)用戶標(biāo)識相同,且用戶標(biāo)識與設(shè)定網(wǎng)站的網(wǎng)站COOKIE——對應(yīng)的報文。
本實施例中,用戶標(biāo)識包括用戶賬號和瀏覽器版本號。用戶賬號包括但不限于上網(wǎng)賬號如ADSL賬號或ADSL賬號+UA,用戶郵箱等等。
以一個用戶標(biāo)識為例,假設(shè)該用戶標(biāo)識為ADSL1+UA1,則服務(wù)器從網(wǎng)絡(luò)訪問日志報文中獲取用戶標(biāo)識為ADSL1+UA1的所有報文。當(dāng)然,用戶賬號不限于ADSL賬號,其它用戶賬號也同樣適用。
然后,在同一用戶標(biāo)識的報文中,可以先對設(shè)定時間段的報文進行分析,如,該用戶標(biāo)識對應(yīng)的當(dāng)天的報文,因設(shè)定網(wǎng)站的COOKIE —般都有代表性,能夠標(biāo)識訪問該網(wǎng)站的用戶,因此,判斷用戶標(biāo)識與設(shè)定網(wǎng)站的網(wǎng)站COOKIE是否是一一對應(yīng)的,可以確定該用戶標(biāo)識代表了一個單用戶,則獲取該單用戶的報文;對于用戶標(biāo)識與網(wǎng)站COOKIE不是一一對應(yīng)的,則說明該用戶標(biāo)識不能只代表一個用戶,可以丟棄該類型的報文。
步驟S204 :服務(wù)器從獲取的報文中獲取四元組信息。
其中,四元組信息包括用戶標(biāo)識指示的用戶所訪問的網(wǎng)站的域名、用戶標(biāo)識、用戶訪問網(wǎng)站的COOKIE字段、和COOKIE字段的值。
步驟S206 :服務(wù)器對四元組信息進行統(tǒng)計,獲得每個用戶訪問網(wǎng)站的訪問信息。
本實施例中,用戶訪問網(wǎng)站的訪問信息包括用戶訪問網(wǎng)站的域名、域名的PV (頁面瀏覽量)、域名的PV (頁面瀏覽量)占比、用戶訪問網(wǎng)站的COOKIE字段、用戶標(biāo)識相同的 PV (頁面瀏覽)次數(shù)、用戶標(biāo)識不同的PV (頁面瀏覽)次數(shù)、用戶標(biāo)識不同的PV (頁面瀏覽次數(shù))比例、用戶標(biāo)識相同的UV (獨立訪客)次數(shù)、用戶標(biāo)識不同的UV (獨立訪客)次數(shù)、用戶標(biāo)識不同的UV (獨立訪客)比例。
步驟S208 :服務(wù)器按照用戶標(biāo)識不同的頁面瀏覽次數(shù)比例和/或用戶標(biāo)識不同的獨立訪客比例對每個用戶訪問網(wǎng)站的訪問信息進行排序。
本步驟為優(yōu)選步驟,通過對網(wǎng)站訪問信息的排序,可以在后續(xù)更為有效和快速地對訪問信息進行過濾。顯然,不進行排序而直接進行過濾也是可行的。
步驟S210 :服務(wù)器對每個用戶訪問網(wǎng)站的訪問信息進行過濾,獲取每個用戶訪問網(wǎng)站標(biāo)識用戶的COOKIE字段。
優(yōu)選地,服務(wù)器可以使用域名的頁面瀏覽量、或者互信息,或者信息增益,對每個用戶訪問網(wǎng)站的訪問信息進行過濾,獲取每個用戶訪問網(wǎng)站標(biāo)識單用戶的COOKIE字段。
互信息和信息增量 是信息論里的兩個術(shù)語,一般在使用文本分類的時候考慮這些度量關(guān)系。互信息只兩個事件集合之間的可能性的關(guān)系,在本實施例中是通過計算用戶ID (用戶標(biāo)識)與COOKIE值之間的對應(yīng)關(guān)系來衡量這個COOKIE字段是否為有效字段。信息增益是非對稱的關(guān)系,用來度量兩種概率分布的差異,即通過用戶ID的比值以及COOKIE對應(yīng)的比值設(shè)定不同的閾值來判斷。也即,可以從多個維度計算概率來確定每個用戶訪問網(wǎng)站的唯一標(biāo)識用戶身份的cookie字段。
步驟S212 :服務(wù)器建立獲取的COOKIE字段與用戶標(biāo)識的對應(yīng)關(guān)系,根據(jù)對應(yīng)關(guān)系識別用戶。
優(yōu)選地,若用于標(biāo)識用戶的COOKIE字段包括多個COOKIE字段的值,則在多個 COOKIE字段的值之間進行關(guān)聯(lián);根據(jù)關(guān)聯(lián)和COOKIE字段與用戶標(biāo)識的對應(yīng)關(guān)系識別用戶。 如,假設(shè)唯一標(biāo)識用戶的COOKIE字段中既有用戶的郵箱又有用戶的個人賬號,那么,可以建立該用戶的郵箱和個人賬號的關(guān)聯(lián)關(guān)系,也即對應(yīng)關(guān)系,則用戶可以通過郵箱來獲得用戶標(biāo)識,也可以通過個人賬號獲得用戶標(biāo)識,當(dāng)然也可以通過郵箱和個人賬號的結(jié)合獲得用戶標(biāo)識。
需要說明的是,在某些情況下兩個或兩個以上的網(wǎng)站存在關(guān)聯(lián)關(guān)系,如淘寶和天貓,這些網(wǎng)站之間有可能使用相同的COOKIE標(biāo)示用戶,則本實施例的方案還可以包括根據(jù)獲取的報文,獲取COOKIE名相同的兩個網(wǎng)站的網(wǎng)站訪問信息,其中,網(wǎng)站訪問信息包括 兩個網(wǎng)站的COOKIE字段、COOKIE字段的值、兩個網(wǎng)站的域名、用戶標(biāo)識相同的頁面瀏覽次數(shù)、用戶標(biāo)識不同的頁面瀏覽次數(shù)、用戶標(biāo)識不同的頁面瀏覽次數(shù)比例、用戶標(biāo)識相同的獨立訪客次數(shù)、用戶標(biāo)識不同的獨立訪客次數(shù)、用戶標(biāo)識不同的獨立訪客比例;按照用戶標(biāo)識不同的頁面瀏覽次數(shù)比例和/或用戶標(biāo)識不同的獨立訪客比例對兩個網(wǎng)站的訪問信息進行排序;對排序后的訪問信息進行過濾,確定兩個網(wǎng)站是否使用相同的COOKIE字段;若是, 則建立兩個網(wǎng)站的關(guān)聯(lián),根據(jù)關(guān)聯(lián)和COOKIE字段與用戶標(biāo)識的對應(yīng)關(guān)系識別用戶。例如, 假設(shè)淘寶和天貓具有相同的COOKIE名,通過獲取這兩個網(wǎng)站的網(wǎng)站訪問信息,對該網(wǎng)站訪問信息進行排序、過濾等處理后,確定這兩個網(wǎng)站使用了相同的COOKIE字段,如使用了相同的COOKIE ID,則建立淘寶和天貓的對應(yīng)關(guān)系,則不管用戶訪問淘寶還是訪問天貓,服務(wù)器都可以根據(jù)訪問報文中的該COOKIE字段,按照相同的用戶標(biāo)識與網(wǎng)站COOKIE的對應(yīng)關(guān)系確定用戶標(biāo)識,進而確定訪問網(wǎng)站的用戶。
通過本實施例,在實現(xiàn)準確識別用戶的基礎(chǔ)上,還對使用相同COOKIE字段標(biāo)識用戶的網(wǎng)站建立關(guān)聯(lián)關(guān)系,在COOKIE字段具有多個值時對多個值建立關(guān)聯(lián)關(guān)系,進一步實現(xiàn)了關(guān)聯(lián)信息的統(tǒng)一組織和管理,提高了用戶識別效率,且節(jié)約了信息占用資源。
實施例三
參照圖3,示出了根據(jù)本發(fā)明實施例三的一種用戶識別方法的步驟流程圖。
本實施例的用戶識別方法包括以下步驟
步驟S302 :獲取網(wǎng)站可以唯一標(biāo)識用戶身份的COOKIE字段。
COOKIE 信息中包含大量的,諸如YYID=D4A741CDC23704C21D8E99150E94F9C4 ;SU ID=96F7B43C26420A0A4EA94973000407AE等沒有標(biāo)注的COOKIE字段信息,這些字段可以作為身份信息來使用。通過本步驟,可以自動化地將這些字段從COOKIE中解析出來,然后來判斷各個網(wǎng)站中哪些COOKIE字段是可以標(biāo)識用戶唯一身份的。
本步驟具體包括
步驟S3022 :獲取一天的原始ptu日志(產(chǎn)生報文的日志),通過上下線信息,標(biāo)記每一條log (日志)的ADSL ID0
步驟S3024 :從上述日志數(shù)據(jù)當(dāng)中,選取所有單用戶的數(shù)據(jù)。
其中,單用戶是指ADSL ID+UA相同,且在一天內(nèi)的訪問記錄當(dāng)中,baidu cookie、 taobao cookie等幾個主流網(wǎng)站的COOKIE與ADSL ID+UA--對應(yīng)。
步驟S3026 :從單用戶數(shù)據(jù)當(dāng)中,抽取四元組信息{host, userid, cookie字段, cookie字段具體的值}。
其中,host表示用戶訪問的網(wǎng)站的域名;userid表示用戶標(biāo)識,本實施例中為 ADSL ID+UA ;c00kie字段表示用戶訪問的網(wǎng)站的COOKIE字段;c00kie字段具體的值表示用戶訪問的網(wǎng)站的COOKIE字段的值。
步驟S3028 :根據(jù) 四元組信息,統(tǒng)計得到如下數(shù)據(jù){host, host pv, host pv占比, cookie字段,用戶id相同pv次數(shù),用戶id不同pv次數(shù),用戶id不同pv次數(shù)比例,用戶 id相同Uv次數(shù),用戶id不同Uv次數(shù),用戶id不同uv比例}。
其中,host如上所述表示用戶訪問的網(wǎng)站的域名,pv表示頁面瀏覽量,uv表示獨立訪客,用戶id表示用戶標(biāo)識也即userid。
步驟S30210 :根據(jù)上一步所得到的數(shù)據(jù),對與每一個網(wǎng)站,根據(jù)用戶id不同次數(shù)比例、獨立用戶不相同比例進行排序,然后以host PV閾值過濾,或者互信息或者信息增益來過濾,找到每個host下哪個COOKIE字段是用來標(biāo)識唯一用戶的。
其中,用戶id不同次數(shù)比例以分子/分母的形式表示為分子是在一個網(wǎng)站下的一個cookie字段,一個用戶id對應(yīng)的唯--個cookie值的不同的用戶id的個數(shù);分母是在該網(wǎng)站下的該cookie字段,所有不同的用戶id的個數(shù),包括一個用戶id對應(yīng)多個 cookie值的情況。
獨立用戶不相同比例以分子/分母的形式表示為分子是在一個網(wǎng)站下的一個cookie字段,一個cookie值對應(yīng)的唯--個用戶id的cookie值的個數(shù);分母是在該網(wǎng)站下的該cookie字段,所有不同的cookie值。
從標(biāo)識用戶的COOKIE字段的數(shù)據(jù)當(dāng)中,可以分析出大量的郵箱、賬號等信息。
通過上述過程,可以自動化地找到每個網(wǎng)站可以用來標(biāo)識用戶的COOKIE字段。
步驟S304 :獲取跨網(wǎng)站的用來標(biāo)識唯一用戶的COOKIE字段。
在許多不同網(wǎng)站,比如說很多網(wǎng)站用到了 “BAIDnD= ”相關(guān)的信息,目前除了 BAIDUID,還有諸如taobao、cnzz等一些其他網(wǎng)站的規(guī)則,可以用統(tǒng)計的方法,挖掘出 BAIDUID類似的跨網(wǎng)站標(biāo)識用戶的COOKIE字段。
本步驟具體包括
步驟S3042 :從單用戶數(shù)據(jù)中,抽取如下數(shù)據(jù){cookie字段,cookie字段值,hostl, host2,用戶id相同pv次數(shù),用戶id不同pv次數(shù),用戶id不同pv次數(shù)比例,用戶id相同 uv次數(shù),用戶id不同uv次數(shù),用戶id不同uv比例}。
優(yōu)選地,host,如hostl和host2可以使用一級域名,用戶id也即userid。
步驟S3044 :根據(jù)用戶id不同次數(shù)比例、獨立用戶不相同比例進行排序,然后使用host PV閾值過濾,也可以互信息或者信息增益來過濾,統(tǒng)計出·網(wǎng)站之間是否兩兩公用 COOKIE 字段。
步驟S3046 :如果網(wǎng)站之間是否兩兩公用C00KIE字段,則根據(jù)上一步驟的數(shù)據(jù),進行host合并,將可能出現(xiàn)在多個網(wǎng)站的COOKIE字段找到。得到數(shù)據(jù)表項{cookie字段, cookie 字段值,[hostl, host2......]}。
通過上述過程,可以自動化地找到哪些網(wǎng)站在共同使用同一種COOKIE種植算法, 這些網(wǎng)站之間可以靠這些COOKIE字段進行關(guān)聯(lián)。
步驟S306 建立標(biāo)識用戶的COOKIE字段和用戶標(biāo)識之間的關(guān)聯(lián)。
包括
在同一個COOKIE字段當(dāng)中,可能同時存在兩個或者多個標(biāo)識用戶的標(biāo)識符(如同時存在用戶的郵箱和賬號信息),可以建立這些標(biāo)識符之間的關(guān)系,進而建立這些標(biāo)識符和用戶標(biāo)識之間的對應(yīng)關(guān)系;
根據(jù)跨網(wǎng)站COOKIE搭橋,建立更多標(biāo)識符之間的映射關(guān)系;如,淘寶的cna cookie字段與tmail以及阿里巴巴的cna字段一致,則可以通過這個相同的cna字段關(guān)聯(lián)這兩個網(wǎng)站下的其他cookie字段;
根據(jù)步驟S302獲得的賬號信息(包括用戶郵箱和登陸賬號信息等一些通用的信息),建立不同ID (即用戶標(biāo)識userid)、不同COOKIE的關(guān)聯(lián)關(guān)系;
通過refer樹信息,建立不同COOKIE、賬號之間的對應(yīng)關(guān)系。如,根據(jù)用戶訪問網(wǎng)站的跳轉(zhuǎn)關(guān)系建立refer樹,如用戶通過百度搜索跳轉(zhuǎn)到新浪,然后再從新浪跳轉(zhuǎn)到其他網(wǎng)站,進而根據(jù)該refer樹建立不同COOKIE、賬號之間的對應(yīng)關(guān)系。
步驟S308 :根據(jù)建立的COOKIE字段和用戶標(biāo)識之間的關(guān)聯(lián),識別用戶。
通過本實施例,自動化地將能作為身份信息的COOKIE字段從大量的信息中解析出來,然后分析確定各個網(wǎng)站中哪些COOKIE字段是可以唯一標(biāo)識用戶身份的,建立這些 COOKIE字段和用戶標(biāo)識的對應(yīng)關(guān)系,使用該對應(yīng)關(guān)系來準確識別用戶,解決了現(xiàn)有方案無法準確識別用戶的問題,達到了準確識別用戶的效果。
實施例四
參照圖4,示出了根據(jù)本發(fā)明實施例四的一種用戶識別裝置的結(jié)構(gòu)框圖。
本實施例的用戶識別裝置包括第一獲取模塊402,用于從網(wǎng)絡(luò)訪問日志報文中獲取設(shè)定時間段內(nèi)用戶標(biāo)識相同,且用戶標(biāo)識與設(shè)定網(wǎng)站的網(wǎng)站COOKIE —一對應(yīng)的報文; 第二獲取模塊404,用于從獲取的報文中獲取四元組信息,其中,四元組信息包括用戶標(biāo)識指示的用戶訪問網(wǎng)站的域名、用戶標(biāo)識、用戶訪問網(wǎng)站的COOKIE字段、和COOKIE字段的值; 第三獲取模塊406,用于對四元組信息進行統(tǒng)計,獲得每個用戶訪問網(wǎng)站的訪問信息;第四獲取模塊408,用于對每個用戶訪問網(wǎng)站的訪問信息進行過濾,獲取每個用戶訪問網(wǎng)站唯一標(biāo)識用戶的COOKIE字段;識別模塊410,用于建立獲取的COOKIE字段與用戶標(biāo)識的對應(yīng)關(guān)系,根據(jù)對應(yīng)關(guān)系識別用戶。
優(yōu)選地,用戶標(biāo)識包括用戶賬號和瀏覽器版本號;用戶訪問網(wǎng)站的訪問信息包括: 用戶訪問網(wǎng)站的域名、域名的頁面瀏覽量、域名的頁面瀏覽量占比、用戶訪問網(wǎng)站的COOKIE 字段、用戶標(biāo)識相同的頁面瀏覽次數(shù)、用戶標(biāo)識不同的頁面瀏覽次數(shù)、用戶標(biāo)識不同的頁面瀏覽次數(shù)比例、用戶標(biāo)識相同的獨立訪客次數(shù)、用戶標(biāo)識不同的獨立訪客次數(shù)、用戶標(biāo)識不同的獨立訪客比例。
優(yōu)選地,本實施例的用戶識別裝置還包括排序模塊412,用于在第四獲取模塊 408對每個用戶訪問網(wǎng)站的訪問信息進行過濾之前,按照用戶標(biāo)識不同的頁面瀏覽次數(shù)比例和/或用戶標(biāo)識不同的獨立訪客比例對每個用戶訪問網(wǎng)站的訪問信息進行排序。
優(yōu)選地,第四獲取模塊408,用于使用域名的頁面瀏覽量、或者互信息,或者信息增益,對每個用戶訪問網(wǎng)站的訪問信息進行過濾,獲取每個用戶訪問網(wǎng)站標(biāo)識所述單用戶的 COOKIE 字段。
優(yōu)選地,本實 施例的用戶識別裝置還包括第一關(guān)聯(lián)模塊414,用于根據(jù)獲取的報文,獲取COOKIE名相同的兩個網(wǎng)站的網(wǎng)站訪問信息,其中,網(wǎng)站訪問信息包括兩個網(wǎng)站的 COOKIE字段、COOKIE字段的值、兩個網(wǎng)站的域名、用戶標(biāo)識相同的頁面瀏覽次數(shù)、用戶標(biāo)識不同的頁面瀏覽次數(shù)、用戶標(biāo)識不同的頁面瀏覽次數(shù)比例、用戶標(biāo)識相同的獨立訪客次數(shù)、 用戶標(biāo)識不同的獨立訪客次數(shù)、用戶標(biāo)識不同的獨立訪客比例;按照用戶標(biāo)識不同的頁面瀏覽次數(shù)比例和/或用戶標(biāo)識不同的獨立訪客比例對兩個網(wǎng)站的訪問信息進行排序;對排序后的訪問信息進行過濾,確定兩個網(wǎng)站是否使用相同的COOKIE字段;若是,則建立兩個網(wǎng)站的關(guān)聯(lián),根據(jù)關(guān)聯(lián)和COOKIE字段與用戶標(biāo)識的對應(yīng)關(guān)系識別用戶。
優(yōu)選地,本實施例的用戶識別裝置還包括第二關(guān)聯(lián)模塊416,用于若用于標(biāo)識用戶的COOKIE字段包括多個COOKIE字段的值,則在多個COOKIE字段的值之間進行關(guān)聯(lián);根據(jù)關(guān)聯(lián)和COOKIE字段與用戶標(biāo)識的對應(yīng)關(guān)系識別用戶。
本實施例的用戶識別裝置用于實現(xiàn)前述多個方法實施例中相應(yīng)的用戶識別方法, 并具有相應(yīng)的方法實施例的有益效果,在此不再贅述。
本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對于裝置實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關(guān)之處參見方法實施例的部分說明即可。
以上對本發(fā)明所提供的一種用戶識別方法和裝置進行了詳細介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實 施方式及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
權(quán)利要求
1.ー種用戶識別方法,其特征在于,包括 從網(wǎng)絡(luò)訪問日志報文中獲取設(shè)定時間段內(nèi)用戶標(biāo)識相同,且所述用戶標(biāo)識與設(shè)定網(wǎng)站的網(wǎng)站COOKIE——對應(yīng)的報文; 從獲取的所述報文中獲取四元組信息,其中,所述四元組信息包括所述用戶標(biāo)識指示的用戶訪問網(wǎng)站的域名、所述用戶標(biāo)識、所述用戶訪問網(wǎng)站的COOKIE字段、和所述COOKIE字段的值; 對所述四元組信息進行統(tǒng)計,獲得每個所述用戶訪問網(wǎng)站的訪問信息;· 對所述每個用戶訪問網(wǎng)站的訪問信息進行過濾,獲取所述每個用戶訪問網(wǎng)站標(biāo)識所述用戶的COOKIE字段; 建立獲取的所述COOKIE字段與所述用戶標(biāo)識的對應(yīng)關(guān)系,根據(jù)所述對應(yīng)關(guān)系識別所述用戶。
2.根據(jù)權(quán)利要求1所述的方法,其特征在干, 所述用戶標(biāo)識包括用戶賬號和瀏覽器版本號; 所述用戶訪問網(wǎng)站的訪問信息包括 所述用戶訪問網(wǎng)站的域名、所述域名的頁面瀏覽量、所述域名的頁面瀏覽量占比、所述用戶訪問網(wǎng)站的COOKIE字段、用戶標(biāo)識相同的頁面瀏覽次數(shù)、用戶標(biāo)識不同的頁面瀏覽次數(shù)、所述用戶標(biāo)識不同的頁面瀏覽次數(shù)比例、用戶標(biāo)識相同的獨立訪客次數(shù)、用戶標(biāo)識不同的獨立訪客次數(shù)、所述用戶標(biāo)識不同的獨立訪客比例。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,在所述對所述每個用戶訪問網(wǎng)站的訪問信息進行過濾的步驟之前,還包括 按照所述用戶標(biāo)識不同的頁面瀏覽次數(shù)比例和/或所述用戶標(biāo)識不同的獨立訪客比例對所述每個用戶訪問網(wǎng)站的訪問信息進行排序。
4.根據(jù)權(quán)利要求2或3所述的方法,其特征在于,所述對所述每個用戶訪問網(wǎng)站的訪問信息進行過濾,獲取所述每個用戶訪問網(wǎng)站標(biāo)識所述用戶的COOKIE字段的步驟包括 使用所述域名的頁面瀏覽量、或者互信息,或者信息増益,對所述每個用戶訪問網(wǎng)站的訪問信息進行過濾,獲取所述每個用戶訪問網(wǎng)站標(biāo)識所述單用戶的COOKIE字段。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括 根據(jù)所述獲取的報文,獲取COOKIE名相同的兩個網(wǎng)站的網(wǎng)站訪問信息,其中,所述網(wǎng)站訪問信息包括 所述兩個網(wǎng)站的COOKIE字段、所述COOKIE字段的值、所述兩個網(wǎng)站的域名、用戶標(biāo)識相同的頁面瀏覽次數(shù)、用戶標(biāo)識不同的頁面瀏覽次數(shù)、所述用戶標(biāo)識不同的頁面瀏覽次數(shù)比例、用戶標(biāo)識相同的獨立訪客次數(shù)、用戶標(biāo)識不同的獨立訪客次數(shù)、所述用戶標(biāo)識不同的獨立訪客比例; 按照所述用戶標(biāo)識不同的頁面瀏覽次數(shù)比例和/或所述用戶標(biāo)識不同的獨立訪客比例對所述兩個網(wǎng)站的訪問信息進行排序; 對排序后的所述訪問信息進行過濾,確定所述兩個網(wǎng)站是否使用相同的COOKIE字段; 若是,則建立所述兩個網(wǎng)站的關(guān)聯(lián),根據(jù)所述關(guān)聯(lián)和所述COOKIE字段與所述用戶標(biāo)識的對應(yīng)關(guān)系識別所述用戶。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括若用于標(biāo)識所述用戶的所述COOKIE字段包括多個COOKIE字段的值,則在所述多個COOKIE字段的值之間進行關(guān)聯(lián); 根據(jù)所述關(guān)聯(lián)和所述COOKIE字段與所述用戶標(biāo)識的對應(yīng)關(guān)系識別所述用戶。
7.ー種用戶識別裝置,其特征在于,包括 第一獲取模塊,用于從網(wǎng)絡(luò)訪問日志報文中獲取設(shè)定時間段內(nèi)用戶標(biāo)識相同,且所述用戶標(biāo)識與設(shè)定網(wǎng)站的網(wǎng)站COOKIE——對應(yīng)的報文; 第二獲取模塊,用于從獲取的所述報文中獲取四元組信息,其中,所述四元組信息包括所述用戶標(biāo)識指示的用戶訪問網(wǎng)站的域名、所述用戶標(biāo)識、所述用戶訪問網(wǎng)站的COOKIE字段、和所述COOKIE字段的值; 第三獲取模塊,用于對所述四元組信息進行統(tǒng)計,獲得每個所述用戶訪問網(wǎng)站的訪問信息; 第四獲取模塊,用于對所述每個用戶訪問網(wǎng)站的訪問信息進行過濾,獲取所述每個用戶訪問網(wǎng)站標(biāo)識所述用戶的COOKIE字段; 識別模塊,用于建立獲取的所述COOKIE字段與所述用戶標(biāo)識的對應(yīng)關(guān)系,根據(jù)所述對應(yīng)關(guān)系識別所述用戶。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在干, 所述用戶標(biāo)識包括用戶賬號和瀏覽器版本號; 所述用戶訪問網(wǎng)站的訪問信息包括所述用戶訪問網(wǎng)站的域名、所述域名的頁面瀏覽量、所述域名的頁面瀏覽量占比、所述用戶訪問網(wǎng)站的COOKIE字段、用戶標(biāo)識相同的頁面瀏覽次數(shù)、用戶標(biāo)識不同的頁面瀏覽次數(shù)、所述用戶標(biāo)識不同的頁面瀏覽次數(shù)比例、用戶標(biāo)識相同的獨立訪客次數(shù)、用戶標(biāo)識不同的獨立訪客次數(shù)、所述用戶標(biāo)識不同的獨立訪客比例。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,還包括 排序模塊,用于在所述第四獲取模塊對所述每個用戶訪問網(wǎng)站的訪問信息進行過濾之前,按照所述用戶標(biāo)識不同的頁面瀏覽次數(shù)比例和/或所述用戶標(biāo)識不同的獨立訪客比例對所述每個用戶訪問網(wǎng)站的訪問信息進行排序。
10.根據(jù)權(quán)利要求8或9所述的裝置,其特征在于,所述第四獲取模塊,用于使用所述域名的頁面瀏覽量、或者互信息,或者信息増益,對所述每個用戶訪問網(wǎng)站的訪問信息進行過濾,獲取所述每個用戶訪問網(wǎng)站標(biāo)識所述單用戶的COOKIE字段。
全文摘要
本發(fā)明提供了一種用戶識別方法與裝置,其中,用戶識別方法包括從網(wǎng)絡(luò)訪問日志報文中獲取設(shè)定時間段內(nèi)用戶標(biāo)識相同,且用戶標(biāo)識與設(shè)定網(wǎng)站的網(wǎng)站COOKIE一一對應(yīng)的報文;從獲取的報文中獲取四元組信息,其中,四元組信息包括用戶標(biāo)識指示的用戶訪問網(wǎng)站的域名、用戶標(biāo)識、用戶訪問網(wǎng)站的COOKIE字段、和COOKIE字段的值;對四元組信息進行統(tǒng)計,獲得每個用戶訪問網(wǎng)站的訪問信息;對每個用戶訪問網(wǎng)站的訪問信息進行過濾,獲取每個用戶訪問網(wǎng)站標(biāo)識用戶的COOKIE字段;建立獲取的COOKIE字段與用戶標(biāo)識的對應(yīng)關(guān)系,根據(jù)對應(yīng)關(guān)系識別用戶。通過本發(fā)明,達到了準確識別用戶的效果。
文檔編號H04L29/06GK103051637SQ20121059322
公開日2013年4月17日 申請日期2012年12月31日 優(yōu)先權(quán)日2012年12月31日
發(fā)明者羅峰, 黃蘇支, 李娜 申請人:北京億贊普網(wǎng)絡(luò)技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 韶山市| 济源市| 文昌市| 汉源县| 阳朔县| 陈巴尔虎旗| 怀柔区| 南江县| 循化| 蒲城县| 新密市| 阿克苏市| 云安县| 图木舒克市| 万载县| 仁布县| 南京市| 溆浦县| 阿合奇县| 定远县| 昭通市| 巴林左旗| 桃源县| 保山市| 志丹县| 昌江| 南靖县| 丹棱县| 康乐县| 古蔺县| 上犹县| 石景山区| 西畴县| 阆中市| 长汀县| 中西区| 东兰县| 嘉定区| 手机| 博白县| 乌拉特后旗|