麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種手機號碼提取方法和裝置與流程

文檔序號:11147745閱讀:1354來源:國知局
一種手機號碼提取方法和裝置與制造工藝
本發明涉及移動通信與移動互聯網
技術領域
,更具體地,涉及一種手機號碼提取方法和裝置。
背景技術
:現如今,互聯網的普及率越來越高,在人們的日常生活中,互聯網幾乎在每個領域與我們24小時相伴,不僅為人們帶來了非常多的便利,也在很大程度是成為了我們的一種生活習慣。在我國的網絡用戶中,移動網絡用戶和固網用戶占據了絕大多數比例。移動網絡(MobileWeb)指的是使用移動設備,如手機,掌上電腦或其它便攜式工具連接到公共網絡,實現互聯網訪問的方式。移動網絡不需要固定的設備進行訪問。移動網絡主要指的是基于瀏覽器的萬維網(Web)服務。然而,由于不兼容格式的大量信息在互聯網上提供的移動設備和部分是由于物理尺寸的小屏幕的移動設備和其他設備的限制等多種原因,移動網絡接入今天仍然存在著互操作性和可用性問題。固網指的是固定電話網絡,一般指在固定電話公司提供的固定點與點之間的通信網路系統。目前,中國的固網公司有:中國聯通、中國電信等。固定電話網絡用戶上網報文中含有豐富的用戶身份信息,如手機號碼,郵箱,即時通訊服務賬號等。這些信息里就包含用戶的手機號碼,例如很多網站的用戶賬號、用戶注冊郵箱的用戶名等。然而,現有的從固網用戶發送的超文本傳輸協議(HypertextTransferProtocol,HTTP)Get報文中識別和提取用戶手機號碼的技術,所提取的手機號準確度低。技術實現要素:本發明提供了一種手機號碼提取方法和裝置,以解決現有技術中從固網HTTPGet報文中提取用戶手機號碼準確度低的問題。為了解決上述問題,本發明公開了一種手機號碼提取方法,所述方法包括:從移動網絡發送的超文本傳輸協議HTTPGet報文中,提取含有手機號碼信息的移動網絡統一資源定位符URL特征信息;獲取固網發送的HTTPGet報文;依據所述移動網絡URL特征信息,解析所述固網發送的HTTPGet報文,獲得含有手機號碼信息的固網URL特征信息;從所述固網URL特征信息中提取第一手機號碼信息;從所述固網發送的HTTPGet報文中分離緩存文本Cookie字段信息;通過解析郵箱用戶名信息的方式,從所述Cookie字段信息中提取第二手機號碼信息;依據所述固網URL特征信息和所述Cookie字段信息,提取第三手機號碼信息;對所述第一手機號碼信息、第二手機號碼信息和第三手機號碼信息,進行過濾,獲得目標手機號碼。優選地,在所述從移動網絡發送的HTTPGet報文中,提取含有手機號碼信息的移動網絡URL特征信息的步驟之前,所述方法還包括:獲取移動網絡發送的HTTPGet報文。優選地,所述通過解析郵箱用戶名信息的方式,從所述Cookie字段信息中提取第二手機號碼信息的步驟包括:利用正則表達式,從所述Cookie字段信息中解析郵箱用戶名信息;過濾所述郵箱用戶名信息,獲得第二手機號碼信息。優選地,所述依據所述固網URL特征信息和所述Cookie字段信息,提取第三手機號碼信息的步驟包括:從所述Cookie字段信息中提取包含手機號信息的數據;依據固網URL特征信息對所述數據進行校驗,統計可提取手機號信息的Cookie特征信息;依據所述Cookie特征信息,從所述Cookie字段信息中提取第三手機號碼。優選地,所述對所述第一手機號碼信息、第二手機號碼信息和第三手機號碼信息,進行過濾,獲得目標手機號碼的步驟包括:匯總第一手機號碼信息、第二手機號碼信息和第三手機號碼信息,獲得匯總信息;提取所述固網發送的HTTPGet報文和所述移動網絡發送的HTTPGet報文中的地域信息;獲取所述匯總信息中,各號碼所對應的歸屬地信息;利用所述地域信息和所述歸屬地信息,過濾所述匯總信息,獲得目標手機號碼。為了解決上述問題,本發明公開了一種手機號碼提取裝置,所述裝置包括:特征提取模塊,用于從移動網絡發送的超文本傳輸協議HTTPGet報文中,提取含有手機號碼信息的移動網絡統一資源定位符URL特征信息;固網報文獲取模塊,用于獲取固網發送的HTTPGet報文;固網報文解析模塊,用于依據所述移動網絡URL特征信息,解析所述固網發送的HTTPGet報文,獲得含有手機號碼信息的固網URL特征信息;第一手機號碼提取模塊,用于從所述固網URL特征信息中提取第一手機號碼信息;Cookie字段信息模塊,用于從所述固網發送的HTTPGet報文中分離緩存文本Cookie字段信息;第二手機號碼提取模塊,用于通過解析郵箱用戶名信息的方式,從所述Cookie字段信息中提取第二手機號碼信息;第三手機號碼提取模塊,用于依據所述固網URL特征信息和所述Cookie字段信息,提取第三手機號碼信息;過濾模塊,用于對所述第一手機號碼信息、第二手機號碼信息和第三手機號碼信息,進行過濾,獲得目標手機號碼。優選地,所述裝置還包括:移動網絡報文獲取模塊,用于獲取移動網絡發送的HTTPGet報文。優選地,所述第二手機號碼提取模塊包括:解析子模塊,用于利用正則表達式,從所述Cookie字段信息中解析郵箱用戶名信息;過濾子模塊,用于過濾所述郵箱用戶名信息,獲得第二手機號碼信息。優選地,所述第三手機號碼提取模塊包括:Cookie字段提取子模塊,用于從所述Cookie字段信息中提取包含手機號信息的數據;統計子模塊,用于依據固網URL特征信息對所述數據進行校驗,統計可提取手機號信息的Cookie特征信息;手機號提取子模塊,用于依據所述Cookie特征信息,從所述Cookie字段信息中提取第三手機號碼。優選地,所述過濾模塊包括:匯總子模塊,用于匯總第一手機號碼信息、第二手機號碼信息和第三手機號碼信息,獲得匯總信息;地域信息子模塊,用于提取所述固網發送的HTTPGet報文和所述移動網絡發送的HTTPGet報文中的地域信息;歸屬地信息子模塊,用于獲取所述匯總信息中,各號碼所對應的歸屬地信息;過濾執行子模塊,用于利用所述地域信息和所述歸屬地信息,過濾所述匯總信息,獲得目標手機號碼。與現有技術相比,本發明具有以下優點:本發明實施例提供的一種手機號碼提取方法和裝置,能通過利用移動網的HTTPGet報文的特征,解析固網發送的HTTPGet報文,獲得含有手機號碼信息的固網URL特征信息,同時分離固網報文中的緩存文本Cookie字段信息,從URL特征信息及Cookie信息中獲取手機號并過濾,從而提高了從固網HTTPGet報文中提取用戶手機號碼的準確度。上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的技術手段,而可依照說明書的內容予以實施,并且為了讓本發明的上述和其它目的、特征和優點能夠更明顯易懂,以下特舉本發明的具體實施方式。附圖說明通過閱讀下文優選實施方式的詳細描述,各種其他的優點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優選實施方式的目的,而并不認為是對本發明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:圖1為本發明實施例一的一種手機號碼提取方法的步驟流程圖;圖2為本發明實施例二的一種手機號碼提取方法的步驟流程圖;圖3為本發明實施例三提供的一種手機號碼提取裝置的結構示意圖;圖4為本發明實施例四提供的一種手機號碼提取裝置的結構示意圖。具體實施方式下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍完整的傳達給本領域的技術人員。實施例一參照圖1,示出了本發明實施例一的一種手機號碼提取方法的步驟流程圖,本發明實施例的手機號碼提取方法包括以下步驟:步驟101:從移動網絡發送的HTTPGet報文中,提取含有手機號碼信息的移動網絡統一資源定位符URL特征信息。使用移動網絡中的用戶上網報文,找到可以匹配到用戶手機號的URL特征集合。移動網絡的用戶上網報文中,含有用戶上網手手機號信息和用戶訪問的URL信息。比如,通過對含有手機號18969339626的一條上網報文的querystringparameters參數進行解析,獲得如表1中所示以下結果:表1role1imeiA0000049B3069Darea0os4.3uuid43BB65F3297C6813B75E14489F8B246Ecity_id0dviceid5bfc8075a90a8d6e84f2ce4f130783a6phone_num18969339626modelHUAWEIY535-C00appversion4.2.3phone18969339626maptypesososigde9f2469657de452cce493ceca382d0bd9817f5achannel92lat0userlng0對參數進行判斷,發現phone_num參數和phone參數對應的值的長度是11位數字,并且是以特定數字開頭(13,14,18…),認為是疑似手機號,輸出如表2中所示的記錄:表2用戶手機號HostURL參數關鍵字疑似手機號18969339626api.abc.comphone_num1896933962618969339626api.abc.comphone18969339626對一定時間內的數據(一般是一周)進行統計分析,可以統計出在特定host和url參數關鍵字作為特征的條件下,疑似手機號和用戶真實手機號一致的比率,把這個比率認為正確率,得到類似如表3中所示的特征集合:表3需要說明的是,在具體實現過程中,對疑似手機號的特定數字開頭,數據進行統計分析的時間段以及phone_num參數和phone參數對應的值的長度等,可以由本領域技術人員根據實際需求進行設置,本發明實施例中對此不作具體限定。步驟102:獲取固網發送的HTTPGet報文。步驟103:依據移動網絡URL特征信息,解析固網發送的HTTPGet報文,獲得含有手機號碼信息的固網URL特征信息。將步驟101產生的特征集合中,正確率大于70%的特征作為有效特征,對固網的HTTPGet報文中進行解析,對滿足上述特征的用戶數據進行輸出,就可以相應的獲得含有手機號碼信息的固網URL特征信息。需要說明的是,在具體實現過程中,有效特征的正確率并不局限于70%,具體數值可以由本領域技術人員根據實際需求進行設置,本發明實施例中對此不作具體限定。步驟104:從固網URL特征信息中提取第一手機號碼信息。步驟105:從固網發送的HTTPGet報文中分離Cookie字段信息。其中,Cookie即緩存文本。對于使用ADSL撥號上網的用戶,可以進一步解析出來用戶ADSL帳號和手機號的關系,這個數據會做為一個驗證數據集對步驟103中產出的數據進行驗證。從固網的HTTPGet報文的Cookie數據中,產出可以匹配手機號的Cookie特征集合。對于ADSL撥號上網用戶,上網的報文含有信息及示例如下:其中,表4中所示的為上網的報文含有信息。表4通過解析一段時間(一周)用戶上網報文中的cookie字段,把疑似手機號的cookie字段信息輸出,形成如表5中所示的記錄:表5ADSLCookie域Cookie參數疑似手機號OHsEfEp8XAQ=abc.comc_mobil13135573886OHsEfEp8XAQ=abc.comu_account13135573886將這個結果和步驟103中產出的驗證數據進行比較。具體方法為,在相同ADSL下面,通過Cookie解析出來的疑似手機號和步驟103中的手機號比較是否一致。可以得到如表6中所示的cookie特征集合:表6步驟106:通過解析郵箱用戶名信息的方式,從Cookie字段信息中提取第二手機號碼信息。步驟107:依據固網URL特征信息和Cookie字段信息,提取第三手機號碼信息。步驟108:對第一手機號碼信息、第二手機號碼信息和第三手機號碼信息,進行過濾,獲得目標手機號碼。通過本發明實施例提供的一種手機號碼提取方法,能通過利用移動網的HTTPGet報文的特征,解析固網發送的HTTPGet報文,獲得含有手機號碼信息的固網URL特征信息,同時分離固網報文中的緩存文本Cookie字段信息,從URL特征信息及Cookie信息中獲取手機號并過濾,從而提高了從固網HTTPGet報文中提取用戶手機號碼的準確度。實施例二參照圖2,示出了本發明實施例二的一種手機號碼提取方法流程圖,本發明實施例的一種手機號碼提取方法包括以下步驟:步驟201:獲取移動網絡發送的HTTPGet報文。步驟202:從移動網絡發送的HTTPGet報文中,提取含有手機號碼信息的移動網絡統一資源定位符URL特征信息。步驟203:獲取固網發送的HTTPGet報文。步驟204:依據移動網絡URL特征信息,解析固網發送的HTTPGet報文,獲得含有手機號碼信息的固網URL特征信息。步驟205:從固網URL特征信息中提取第一手機號碼信息。步驟206:從固網發送的HTTPGet報文中分離Cookie字段信息;步驟207:通過解析郵箱用戶名信息的方式,從Cookie字段信息中提取第二手機號碼信息。一種優選的通過解析郵箱用戶名信息的方式,從Cookie字段信息中提取第二手機號碼信息的方式如下:S1:利用正則表達式,從Cookie字段信息中解析郵箱用戶名信息;S2:過濾郵箱用戶名信息,獲得第二手機號碼信息。步驟208:從Cookie字段信息中提取包含手機號信息的數據。步驟209:依據固網URL特征信息對數據進行校驗,統計可以提取手機號信息的Cookie特征信息。步驟210:依據Cookie特征信息,從Cookie字段信息中提取第三手機號碼信息。步驟211:對第一手機號碼信息、第二手機號碼信息和第三手機號碼信息,進行過濾,獲得目標手機號碼。一種優選的對第一手機號碼信息、第二手機號碼信息和第三手機號碼信息,進行過濾,獲得目標手機號碼的方式如下:S1:匯總第一手機號碼信息、第二手機號碼信息和第三手機號碼信息,獲得匯總信息;S2:提取固網發送的HTTPGet報文和移動網絡發送的HTTPGet報文中的地域信息;S3:獲取匯總信息中,各號碼所對應的歸屬地信息;提取出來的第一手機號碼信息、第二手機號碼信息和第三手機號碼信息,仍然有大量的噪聲,如長度為11位的數字,也可能是隨機ID。固網數據是哪個省的用戶請求信息是已知的,通過判斷手機號段的歸屬地,可以進一步對手機號的有效性進行過濾。S4:利用地域信息和歸屬地信息,過濾匯總信息,獲得目標手機號碼。本發明實施例提供的一種手機號碼提取方法,除了具有實施例一中的手機號碼提取方法所具有的有益效果外,還通過利用固網地域信息和手機歸屬地信息過濾獲取的手機號碼,進一步提高了從固網HTTPGet報文中提取用戶手機號碼準確度。實施例三參照圖3,示出了本發明的一種手機號碼提取裝置的結構示意圖。本實施例所示的手機號碼提取裝置包括:特征提取模塊301,用于從移動網絡發送的HTTPGet報文中,提取含有手機號碼信息的移動網絡統一資源定位符URL特征信息;固網報文獲取模塊302,用于獲取固網發送的HTTPGet報文。固網報文解析模塊303,用于依據移動網絡URL特征信息,解析固網發送的HTTPGet報文,獲得含有手機號碼信息的固網URL特征信息。第一手機號碼提取模塊304,用于從固網URL特征信息中提取第一手機號碼信息。Cookie字段信息模塊305,用于從固網發送的HTTPGet報文中分離緩存文本Cookie字段信息。第二手機號碼提取模塊306,用于通過解析郵箱用戶名信息的方式,從Cookie字段信息中提取第二手機號碼信息。第三手機號碼提取模塊307,用于依據固網URL特征信息和Cookie字段信息,提取第三手機號碼信息。過濾模塊308,用于對第一手機號碼信息、第二手機號碼信息和第三手機號碼信息,進行過濾,獲得目標手機號碼。通過本發明實施例提供的一種手機號碼提取裝置,能通過利用移動網的HTTPGet報文的特征,解析固網發送的HTTPGet報文,獲得含有手機號碼信息的固網URL特征信息,同時分離固網報文中的緩存文本Cookie字段信息,從URL特征信息及Cookie信息中獲取手機號并過濾,從而提高了從固網HTTPGet報文中提取用戶手機號碼的準確度。實施例四參照圖4,示出了本發明的一種手機號碼提取裝置的結構示意圖。本實施例所示的手機號碼提取裝置包括:特征提取模塊401,用于從移動網絡發送的HTTPGet報文中,提取含有手機號碼信息的移動網絡統一資源定位符URL特征信息;固網報文獲取模塊402,用于獲取固網發送的HTTPGet報文;固網報文解析模塊403,用于依據移動網絡URL特征信息,解析固網發送的HTTPGet報文,獲得含有手機號碼信息的固網URL特征信息;第一手機號碼提取模塊404,用于從固網URL特征信息中提取第一手機號碼信息;Cookie字段信息模塊405,用于從固網發送的HTTPGet報文中分離緩存文本Cookie字段信息;第二手機號碼提取模塊406,用于通過解析郵箱用戶名信息的方式,從Cookie字段信息中提取第二手機號碼信息;第三手機號碼提取模塊407,用于依據固網URL特征信息和Cookie字段信息,提取第三手機號碼信息;過濾模塊408,用于對第一手機號碼信息、第二手機號碼信息和第三手機號碼信息,進行過濾,獲得目標手機號碼。優選地,本實施例所示的手機號碼提取裝置還包括:移動網絡報文獲取模塊409,用于獲取移動網絡發送的HTTPGet報文。優選地,第二手機號碼提取模塊406包括:解析子模塊4061,用于利用正則表達式,從Cookie字段信息中解析郵箱用戶名信息;過濾子模塊4062,用于過濾郵箱用戶名信息,獲得第二手機號碼信息。優選地,第三手機號碼提取模塊407包括:Cookie字段提取子模塊4071,用于從Cookie字段信息中提取包含手機號信息的數據;統計子模塊4072,用于依據固網URL特征信息對數據進行校驗,統計可提取手機號信息的Cookie特征信息;手機號提取子模塊4073,用于依據Cookie特征信息,從Cookie字段信息中提取第三手機號碼。優選地,過濾模塊包括408:匯總子模塊4081,用于匯總第一手機號碼信息、第二手機號碼信息和第三手機號碼信息,獲得匯總信息;地域信息子模塊4082,用于提取固網發送的HTTPGet報文和移動網絡發送的HTTPGet報文中的地域信息;歸屬地信息子模塊4083,用于獲取匯總信息中,各號碼所對應的歸屬地信息;過濾執行子模塊4084,用于利用地域信息和歸屬地信息,過濾匯總信息,獲得目標手機號碼。本發明實施例的裝置用于實現前述實施例一以及實施例二中相應的手機號碼提取方法,并且具有相應的方法實施例的有益效果,在此不再贅述。本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對于系統實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。以上對本發明所提供的手機號碼提取方法和裝置,進行了詳細介紹,本文中應用了具體個例對本發明的實施步驟及實現裝置進行了闡述,以上實施例的說明只是用于幫助理解本發明的方法及其核心思想;同時,對于本領域的一般技術人員,依據本發明的思想,在具體實施方式及應用范圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發明的限制。應該注意的是上述實施例對本發明進行說明而不是對本發明進行限制,并且本領域技術人員在不脫離所附權利要求的范圍的情況下可設計出替換實施例。在權利要求中,不應將位于括號之間的任何參考符號構造成對權利要求的限制。單詞“包含”不排除存在未列在權利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現。在列舉了若干裝置的單元權利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現。單詞固網、移動網、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。當前第1頁1 2 3 
當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 巫山县| 定陶县| 龙泉市| 进贤县| 曲水县| 克拉玛依市| 登封市| 堆龙德庆县| 普格县| 宜川县| 潮州市| 文安县| 竹溪县| 平利县| 托克托县| 河曲县| 公安县| 资兴市| 庆阳市| 饶河县| 舞阳县| 金沙县| 临城县| 宝应县| 汉寿县| 雷山县| 酉阳| 浑源县| 永定县| 繁昌县| 威海市| 岑溪市| 南岸区| 会昌县| 沂源县| 北票市| 区。| 乐都县| 阜新| 米易县| 大余县|