一種識別用戶所屬地區的方法及裝置與流程

文檔序號：11234089閱讀：875來源：國知局

本申請涉及計算機
技術領域：
，尤其涉及一種識別用戶所屬地區的方法及裝置。
背景技術：
：隨著社會的不斷發展，電子郵箱已經成為人們進行信息交流的重要方式，并且在實際應用中，人們除了能夠通過電子郵箱進行信息交流，還可以使用電子郵箱注冊其他網站的賬號，從而使用該網站中所提供的服務，如，使用電子郵箱注冊論壇的賬號，從而在論壇內進行相互交流，目前，網站為了更好的為用戶提供服務，通常需要知道該用戶是哪個地區的，這樣可以針對不同地區的用戶，提供相應的服務，如，為不同國家的用戶提供天氣服務。由于用戶通常都是在自己國家的電子郵箱網站上注冊并使用的，因此，在現有技術中，主要通過電子郵箱(如，xxx@163.com)來確定電子郵箱所屬的國家，進而確定用戶所屬的國家，具體有兩種實施方式：第一種：服務器在獲取到某一用戶的電子郵箱后，直接根據電子郵箱中的后綴(也就是@后面的字符部分，如，xxx@hotmail.fr中hotmail.fr就是后綴)，確定出該電子郵箱的用戶所屬的國家(如，由于xxx@hotmail.fr中fr代表該電子郵箱來自法國，因此，可以確定出該電子郵箱的用戶的來自法國)。第二種：服務器預先統計出不同類型的電子郵箱的提供商所提供的區域服務，也就是說，每個電子郵箱的提供商，他們所提供的區域服務通常是有一定地理范圍的，如，xxx@163.com的提供商只在中國提供區域服務，而@hotmail的提供商則在全世界提供區域服務。顯然，可以看出第一種方式對于電子郵箱的后綴中沒有包含指明地區(如，國家)的字符符號時，則無法通過這個方式來確定電子郵箱所屬的地區，從而就無法確定用戶所屬的地區。第二種方式對于電子郵箱的提供商所提供的區域服務涉及多個地區時(如，hotmail，gmail等國際性電子郵箱的提供商是在全世界各個國家都提供區域服務的)，則無法通過這個方式來確定電子郵箱所屬的地區(如，國家)，從而就無法確定用戶所屬的地區。技術實現要素：本申請實施例提供一種識別用戶所屬地區的方法及裝置，用以解決現有技術中對于電子郵箱的后綴中沒有包含指明地區(如，國家)的字符符號或電子郵箱的提供商所提供的區域服務涉及多個地區的情況下，無法通過電子郵箱識別出用戶所屬的地區的問題。本申請實施例提供的一種識別用戶所屬地區的方法，所述方法包括：獲取用戶的電子郵箱；將所述電子郵箱拆分成前綴信息與后綴信息；針對每個地區，確定所述前綴信息出現在該地區的前綴判斷概率，確定所述后綴信息出現在該地區的后綴判斷概率；根據每個地區對應的前綴判斷概率和后綴判斷概率，確定所述電子郵箱屬于每個地區的最終判斷概率；根據各最終判斷概率，識別所述用戶所屬的地區。本申請實施例提供的一種識別用戶所屬地區的裝置，所述裝置包括：獲取模塊，用于獲取用戶的電子郵箱；拆分模塊，用于將所述電子郵箱拆分成前綴信息與后綴信息；第一確定模塊，用于針對每個地區，確定所述前綴信息出現在該地區的前綴判斷概率，確定所述后綴信息出現在該地區的后綴判斷概率；第二確定模塊，用于根據每個地區對應的前綴判斷概率和后綴判斷概率，確定所述電子郵箱屬于每個地區的最終判斷概率；識別模塊，用于根據各最終判斷概率，識別所述用戶所屬的地區。本申請實施例提供一種識別用戶所屬地區的方法及裝置，該方法由服務器獲取用戶的電子郵箱，將該電子郵箱拆分成前綴信息與后綴信息，針對每個地區，確定該前綴信息出現在該地區的前綴判斷概率，確定該后綴信息出現在該地區的后綴判斷概率，根據每個地區對應的前綴判斷概率和后綴判斷概率，確定該電子郵箱屬于每個地區的最終判斷概率，根據各最終判斷概率，識別該用戶所屬的地區。通過上述方法，即使電子郵箱的后綴中沒有包含指明地區(如，國家)的字符符號或電子郵箱的提供商所提供的區域服務涉及多個地區，也可以通過電子郵箱有效的識別出用戶所屬的地區。附圖說明此處所說明的附圖用來提供對本申請的進一步理解，構成本申請的一部分，本申請的示意性實施例及其說明用于解釋本申請，并不構成對本申請的不當限定。在附圖中：圖1為本申請實施例提供的識別用戶所屬地區的過程；圖2為本申請實施例提供的識別用戶所屬地區的裝置結構示意圖。具體實施方式為使本申請的目的、技術方案和優點更加清楚，下面將結合本申請具體實施例及相應的附圖對本申請技術方案進行清楚、完整地描述。顯然，所描述的實施例僅是本申請一部分實施例，而不是全部的實施例。基于本申請中的實施例，本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例，都屬于本申請保護的范圍。圖1為本申請實施例提供的識別用戶所屬地區的過程，具體包括以下步驟：s101：獲取用戶的電子郵箱。在實際應用中，由于用戶通常都是在自己地區的電子郵箱網站上注冊并使用電子郵箱的，因此，網站通常通過電子郵箱(如，ok@163.com)來確定電子所屬的地區，進而確定出用戶所屬的地區，以便于針對不同地區的用戶，提供相應的服務。在確定用戶所屬的地區的整個過程中，本申請首先需要獲取用戶的電子郵箱，而獲取用戶的電子郵箱可以由服務器完成的，也可以由其他具有數據處理功能的設備完成的。在此需要說明的是，在本申請中，地區可以指的是省市縣，也可以指的是國家，為了更清晰的闡明本申請的具體實施步驟，本申請以下以地區為國家進行詳細說明。例如，假設某網站需要知道用戶a是哪個國家的，因此，該網站的服務器獲取該用戶a的電子郵箱aabaaab@hotmail.com。s102：將所述電子郵箱拆分成前綴信息與后綴信息。由于電子郵箱的組成通常都是xxx@yyy(在本申請中，@前面的xxx稱之為前綴信息，而@后面的yyy稱之為后綴信息)這種格式的，而用戶在注冊電子郵箱的時候，前綴信息通常都是自己定義的，后綴信息是電子郵箱的提供商設定的，因此，為了提高識別電子郵箱所屬的地區(如，國家)，進而識別出用戶所屬的地區的準確率，在本申請中，采用的是將前綴信息和后綴信息分別進行處理的方式。因此，服務器在獲取到用戶的電子郵箱后，將電子郵箱進行拆分，拆分成前綴信息與后綴信息。沿用上例，服務器在接收到用戶a的電子郵箱aabaaab@hotmail.com后，將電子郵箱aabaaab@hotmail.com拆分成aabaaab(即，前綴信息)與hotmail.com(即，后綴信息)。s103：針對每個地區，確定所述前綴信息出現在該地區的前綴判斷概率，確定所述后綴信息出現在該地區的后綴判斷概率。由于每個地區(如，國家)的思維方式、生活習慣以及社會文化都不太一樣，因此，不同地區的人在注冊電子郵箱時，同一個前綴信息出現在不同地區的可能性是不同的，也就是說，中國的用戶在注冊電子郵箱時所定義的前綴信息，通常都使用自己的中文名字拼音，而美國的用戶在注冊電子郵箱時所定義的前綴信息，通常也使用自己的英文名字字母，由于中文名字和英文名字存在著不小的差異，因此，當前綴信息為中文名字拼音時，該用戶所屬的國家為中國的可能性較大，當然也有外國的用戶的電子郵箱中包含的前綴信息有可能是中文名字拼音，因此，在本申請中，采用前綴判斷概率來表示前綴信息出現在該地區(如，國家)的可能性的大小，前綴判斷概率越大，則說明前綴信息出現在該地區的可能性越大，前綴判斷概率越小，則說明前綴信息出現在該地區的可能性越小。另外，如果只考慮前綴信息而不考慮后綴信息，其實前綴信息出現在該地區(如，國家)的可能性的大小也就是該前綴信息對應的電子郵箱屬于該地區的可能性的大小，前綴判斷概率越大，則說明前綴信息對應的電子郵箱屬于該地區的可能性越大，前綴判斷概率越小，則說明前綴信息對應電子郵箱屬于該地區的可能性越小。進一步的，本申請提供了針對每個地區，確定前綴信息出現在該地區的前綴判斷概率，具體實施方式如下：針對每個地區，將該前綴信息拆分成若干個字符串，在預先針對該地區建立的前綴概率表中，確定出每個字符串出現在該地區的概率，根據每個字符串出現在該地區的概率，以及貝葉斯公式，確定所述前綴信息出現在該地區的前綴判斷概率。其中，在將該前綴信息拆分成若干個字符串的過程中，拆分出的字符串包含的字符串的數量與預先針對該地區建立的前綴概率表中的字符串中包含的字符數量相等，與此同時，本申請提供了一種拆分方式是n元拆分(n為預先針對該地區建立的前綴概率表中的字符串中包含的字符數量，且大于等于1并小于前綴信息中包含的字符數量的正整數，)，即，按照預先針對該地區建立的前綴概率表中的字符串中包含的字符數量(如，n個)，針對字符串中的每個字符，將與該字符緊挨著的后面連續n個字符組合成一個字符串。另外，本申請在根據每個字符串出現在該地區的概率，以及貝葉斯公式，確定所述前綴信息出現在該地區的前綴判斷概率的過程中，也提供了具體的計算方式，具體為：根據每個字符串出現在該地區的概率，確定出在給定該地區的情況下，該前綴信息出現在該地區的概率，進而根據公式確定出前綴信息出現在地區i的前綴判斷概率，其中，p地區i|前綴)表示在給定前綴信息的情況下，前綴信息出現在地區i的前綴判斷概率，p前綴|地區i)表示在給定地區i的情況下，在該地區i中出現前綴信息的概率，p地區i)表示前綴信息出現在地區i的經驗概率，表示每個地區的p前綴|地區i)與該地區的p地區i)的乘積之和。在此需要說明的是，p地區i)表示前綴信息出現在地區i的經驗概率的計算方式具體為，在已知的大量歷史電子郵箱前綴信息里面，確定出屬于地區i的電子郵箱前綴信息所占有的頻率，也即經驗概率。沿用上例，為了方便的闡述本申請的實施方案，在此例子中，只以兩個國家為例進行說明(也就是說，只有這兩個國家的用戶使用電子郵箱，實際上只要是使用電子郵箱的國家都需要建立該國家對應的前綴概率表)，假設預先針對美國建立的前綴概率表如表1所示：表1預先針對英國建立的前綴概率表如表2所示：前綴信息前綴判斷概率aaa0.5/1aab0.5/1aba1/3abb2/3baa0.5/2.5bab2/2.5bba2/2.5bbb0.5/2.5表2服務器按照預先針對美國建立的前綴概率表中的字符串中包含的字符數量，按照上述介紹的n元拆分方式，即，三元拆分方式，將aabaaab(即，前綴信息)拆分成五個字符串“aab”、“aba”、“baa”、“aaa”、“aab”，根據表1中確定出每個字符串出現在美國的概率如表3所示：字符串字符串出現在美國的概率aab2/3aba3/4baa1/3aaa1/3aab2/3表3服務器根據表3，確定出在給定美國的情況下，該前綴信息出現在美國的概率為0.0370，即，p前綴|美國)＝0.0370。同樣的，服務器根據表2確定出每個字符串出現在英國的概率如表4所示：字符串字符串出現在美國的概率aab0.5/1aba1/3baa0.5/2.5aaa0.5/1aab0.5/1表4服務器根據表4，確定出在給定英國的情況下，該前綴信息出現在英國的概率為0.0083，即，p前綴|英國)＝0.0083。假設前綴信息出現在美國的經驗概率為3/5，即p美國)＝3/5，前綴信息出現在美國的經驗概率為2/5，即p英國)＝2/5，服務器通過上述提到公式確定出前綴信息出現在美國的前綴判斷概率為0.87，即p美國|前綴)＝0.87，確定出前綴信息出現在英國的前綴判斷概率為0.13，即p英國|前綴)＝0.13。以上是針對每個地區，確定前綴信息出現在該地區的前綴判斷概率的過程，由于本申請時對前綴信息和后綴信息分別進行處理的，因此，下面介紹本申請中對后綴信息的處理過程。同樣是由于每個地區(如，國家)的思維方式、生活習慣以及社會文化都不太一樣，因此，對于某一種類型的后綴信息而言，每個地區(如，國家)注冊并使用該類型的后綴信息對應的電子郵箱人數通常是有差異的，也就是說，有的地區使用該類型的后綴信息對應的電子郵箱的人數較多，有的地區使用該類型的后綴信息對應的電子郵箱的人數較少，因此，在本申請中，可以采用后綴判斷概率來表示后綴信息出現在該地區的可能性大小，后綴判斷概率越大，則說明后綴信息出現在該地區的可能性越大，后綴判斷概率越小，則說明后綴信息出現在該地區的可能性越小。同樣的，如果只考慮后綴信息而不考慮前綴信息，其實后綴信息出現在該地區(如，國家)的可能性的大小也就是該后綴信息對應的電子郵箱屬于該地區的可能性的大小，后綴判斷概率越大，則說明后綴信息對應的電子郵箱屬于該地區的可能性越大，后綴判斷概率越小，則說明后綴信息對應電子郵箱屬于該地區的可能性越小。進一步的，本申請提供了針對每個地區，確定后綴信息出現在該地區的后綴判斷概率，具體實施方式如下：針對每個地區，在預先針對該地區建立的后綴概率表中，確定該后綴信息出現在該地區的后綴判斷概率。在此需要說明的是，對于上述確定前綴判斷概率的方式并不是唯一的，只要能夠確定出的結果能夠反映出前綴信息出現在該地區(如，國家)的可能性的大小即可，如，采用字符串相似度的判斷方式來確定前綴判斷概率，也就是說，針對每個地區，計算并選取前綴信息與預先建立的該地區對應的標準字符串中相似度最大的，再將相似度作為每個地區的前綴判斷概率。同樣的對于上述確定后綴判斷概率的方式也并不是唯一的，在此不再一一贅述。沿用上例，假設預先針對美國建立的后綴概率表如表5所示：后綴信息后綴判斷概率gmail.com2/3hotmail.com1/2表5預先針對英國建立的后綴概率表如表6所示：后綴信息后綴判斷概率gmail.com1/3hotmail.com1/2表6服務器針對拆分出的hotmail.com，根據表5確定出該后綴信息出現在美國的后綴判斷概率1/2，即，p美國|后綴)＝1/2，根據表6確定出該后綴信息出現在英國的后綴判斷概率1/2，即，p英國|后綴)＝1/2。s104：根據每個地區對應的前綴判斷概率和后綴判斷概率，確定所述電子郵箱屬于每個地區的最終判斷概率。由于電子郵箱是前綴信息和后綴信息共同組成的，因此，前綴信息和后綴信息共同決定了電子郵箱屬于哪個地區，也就是說，前綴判斷概率和后綴判斷概率共同決定了電子郵箱屬于哪個地區。因此，在本申請中，服務器在確定出每個地區對應的前綴判斷概率和后綴判斷概率后，可直接確定出前綴信息以及后綴信息共同對應的電子郵箱屬于每個地區的最終判斷概率，所述最終判斷概率表示該電子郵箱屬于每個地區的可能性的大小，針對每個地區，最終判斷概率越大，則說明該電子郵箱屬于該地區的可能性越大，最終判斷概率越小，則說明該電子郵箱屬于該地區的可能性越小。另外，本申請還提供了確定前綴信息和后綴信息共同對應的電子郵箱屬于每個地區的最終判斷概率具體計算方式：通過公式p＝p(地區i|前綴)*p(地區i|后綴)/p(地區i)，確定出所述電子郵箱屬于每個地區的最終判斷概率；其中：p表示所述電子郵箱屬于地區i的最終判斷概率，p(地區i|前綴)表示所述前綴信息出現在地區i前綴判斷概率，p(地區i|后綴)表示所述后綴信息出現在地區i的后綴判斷概率，p(地區i)表示所述電子郵箱屬于地區i的經驗概率。延用上例，服務器在確定出美國對應的前綴判斷概率和后綴判斷概率后，根據步驟s104中提到的公式，確定出用戶a的電子郵箱aabaaab@hotmail.com屬于美國的最終判斷概率0.725，同樣的，服務器確定出用戶a的電子郵箱aabaaab@hotmail.com屬于英國的最終判斷概率0.1625。s105：根據各最終判斷概率，識別所述用戶所屬的地區。服務器在確定出該用戶的電子郵箱屬于每個地區(如，國家)的最終判斷概率后，將各最終判斷概率中最大的最終判斷概率對應的地區，識別為該用戶的電子郵箱的歸屬地，另外，由于用戶通常都是在自己地區的電子郵箱網站上注冊并使用電子郵箱的，因此，將識別為該用戶的電子郵箱的歸屬地的地區，作為該用戶所屬的地區。延用上例，服務器在確定出用戶a的電子郵箱aabaaab@hotmail.com屬于美國的最終判斷概率0.1625以及用戶a的電子郵箱aabaaab@hotmail.com屬于美國的最終判斷概率0.725后，將美國識別為該用戶a的電子郵箱的歸屬地，后續，將美國作為該用戶a所屬的地區。通過上述方法，即使電子郵箱的后綴中沒有包含指明地區(如，國家)的字符符號或電子郵箱的提供商所提供的區域服務涉及多個地區，也可以通過電子郵箱有效的識別出用戶所屬的地區。在此需要說明的是，在針對每個地區，確定電子郵箱的后綴信息出現在該地區的后綴判斷概率的過程中，對于后綴信息里包含有指明地區(如，國家)的字符符號時，則可以直接確定后綴信息出現在該地區的后綴判斷概率為1，后綴信息出現在其他地區的后綴判斷概率為0。另外，本申請提供了在步驟s103中涉及到的預先針對該地區建立的前綴概率表的具體建立方式，具體如下：預先獲取已知所屬地區的各樣本郵箱，提取各樣本郵箱中的樣本前綴信息，將提取的各樣本前綴信息拆分成若干個字符串，針對由樣本前綴信息拆分出的每個字符串，提取該字符串的前序字符，確定該字符串出現在該地區的次數與該字符串的前序字符出現在該地區的次數的比值，作為該字符串出現在該地區的概率，根據針對由樣本前綴信息拆分出的每個字符串統計出的概率，建立該地區對應的前綴概率表。在此需要說明的是，假設是采用n元拆分來將提取的各樣本前綴信息拆分成若干個字符串，則在提取每個字符串的前序字符時，是從該字符串中位于最前端的字符開始提取連續(n-1)個字符，作為提取該字符串的前序字符。例如，針對上述步驟s101～s105中的例子而言，假設服務器獲取到已知所屬國家為美國的各樣本郵箱，提取各樣本郵箱中的樣本前綴信息，并將提取的各樣本前綴信息按照三元拆分方式，拆分成若干個字符串，確定每種類型的字符串出現在美國的次數，如表7所示：字符串次數aaa1aab2aba3abb1baa1bab2bbb1表7服務器再提取各字符串的前兩位的字符(即，前序字符)，確定出每種類型的前序字符出現在美國的次數，如表8所示：字符串次數aa3ab4ba3bb1表8服務器確定該字符串出現在美國的次數與該字符串的前序字符出現在美國的次數的比值(也即，該字符串出現在美國的概率)，并根據確定出的各比值建立美國對應的前綴概率表如表1所示。同樣的，服務器確定每種類型的字符串出現在英國的次數，如表9所示：表9服務器再提取各字符串的前兩位的字符(即，前序字符)，確定出每種類型的前序字符出現在英國的次數，如表10所示：字符串次數ab3ba2bb2表10服務器確定該字符串出現在英國的次數與該字符串的前序字符出現在英國的次數的比值(也即，該字符串出現在英國的概率)，并根據確定出的各比值建立英國對應的前綴概率表如表2所示。另外，本申請還提供了另一種預先建立每個地區對應的前綴概率表的方式，具體如下：預先獲取已知各所屬地區的各樣本郵箱，提取各樣本郵箱中的樣本前綴信息，將提取的各樣本前綴信息按(n-1)元拆分方式拆分成若干個轉移字符串，針對由樣本前綴信息拆分出的每個轉移字符串，將各轉移字符串組成每個地區對應的轉移次數矩陣，根據每個地區對應的轉移次數矩陣，確定每個地區對應的轉移概率矩陣，根據轉移概率矩陣，建立每個地區對應的前綴概率表，其中，所述轉移字符串包含的字符數量比步驟s103中涉及到的字符串包含的字符數量少一個字符。例如，針對上述步驟s101～s105中的例子而言，假設服務器獲取到已知所屬國家為美國和英國的各樣本郵箱，提取各樣本郵箱中的樣本前綴信息，并將提取的各樣本前綴信息按照二元拆分方式，拆分成若干個轉移字符串，針對由樣本前綴信息拆分出的每個轉移字符串，將各轉移字符串組成美國對應的轉移次數矩陣，如表11所示：表11服務器根據表11確定出美國對應的轉移概率矩陣，如表12所示：aaabbabbaa1/32/300ab003/41/4ba1/32/300bb000.5/1.50.5/2.5表12服務器根據表12建立美國對應的前綴概率表，如表1所示。同樣的，服務器針對由樣本前綴信息拆分出的每個轉移字符串，將各轉移字符串組成英國對應的轉移次數矩陣，如表13所示：aaabbabbaa0000ab0012ba0200bb0020表13服務器根據表13確定出英國對應的轉移概率矩陣，如表14所示：aaabbabbaa0.5/10.5/100ab001/32/3ba0.5/2.52/2.500bb002/2.50.5/2.5表14服務器根據表14建立英國對應的前綴概率表，如表2所示。在此需要說明的是，上述根據轉移次數矩陣確定每個地區對應的轉移概率矩陣的過程中，對于轉移次數矩陣中所有為0的項，如果該0所處行的轉移字符串的后(n-2)位與該0所處列的轉移字符串前(n-2)位相同，則該0次以0.5次計算，如果該0所處行的轉移字符串的后(n-2)位與該0所處列的轉移字符串的前(n-2)位不同，則該0次依然按0次計算，如，在表13中，位于第二行第三列項的0，該0所處行的轉移字符串aa的后一位a與該0所處列的轉移字符串ab的前一位a相同，則該0次以0.5次計算，但是位于第二行第四列項的0，該0所處行的轉移字符串aa的后一位a與該0所處列的轉移字符串ba的前一位b不相同。進一步的，本申請也提供了在步驟s103中涉及到的預先針對該地區建立后綴概率表的具體建立方式，具體如下：預先獲取已知所屬地區的各樣本郵箱，提取各樣本郵箱中的樣本后綴信息，針對每個樣本后綴信息，統計該樣本后綴信息出現在該地區的概率，根據針對每個樣本后綴信息統計出的概率，建立該地區對應的后綴概率表。另外，針對每個樣本后綴信息，統計該樣本后綴信息出現在該地區的概率的過程中，本申請首先針對每個樣本后綴信息，先統計出該樣本后綴信息出現在該地區的次數，再針對每個樣本后綴信息，統計出該樣本后綴信息出現在各個地區的總次數，后續，將統計出各樣本后綴信息出現在該地區的次數與統計出該樣本后綴信息出現在各個地區的總次數的比值，作為各樣本后綴信息出現在該地區的概率。例如，針對上述步驟s101～s105中的例子而言，假設從已知的美國和英國的各樣本郵箱中提取出樣本后綴信息如表15所示：表15服務器統計出樣本后綴信息gmail.com出現在美國的次數為2次，統計出樣本后綴信息gmail.com出現在美國和英國的總次數為3次，將2次(即，統計出樣本后綴信息gmail.com出現在美國的次數)與3次(即，統計出樣本后綴信息gmail.com出現在美國和英國的總次數)的比值為2/3，作為樣本后綴信息gmail.com出現在美國的概率，同樣的，針對美國，統計出的各樣本后綴信息出現在美國的概率如表5所示，針對英國，統計出的各樣本后綴信息出現在英國的概率如表6所示。以上為本申請實施例提供的識別用戶所屬地區的的方法，基于同樣的思路，本申請實施例提供一種識別用戶所屬地區的裝置，如圖2所示。圖2為本申請實施例提供的識別用戶所屬地區的裝置結構示意圖，所述裝置包括：獲取模塊201，用于獲取用戶的電子郵箱；拆分模塊202，用于將所述電子郵箱拆分成前綴信息與后綴信息；第一確定模塊203，用于針對每個地區，確定所述前綴信息出現在該地區的前綴判斷概率，確定所述后綴信息出現在該地區的后綴判斷概率；第二確定模塊204，用于根據每個地區對應的前綴判斷概率和后綴判斷概率，確定所述電子郵箱屬于每個地區的最終判斷概率；識別模塊205，用于根據各最終判斷概率，識別所述用戶所屬的地區。所述第一確定模塊203具體用于，將所述前綴信息拆分成若干個字符串，在預先針對該地區建立的前綴概率表中，確定出每個字符串出現在該地區的概率，根據每個字符串出現在該地區的概率，以及貝葉斯公式，確定所述前綴信息出現在該地區的前綴判斷概率。所述第一確定模塊203具體用于，預先獲取已知所屬地區的各樣本郵箱，提取各樣本郵箱中的樣本前綴信息，將提取的各樣本前綴信息拆分成若干個字符串，針對由樣本前綴信息拆分出的每個字符串，提取該字符串的前序字符，確定該字符串出現在該地區的次數與該字符串的前序字符出現在該地區的次數的比值，作為該字符串出現在該地區的概率，根據針對由樣本前綴信息拆分出的每個字符串統計出的概率，建立該地區對應的前綴概率表。所述第一確定模塊203具體用于，在預先針對該地區建立的后綴概率表中，確定所述后綴信息出現在該地區的后綴判斷概率。所述第一確定模塊203具體用于，預先獲取已知所屬地區的各樣本郵箱，提取各樣本郵箱中的樣本后綴信息，針對每個樣本后綴信息，統計該樣本后綴信息出現在該地區的概率，根據針對每個樣本后綴信息統計出的概率，建立該地區對應的后綴概率表。所述第二確定模塊204具體用于，通過公式p＝p(地區i|前綴)*p(地區i|后綴)/p(地區i)，確定出所述電子郵箱屬于每個地區的最終判斷概率；其中：p表示所述電子郵箱屬于地區i的最終判斷概率，p(地區i|前綴)表示所述前綴信息出現在地區i前綴判斷概率，p(地區i|后綴)表示所述后綴信息出現在地區i的后綴判斷概率，p(地區i)表示所述電子郵箱屬于地區i的經驗概率。所述地區包括所述國家。在一個典型的配置中，計算設備包括一個或多個處理器(cpu)、輸入/輸出接口、網絡接口和內存。內存可能包括計算機可讀介質中的非永久性存儲器，隨機存取存儲器(ram)和/或非易失性內存等形式，如只讀存儲器(rom)或閃存(flashram)。內存是計算機可讀介質的示例。計算機可讀介質包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現信息存儲。信息可以是計算機可讀指令、數據結構、程序的模塊或其他數據。計算機的存儲介質的例子包括，但不限于相變內存(pram)、靜態隨機存取存儲器(sram)、動態隨機存取存儲器(dram)、其他類型的隨機存取存儲器(ram)、只讀存儲器(rom)、電可擦除可編程只讀存儲器(eeprom)、快閃記憶體或其他內存技術、只讀光盤只讀存儲器(cd-rom)、數字多功能光盤(dvd)或其他光學存儲、磁盒式磁帶，磁帶磁磁盤存儲或其他磁性存儲設備或任何其他非傳輸介質，可用于存儲可以被計算設備訪問的信息。按照本文中的界定，計算機可讀介質不包括暫存電腦可讀媒體(transitorymedia)，如調制的數據信號和載波。還需要說明的是，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下，由語句“包括一個……”限定的要素，并不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。本領域技術人員應明白，本申請的實施例可提供為方法、系統或計算機程序產品。因此，本申請可采用完全硬件實施例、完全軟件實施例或結合軟件和硬件方面的實施例的形式。而且，本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器、cd-rom、光學存儲器等)上實施的計算機程序產品的形式。以上所述僅為本申請的實施例而已，并不用于限制本申請。對于本領域技術人員來說，本申請可以有各種更改和變化。凡在本申請的精神和原理之內所作的任何修改、等同替換、改進等，均應包含在本申請的權利要求范圍之內。當前第1頁12

完整全部詳細技術資料下載

當前第1頁1 2