1.一種分析用戶WiFi活動軌跡規律的分布式實現方法,其特征在于,包括以下步驟:
(a)軌跡提取:后臺服務器查詢模塊查詢后臺服務器數據庫中的用戶移動端MAC地址所對應的WiFi掃描記錄,所述WiFi掃描記錄為由多臺WiFi采集設備采集記錄并由所述WiFi采集設備上傳至所述后臺服務器數據庫;
將所述WiFi掃描記錄按采集時間進行排序獲得WiFi掃描軌跡E={ e1,e2,…,en },其中ei=<pi, ti>,i為自然數,ei表示軌跡點,pi表示地理位置,ti表示掃描時間;
(b)軌跡點預處理:后臺服務器的數據處理模塊依次遍歷WiFi掃描軌跡E,對任意連續的兩個軌跡點記錄ei和ei+1,如果pi = pi+1且ti+1- ti < Δt,則將所述ei和ei+1兩條記錄合并為一個復合軌跡點記錄ei'= <pi,tiin,tiout>,其中, tiin=ti, tiout= ti+1;由合并后的復合軌跡點記錄ei'組成WiFi掃描軌跡E'={ e1', e2',…,en'},其中ei'=<pi,tiin,tiout>,n為自然數,pi表示地理位置,tiin表示ei'采集開始時間,tiout表示ei'采集結束時間;
(c)軌跡片段劃分:根據預定規則對步驟(b)中獲得的WiFi掃描軌跡E'進行分割,獲得只包含有序位置軌跡點位置的多條軌跡片段,并由所述多條軌跡片段得到軌跡集合TR;
(d)頻繁軌跡提?。翰捎貌⑿兴惴ㄓ嬎悴襟E(b)中獲取的軌跡集合TR中的軌跡點pi出現頻率次數,得到頻繁軌跡點,進而使用并行后綴樹算法實現頻繁軌跡提取;
(e)建立語義化模型:對頻繁軌跡產生時間的星期和小時進行語義化定義;
(f)建立軌跡語義化:獲取頻繁軌跡的時間尺度頻率次數中次數最多的星期和小時,根據語義化模型將軌跡路徑進行分類,獲取頻繁軌跡的語義化模型。
2.根據權利要求1所述的分析用戶WiFi活動軌跡規律的分布式實現方法,其特征在于,所述預定規則包括規則一和規則二:
規則一:如果一個軌跡點<pi,tiin,tiout>的停留時間τi= tiout - tiin >Δt,則將軌跡在pi處進行分割,且將地理位置點pi作為上一段軌跡片段的終點和下一段軌跡片段的起點;
規則二:如果兩個軌跡點<pi,tiin,tiout>和<pi+1,ti+1in,ti+1out>的間隔時間τi'= ti+1in - tiout> Δt,則將軌跡在pi處進行分割,其中pi作為上一段軌跡片段的終點,pi+1作為下一段軌跡片段的起點;
根據規則一或規則二對WiFi掃描軌跡E'進行分割后獲得軌跡集合TR={TR1, TR2, …, TRn},其中第i條軌跡片段TRi= {pi1, pi2, … , pim},pim表示第i條軌跡片段中的用戶移動端經過的第m項軌跡點位置,pim對應WiFi采集設備地理位置。
3.根據權利要求2所述的分析用戶WiFi活動軌跡規律的分布式實現方法,其特征在于,所述頻繁軌跡提取包括以下步驟:
步驟一,對步驟(b)中的每個項pim對應的WiFi采集設備地理位置PI在TR中出現的頻率次數進行計數,然后將WiFi采集設備PI出現頻率次數進行降序排序,并從TR中過濾出WiFi采集設備PI出現頻率次數大于最小支持度的項作為頻繁軌跡點;
步驟二:采用均衡分組算法將步驟1中獲得的對應頻繁軌跡點均勻地劃分到Q個分組中,平衡所有組內的計算負載,其中Q為大于1的自然數;
步驟三:獲得每條軌跡片段TRi的后綴模式,所述軌跡片段TRi的后綴{pi1, pi2, … , pim}包括多種組成模式,所述組成模式為將軌跡片段TRi中所有的有序軌跡點位置任意分成兩部分然后由后一部分有序軌跡點位置組成,一種所述組成模式為所述軌跡片段TRi的一種后綴模式;根據后綴模式中第一項是否為頻繁軌跡點來判斷所述后綴模式的分組,其中,若后綴模式中第一項為頻繁軌跡點,則將所述后綴模式歸屬到其第一項對應的頻繁軌跡點所在的分組;若后綴模式中第一項不是頻繁軌跡點,則該后綴模式被自動過濾不進入任意分組中;
步驟四:對每個分組構建一個后綴樹,獲得Q個后綴樹,由Q個后綴樹構造并行后綴樹,對并行后綴樹進行并行處理;后綴樹的創建為首先建立樹的根節點,然后掃描同一個分組內的所有TRi的后綴模式,并對每個后綴模式創建分枝,所述后綴模式中任意軌跡點位置pim為所述后綴模式分枝的節點,將所有的后綴模式分枝連接到根節點,獲得每個分組的后綴樹,并對所述后綴樹進行壓縮處理;
步驟五:對后綴樹每個后綴樹模式分枝內有序的各節點依次計數,通過節點的計數與最小支持度的比較確定頻繁軌跡片段,即若某一節點的計數小于最小支持度則停止對所述后綴樹模式分枝內后續節點的計數且所述計數小于最小支持度時的節點前面所有節點組合形成一條頻繁軌跡片段;或者若所述后綴模式分枝所有節點的計數均滿足大于等于最小支持度則所述后綴模式分枝為頻繁軌跡片段,由頻繁軌跡片段組成頻繁軌跡。
4.根據權利要求3所述的分析用戶WiFi活動軌跡規律的分布式實現方法,其特征在于,所述最小支持度為頻率次數閾值,所述頻率次數閾值根據環境進行設置。
5.根據權利要求3所述的分析用戶WiFi活動軌跡規律的分布式實現方法,其特征在于,對所述TRi的后綴模式形成的后綴樹進行壓縮處理方法為:所述后綴模式分枝內某一節點后的節點均為其子節點,若后綴模式分枝內的節點只有一個子節點,且滿足該節點的計數與該節點的子節點的計數相同,則將該節點與其子節點合并為一個節點。
6.根據權利要求1所述的分析用戶WiFi活動軌跡規律的分布式實現方法,其特征在于,根據頻繁軌跡產生時間的星期和小時建立語義化模型,其中將星期分為工作日和休息日,當星期為工作日時,小時分為n個時間段,對n個時間段分別語義化定義n個事件;當星期為休息日時,小時分為m個時間段,對m個時間段分別語義化定義m個事件。