麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種基于主題模型的多因素融合民航旅客出行預測方法與流程

文檔序號:12469438閱讀:429來源:國知局
一種基于主題模型的多因素融合民航旅客出行預測方法與流程

本發明屬于計算機應用技術領域,涉及數據挖掘和民航數據分析,特別是一種基于主題模型的多因素融合民航旅客出行預測方法。



背景技術:

人們生活水平的提高、互聯網的發展,使民航旅客訂票系統中積累了大量訂票數據,具有海量性、稀疏性、長尾性特點,給民航數據分析帶來挑戰。基于這些數據分析旅客出行特點、預測未來出行行為,是民航數據分析中最重要的任務之一。國內外關于民航旅客分析研究處于初步階段,也沒有對民航旅客出行預測有較多研究。

民航數據相關的分析研究例如Maalouf等對真實的航空公司頻繁旅客數據應用聚類分析和關聯規則等,對客戶關系管理提出推薦和改善策略[1]。而王朝恩等采用問卷調查并結合統計方法,對長春民航旅客群體進行消費動機、航空公司偏好以及購買行為分析[2]。Feng等人構建民航數據上的異質信息網絡,采用隨機游走方式進行低頻次出行旅客價值發現任務[3]。而Etzioni等探究了時間與票價之間關聯性,采用一種多策略數據挖掘算法,告知旅客購買機票的最佳時間[4]

主題模型中的LDA(Latent Dirichlet Allocation)模型有更好文本主題建模性能,具有良好擴展性[5]。如Rosen-Zvi等基于LDA提出ATM(Author-Topic Model),同時對作者、文檔和詞進行主題建模[6]。而Blei等針對文本分類問題提出有監督LDA模型,將訓練語料中文檔標記作為觀測值加入LDA中[7]。拓展主題模型或LDA模型應用到推薦領域,如Liu等將旅行套餐數據中隱含特征顯示加入主題模型中,提出一種個性化推薦旅游信息方法[8]。而Tan等將旅客信息表示成特征-值對形式,采用主題模型學習旅客潛在興趣分布,并結合協同過濾進行旅行套餐推薦[9]

旅客間社會關系有助于建模,如王琨琨等通過構建共同出行網絡,提出一種旅客個體偏好和關系偏好結合的民航旅客座位偏好建模方法[10]。而周元煒等提出一個基于信息圖的半監督關系分類算法,獲得更為準確的旅客關系,提供針對性、高質量服務[11]

將主題模型應用到民航旅客出行分析和預測中,發現潛在主題分布、解決數據海量性問題,是值得嘗試的,以及將旅客之間的關系融入到主題建模中,豐富主題信息、減輕稀疏性問題,借此來提高建模的效果。另外通過構建概率模型框架,融合多種出行影響因素,對提高預測效果同樣拭目以待。

參考文獻:

[1]Maalouf L,Mansour N.Mining airline data for crm strategies.In Proceeding of the 7th WSEAS International Conference on Simulation,Modeling and Optimization,Beijing,China,pages 345-350,2007.

[2]王朝恩,長春民航旅客特征與行為分析[D].吉林大學,2010.

[3]Feng X,Xu B Y,Lu M,et al.Infrequent Passenger Value Discovery by Random Walk on Passenger-route Heterogeneous Network.Journal of Computational and Theoretical Nanoscience,2(1):10-17,2015.

[4]Etzioni,Oren,Tuchinda,et al.To buy or not to buy:mining airfare data to minimize ticket purchase price[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Washington,USA,August.2003:119-128.

[5]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

[6]Rosen-Zvi M,Griffiths T,Steyvers M,et al.The author-topic model for authors and documents[C]//Proceedings of the 20th conference on Uncertainty in artificial intelligence.AUAI Press,2004:487-494.

[7]Blei D M,Mcauliffe J D.Supervised Topic Models[J].Advances in Neural Information Processing Systems,2010,3:327-332.

[8]Liu Q,Ge Y,Li Z,et al.Personalized Travel Package Recommendation[C]//IEEE,International Conference on Data Mining.IEEE Computer Society,2011:407-416.

[9]Tan C,Liu Q,Chen E,et al.Object-Oriented Travel Package Recommendation[J].Acm Transactions on Intelligent Systems&Technology,2014,5(3):1-26.

[10]王琨琨,民航旅客座位偏好建模與應用研究[D].北京交通大學,2015.

[11]周元煒,民航社會網絡關系分類算法設計與實現[D].北京交通大學,2013.



技術實現要素:

本發明目的是針對民航旅客訂票數據的海量性、稀疏性、長尾性、影響出行因素多樣性問題,為準確預測旅客將來搭乘的航空公司和航線,提供一種基于主題模型的多因素融合民航旅客出行預測方法。

本發明采用主題模型對旅客與其選擇的航空公司、航線進行主題建模,并通過引進構建的旅客關聯圖,提出旅客關聯圖出行主題模型PGTTM(Passenger Graph based Travel Topic Model),能夠得到旅客對航線、航空公司偏好信息,并豐富主題信息,解決民航稀疏性問題。

接著引進貝葉斯概率模型,融合航線熱度、PGTTM得到的旅客對航線偏好、旅客忠誠度、航空公司市場占有率四部分因素,構造多因素融合預測框架,更準確的預測和推薦旅客將來搭乘的航空公司和航線。以上即是基于主題模型的多因素融合民航旅客出行預測方法的主要發明內容。

本發明技術方案

一種基于主題模型的多因素融合民航旅客出行預測方法,該方法包括:

步驟1):構建旅客關聯圖出行主題模型。主要包括構建旅客的關聯圖,并對旅客出行偏好進行主題建模,最終得到旅客關聯圖出行主題模型:

步驟1.1)、構建旅客關聯圖;

構建旅客關聯圖,就是計算旅客之間的關聯度,它由旅客航線共現度和屬性共現度共同決定;航線共現度由旅客之間的航線共現數決定;屬性共現度是指旅客的年齡、性別、平均折扣、平均里程是否相同;旅客年齡、平均折扣、平均里程信息由基于方差的切分方法得到;

步驟1.2)、對旅客出行偏好主題建模;

基于主題模型對旅客和其搭乘的航線、航空公司進行主題建模,發現并求得旅客、航線、航空公司的潛在主題分布,最終將旅客的潛在主題分布和航空公司、航線的潛在主題分布相結合,可以得到旅客對航空公司和航線的出行偏好信息;

步驟1.3)、構建旅客關聯圖出行主題模型;

在步驟1.2)主題建模過程中加入步驟1.1)中的旅客關聯圖,以構建旅客關聯圖出行主題模型(Passenger Graph based Travel Topic Model,PGTTM);PGTTM在為每個旅客的航線、航空公司分配主題時,使得主題不僅來自于旅客本身,還有可能來自于旅客關聯的其他旅客,能豐富主題信息,提高預測性能,并減輕民航旅客出行稀疏性的問題;

步驟2):構建航線熱度、旅客忠誠度、航空公司市場占有率計算模型,利用這些先驗知識,可以幫助后面準確預測:

步驟2.1)、計算航線的熱度;

對于航線熱度,首先統計該航線被全部旅客搭乘的次數,以及每個航線被全部旅客搭乘的次數之和,在此基礎上,計算得到航線熱度;

步驟2.2)、計算旅客對航空公司的忠誠度;

對于旅客忠誠度,首先統計該旅客搭乘該航空公司的次數,以及該旅客搭乘每一個航空公司的次數之和,在此基礎上,經過平滑處理,計算得到旅客對航空公司的忠誠度;

步驟2.3)、計算航空公司對航線的市場占有率;

對于航空公司市場占有率,首先統計該航空公司、該航線作為一個詞對被全部旅客搭乘的次數,以及在不考慮航空公司下該航線被全部旅客搭乘的次數,基于此,計算得到航空公司對航線的市場占有率;

步驟3):通過貝葉斯概率模型融合航線熱度、旅客對航線偏好、旅客忠誠度以及航空公司市場占有率,構建多因素融合預測框架,對旅客將來選擇的航線、航空公司進行預測:

步驟3.1)、基于貝葉斯概率模型的多因素融合;

基于步驟1)中PGTTM得到的旅客對航線偏好,步驟2.1)中的航線熱度,步驟2.2)中的旅客忠誠度,以及步驟2.3)中的航空公司市場占有率,構建貝葉斯概率模型,對這四部分因素進行融合,更好建模旅客的出行行為;

步驟3.2)、基于貝葉斯概率模型的多因素預測;

針對每個旅客、每個航空公司-航線詞對,利用貝葉斯概率模型函數,分別計算旅客的搭乘概率;對每個旅客而言,挑選出概率最大的幾個航空公司-航線詞對,進行預測和推薦。

本發明的優點和積極效果:

·提出旅客關聯圖出行主題模型PGTTM

本發明針對民航旅客出行行為進行主題建模,發現旅客及其搭乘的航空公司、航線的潛在主題分布,準確地預測旅客未來出行選擇的航線等行為。在此基礎上構建并引進旅客關聯圖,得到PGTTM,能夠借助相似旅客豐富主題信息,提高預測準確度,解決民航旅客出行數據稀疏性問題。

·借助貝葉斯概率模型函數提出多因素融合預測框架

本發明通過一個貝葉斯概率模型函數得到一個多因素融合預測框架,融合PGTTM得到的旅客對航線的偏好,以及航線熱度、旅客忠誠度和航空公司市場占有率這些先驗知識,相較于基準方法,該預測框架可以更準確地預測旅客將來出行選擇的航空公司和航線。

附圖說明

圖1是本發明的整體模型系統圖。

圖2是本發明的算法流程圖。

具體實施方式

實施例1:

下面結合附圖和具體實施對本發明提供的基于主題模型的多因素融合民航旅客出行預測方法進行詳細說明。

本發明主要采用數據挖掘理論和方法對民航數據中旅客出行行為進行分析,為了保證系統的正常運行,在具體實施中,要求所使用的計算機平臺配備不低于8G的內存,CPU核心數不低于4個且主頻不低2.6GHz、Windows 7及以上版本的64位操作系統,并安裝Oracle數據庫、Java 1.7及以上版本、Matlab 2011b及以上版本等必備軟件環境。

本發明提供的基于主題模型的多重因素融合的旅客出行行為預測方法如下,并結合附圖2進行說明。

步驟1):構建旅客關聯圖出行主題模型PGTTM

步驟1.1)、數據預處理和構建旅客關聯圖的S1.1階段;

步驟1.11)、數據介紹與預處理

旅客訂票數據中每一條數據包含旅客個人信息和出行信息;個人信息包括唯一識別旅客的加密身份證號、旅客年齡、性別等,出行信息包括搭乘的航空公司、起飛機場、到達機場、折扣等信息。

經過去除低頻旅客、去除重復記錄、去除異常記錄等預處理操作后,取一定的歷史數據作為訓練集,其余數據作為測試集。

步驟1.12)、基于方差的切分方法;

例如切分年齡,將訓練集旅客出行記錄中所有年齡提取成排序列表,遍歷最小年齡到最大年齡,以遍歷到的每個年齡為切分點,計算切分后兩段年齡表方差的加權平均值,權重是切分后包含的年齡數占切分前年齡數的比例,找到切分后方差加權平均值和切分前方差相差最大的切分年齡值,即為最佳切分點。

步驟1.13)、構建旅客關聯圖;

旅客之間的關聯度由航線共現度和屬性共現度共同決定;在步驟1.11)中得到的訓練集上統計計算,得到一個表達旅客之間航線共現數的稀疏矩陣,每一列歸一化即是航線共現度矩陣;屬性共現度是指旅客年齡、性別、平均折扣、平均里程在經過步驟1.12)切分后,兩個旅客是否都相同;最后取旅客航線共現度最高的幾個旅客作為其關聯旅客,然后該旅客與這些關聯旅客的關聯度由他們之間的航線共現度與屬性共現度的加權平均所得;這樣旅客間的關聯圖得以構建。

所述旅客搭乘的航線由起飛機場和到達機場決定,里程信息由起飛機場和到達機場代表的兩個城市的距離所得,價格由里程和折扣信息決定,平均折扣由旅客總里程和總價格決定。

步驟1.2)、利用PGTTM建模旅客出行偏好

步驟1.21)得到輸入數據的S1.21階段;

設訓練集的旅客訂票記錄中有不同的U位旅客(由加密身份證號區別),C家航空公司,R條航線。從旅客訂票記錄中抽取身份證號、航空公司、航線三個字段,并分別替換成索引形式,即這三個字段分別由數字1~U,1~C,1~R表示,最后得到三個向量u、c、r,長度都為N(也是訓練集的訂票記錄數),即是輸入數據。三個向量的每一行表示第i個訂票記錄中的旅客ui搭乘了航空公司ci下的航線ri,(1≤ui≤U,1≤ci≤C,1≤ri≤R,i=1,2,...,N)。

T為設定的主題個數。z表示主題向量,長度為N,x是用以生成主題的旅客向量,長度為N。u、c、r與z、x的關系是,它們的每一分量表示旅客ui搭乘的航空公司ci和航線ri的主題zi是由xi分配的,而xi可以是ui,也可能是ui的關聯旅客,(1≤zi≤T,1≤xi≤U,i=1,2,...,N)。

下面是PGTTM中旅客生成每個出行行為的過程:

(1)每一個旅客u對應一個主題分布,每一個主題t對應一個航空公司分布和一個航線分布。旅客u的主題分布θu~Dirichlet(α),主題t的航空公司分布φt~Dirichlet(μ),主題t的航線分布(u=1,2,...,U,t=1,2,...,T;θu是T維向量,φt是C維向量,是R維向量;α,μ,β是狄利克雷分布的參數)。

(2)旅客ui首先采樣一個旅客s,然后由s采樣一個出行主題,最后根據出行主題選擇搭乘的航空公司和航線。即主題zi~Multinomial(θs),航空公司航線在PGTTM中s可以是ui本身,還可能是ui的關聯旅客,(1≤ui≤U,1≤zi≤T,1≤ci≤C,1≤ri≤R,i=1,2,...,N)。

旅客-主題分布θ(U×T維),主題-航空公司分布φ(T×C維),主題-航線分布(T×R維)是PGTTM要推斷的參數。就是根據已有的旅客u和其搭乘行為c、r,反向推斷它們的主題分布。

步驟1.22)初始化操作的S1.22階段;

設定用以分配主題的旅客x初始狀態和搭乘旅客u相等。接著用T個主題隨機初始化主題向量z。(即1≤zi≤T,i=1,2,...,N)。

設CUT是U×T維矩陣,表示旅客分配各個主題的次數,由向量x和z統計得到;CTC是T×C維矩陣,表示主題分配到各個航空公司的次數,由向量z和c統計得到;CTR是T×R維矩陣,表示主題分配到各個航線的次數,由向量z和r統計得到。這三個矩陣分別是旅客、航空公司、航線的主題計數矩陣。

設定最大迭代次數NN;構造一個長度為N的向量order,其值遍布1到N,但是順序隨機打亂。

步驟1.23)不考慮當前旅客、當前航空公司和航線的主題分配,更新主題計數矩陣的S1.23階段;

不考慮主題z的下標為orderi的那一分量,更新三個主題計數矩陣,即都減1。

步驟1.24)為當前航空公司、航線采樣一個用來生成新主題的旅客的S1.24階段;

由一個參數為τ的伯努利分布決定為當前航空公司和航線重新采樣的主題由當前旅客產生,還是由關聯圖中的關聯旅客產生。而由的哪一個關聯旅客產生,則由一個多項分布來決定,該多項分布的參數是該旅客與其關聯旅客的關聯度。假設采樣旅客為s,是采樣概率,取決于兩個分布的參數。

步驟1.25)利用Gibbs采樣公式為當前航空公司和航線重新分配新主題的S1.25階段;

根據Gibbs采樣公式,計算出由旅客s為當前航空公司和當前航線重新分配的新主題是t(t=1,2,...,T)的概率。公式如下:

公式的意義是為當前旅客采樣旅客s以及為當前航空公司、航線采樣新主題t的概率。其中,下標標有-orderi的向量表示不考慮下標為orderi的那一分量,是旅客s分配主題t的次數,是主題t分配給航空公司的次數,是主題t分配給航線的次數,是步驟1.23)得到的、根據采樣旅客s的概率。

最后,以這T個概率值為參數構成多項分布,采樣一個新主題為topic。

步驟1.26)更新用以生成主題的旅客向量以及主題向量的S1.26階段;

根據步驟1.24)在x中將更新為s,根據步驟1.25)在z中將更新為topic。

步驟1.27)更新三個主題計數矩陣的S1.27階段;

生成主題的旅客向量和主題向量在步驟1.26)更新后,令都加1。

步驟1.28)迭代結束后計算得到旅客-主題、主題-航空公司、主題-航線分布的S1.28階段;

迭代次數從1到NN,i從1到N,分別作為外循環和內循環,不斷重新采樣產生主題的旅客以及分配到航空公司和航線的主題,即重復執行步驟1.23)到步驟1.27)。迭代完成后,根據以下公式,可以得到旅客-主題分布θ,主題-航空公司分布φ,主題-航線分布

其中,u=1,2,...,U,c=1,2,...,C,r=1,2,...,R,t=1,2,...,T。

步驟1.29)計算旅客對航線偏好程度的S1.29階段;

PGTTM用來建模旅客對航空公司和航線的偏好,例如用P(u|r)表示旅客對航線偏好程度,也是航線對旅客的吸引程度,計算公式如下:

其中,u=1,2,...,U,r=1,2,...,R。

步驟2):計算航線熱度,旅客忠誠度,航空公司市場占有率:

步驟2.1)、計算航線熱度的S2.1階段;

航線熱度用P(r)表示,表明旅客在出行時選擇航線r的概率,公式如下:

其中,count(r)表示航線r在2010年旅客訂票記錄中出現的次數,r=1,2,...,R。

步驟2.2)、計算旅客忠誠度的S2.2階段;

旅客忠誠度用P(c|u)表示,表明旅客u在出行時選擇航空公司c的概率,公式如下:

其中,count(u,c)表示在2010年旅客訂票記錄中旅客u選擇航空公司c的次數,c=1,2,...,C,u=1,2,...,U。

步驟2.3)、計算航空公司市場占有率的S2.3階段;

航空公司市場占有率用P(c|r)表示,表明航線r屬于航空公司c下航線的概率,公式如下:

其中,count(c,r)表示在2010年旅客訂票記錄中,航空公司c和航線r共同出現的記錄數,c=1,2,...,C,r=1,2,...,R。

步驟3):引進貝葉斯概率模型,構建多因素融合預測框架,計算旅客搭乘航空公司、航線的概率,并進行預測和推薦的S3階段:

步驟3.1)、利用貝葉斯概率模型,構建多因素融合預測框架;

將步驟1)中PGTTM得到的旅客對航線偏好,以及步驟2)中航線熱度、旅客忠誠度、航空公司市場占有率利用一個貝葉斯概率模型融合在一起,構造多因素融合預測框架。本發明用到的貝葉斯概率模型推導如下:

首先對于固定的旅客u,P(u)是常數,可以得到

又根據

P(r,c,u)=P(r)*P(u|r)*P(c|u,r)≈P(r)*P(u|r)*[αP(c|u)+(1-α)P(c|r)],

所以可以得到需要的貝葉斯概率函數如下:

logP(r,c|u)∝log{P(r)*P(u|r)*[αP(c|u)+(1-α)P(c|r)]}

其中,P(r,c|u)表示旅客u選擇航空公司c下航線r的概率,α為可設定的參數,公式兩邊取log是為了避免求得的概率值過小。

最后一個公式即是所需貝葉斯概率模型,也是多因素融合預測框架,融合了航線熱度P(r),旅客對航線偏好P(u|r),旅客忠誠度P(c|u),航空公司市場占有率P(c|r)。(c=1,2,...,C,r=1,2,...,R,u=1,2,...,U)。

步驟3.2)、預測旅客將來選擇的航空公司、航線;

根據步驟3.1)中的多因素預測框架,假設訓練集中一共有W個航空公司-航線詞對,對于每一旅客u能夠計算其搭乘每一個航空公司-航線詞對的概率,根據算得的數值進行從大到小排序,然后找到數值最大的前K個(TopK)航空公司-航線詞對作為預測對象,進行推薦,通過將預測結果與測試集進行比對,得到預測準確度。

比如對于某個旅客17464755.(加密后身份證號),將訂票數據中的航空公司290(真實名稱的代號)、航線CTU-CAN(機場三字碼,成都雙流機場-廣州白云機場)所代表的(c,r)代入步驟3.1)的多因素融合預測框架函數中進行計算,假設計算得到的數值相較于其它W-1個詞對最大,那么理所當然的將該詞對作為預測對象,如果在測試集中該旅客真實搭乘了該航空公司下的該航線,那么對于Top1來說,預測準確率為1。(c=1,2,...,C,r=1,2,...,R,u=1,2,...,U)。

需要強調的是,本發明所述的實施例是說明性的,而不是限定性的,因此本發明并不限于具體實施方式中所述的實施例,凡是由本領域技術人員根據本發明的技術方案得出的其他實施方式,同樣屬于本發明保護的范圍。

當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 肥乡县| 南乐县| 苗栗县| 内江市| 宿州市| 景洪市| 镇远县| 沙河市| 斗六市| 新竹市| 阿荣旗| 奉新县| 瑞丽市| 洪泽县| 福州市| 扶沟县| 寿宁县| 神农架林区| 奈曼旗| 安吉县| 余干县| 台安县| 栖霞市| 桐梓县| 思茅市| 乐业县| 古蔺县| 美姑县| 元谋县| 霍林郭勒市| 金沙县| 伊川县| 顺平县| 鸡西市| 三都| 瑞丽市| 樟树市| 黑水县| 洛宁县| 乐都县| 龙泉市|