1.一種基于數(shù)據(jù)挖掘的車輛停留行為模式預(yù)測與評估方法,包括以下幾個步驟:
步驟一,導(dǎo)入初始的GPS軌跡數(shù)據(jù),進行數(shù)據(jù)預(yù)處理;
初始的GPS軌跡數(shù)據(jù)為車輛行駛一段時間的GPS軌跡數(shù)據(jù),包括時間、車輛ID、經(jīng)度、緯度、速度字段;對初始的GPS軌跡數(shù)據(jù)進行數(shù)據(jù)預(yù)處理,將數(shù)據(jù)存儲入SQL數(shù)據(jù)庫中;
步驟二,從SQL數(shù)據(jù)庫之中提取數(shù)據(jù)預(yù)處理之后的GPS軌跡數(shù)據(jù),進行停留點的提取;
提取GPS軌跡數(shù)據(jù)中的速度字段,設(shè)為x1,x2,x3,……xM,其中,xn為某一車輛在某一時刻的速度數(shù)值,并且,xn≥0,M為所有具有速度數(shù)值的有效記錄的個數(shù);
根據(jù)3-sigma原則,判斷總體的速度數(shù)據(jù)是否符合正態(tài)分布,若符合正態(tài)分布,則根據(jù)區(qū)間判斷速度是否為零,
和
分別為區(qū)間的下限和上限,
表示均值,δ表示方差,在這一區(qū)間范圍內(nèi)的速度為零,不在這一區(qū)間范圍內(nèi)的速度不為零,
其中,定義為
其中,δ定義為
若不符合正態(tài)分布,則對數(shù)據(jù)進行正態(tài)化處理:
其中,x表示不符合正態(tài)分布的速度數(shù)據(jù),y表示經(jīng)過正態(tài)化處理后符合正態(tài)分布的速度數(shù)據(jù),γ為冪指數(shù);
針對x1,x2,x3,……xM,使以下公式達到其最大值的式中的參數(shù)γ的理論值作為參數(shù)γ的實際值:
其中,l(γ)表示目標(biāo)函數(shù)值,yi表示y中數(shù)據(jù)的單個值,表示y中數(shù)據(jù)的平均值,
最終,得到速度為零的數(shù)據(jù)記錄;
如果某一輛ID為XXX的車輛,獲得其一部分連續(xù)的行駛軌跡數(shù)據(jù)記錄,時間記錄為t1、t2……、tn,經(jīng)度和緯度記錄分別為lon1、lon2……、lonn和lat1、lat2……、latn,并且兩點之間實際距離誤差范圍為s米以內(nèi),速度記錄均為0,則將數(shù)據(jù)整理為一條數(shù)據(jù)記錄,車輛的ID為XXX,數(shù)據(jù)記錄的時間取為第一條數(shù)據(jù)條目的時間,記為t,經(jīng)度和緯度分別取為數(shù)據(jù)中所有經(jīng)度和緯度的平均值,記為lon ave和lat ave,速度取為0,持續(xù)時間取為上述數(shù)據(jù)中第一條數(shù)據(jù)條目和最后一條數(shù)據(jù)條目的時間之差,記為t last,車輛的ID還是為XXX;
通過上述內(nèi)容,提取得到停留點,停留點的形式為一條數(shù)據(jù)條目,每一條數(shù)據(jù)條目包括時間、車輛ID、經(jīng)度、緯度、速度、持續(xù)時間字段;
進行停留點分類:將提取出來的總體的停留點的數(shù)據(jù),以持續(xù)時間的長短為橫坐標(biāo),單位為分鐘,以停留點的個數(shù)為縱坐標(biāo),單位為個數(shù),將停留點劃分為n種類型;
步驟三,對于每一種類型的停留點,分別對于以下四個統(tǒng)計指標(biāo),表示出其統(tǒng)計分布規(guī)律,
(1)停留時間,指的是某一次停留中停留行為的持續(xù)時間;
(2)停留頻率,指的是某一段時間內(nèi)停留行為的重復(fù)次數(shù);
(3)兩個停留點之間的距離,指的是某一車輛的兩次停留位置之間的距離;
依據(jù)停留點的經(jīng)度和緯度的信息來計算,兩個停留點的經(jīng)緯度坐標(biāo)分別為(lon end,lat end),(lon start,lat start),兩者還有一系列的點的坐標(biāo),設(shè)為(lon 1,lat 1),(lon 2,lat 2),……,逐個計算兩點之間的距離,進行累加,得到兩個停留點之間的距離;
計算公式如下所示,
C=(sin(MlatA)*sin(MlatB)*cos(MlonA-MlonB)+cos(MlatA)*cos(MlatB)) (6)
Distance=R*arccos(C)*π/180 (7)
其中,(lonA,latA)和(lonB,latB)為兩點的經(jīng)緯度坐標(biāo),東經(jīng)取經(jīng)度的正值(longitude),西經(jīng)取經(jīng)度負值(-longitude),北緯取90-緯度值(90-latitude),南緯取90+緯度值(90+latitude),進行以上處理的兩點的經(jīng)緯度坐標(biāo)分別為(MlonA,MlatA),(MlonB,MlatB),R為地球的平均半徑,
(4)停留時刻,指的是某一車輛的某一次停留行為發(fā)生的時間;
對于根據(jù)某一車輛的停留點的數(shù)據(jù)和根據(jù)所有車輛的停留點的數(shù)據(jù)所獲得的上述某一類型停留點的某一個統(tǒng)計指標(biāo)的統(tǒng)計分布,確定是否為類似分布;
步驟四,對于每一種類型的停留點的四個統(tǒng)計指標(biāo)的統(tǒng)計分布進一步的擬合,擬合過程根據(jù)最小二乘法按照線性回歸的方式提取統(tǒng)計分布的回歸函數(shù);
步驟五,根據(jù)每一種類型的停留點的停留時間和停留頻率的統(tǒng)計分布平均值,確定總體上的停留時間的平均水平,
對于類型M的停留點,對其所包含的停留點的數(shù)據(jù)統(tǒng)計如下;
表1 類型M的停留點所包含的停留點的數(shù)據(jù)
平均停留時間為
其中tMmean表示平均停留時間,num(i)表示停留時間為ti的停留點個數(shù),ti表示停留時間,nfrequentMmean表示類型M的停留點的停留頻率的平均值,
tMmean為類型M的停留點的停留時間的平均水平,根據(jù)數(shù)據(jù)t1,t2,t3,…tm中的最大值和最小值,來分別確定停留時間的最高水平和最低水平,分別設(shè)為tMmax,tMmin,
將(tMmin,tMmean,tMmax)之間進一步的劃分對應(yīng)的等級并且賦予對應(yīng)的評分,如下,
表2 類型M的停留點對應(yīng)的等級和評分的劃分
其中:tM1、tM2、tM3、tM4、tM5、tM6表示時間常數(shù),用于劃分tMmin,tMmean,tMmax之間的等級,P1、P2、P3、P4、P5、P6、P7、P8表示對應(yīng)等級的評分,具體來說,等級指的是根據(jù)類型M的停留點的停留時間所進行的分類,tMmin~tM1、tM1~tM2、tM2~tM3、tM3~tMmean、tMmean~tM4、tM4~tM5、tM5~tM6、tM6~tMmax分別對應(yīng)8個等級,評分指的是人為規(guī)定的對應(yīng)于各個等級的分?jǐn)?shù),以用于進一步的評價,如P1、P2、P3、P4、P5、P6、P7、P8指的就是對應(yīng)于8個等級的評分;
對于每一種類型的停留點均進行上述的處理,如下所示,
表3 任意類型的停留點對應(yīng)的等級和評分的劃分
其中,t11、t12、t13、t14、t15、t16和t21、t22、t23、t24、t25、t26和tn1、tn2、tn3、tn4、tn5、tn6表示時間常數(shù),A1、A2、A3、A4、A5、A6、A7、A8和B1、B2、B3、B4、B5、B6、B7、B8和C1、C2、C3、C4、C5、C6、C7、C8表示對應(yīng)等級的評分;
對于某一車輛在某一個時間區(qū)間之內(nèi)正常行駛過程中的停留時間t,進行預(yù)測和評估的方法具體是,根據(jù)目標(biāo)車輛預(yù)期的行駛路線過程中出現(xiàn)的停留點的類型和頻率,對照表3顯示的結(jié)果,計算出對應(yīng)于不同等級情況下的車輛用于停留的時間,作為停留行為模式的預(yù)測;
進行評估的方法具體是,根據(jù)目標(biāo)車輛實際的行駛路線過程中確實出現(xiàn)的停留點的類型、時間、頻率,計算出車輛在不同類型的停留點停留的時間,對照表3顯示的結(jié)果,給出相應(yīng)的等級和評分,作為停留行為模式的評估,進一步調(diào)整其行駛的方案;
通過兩個停留點之間的距離以及停留的時刻,確定是否有異常駕駛的行為。
2.根據(jù)權(quán)利要求1所述的一種基于數(shù)據(jù)挖掘的車輛停留行為模式預(yù)測與評估方法,所述的步驟一中,數(shù)據(jù)預(yù)處理具體為:
根據(jù)相應(yīng)的字段的性質(zhì),去除不正確、不規(guī)范、或者存在缺失問題的數(shù)據(jù),然后數(shù)據(jù)根據(jù)車輛ID分類,并且對于每一個車輛ID分類下的數(shù)據(jù)按照時間的順序重新排列,如果其中時間不連續(xù),則對時間字段進行補全,并且對于相應(yīng)的條目中的經(jīng)度、緯度、速度字段,根據(jù)車輛行駛的實際情況,進行理論的估計和補全,保證時間、經(jīng)度、緯度、速度的前后連貫性。