麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種基于社交網絡的互聯網班車線路優化方法與流程

文檔序號:11143620閱讀:325來源:國知局
一種基于社交網絡的互聯網班車線路優化方法與制造工藝

本發明涉及交通領域。具體而言涉及一種基于社交網絡的互聯網班車線路優化設計方法。



背景技術:

伴隨著信息技術尤其是互聯網的飛速普及和發展,公共交通服務也上升到一個新的水平。以優步(UBER)、滴滴為代表的O2O打車軟件的出現極大地方便了人們的工作和生活。在北京、上海等一線城市,由于日常出行路途遙遠、公共交通擁擠不堪,人們更期待比打車更便宜,比公交、地鐵更舒適的班車服務,于是滴滴巴士、哈羅同行、考拉班車等一大批互聯網班車應運而生。但是,現有技術中的互聯網班車由于線路重復、空座率高、長期穩定的客源寥寥無幾,造成了運營成本居高不下,很多運營商難以為繼。此外,驟然出現的各路班車還造成了很多熱點路段的嚴重擁堵,違背了其倡導的綠色出行的初衷。

造成互聯網班車與用戶需求之間匹配困難的原因可以歸結為以下幾點:

(1)未能充分挖掘用戶需求,掌握用戶的出行規律是最關鍵的原因。互聯網班車對城市居民的工作、生活情況缺乏必要的統計,一般只根據常識與經驗定性設計班車運行線路,對用戶出行的個性化需求考慮不足,造成了很多“小眾需求”無法覆蓋。其實,在城市人口不斷膨脹的今天,即使是“小眾需求”在絕對數量上也并非小眾。而滿足“小眾需求”的能力,恰恰是班車服務水平的標志。另外,互聯網班車在運行時間往往嚴格的遵守“朝九晚五”,未考慮某些用戶經常加班的情況,因此也會流失一部分潛在客戶。

(2)線路站點設計粒度太大,沒有提供精細點對點服務。很多互聯網班車在設計線路時粒度過粗,起點和終點覆蓋的范圍太大,造成了用戶乘車的不便,因此流失了部分用戶。例如北京熱門班車線路回龍觀到上地,眾所周知回龍觀和上地是北京兩個大型的社區,覆蓋面積很廣,很多用戶雖然屬于這一區域,但距離班車點很遠,自然不會選擇這一線路。只有做到班車點離用戶的上下班地點都很近,這樣的線路才能受到歡迎。

(3)宣傳效果不理想,用戶參與度很低。互聯網班車雖然依靠互聯網進行日常宣傳和運營,但還是沒有充分發揮互聯網的傳播優勢。班車運營商制定好線路后,通過手機APP發布路線讓用戶報名,根據用戶的報名情況決定是否開通線路。但由于APP的人群覆蓋率不高,因此這也流失一大部分潛在用戶。而且這些APP大都沒有社交功能,也沒有同主流的社交軟件進行有效整合,因此即使有好的線路,其社交傳播效率也大大降低。

綜述,互聯網班車目前未能有效解決用戶乘車痛點的原因,不在于需求不足,而在于缺乏有效的渠道挖掘需求,匹配需求,滿足需求。互聯網班車要想有效解決用戶的乘車痛點,就必須找到一種辦法,準確地捕獲用戶需求,根據用戶需求來個性化制定合理路線,進一步提高服務的水平,這就是本專利的背景所在。



技術實現要素:

本專利正是基于現有技術的上述情況而提出的,本專利要解決的技術問題是提供一種基于社交網絡的互聯網班車路線優化方法,以便于準確發現和定位互聯網班車潛在的用戶需求。

為了解決上述問題,本專利提供了:

一種互聯網班車路線優化方法,所述方法包括:

步驟一,社交軟件數據采集步驟,所述社交軟件數據采集包括獲取社交軟件的信息數據,并從中采集到與班車線路有關的信息。在本步驟中,通過設置抓取條件的方式從獲取所述社交軟件提供的開放接口,抓取發布的微博中的相關信息數據;所述條件包括地理位置信息、時間信息、朋友關聯關系。比如,在地理位置信息中,可以設置北京;抓取的數據的時間信息中,抓取的數據量至少為一個月,并可以不斷地實時抓取并更新。

步驟二、對所述數據采集步驟采集到的數據進行挖掘,得到用戶不同出行時段的OD點(起終點)。在本步驟中,利用K-means聚類算法對所述采集到的所述相關信息數據進行挖掘;在本步驟中將采集到所述數據中的的第i個數據定義為向量:xi=(xi1,xi2,xi3),其中xi表示向量,xi1表示第i個點的經度,xi2表示第i個點的緯度,xi3表示第i個點的時間;在計算地點聚類中心之前先利用時間進行分類,根據所述社交軟件的發布時間xi3將數據集分割為上班集與下班集;當xi3∈(5,9)時,將xi點放進上班集進行地點聚類,當xi3∈(16,20)時,將xi點放進下班集中進行地點聚類,其余數據點視為無效點被過濾掉;這一步實現了初步的數據過濾與分類,有利于后續步驟的聚類;然后進行第一次地點聚類,分別在上班集和下班集中各選出3個點作為備選點,即確定聚類中心數k=3;先定義上班集的第k個地點聚類中心為:

其中,分配系數該公式的意義是將參與了第k個上班集地點聚類的點的經緯度計算平均值,計算出的經緯度作為第k個上班集的聚類中心的坐標;所述n為所采集的有效數據點的個數;

定義第i個點xi與第k個聚類中心μk之間的距離為:

Dik=(xik)T(xik)

則所述第一次地點聚類的計算步驟包括上班集聚類和下班集聚類,所述上上班集聚類包括:(1)先隨機初始化聚類均值μ1、μ2、μ3;(2)對每個點xi都找到使Dik最小的k,將i點聚到該中心,并設置該分配系數zik=1:(3)如果所有的zik與上一次迭代沒有變化,則停止聚類,輸出μ1、μ2、μ3;(4)否則按照①式更新μ1、μ2、μ3;用與所述上班集聚類同樣的辦法可以得到下班集的三個聚類中心ρ1、ρ2、ρ3

步驟三、目標用戶關系挖掘,在找到目標用戶之后,根據其微博的朋友關系,尋找與其出行規律相似的用戶,從而進一步擴大目標用戶的范圍。遍歷目標用戶的朋友圈關系,找出滿足預定條件的所有重點朋友,然后計算出每一個朋友s的上班集聚類中心μs=(μ1、μ2、μ3)和下班集聚類中心ρs=(ρ1、ρ2、ρ3);然后余弦相似度可以定義上班集線路相似度計算每一個重點朋友s與目標用戶d(μd、ρd)的線路相似度:

所述cosθ為閾值,如果cosθ大于預定的數值,則認為朋友s和目標用戶d的線路相似,將所有相似的朋友放進一個新的集合中,進行第四步的二次聚類;

步驟四、對目標用戶群體進行聚類,得到用戶群最終的聚類中心(μk,ρk),此值即可作為互聯網班車線路的OD點。在本步驟中,利用K-means聚類算法對所述采集到的所述相關信息數據進行挖掘;將步驟三得到的用戶群的(μ、ρ)按照上班集與下班集分為兩個集合,分別計算兩個聚類點;由于經過步驟三的相似度判斷,所以在本步驟中設定聚類中心數為1,設μ=(μ1,μ2,...,μ3n),當k=1時,根據步驟二的公式可以推出最終的上班集聚類中心為:

同理可以算出下班集聚類中心為:

最終得到第k個用戶群的OD點為(μk,ρk),以根據這個點來增設互聯網班車線路。

本發明的優點在于:

1、本發明基于社交網絡,利用社交網絡中的海量數據挖掘潛在的目標用戶,尋找符合用戶需求的班車路線并推送給用戶,這種主動貼近用戶的行為,比單純依靠乘客報名的被動方法,能夠更有效地挖掘潛在用戶以及解決用戶乘車痛點,同時用戶體驗更好。

2、社交網絡可以提供豐富的用戶背景信息:如用戶工作、生活的地點,上下班的時間,甚至包括用戶的喜好等等。根據這些信息,我們可以幫助用戶訂制更符合用戶實際需求的個性化出行方案,易于被用戶接受。

附圖說明

圖1為本發明具體實施方式中一種基于社交網絡的互聯網班車線路優化方法的原理圖;

圖2為本發明所述的基于社交網絡的互聯網班車線路優選方法的流程圖。

具體實施方式

下面結合附圖對本專利的具體實施方式進行詳細說明。需要指出的是,該具體實施方式僅僅是對本專利優選技術方案的舉例。并不能理解為對本專利保護范圍的限制。其目的在于對本發明做進一步的詳細說明,以令本領域技術人員參照說明書能夠據以實施。

如圖1、圖2所示。本具體實施方式提供了一種基于社交網絡的互聯網班車線路優化方法,所述方法包括如下步驟:

步驟一,社交軟件數據采集步驟,所述社交軟件數據采集包括獲取社交軟件的信息數據,并從中采集到與班車線路有關的信息。

在本步驟中,以微博數據為例,可以利用微博提供的開放接口抓取發布的微博中的相關信息數據。可以通過設置抓取條件的方式來獲取上述數據,所述條件包括地理位置信息、時間信息、朋友關聯關系等。

比如,在地理位置信息中,可以設置北京;抓取的數據的時間信息中,抓取的數據量至少為一個月,并可以不斷地實時抓取并更新。

步驟二、對所述數據采集步驟采集到的數據進行挖掘,得到用戶不同出行時段的OD點(起終點)。

在本步驟中,利用K-means聚類算法對所述采集到的數據進行挖掘。所述K-means聚類算法包括:K-means算法是很典型的基于距離的聚類算法,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。該算法認為簇是由距離靠近的對象組成的,因此把得到緊湊且獨立的簇作為最終目標。

k個初始類聚類中心點的選取對聚類結果具有較大的影響,因為在該算法第一步中是隨機的選取任意k個對象作為初始聚類的中心,初始地代表一個簇。該算法在每次迭代中對數據集中剩余的每個對象,根據其與各個簇中心的距離將每個對象重新賦給最近的簇。當考察完所有數據對象后,一次迭代運算完成,新的聚類中心被計算出來。如果在一次迭代前后,距離的值沒有發生變化,說明算法已經收斂。

在本例中,采集到的第i個數據可以定義為向量:xi=(xi1,xi2,xi3)(粗體字母代表向量,下同),其中xi1表示第i個點的經度,xi2表示第i個點的緯度,xi3表示第i個點的時間。在計算地點聚類中心之前可以先利用時間進行分類,根據xi3即微博的發布時間將數據集分割為上班集與下班集。考慮到大部分人的上班時間集中在5:00~9:00,下班時間集中在16:00~20:00,所以當xi3∈(5,9)時,將xi點放進上班集進行地點聚類,當xi3∈(16,20)時,將xi點放進下班集中進行地點聚類,其余數據點視為無效點被過濾掉。這一步實現了初步的數據過濾與分類,有利于后續步驟的聚類。

接下來進行第一次地點聚類,分別在上班集和下班集中各選出3個點作為備選點,即確定聚類中心數k=3。先定義上班集的第k個地點聚類中心為:

其中,分配系數該公式的意義是將參與了第k個上班集地點聚類的點的經緯度計算平均值,計算出的經緯度作為第k個上班集的聚類中心的坐標。

然后定義第i個點xi與第k個聚類中心μk之間的距離為:

Dik=(xik)T(xik)

計算步驟:

(1)先隨機初始化聚類均值μ1、μ2、μ3

(2)對每個點xi都找到使Dik最小的k,將i點聚到該中心,并設置該分配系數zik=1;

(3)如果所有的zik與上一次迭代沒有變化,則停止聚類,輸出μ1、μ2、μ3

(4)否則按照①式更新μ1、μ2、μ3

用同樣的辦法可以得到下班集的三個聚類中心ρ1、ρ2、ρ3

用上述k-means聚類算法既可以實現數據篩選的功能,也可以實現數據聚類的功能,將聚類中心數k設置為3可以避免離散點對聚類中心的影響,例如,由于手機定位精度限制或者如果用戶在逛街時也發了幾個微博,這時坐標就有可能會極大偏離居住地,所以有必要將聚類中心數設置為大于1,而如果k設置過大則會產生過多的聚類中心,不利于下一步的二次聚類。經過多次試驗發現k取3時在本專利中比較有效,基于上述第一次聚類的方法有利于挖掘出用戶真正的居住地點與工作地點,為下一步的第二次聚類做好了數據準備。

步驟三、目標用戶關系挖掘,在找到目標用戶之后,根據其微博的朋友關系,尋找與其出行規律相似的用戶,從而進一步擴大目標用戶的范圍。

由于社交軟件是一個大的社交媒體,例如微博,本實施例目標用戶在其微博上的朋友,很可能就是他在現實生活中的親人、朋友、同事,很可能和目標用戶具有相似的出行規律,有條件成為新的目標用戶。通過挖掘目標用戶的方式能夠較為快速地確定多個目標用戶,這樣相對于進行海量的計算來說能夠節省效率和提高識別的準確性。

進一步地,由于本實施例中的目標用戶在微博中可能有很多朋友,如果針對其朋友逐個分析其出行規律,同樣會帶來大量計算。因此所以在遍歷其朋友圈時,本實施例中優選地,重點選擇符合如下條件的“重點朋友用戶”的社交軟件數據進行分析,以提高找到其他目標用戶的運算效率:條件1,和目標用戶是互相關注關系;條件2,和目標用戶在微博中頻繁互動;條件3,和目標用戶有共同的朋友。以上條件1、條件2、條件3之間可以是和的關系,也可以是或的關系,也可以在三個條件中選擇部分或全部進行組合。

遍歷目標用戶的朋友圈關系,找出滿足上述條件的所有重點朋友,然后計算出每一個朋友s的上班集聚類中心μs=(μ1、μ2、μ3)和下班集聚類中心ρs=(ρ1、ρ2、ρ3)。然后計算每一個重點朋友s與目標用戶d(μd、ρd)的線路相似度。由于余弦相似度在分類算法具有運算方便、效果明顯的特點,所以根據余弦相似度可以定義上班集線路相似度:

如果cosθ大于某個閾值(此值可由實驗得到),則認為朋友s和目標用戶d的線路相似,將所有相似的朋友放進一個新的集合中,進行第四步的二次聚類。

步驟四、對目標用戶群體進行聚類,得到用戶群最終的聚類中心(μk,ρk),此值即可作為互聯網班車線路的OD點。

將步驟三得到的用戶群的(μ、ρ)按照上班集與下班集分為兩個集合,分別計算兩個聚類點。由于經過步驟三的相似度判斷,所以該步驟中的數據會較為集中,異常點較少,所以可以降低聚類中心數為1,從而降低企業的決策成本。設μ=(μ1,μ2,...,μ3n),當k=1時,根據步驟二的公式可以推出最終的上班集聚類中心為:

同理可以算出下班集聚類中心為:

最終得到第k個用戶群的OD點為(μk,ρk),企業可以根據這個點來增設互聯網班車線路。

當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 正镶白旗| 韶山市| 大方县| 年辖:市辖区| 临泉县| 商城县| 米易县| 兴和县| 县级市| 镇巴县| 赣榆县| 深圳市| 金塔县| 西平县| 云林县| 桦南县| 绥芬河市| 清涧县| 榆林市| 马尔康县| 泊头市| 常山县| 来凤县| 荆州市| 榆林市| 嵩明县| 隆回县| 濮阳市| 祁阳县| 资溪县| 湖北省| 建昌县| 海宁市| 邵阳县| 拜泉县| 扶余县| 尚志市| 西丰县| 邢台县| 墨竹工卡县| 襄樊市|