麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種熱點話題下動態預測用戶行為的系統及方法與流程

文檔序號:11143609閱讀:421來源:國知局
一種熱點話題下動態預測用戶行為的系統及方法與制造工藝

本發明涉及社交網絡分析領域,尤其涉及熱點話題下基于張量分解的用戶行為動態預測。



背景技術:

隨著互聯網的發展,在社交網絡大數據時代的條件下,微博成為一個基于用戶關系的信息分享、傳播和獲取平臺。通過挖掘微博用戶間的交互行為數據,可以掌握社交網絡中用戶的行為、信息傳播的規律。掌握用戶行為特征,不僅可以幫助企業根據用戶的行為特征為用戶提供更好的產品和服務,還可以為不同的用戶制定個性化的服務,從而提升自身企業的競爭力。而且,通過把握信息傳播規律可以為有關部門對網絡輿論進行合理的監控和干預提供理論依據。微博的出現極大地加快了信息傳播的速度,微博提供的轉發功能允許用戶把其他微博用戶的內容方便的呈現在自己的微博上進行分享,一條微博經過不同用戶的轉發,其受眾面會呈幾何形式遞增,從而導致信息的病毒式傳播和擴散,并且,微博的評論也可以體現出不同話題的熱度以及波及的范圍,因此,對用戶行為的預測可以準確地推測出一條微博的傳播范圍和發展趨勢等。同時,可以根據用戶行為的預測,從而對社交網絡中信息傳播進行有效干預,控制信息傳播的范圍,這可以對輿論監控、網絡水軍的發現提供有力證據。

社會網絡中的用戶行為進行建模和預測是當前研究的重要問題,不僅需要各種技術手段分析用戶行為的特點,還需要先進的技術對用戶行為進行準確的建模和預測。目前關于互聯網用戶行為建模與預測方面的研究主要包含用戶個體和群體行為兩個方面。用戶個體行為建模的研究主要基于數據驅動的建模方法,包括基于概率序列、條件隨機場和主題模型等方法。如:根據用戶的歷史行為可能會對用戶下一時刻采取的行為產生影響,Manavoglu和Pavlov提出采用概率序列模型來對用戶行為進行建模,以時間順序排列的用戶行為序列為輸入,以下一時刻將采取的行為的概率為輸出;為更好地結合互聯網用戶個體的行為特征,除了用戶自身的歷史行為外,還需要考慮到用戶所在的網絡結構。根據網絡結構特性,Peng等采用條件隨機場對微博用戶的轉發行為進行建模。用戶群體行為的研究,主要采用了隨機模型(stochastic models)和時間序列模型等方法。如:Lerman和Hogg利用隨機模型研究Digg網站上鏈接分享的得票總數。但是,以上基于用戶個體和群體的用戶行為預測都是靜態的,基于熱點話題的用戶行為的動態預測的研究還比較少。并且,由于話題的時效性特征,在話題的不同階段還存在數據不均勻和數據稀疏問題,這為動態進行用戶行為預測帶來了極大挑戰。

為了動態預測用戶的行為,本發明提出了基于熱點話題的用戶行為預測方法。為了說明本發明的實用性,需要具體的數據來驗證,故本發明通過數據獲取模塊來獲得本發明所需要的數據。由于本發明主要研究參與話題用戶的粉絲是否會參與話題,故提出了屬性提取模塊來區分研究的對象。針對話題不同階段的數據不均勻和數據稀疏問題,利用張量分解在數據空間轉換和數據投影的特性,構建基于張量分解的預測模型。為了驗證模型的實際效果,提出了模型預測分析模塊驗證模型的可用性及實用性。由于話題的爆發階段會有很多用戶一下子參與到該話題,從而導致話題下一階段需要研究的粉絲量就會特別大,如何合理的確定需要研究的粉絲對象是本發明的一個難點。本發明未將合理過濾粉絲做為一個研究點,在后續研究中將會考慮此問題,為進一步提高模型的實用性而努力。



技術實現要素:

本發明旨在解決以上現有技術的問題。提出了一種熱點話題下動態預測用戶行為的系統及方法。本發明的技術方案如下:

一種熱點話題下動態預測用戶行為的系統,其包括數據獲取模塊,屬性提取模塊,模型構建模塊和模型預測分析模塊;其中數據獲取模塊,用于獲取用戶行為數據和用戶關系數據;屬性提取模塊,用于提取社交網絡中的用戶參與話題的時間延遲屬性并分為熱點用戶和備選用戶;模型構建模塊,根據備選用戶的信息采用張量分解方法,構建用戶參與熱點話題預測模型;模型預測分析模塊,利用張量進行分解得到模式展開矩陣的特征矩陣和核心張量,根據得到的特征矩陣和核心張量計算近似張量,并根據得到的近似張量預測備選用戶的行為,在話題發展的不同階段,根據新加入的備選用戶行為數據構成的新張量和當前得到的特征矩陣和核心張量動態更新得到新的特征矩陣和核心張量,然后再根據新的特征矩陣和核心張量預測下一階段的用戶行為,同時,根據每一階段預測的用戶行為,可以把握話題發展的趨勢。

進一步的,所述備選用戶自身屬性包括:備選用戶是否是活躍用戶,當備選用戶過去一個月的動態達到某個閾值時就變為了活躍用戶。并根據備選用戶的屬性構建話題當前階段的張量,并得到張量模式展開成矩陣A(n),n=1,2,3,然后對張量模式展開成矩陣進行分解得到特征矩陣和核心張量S。

進一步的,所述張量模式展開成矩陣的分解采用的是Kernel SVD分解,Kernel SVD分解是將張量的模式展開矩陣A(n)利用映射函數將A(n)的內容映射到高維空間,即對于每一個A(n)可以找到一個對應的映射矩陣Gn,把A(n)中的每個元素axy映射成為Gn中的gxy,即gxy=Φ(axy),SVD分解計算A(n)(n=1,2,3)的左奇異矩陣U(n)是通過計算Gn的特征向量所得,而Kernel SVD利用核函數代替了Gn的內積計算,得到A(n)(n=1,2,3)的特征矩陣,并且根據特征矩陣的值計算核心張量。

進一步的,所述模型預測分析模塊根據新加入的備選用戶行為數據構成的新張量和當前得到的特征矩陣和核心張量動態更新得到新的特征矩陣和核心張量,包括:原始張量記為A,新增加的用戶或新增加的話題構成的張量記為F,根據公式Vt表示t階段得到的右奇異矩陣,通過對張量F進行第一模式展開得到的展開矩陣F(1)可以(F(1)沒有具體的計算公式,按圖2的規則展開)計算得到矩陣B,對矩陣B進行Kernel SVD分解計算,得到矩陣B的三個特征矩陣UB,VB和ΣB,并根據公式:和得到新的特征矩陣和式中If的大小為I′1×I′1的單位陣,I′1表示新增加的用戶。

進一步的,所述模型預測分析模塊當對在某個話題下對用戶行為進行預測的時候,根據更新后的特征因子和以及核心張量S,得到A*的近似張量假設構建張量時第一模式表示用戶u,第二模式表示話題s,第三模式表示用戶行為a,因此對用戶u在話題s下行為a的預測滿足Pusa表示用戶u在話題s下進行動作a的預測值,當大于某個閾值θ時,Pusa=1,則認為用戶轉發或評論了此話題的微博;反之,Pusa=0,則認為用戶沒有參與此話題,同時,可以根據預測的用戶行為把握話題的發展趨勢。

一種熱點話題下動態預測用戶行為的方法,其包括以下步驟:

獲取社交網絡中熱點話題的互動數據以及用戶的過往行為;根據用戶的屬性將用戶定義為熱點用戶及其粉絲——備選用戶;構建參與熱點話題的用戶行為預測模型即張量分解模型對用戶行為進行預測;根據t階段的已參與的用戶預測t+1階段備選用戶的行為,結合話題的時效性特征,采用增量張量分解模型預測用戶行為,根據預測的結果獲取下一時刻備選用戶歸屬的社交網絡及數據流信息,調整網絡結構。

進一步的,所述社交網絡中熱點話題的互動數據以及用戶的過往行為的獲取是利用網絡爬蟲或通過各社交網站開放API平臺獲取數據,數據內容是社交網絡中熱點話題的互動數據,包括用戶行為數據和用戶關系數據。

進一步的,根據用戶的屬性將用戶定義為備選用戶包括:

對數據進行切片以找出話題不同階段的熱點用戶的粉絲——備選用戶;

根據備選用戶的信息構建張量A,張量A的數學表達式為表示三階張量,其中,張量的第一階表示用戶,即包括I1個用戶;張量的第二階表示話題,即包括I2個話題;張量的第三階表示用戶行為,即包括I3種行為。體現了用戶交互的信息,包括用戶信息,話題信息和用戶的行為。

本發明的優點及有益效果如下:

本發明是基于時間離散化及時間切片方法,加入話題信息的時效性影響,將話題生命周期分為幾個不同的階段并且針對熱點話題不同階段的數據不均勻和稀疏性問題,提出了一種高準確率,動態預測用戶行為的張量分解模型,該模型不僅可以對用戶行為進行預測還可以挖掘話題發展的趨勢。

針對話題的周期性特點,采取了對話題進行時間切片,由于話題存在明顯的時效性特征,那么對話題生命周期切片后,各階段數據普遍存在不均勻性和稀疏性問題。由于張量可以良好的解決數據稀疏性問題,因此利用用戶數據構建張量,并進行張量分解得到模式展開矩陣的特征矩陣和核心張量;由于話題在發展的過程中,不斷會有新的用戶,新的話題增加,故利用新增加的數據構成新的張量,利用增量張量分解動態更新各個特征矩陣和核心張量。最后,利用更新的特征矩陣和核心張量,得到近似張量,并根據設置合理的閾值對用戶行為進行預測。同時,根據預測的用戶行為把握話題的發展趨勢。本發明采用的動態增量更新的方法解決了傳統方法中靜態數據的不足,提高了預測系統的實時性;而且,動態增量更新是根據歷史結果和新增加的用戶(話題)進行動態更新,不需要每次對所有數據構建張量進行分解,避免了每次都對歷史行為進行重新計算。由于本發明可以根據用戶行為的預測把握話題發展趨勢,所以可以對輿情管控、網絡水軍的發現提供有力證據。

附圖說明

圖1是本發明提供優選實施例系統模型框架;

圖2三階張量的模式展開矩陣及具體實例;

圖3張量動態更新的流程圖。

具體實施方式

下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、詳細地描述。所描述的實施例僅僅是本發明的一部分實施例。

本發明解決上述技術問題的技術方案是:

由于參與熱點話題的用戶表現形式有:熱點用戶和備選用戶,熱點用戶指在話題當前階段參與的用戶;備選用戶指話題當前階段熱點用戶的粉絲。本發明的目的是對話題下一階段的備選用戶進行行為預測,直至話題的生命周期結束。由于話題的時效性特征,基于時間離散化與時間切片方法,針對熱點話題存在生命周期各階段數據不均勻和數據稀疏問題,構建增量張量預測模型,使其動態預測備選用戶的行為,并根據預測的用戶行為把握話題的發展趨勢。

本發明的實現過程具體表述為:給定熱點話題下某個階段t的社交網絡其中,Ut是熱點用戶,表示好友關系邊,表示一系列話題下用戶的歷史交互信息。根據熱點用戶網絡找出備選用戶網絡其中,Vt是備選用戶。熱點用戶網絡和備選用戶網絡構成了全網用戶交互關系網

本發明根據t時間段的某話題下的話題參與情況來預測t+1階段備選用戶是否會參與此話題。本發明的模型框架圖如圖1所示,包括數據獲取模塊,屬性提取模塊,模型構建模塊和模型預測分析模塊。其中數據獲取模塊,用于獲取用戶行為數據和用戶關系數據;屬性提取模塊,用于提取社交網絡中的用戶參與話題的時間延遲屬性并分為熱點用戶和備選用戶;模型構建模塊,根據備選用戶的信息采用張量分解方法,構建用戶參與熱點話題預測模型;模型預測分析模塊,利用張量進行分解得到模式展開矩陣的特征矩陣和核心張量,根據得到的特征矩陣和核心張量計算近似張量,并根據得到的近似張量預測備選用戶的行為,在話題發展的不同階段,根據新加入的備選用戶行為數據構成的新張量和當前得到的特征矩陣和核心張量動態更新得到新的特征矩陣和核心張量,然后再根據新的特征矩陣和核心張量預測下一階段的用戶行為,同時,根據每一階段預測的用戶行為,可以把握話題發展的趨勢。

詳細實施過程如下:

S1:獲取數據源。數據獲取可以利用網絡爬蟲或通過各社交網站開放API平臺獲取數據。數據內容是社交網絡中熱點話題的互動數據,包括用戶行為數據和用戶關系數據。

S2:提取屬性模塊。將社交網絡中的用戶根據參與話題的時間延遲分為熱點用戶和備選用戶。

S3:建立模型,根據張量分解的基礎思想和方法,構建用戶參與熱點話題預測模型。利用話題初始階段(t0)的備選用戶的行為數據構建張量A。

S31:話題從產生、發展到消亡要經歷一個時間段稱之為生命周期,為了更好的體現話題各生命階段的特征,將話題數據進行了時間切片。對數據進行切片是為了找出話題不同階段的熱點用戶的粉絲——備選用戶。

S32:根據備選用戶的信息構建張量A,張量A的數學表達式為表示三階張量,其中,張量的第一階表示用戶,即包括I1個用戶;張量的第二階表示話題,即包括I2個話題;張量的第三階表示用戶行為,即包括I3種行為。體現了用戶交互的信息,包括用戶信息,話題信息和用戶的行為。

S4:預測和分析過程。對S3中的張量A進行分解得到模式展開矩陣的特征矩陣和核心張量,根據得到的特征矩陣和核心張量計算近似張量并根據得到的近似張量預測備選用戶的行為。在話題發展的不同階段,根據新加入的備選用戶行為數據構成的新張量和當前得到的特征矩陣和核心張量動態更新得到新的特征矩陣和核心張量,然后再根據新的特征矩陣和核心張量預測下一階段的用戶行為。同時,根據每一階段預測的用戶行為,可以把握話題發展的趨勢,張量動態更新的流程圖如圖3所示。

S41:將S3中構建的張量A進行分解運算,首先將張量A按模式展開成矩陣A(1),A(2)和A(3),具體展開過程如圖2所示;然后分別對每一個模式展開矩陣進行Kernel SVD分解,得到話題當前階段t(t0)相應的特征矩陣和并利用得到的特征矩陣計算核心張量。

S411:由于張量的模式展開矩陣A(n)(n=1,2,3)同樣存在數據稀疏問題,為了解決此問題,本發明沒有采用傳統的SVD分解,而是選擇了Kernel SVD分解。Kernel SVD分解是將張量的模式展開矩陣A(n)利用映射函數將A(n)的內容映射到高維空間,即因此,對于每一個A(n)可以找到一個對應的映射矩陣Gn,把A(n)中的每個元素axy映射成為Gn中的gxy,即gxy=Φ(axy)。對于每個Gn矩陣應用SVD分解,即Gn=U(n)Σ(n)(V(n))T。為了避免顯示計算Gn矩陣,可以采用一種內積的形式,定義一個矩陣Dn且滿足對于Dn的計算是通過計算Gn的內積得到的,可以利用核函數替代此內積的計算。Dn是對稱的方陣,對其進行特征值分解Dn=QΣQ-1,Q即是左奇異矩陣U(n),當可以得出右奇異矩陣V(n)和特征矩陣Σ(n),這樣就可以得到所需的特征矩陣。

S412:根據S411中計算的U(n)和公式S=A×1(U(1))T×2(U(2))T×3(U(3))T得到核心張量S。

S42:在話題的t+1階段,會有新的備選用戶作為潛在用戶存在,這些新的備選用戶數據構成張量F,表示為t時刻的張量為兩者在第一模式上合并后的張量為其中

S421:將張量A*按照模式展開成矩陣和其中是經過列變換得到,也是經過列變換得到。

S422:由于Ut,Vt是正交矩陣,所以有對做如下計算:其中令可以通過計算張量F的第一模式的展開矩陣F(1)得到。

S423:根據Kernel SVD分解有再根據公式和可以得到的特征矩陣,其中是單位陣。

S424:對做如下計算:令矩陣H可以通過計算張量F的第二模式的展開矩陣F(2)得到。

S425:根據Kernel SVD分解有再根據公式由于是經過列變換得到,所以應該做相應的逆變換。同理,按照S424和S425得到和

S426:根據核心張量和假設構建張量時第一模式表示用戶u,第二模式表示話題s,第三模式表示用戶行為a,因此對用戶u在話題s下行為a的預測滿足用戶u在話題s下進行動作a的預測值用Pusa表示,當大于某個閾值θ時,將其置為1,即Pusa=1,則認為用戶轉發或評論了此話題的微博;反之,Pusa=0,則認為用戶沒有參與此話題。

S5:重復S4的過程,直至話題的生命周期結束。同時,通過預測話題的不同階段備選用戶的行為,可以判斷出話題的每一階段有多少人參與,從而可以把握話題的發展趨勢。

本發明利用社交網絡中熱點話題的互動數據根據用戶屬性將用戶分為熱點用戶和備選用戶,利用張量分解及增量張量分解模型動態預測話題不同階段備選用戶的行為,即在話題生命周期的下一階段備選用戶是否會轉發或評論該話題下的微博,并且通過預測的備選用戶行為也可以把握話題發展的未來趨勢。

以上這些實施例應理解為僅用于說明本發明而不用于限制本發明的保護范圍。在閱讀了本發明的記載的內容之后,技術人員可以對本發明作各種改動或修改,這些等效變化和修飾同樣落入本發明權利要求所限定的范圍。

當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 花莲县| 江安县| 科尔| 福泉市| 台山市| 崇文区| 磐安县| 郴州市| 凤凰县| 平阴县| 南安市| 科技| 资兴市| 和硕县| 万源市| 微博| 大方县| 平江县| 永清县| 从江县| 夏津县| 达日县| 兴文县| 肃宁县| 东明县| 正镶白旗| 荥经县| 海宁市| 开远市| 连江县| 云阳县| 疏勒县| 永嘉县| 湘潭县| 工布江达县| 滦平县| 建瓯市| 芦溪县| 寿光市| 田阳县| 江川县|