專利名稱:一種基于多元特征的微博信息傳播行為預(yù)測方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及基于多元特征的微博信息傳播行為預(yù)測方法,尤其涉及微博信息傳播過程中基于多元特征的用戶行為模型建立。本發(fā)明還涉及基于多元特征的微博信息傳播行為預(yù)測系統(tǒng)。屬于網(wǎng)絡(luò)安全領(lǐng)域。
背景技術(shù):
根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC) 2011年1月19日發(fā)布的《第27次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》的數(shù)據(jù),截至2010年12月,我國網(wǎng)民規(guī)模已達(dá)4. 57億,互聯(lián)網(wǎng)普及率達(dá)到34. 3%。其中,手機(jī)網(wǎng)民一年增加6930萬人,規(guī)模已達(dá)3. 03億人,占整體網(wǎng)民的 66. 2%。TOB2. 0理念的普及與相關(guān)技術(shù)的日益成熟,使網(wǎng)絡(luò)內(nèi)容的生產(chǎn)者已經(jīng)從過去單純的網(wǎng)站制作人員逐漸轉(zhuǎn)變?yōu)榫W(wǎng)站和廣大網(wǎng)絡(luò)用戶的混合群體,包括新聞評論、跟帖、社交網(wǎng)絡(luò)(博客、微博、交友、論壇)等新型網(wǎng)絡(luò)應(yīng)用不斷出現(xiàn),信息傳播方式多樣化。而網(wǎng)絡(luò)輿論, 以其草根化、自由化和多元化,已經(jīng)成為影響現(xiàn)實(shí)社會的一股不可忽視的力量。微博客也稱“微博”,是*吐2.0時代新興的一種集成化、開放化的互聯(lián)網(wǎng)社交服務(wù);它作為一個可以即時發(fā)布消息的類似博客的系統(tǒng),方便用戶可以通過手機(jī)、即時通信軟件和外部的應(yīng)用程序編程接口等途徑向其微博客發(fā)布消息。一般發(fā)布的消息是200字以內(nèi)(通常是140字的限制)。微博客以其簡單快捷的操作方式、隨時隨地發(fā)布信息的互動形式讓越來越多的人參與的互聯(lián)網(wǎng)中來。但是,由于其信息來源的廣泛性和不確定性,一些敏感信息和虛假信息經(jīng)過微博的發(fā)酵后,可迅速成為網(wǎng)絡(luò)突發(fā)事件,由此帶來的巨大影響往往讓人觸不及防,其引發(fā)的安全問題值得深究(S.Vieweg,A. L.Hughes, etc. Microblogging During Two Natural Hazards Events :What Twitter May Contribute to Situational Awareness[C]. In International conference on Human factors in computing systems(CHI),pages 1079-1088,2010.)。微博中用戶轉(zhuǎn)帖是最有效的信息傳播機(jī)制。當(dāng)用戶發(fā)現(xiàn)一條微博信息值得分享時,他將復(fù)制該信息,并轉(zhuǎn)發(fā)到自己的頁面,供其追隨者查看。從而該信息的傳播范圍已超出了原始作者的關(guān)系網(wǎng)絡(luò),并且傳播過程中保持了信息的完整性。目前對微博網(wǎng)絡(luò)已有大量的研究,集中在分析轉(zhuǎn)帖行為及其相關(guān)因素。W. GaliAa等(W. Galuba and K. Aberer. Outtweeting the Twitterers-Predicting Information Caseades in Microblogs[C]. In Conference on Online social networks (TOSN),2010.)研究了微博網(wǎng)絡(luò)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)及信息傳播路徑。B. Suh 等(B. Suh,L. Hong,etc. Want to be Retweeted ? Large Scale Analytics on Factors Impacting Retweet in Twitter Network[C]. In IEEE International Conference on Social Computing(SocialCom), 2010)分析了與微博轉(zhuǎn)帖相關(guān)的因素,發(fā)現(xiàn)原帖是否包含URL(Uniform Resource Locator) ,hash tags,帖子發(fā)布時間,作者的權(quán)威性等將影響用戶的轉(zhuǎn)帖行為。目前的研究集中在信息傳播過程的解釋及關(guān)聯(lián)因素的分析上,抽取了影響用戶參與信息分享的因素,以及各因素的重要性。但是,如何結(jié)合這些已得到的加權(quán)因素,預(yù)測用戶在信息傳播中的行為以及微博群體響應(yīng),缺乏有效的用戶行為預(yù)測模型。因此這些研究無法拓展到實(shí)際微博網(wǎng)絡(luò)突發(fā)事件預(yù)警、虛擬市場規(guī)劃等應(yīng)用中。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種基于多元特征的微博信息傳播行為預(yù)測方法,它能方便、準(zhǔn)確地預(yù)測用戶在信息傳播中的行為以及微博群體響應(yīng);為此本發(fā)明還要提供一種基于多元特征的微博信息傳播行為預(yù)測系統(tǒng)。為了解決上述技術(shù)問題,本發(fā)明的基本構(gòu)思是基于抽取影響用戶參與信息分享的多元特征,構(gòu)建最大熵用戶行為預(yù)測模型,預(yù)測用戶在信息傳播中的行為以及微博群體響應(yīng)。對于本發(fā)明的一種基于多元特征的微博信息傳播行為預(yù)測方法來說,上述技術(shù)問題是這樣解決的一種基于多元特征的微博信息傳播行為預(yù)測方法包括如下步驟a、微博網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理步驟,獲取網(wǎng)絡(luò)數(shù)據(jù),并對相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理;b、微博網(wǎng)絡(luò)預(yù)測模型建立步驟,根據(jù)經(jīng)預(yù)處理獲得的數(shù)據(jù),建立相應(yīng)的預(yù)測模型;C、微博網(wǎng)絡(luò)預(yù)測步驟,基于所述預(yù)測模型預(yù)測用戶行為趨勢。作為一種基于多元特征的微博信息傳播行為預(yù)測方法的一種優(yōu)選所述微博網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理步驟中獲取網(wǎng)絡(luò)數(shù)據(jù)包括獲取用戶、發(fā)帖轉(zhuǎn)帖、用戶關(guān)系信息。作為一種基于多元特征的微博信息傳播行為預(yù)測方法的一種優(yōu)選所述微博網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理步驟包括去除廣告及不完整的帖子。作為一種基于多元特征的微博信息傳播行為預(yù)測方法的一種優(yōu)選所述微博網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理步驟包括計算每個原帖下,各用戶的內(nèi)容特征、網(wǎng)絡(luò)特征及時間特征。作為上述預(yù)測方法的一種優(yōu)選所述內(nèi)容特征共8個,原帖T與用戶u發(fā)帖集合V1 的內(nèi)容相似性特征fi,原帖τ與用戶u轉(zhuǎn)帖集合V2的內(nèi)容相似性特征f2,原帖T是否包含 URL的特征f3及該URL在用戶參與帖子集合V (V = V^V2)中出現(xiàn)次數(shù)特征f4,原帖T是否包含hash tag(標(biāo)志為“ #短語”)的特征f5及該hash tag在用戶參與帖子集合V中出現(xiàn)次數(shù)特征4,原帖T是否包含引用(標(biāo)志為用戶名”)的特征&及該引用在用戶參與帖子集合V中出現(xiàn)次數(shù)特征f8,上述原帖T與V1的相似性為T與集合V1所有帖子相似性的平
1 m
均值*〈7^〉= -2*〈7^〉,其中集合¥1包含帖子V1 = <1\,T2, T3... Tm>,帖子Ti經(jīng)分 171 k=\
詞和去停止詞后對應(yīng)的η維詞條向量為Wil,wi2, wi3. . . win>,其中Win為帖子中詞條j的權(quán)
η
Σ χιν
重,因此任意兩帖子Ti、L相似性為·^〈K〉= I:=1 卜 。
λ Χ xJiwI
V k=\ V k=\作為上述預(yù)測方法的一種優(yōu)選所述網(wǎng)絡(luò)特征共6個,原帖T作者的好友數(shù)特征f9, 原帖τ作者的追隨者數(shù)特征f1(1,原帖T作者與用戶u的共同好友數(shù)特征fn,T作者與用戶 u的共同追隨者數(shù)特征f12,T作者與用戶u的共同引用數(shù)特征f13,T作者與用戶u的共同轉(zhuǎn)帖數(shù)特征f14。
作為一種上述預(yù)測方法的一種優(yōu)選所述時間特征共3個,用戶U當(dāng)前活躍度特征 f15 (等于最近一小時內(nèi)參與帖子數(shù)),原帖發(fā)布時間特征f16,最近一小時內(nèi)網(wǎng)絡(luò)中的新帖子數(shù)特征f17。作為一種基于多元特征的微博信息傳播行為預(yù)測方法的一種優(yōu)選所述微博網(wǎng)絡(luò)預(yù)測模型建立步驟,其模型為最大熵模型,最大熵模型使用已有的帖子作為訓(xùn)練數(shù)據(jù),將每個原帖下用戶的特征作為模型輸入,用戶是否轉(zhuǎn)發(fā)原帖,以0和1表示,作為模型輸出,使用迭代方法訓(xùn)練模型參數(shù)。作為一種基于多元特征的微博信息傳播行為預(yù)測方法的一種優(yōu)選所述最大熵
其中Z㈧= 2>xp ^Jk{r,y)為歸一化分母,Xk為各用戶特征的權(quán)值,r為
一個原帖,y為用戶的決策(參與/不參與轉(zhuǎn)帖),λ為未知量,其似然函數(shù)為
/(A) = |>gp(;/ |r!)-|;g,R為原帖的個f(,|;^為懲罰項(xiàng),因而可根據(jù)已知帖子數(shù)
!=1k=i 2σk=l 2σ
據(jù),用梯度迭代方法求解。對于本發(fā)明的一種基于多元特征的微博信息傳播行為預(yù)測系統(tǒng)來說,上述技術(shù)問題是這樣解決的一種基于多元特征的微博信息傳播行為預(yù)測系統(tǒng)包括a、微博網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理模塊,用于獲取網(wǎng)絡(luò)數(shù)據(jù),并對相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理;b、微博網(wǎng)絡(luò)預(yù)測模型建立模塊,用于根據(jù)經(jīng)預(yù)處理獲得的數(shù)據(jù),建立相應(yīng)的預(yù)測模型;C、微博網(wǎng)絡(luò)預(yù)測模塊,用于基于所述預(yù)測模型預(yù)測用戶行為趨勢。作為一種基于多元特征的微博信息傳播行為預(yù)測系統(tǒng)的一種優(yōu)選所述微博網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理模塊進(jìn)一步包括采集微博網(wǎng)絡(luò)模塊、去除廣告及不完整帖子模塊、結(jié)構(gòu)化至數(shù)據(jù)庫模塊、計算用戶內(nèi)容、網(wǎng)絡(luò)、時間特征模塊。相對于現(xiàn)有技術(shù)而言,本發(fā)明具有以下優(yōu)點(diǎn)通過對信息傳播過程的解釋及關(guān)聯(lián)因素的分析,抽取影響用戶參與信息分享的因素,以及各因素的重要性,結(jié)合這些已得到的加權(quán)因素,通過建立有效的用戶行為預(yù)測模型,預(yù)測用戶在信息傳播中的行為以及微博群體響應(yīng),這些研究可以拓展到實(shí)際微博網(wǎng)絡(luò)突發(fā)事件預(yù)警、虛擬市場規(guī)劃等應(yīng)用中。
圖1為本發(fā)明一種基于多元特征的微博信息傳播行為預(yù)測方法實(shí)施例流程圖。圖2為本發(fā)明一種基于多元特征的微博信息傳播行為預(yù)測方法實(shí)施例中微博網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理步驟流程圖。圖3為本發(fā)明一種基于多元特征的微博信息傳播行為預(yù)測系統(tǒng)實(shí)施例結(jié)構(gòu)框圖。圖4為轉(zhuǎn)帖率隨作者追隨者數(shù)量變化圖。圖5為一天內(nèi)轉(zhuǎn)帖數(shù)隨帖子發(fā)布時間變化圖。圖6為一周內(nèi)轉(zhuǎn)帖數(shù)隨發(fā)布時間變化圖。
模型,根據(jù)原帖用戶的特征,得到用戶轉(zhuǎn)帖的概率估計尸C^k)
Z(r)
exp YjKfAr^y),
(Σ
具體實(shí)施例方式下面結(jié)合
及具體實(shí)施方式
對本發(fā)明進(jìn)一步說明。圖1為本發(fā)明一種基于多元特征的微博信息傳播行為預(yù)測方法實(shí)施例流程圖,包括如下步驟a、微博網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理步驟S10,獲取網(wǎng)絡(luò)數(shù)據(jù),并對相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理;b、微博網(wǎng)絡(luò)預(yù)測模型建立步驟S11,根據(jù)經(jīng)預(yù)處理獲得的數(shù)據(jù),建立相應(yīng)的預(yù)測模型;C、微博網(wǎng)絡(luò)預(yù)測步驟S12,基于所述預(yù)測模型預(yù)測用戶行為趨勢。圖2為本發(fā)明一種基于多元特征的微博信息傳播行為預(yù)測方法實(shí)施例流程圖中微博網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理步驟SlO實(shí)施例流程圖,微博網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理步驟進(jìn)一步包括采集微博網(wǎng)絡(luò)步驟101、去除廣告及不完整帖子步驟102、結(jié)構(gòu)化至數(shù)據(jù)庫步驟103、計算用戶內(nèi)容、網(wǎng)絡(luò)、時間特征步驟104。圖3為本發(fā)明一種基于多元特征的微博信息傳播行為預(yù)測系統(tǒng)實(shí)施例框圖,包括a、微博網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理模塊111,用于獲取網(wǎng)絡(luò)數(shù)據(jù),并對相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理;b、微博網(wǎng)絡(luò)預(yù)測模型建立模塊112,用于根據(jù)經(jīng)預(yù)處理獲得的數(shù)據(jù),建立相應(yīng)的預(yù)測模型;C、微博網(wǎng)絡(luò)預(yù)測模塊113,用于基于所述預(yù)測模型預(yù)測用戶行為趨勢。首先通過采集微博網(wǎng)絡(luò)步驟101獲取微博網(wǎng)絡(luò)數(shù)據(jù)。可通過微博提供的開放API, 按固定的URL格式,如新浪微博的用戶好友列表的請求URL格式為“http://api. t. sina. com. cn/statuses/friends. json”。通過API接口可獲取用戶信息及帖子信息,包括用戶創(chuàng)建時間、好友列表、追隨者列表、用戶發(fā)帖時間及內(nèi)容、轉(zhuǎn)帖時間、回復(fù)內(nèi)容、系統(tǒng)狀態(tài)等。使用API接口操作簡捷,獲取的數(shù)據(jù)覆蓋面寬,但微博網(wǎng)站通常對客戶端API的訪問頻率做了限制,每小時只能進(jìn)行一定次數(shù)的請求,采集效率不高。另一種方法是直接采集網(wǎng)頁源文件,模擬用戶網(wǎng)頁登錄,將帶有用戶名密碼的URL提交網(wǎng)站服務(wù)器,驗(yàn)證通過后將cookie存入session中,其后請求URL時使用該session做驗(yàn)證。因微博使用ajax技術(shù),因此采集時要進(jìn)行javascript解析,分析出微博數(shù)據(jù)的實(shí)際地址,獲取源文件。采集時從初始的URL 開始,獲取網(wǎng)頁源文件,解析出新的URL放入待訪問URL隊(duì)列,訪問速度不受API的限制。但采集的信息不夠全,對同一個用戶,也可能丟失掉部分信息。實(shí)際采集時結(jié)合兩種方法,在 API的訪問頻率達(dá)到上限后,以網(wǎng)頁源文件方式抓取。微博中,用戶會將感興趣的其他人添加關(guān)注,這些人將會出現(xiàn)在該用戶的好友列表中,而該用戶也會出現(xiàn)在這些人的追隨者列表中。關(guān)注對象發(fā)布的消息,將被推送給該用戶,因此該用戶受到了其關(guān)注對象的強(qiáng)烈影響,帖子信息是隨著用戶好友關(guān)系網(wǎng)絡(luò)進(jìn)行傳播的。然后,用戶的關(guān)注對象很少也對該用戶添加關(guān)注,也幾乎不轉(zhuǎn)發(fā)該用戶的帖子。用戶的好友網(wǎng)絡(luò)與追隨者網(wǎng)絡(luò)是不對稱了,雙向鏈接僅占鏈接總數(shù)的22%。采集到的數(shù)據(jù)經(jīng)去除廣告和無效的信息步驟102后,通過結(jié)構(gòu)化至數(shù)據(jù)庫步驟 103,存入數(shù)據(jù)庫,對應(yīng)用戶表、用戶關(guān)系表、發(fā)帖轉(zhuǎn)帖表。用戶表包括用戶名、用戶ID、用戶創(chuàng)建時間、用戶好友數(shù)、追隨者數(shù)、發(fā)帖數(shù)等字段,關(guān)系表包括用戶1的ID,用戶2的ID,關(guān)系創(chuàng)建時間、共同好友數(shù)、共同追隨者數(shù)等字段,發(fā)帖轉(zhuǎn)帖表包括帖子ID,帖子內(nèi)容、發(fā)布者ID、發(fā)布時間、是否為轉(zhuǎn)帖、原作者ID等字段。使用網(wǎng)頁源文件采集時,需要使用不同的模板,從源文件中抽取出所需要的結(jié)構(gòu)化數(shù)據(jù),存入數(shù)據(jù)庫中。在將數(shù)據(jù)存儲之前,需要刪除廣告用戶及無意義的信息。微博中存在大量的廣告用戶,不斷發(fā)布產(chǎn)品宣傳、交易、服務(wù)等信息,多數(shù)包含有指向外網(wǎng)的鏈接。這些用戶中,大多數(shù)是臨時用戶,部分公司為了即時的需要,新創(chuàng)建一些賬號,散布廣告信息,發(fā)布完消息后不再使用這些賬號,因此賬號的活躍時間較短。在篩選時,刪除活躍時間少于1天的用戶及其發(fā)布轉(zhuǎn)發(fā)的所有帖子。少數(shù)廣告用戶雖然活躍時間大于1天,由于其在短時間內(nèi)大量發(fā)帖,且發(fā)布的信息中包含較多鏈向單一外網(wǎng)的鏈接,因此也刪除這些用戶及其發(fā)表轉(zhuǎn)發(fā)的帖子。此外,一些用戶常常發(fā)布表達(dá)其心情狀態(tài)等信息,字?jǐn)?shù)通常在10字以內(nèi),這部分信息將降低內(nèi)容相似性判斷的準(zhǔn)確性, 影響模型預(yù)測性能,因此也刪掉這些帖子。在數(shù)據(jù)的發(fā)帖轉(zhuǎn)帖表中,找出所有原帖,通過計算用戶內(nèi)容、網(wǎng)絡(luò)、時間特征步驟 104,計算其與每個用戶(即原帖——用戶對)的內(nèi)容特征、網(wǎng)絡(luò)特征及時間特征總計17個特征。用戶發(fā)表轉(zhuǎn)發(fā)的帖子,通常具有一定的內(nèi)容團(tuán)聚性,如某些用戶關(guān)注娛樂消息, 而一些用戶關(guān)注社會動態(tài),因此用戶參與的帖子集合反應(yīng)了其興趣偏好。對每個原帖, 經(jīng)分詞、去無意義詞及停止詞后,轉(zhuǎn)化成詞條向量,計算原帖與用戶參與帖子集合的相似性。原帖T對應(yīng)的詞條向量為W1, w2,W3... wn>,其中%為詞條j的權(quán)重。%采用經(jīng)典的TFXIDF定義。IDF根據(jù)所有原帖來計算。一個用戶u參與帖子集合V包括發(fā)布帖子集合V1,轉(zhuǎn)發(fā)帖子集合V2。義、V2均包含一系列的帖子,如V1 = <1\,T2,T3...Tm>。帖子間的相似性使用帖子詞條向量夾角的余弦來度量,兩帖子Ti, Ir它們之間的相似性為
權(quán)利要求
1.一種基于多元特征的微博信息傳播行為預(yù)測方法,其特征在于包括如下步驟a、微博網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理步驟,獲取網(wǎng)絡(luò)數(shù)據(jù),并對相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理;b、微博網(wǎng)絡(luò)預(yù)測模型建立步驟,根據(jù)經(jīng)預(yù)處理獲得的數(shù)據(jù),建立相應(yīng)的預(yù)測模型; C、微博網(wǎng)絡(luò)預(yù)測步驟,基于所述預(yù)測模型預(yù)測用戶行為趨勢。
2.如權(quán)利要求1所述的一種基于多元特征的微博信息傳播行為預(yù)測方法,其特征在于所述微博網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理步驟中獲取網(wǎng)絡(luò)數(shù)據(jù)包括獲取用戶、發(fā)帖轉(zhuǎn)帖、用戶關(guān)系信肩、ο
3.如權(quán)利要求1所述的一種基于多元特征的微博信息傳播行為預(yù)測方法,其特征在于所述微博網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理步驟中對相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理包括去除廣告及不完整的帖子。
4.如權(quán)利要求1至3之一所述的一種基于多元特征的微博信息傳播行為預(yù)測方法,其特征在于所述微博網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理步驟包括計算每個原帖下,各用戶的內(nèi)容特征、網(wǎng)絡(luò)特征及時間特征。
5.如權(quán)利要求4所述的一種基于多元特征的微博信息傳播行為預(yù)測方法,其特征在于所述內(nèi)容特征共8個,原帖T與用戶u發(fā)帖集合V1的內(nèi)容相似性特征原帖T與用戶u轉(zhuǎn)帖集合V2的內(nèi)容相似性特征f2,原帖T是否包含URL的特征f3及該URL在用戶參與帖子集合V (V = VJV2)中出現(xiàn)次數(shù)特征&,原帖T是否包含hash tag (標(biāo)志為“#短語”) 的特征f5及該hash tag在用戶參與帖子集合V中出現(xiàn)次數(shù)特征f6,原帖T是否包含引用 (標(biāo)志為用戶名”)的特征f7及該引用在用戶參與帖子集合V中出現(xiàn)次數(shù)特征f8,上述原帖T與V1的相似性為T與集合V1所有帖子相似性的平均值
6.如權(quán)利要求4所述的一種基于多元特征的微博信息傳播行為預(yù)測方法,其特征在于所述網(wǎng)絡(luò)特征共6個,原帖T作者的好友數(shù)特征f9,原帖T作者的追隨者數(shù)特征f1(l,原帖T作者與用戶u的共同好友數(shù)特征fn,T作者與用戶u的共同追隨者數(shù)特征f12,T作者與用戶u的共同引用數(shù)特征f13,T作者與用戶u的共同轉(zhuǎn)帖數(shù)特征f14。
7.如權(quán)利要求4所述的一種基于多元特征的微博信息傳播行為預(yù)測方法,其特征在于所述時間特征共3個,用戶u當(dāng)前活躍度特征f15 (等于最近一小時內(nèi)參與帖子數(shù)),原帖發(fā)布時間特征f16,最近一小時內(nèi)網(wǎng)絡(luò)中的新帖子數(shù)特征f17。
8.如權(quán)利要求1所述的一種基于多元特征的微博信息傳播行為預(yù)測方法,其特征在于所述微博網(wǎng)絡(luò)預(yù)測模型建立步驟,其模型為最大熵模型,最大熵模型使用已有的帖子作為訓(xùn)練數(shù)據(jù),將每個原帖下用戶的特征作為模型輸入,用戶是否轉(zhuǎn)發(fā)原帖,以O(shè)和1表示,作為模型輸出,使用迭代方法訓(xùn)練模型參數(shù)。
9.一種基于多元特征的微博信息傳播行為預(yù)測系統(tǒng),其特征在于包括a、微博網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理模塊,用于獲取網(wǎng)絡(luò)數(shù)據(jù),并對相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理;b、微博網(wǎng)絡(luò)預(yù)測模型建立模塊,用于根據(jù)經(jīng)預(yù)處理獲得的數(shù)據(jù),建立相應(yīng)的預(yù)測模型;C、微博網(wǎng)絡(luò)預(yù)測模塊,用于基于所述預(yù)測模型預(yù)測用戶行為趨勢。
10.如權(quán)利要求9所述的一種基于多元特征的微博信息傳播行為預(yù)測系統(tǒng),其特征在于所述微博網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理模塊進(jìn)一步包括采集微博網(wǎng)絡(luò)模塊、去除廣告及不完整帖子模塊、結(jié)構(gòu)化至數(shù)據(jù)庫模塊、計算用戶內(nèi)容、網(wǎng)絡(luò)、時間特征模塊。
全文摘要
本發(fā)明涉及一種基于多元特征的微博信息傳播行為預(yù)測方法及系統(tǒng)。它是從微博網(wǎng)絡(luò)獲取網(wǎng)絡(luò)數(shù)據(jù),并對相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理,然后根據(jù)經(jīng)預(yù)處理獲得的數(shù)據(jù),建立相應(yīng)的預(yù)測模型,基于所述預(yù)測模型預(yù)測用戶行為趨勢。本發(fā)明可以用于網(wǎng)絡(luò)安全控制。
文檔編號H04L12/24GK102394798SQ20111036396
公開日2012年3月28日 申請日期2011年11月16日 優(yōu)先權(quán)日2011年11月16日
發(fā)明者劉云, 張振江, 朱江, 熊菲, 王星, 程軍軍 申請人:北京交通大學(xué)