專利名稱:用于網(wǎng)絡消息通信的聯(lián)系人語義分組方法
技術(shù)領域:
本發(fā)明屬于網(wǎng)絡通信技術(shù)領域,涉及網(wǎng)絡用戶通信數(shù)據(jù)和行為分析技術(shù),具體是一種用于網(wǎng)絡消息通信的聯(lián)系人語義分組方法。針對網(wǎng)絡郵件、手機通話、即時消息通信、 社交網(wǎng)絡等網(wǎng)絡消息通信系統(tǒng),提供用戶聯(lián)系人的自動分組管理支持。
背景技術(shù):
隨著信息時代的到來,當前許多領域都面臨著對海量數(shù)據(jù)的處理,而如何在海量的數(shù)據(jù)中提取有用的信息已成為當前研究的主要方向。尤其隨著個人的通訊方式越來越多,其歷史通信數(shù)據(jù)廣泛存在于手機、電子郵箱、即時消息、飛信、社交網(wǎng)絡等網(wǎng)絡通信系統(tǒng)的客戶端上,并且個人在社會的角色是多樣的,人與人之間的交互導致了嵌套和重疊的語義群組結(jié)構(gòu)的產(chǎn)生,嵌套群組結(jié)構(gòu)可以展現(xiàn)用戶好友社會關(guān)系的不同層次,這些在現(xiàn)實生活中很常見,例如一個用戶的同學群組又可分為高中同學、大學同學和研究生同學等子群組。重疊群組則允許一個聯(lián)系人可以屬于多個群組,這也是合理的。例如一個用戶的某個同學可能又是他目前的同事,這些都使個人的歷史通信數(shù)據(jù)變的復雜而海量,在學術(shù)領域這類數(shù)據(jù)通常都可以建模為包含實體和實體之間關(guān)系的圖。因此如何從圖數(shù)據(jù)中發(fā)現(xiàn)有意義的聯(lián)系人語義分組是一個具有挑戰(zhàn)性的問題,具有重要的理論意義和實用價值。現(xiàn)在學術(shù)界針對聯(lián)系人語義分組這個問題已經(jīng)有了很深入的研究,提出了很多相關(guān)的方法。在數(shù)據(jù)挖掘領域已經(jīng)提出了很多分組聚類方法,例如基于層次的聚類、密度聚類、網(wǎng)格聚類等。基于層次的聚類方法是對給定的數(shù)據(jù)集進行層次的分解,直到某種條件滿足為止;密度聚類是只要一個區(qū)域中的點的密度大過某個閾值,就把它加到與之相近的聚類中;網(wǎng)格聚類是采用多維網(wǎng)格數(shù)據(jù)結(jié)構(gòu),將空間劃分為優(yōu)先數(shù)目的單元,以構(gòu)成一個可以進行聚類分析的網(wǎng)絡結(jié)構(gòu)。而這些傳統(tǒng)的圖聚類方法通常針對大規(guī)模數(shù)據(jù)集,采用全局化的批量數(shù)據(jù)處理方法,導致其效率較低,運行時間較長和存儲空間開銷較大,對于單個用戶的歷史消息通信數(shù)據(jù),其所處理得到的聯(lián)系人語義分組難以滿足現(xiàn)實要求。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對上述已有技術(shù)的不足,提出一種用于網(wǎng)絡消息通信的聯(lián)系人語義分組方法,以減小聯(lián)系人語義分組的運行時間和存儲空間開銷,使消息通信系統(tǒng)更便利和人性化,滿足用戶的現(xiàn)實要求。實現(xiàn)本發(fā)明的技術(shù)思路是通過對用戶局部通信鏈接圖數(shù)據(jù)進行分析,構(gòu)建由語義群組構(gòu)成的拓撲關(guān)系,然后對拓撲關(guān)系用Jaccard系數(shù)進行合并,實現(xiàn)消息通信的聯(lián)系人語義分組。具體步驟包括如下(A)構(gòu)建用戶消息通信社會關(guān)系圖,即在用戶的一次通信記錄中,先將用戶自身看作是一個節(jié)點u,然后將其余所有聯(lián)系人的集合看作是另一個節(jié)點1,在用戶節(jié)點u和聯(lián)系人節(jié)點1之間建立一條邊,以此方式遍歷所有通信數(shù)據(jù),得到用戶的消息通信社會關(guān)系圖;(B)構(gòu)建由語義群組構(gòu)成的拓撲關(guān)系T :
B1)初始化拓撲關(guān)系T,在用戶消息通信社會關(guān)系圖中,抽取出那些與用戶節(jié)點u 通信相對頻繁的節(jié)點作為語義群組,即一個通信記錄的聯(lián)系人的數(shù)目大于等于最小組規(guī)模時,將聯(lián)系人集合所構(gòu)成的節(jié)點作為一個語義群組加入到拓撲關(guān)系T中;B2)生成候選語義群組的最大子集,即如果任意兩個語義群組的交集也滿足最小組規(guī)模時,則將其交集也加入到T中,直到?jīng)]有新的群組加入為止;B3)去除無意義的群組,即將用戶節(jié)點u與語義群組g交互的消息個數(shù)小于最小消息計數(shù)閾值的的候選語義群組移除;B4)將不相關(guān)的語義群組合并,即通過計算語義群組間共享差serr進行識別歸入, 將拓撲關(guān)系T中的語義群組按照規(guī)模大小進行降序排序,迭代地遍歷語義群組集合,移除那些可被更大規(guī)模群組代替的語義群組;(C)構(gòu)建層次化的語義群組C1)對步驟B4)階段產(chǎn)生的語義群組,計算任意兩個語義群組&和&間的Jaccard 系數(shù),是語義群組gl和&具有的相同聯(lián)系人構(gòu)成的集合
權(quán)利要求
1.一種用于網(wǎng)絡消息通信的聯(lián)系人語義分組方法,具體步驟包括(A)構(gòu)建用戶消息通信社會關(guān)系圖,即在用戶的一次通信記錄中,先將用戶自身看作是一個節(jié)點u,然后將其余所有聯(lián)系人的集合看作是另一個節(jié)點1,在用戶節(jié)點u和聯(lián)系人節(jié)點1之間建立一條邊,以此方式遍歷所有通信數(shù)據(jù),得到用戶的消息通信社會關(guān)系圖;(B)構(gòu)建由語義群組構(gòu)成的拓撲關(guān)系TB1)初始化拓撲關(guān)系T,在用戶消息通信社會關(guān)系圖中,抽取出那些與用戶節(jié)點u通信相對頻繁的節(jié)點作為語義群組,即一個通信記錄的聯(lián)系人的數(shù)目大于等于最小組規(guī)模時, 將聯(lián)系人集合所構(gòu)成的節(jié)點作為一個語義群組加入到拓撲關(guān)系T中;B2)生成候選語義群組的最大子集,即如果任意兩個語義群組的交集也滿足最小組規(guī)模時,則將其交集也加入到T中,直到?jīng)]有新的群組加入為止;B3)去除無意義的群組,即將用戶節(jié)點u與語義群組g交互的消息個數(shù)小于最小消息計數(shù)閾值的的候選語義群組移除;B4)將不相關(guān)的語義群組合并,即通過計算語義群組間共享差serr進行識別歸入,將拓撲關(guān)系T中的語義群組按照規(guī)模大小進行降序排序,迭代地遍歷語義群組集合,移除那些可被更大規(guī)模群組代替的語義群組;(C)構(gòu)建層次化的語義群組C1)對步驟B4)階段產(chǎn)生的語義群組,計算任意兩個語義群組gl和&間的Jaccard系數(shù),是語義群組gl和&具有的相同聯(lián)系人構(gòu)成的集合
2.根據(jù)權(quán)利要求1所述的方法,其中步驟B4)所述的計算語義群組間共享差serr,是通過如下公式計算
全文摘要
本發(fā)明公開一種用于消息通信的聯(lián)系人語義分組方法,主要解決現(xiàn)有技術(shù)不能在大規(guī)模社會網(wǎng)絡消息通信系統(tǒng)中難以自動實現(xiàn)聯(lián)系人語義分組,造成社會網(wǎng)絡通信系統(tǒng)使用不便利的問題。其實現(xiàn)步驟是利用消息通信的歷史信息構(gòu)建出用戶的通信社會關(guān)系圖;然后抽取出那些與用戶節(jié)點通信相對頻繁的節(jié)點作為語義群組,從中找到所有候選語義群組,通過去除無意義的語義群組、合并不相關(guān)的語義群組構(gòu)建由語義群組構(gòu)成的拓撲關(guān)系;最后通過計算Jaccard系數(shù)對拓撲關(guān)系構(gòu)建層次化的語義群組。本發(fā)明能處理大規(guī)模社會網(wǎng)絡消息通信數(shù)據(jù),具有簡單易行、準確度較高和運行速度較快的優(yōu)點,可用于解決郵箱、及時通信和社交網(wǎng)絡通信中的好友分組問題。
文檔編號H04L12/24GK102347917SQ20111034631
公開日2012年2月8日 申請日期2011年11月4日 優(yōu)先權(quán)日2011年11月4日
發(fā)明者吳志殿, 孫鶴立, 慕鵬, 李偉, 趙貝貝, 雷倩, 黃健斌 申請人:西安電子科技大學