麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種基于分組更新的動態圖挖掘方法和系統與流程

文檔序號:41774817發布日期:2025-04-29 18:48閱讀:8來源:國知局
一種基于分組更新的動態圖挖掘方法和系統與流程

本發明涉及動態圖挖掘,尤其涉及一種基于分組更新的動態圖挖掘方法和系統。


背景技術:

1、圖挖掘對于破譯復雜網絡至關重要。在現實世界中,圖形是動態的,并且會隨著時間的推移而變化,因此需要更新挖掘模式以反映這些變化。傳統方法使用細粒度的增量計算來避免每次更新后完全重新挖掘,雖然提高了速度,但往往忽視了全面檢查更新間交互的潛在收益,從而錯過了整體效率的提高。

2、隨著圖形越來越多地代表現實世界的關系,廣泛的研究通過圖形挖掘方法和圖像挖掘系統探索了它們的潛力。圖挖掘應用包括社交網絡分析、反欺詐檢測和生物信息學,雖然當前系統主要處理靜態圖形,但現實世界通常處理經常更新頂點和邊的動態圖形。例如,大多數電子商務處理了數十億筆交易,形成了跟蹤客戶和賣家互動的動態圖表,這對于檢測欺詐至關重要。

3、每次更新重新計算整個圖形中的所有模式的成本非常高。由于更新通常只影響圖表的一小部分,因此許多研究提倡只修改受影響結果的增量計算策略。這些方法通常利用細粒度的增量技術,從更改的頂點開始,通過擴展來執行模式匹配。每次更新都會觸發一系列擴展操作,以集成新的匹配項或消除過時的結果,但這些更新是獨立處理的。

4、圖形的更新是高度聚集的。超過90%的圖形的更新與其他更新共享至少一個頂點。這種聚類表明在動態圖挖掘中具有顯著的空間局部性,其中大多數更新來自相似的位置,并在增量執行期間共享探索區域。為了利用此功能,引入了探索域的概念。這些域將圖形組織成不同的組件,這些組件涵蓋更新中涉及的大部分工作集。通過對這些域中的更新進行分組并發執行它們,可以重用重疊的擴展路徑,從而減少冗余數據訪問并提高效率。

5、在動態圖挖掘中采用粗粒度增量計算帶來了巨大的挑戰。首先,跨不同工作負載的擴展路徑會隨著圖形的演變而動態變化,因此需要實時捕獲和維護它們。這種勘探領域的在線維護成本可能很高,可能會抵消減少數據處理帶來的收益。其次,同時處理多個更新的有效性取決于最大化擴展路徑中的重疊。但是,各種更新的基礎圖中的實際遍歷可能無法有效對齊。這種錯位意味著共享勘探領域的預期好處沒有完全實現,因為大多數處理工作都被轉移到管理不同的路徑上。此外,同時訪問這些路徑可能會導致對緩存資源的競爭,從而進一步降低性能,而不是提高性能。

6、因此,亟需一種基于分組更新的動態圖挖掘方法和系統,以解決上述缺陷。


技術實現思路

1、本發明的目的在于針對現有技術中動態圖挖掘中存在的冗余計算問題,提供一種基于分組更新的動態圖挖掘方法和系統。本發明通過分組更新可以加速動態圖的挖掘。

2、本發明的目的是通過以下技術方案來實現的:本發明實施例第一方面提供了一種基于分組更新的動態圖挖掘方法,包括以下步驟:

3、(1)從初始圖的匹配集形成探索域,并在圖形更改時將更新分配給相應的探索域;其中,每個探索域都由初始圖形匹配的不相交頂點集組成;

4、(2)識別探索域中共享重復頂點的邊,并將它們合并到更新組中,以生成更新子圖;在更新子圖上使用以鄰居為中心的擴展策略擴展更新子圖,并實施拓撲修剪對擴展后的更新子圖進行過濾,得到匹配的更新子圖。

5、進一步地,所述步驟(1)具體包括以下子步驟:

6、(1.1)基于初始圖的匹配集,從初始圖及其匹配的模式中,基于匹配連接組件獲取匹配連通分量,基于匹配連通分量創建探索域;其中,匹配連通分量由匹配集中的頂點構成;

7、(1.2)在圖更改時,根據圖的更新內容,為每個探索域分配更新,生成更新后的探索域;

8、(1.3)安排挖掘任務以處理每個探索域中的更新。

9、進一步地,所述步驟(1.1)具體包括以下子步驟:

10、(1.1.1)基于初始圖的匹配集,從初始圖及其匹配的模式中,獲取所有的匹配項;

11、(1.1.2)對于每個匹配項,檢查其頂點的分配情況,即檢查該匹配項中的所有頂點是否已經分配給探索域;根據頂點的分配情況不同,對應不同的操作:如果匹配項中的所有頂點均未分配給任何探索域,則創建一個新的探索域,并將匹配項中的所有頂點分配給該新的探索域;如果匹配項中的部分頂點分配給同一個探索域,其它頂點沒有進行分配,則將其它頂點分配給同一個探索域;如果匹配項中包含來自多個探索域中的頂點,則將多個探索域合并為一個探索域,并將剩余的頂點分配給該探索域。

12、進一步地,所述根據圖的更新內容,為每個探索域分配更新,生成更新后的探索域,具體包括:

13、假設有一組探索域和批量的邊的更新,然后根據其頂點在探索域中的不同情況,將更新分配給對應的探索域中:

14、如果更新的邊的兩個頂點都不在任何探索域中,則創建一個新的探索域,并將更新分配給該新的探索域;

15、如果更新的邊的兩個頂點中的一個頂點在現有的探索域中,另一個頂點沒有進行分配,則將另一個頂點添加到該現有的探索域中,并將該更新分配給此探索域;

16、如果更新的邊的兩個頂點在同一個探索域中,則將更新分配給該探索域;

17、如果更新的邊的兩個頂點在不同的探索域中,則將更新分配給具有更高循環度的頂點所在的探索域。

18、進一步地,所述步驟(2)具體包括以下子步驟:

19、(2.1)挖掘任務將更新合并到更新組中,生成更新子圖,并擴展更新子圖;

20、(2.2)通過同構測試對這些擴展后的更新子圖進行過濾,得到匹配的更新子圖,并將其存儲在匹配集中;

21、(2.3)對于每個新的更新批次,重復步驟(1),以更新探索域。

22、進一步地,所述將更新合并到更新組中,具體通過如下方法實現:

23、首先,從每個探索域內的多個更新中識別出重復出現的頂點集,其中表示頂點集中第i個重復出現的頂點,n表示頂點集中重復出現的頂點的總數;

24、然后,如果更新的邊的兩個頂點中,有一個頂點與頂點集中的頂點相同,則將該更新添加到該頂點的更新組中;如果更新的邊的兩個頂點都在頂點集中,則將該更新添加到具有更高循環度的頂點的更新組中。

25、進一步地,所述循環度的計算方法具體為:頂點的循環度為該頂點的度數乘以該頂點在批次中更新的次數。

26、進一步地,所述生成更新子圖,并擴展更新子圖,具體包括:

27、首先將更新的邊的一個重復的頂點識別為必要頂點;然后從必要頂點的更新組中選擇其它頂點來生成更新子圖,選擇頂點時,需要保證更新子圖中的頂點數小于模式大小,并且選擇的頂點的編號為除必要頂點以外最小的編號;再將更新子圖的相鄰緩存中的相鄰頂點形成候選集;其次,將候選集中的頂點依次添加到緩沖區中;最后使用緩沖區中的頂點擴展更新子圖,以使擴展后的更新子圖的頂點個數為模式大小。

28、進一步地,所述通過同構測試對這些擴展后的更新子圖進行過濾,得到匹配的更新子圖,具體包括:

29、對連接到此緩沖區中所有頂點的擴展后的更新子圖進行同構檢查,根據未連接到任何緩沖區頂點的更新子圖不能符合模式匹配的條件,進行拓撲修剪,以消除不可行的擴展,得到匹配的更新子圖;其中,此緩沖區指的是擴展更新子圖時所使用的緩沖區;同構檢查通過調用同構測試的bliss庫實現。

30、本發明實施例第二方面提供了一種用于實現上述的基于分組更新的動態圖挖掘方法的系統,包括:

31、探索域管理模塊,用于從初始圖的匹配集形成探索域,并在圖形更改時將更新分配給相應的探索域;其中,每個探索域都由初始圖形匹配的不相交頂點集組成;和

32、基于組的挖掘模塊,用于識別探索域中共享重復頂點的邊,并將它們合并到更新組中,以生成更新子圖;在更新子圖上使用以鄰居為中心的擴展策略擴展更新子圖,并實施拓撲修剪對擴展后的更新子圖進行過濾,得到匹配的更新子圖。

33、本發明的有益效果為:本發明通過對更新進行分組,并使用粗粒度執行策略來利用空間局部性,利用探索域以粗粒度的方式處理更新;本發明圍繞先前匹配項的重疊頂點區域構建探索域,在路徑擴展期間實現共享頂點訪問,同時將基于新匹配項的增量調整的開銷降至最低,其中探索域封裝了圖表中與更新相關的大量部分,允許多個更新有效地探索同一區域;本發明在這些探索域中對更新進行分組,以確保一致的執行并最大限度地減少不相關更新的干擾;本發明應用以鄰域為中心的擴展方法,專注于擴展頂點而不是子圖,這些鄰域利用真實世界圖的社區結構來發現現有方法通常會錯過的數據重用機會,以實現最佳數據重用;本發明所述系統基于分布式框架構建,集成了高級并行性,通過一個管理模塊動態構建這些探索域,該模塊會隨著圖形的變化識別和維護冗余區域,通過對這些探索域中的更新進行分組并采用以鄰居為中心的擴展策略,使得本發明所述系統能夠最大限度地減少了冗余數據訪問。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 蒙城县| 封开县| 治多县| 林西县| 孟州市| 延吉市| 左权县| 玉门市| 项城市| 比如县| 德州市| 上蔡县| 广宁县| 噶尔县| 安丘市| 清苑县| 绵竹市| 温州市| 广东省| 巍山| 清新县| 乌拉特前旗| 金平| 永春县| 龙山县| 东乡族自治县| 盐池县| 亳州市| 隆回县| 宝鸡市| 乌兰浩特市| 千阳县| 博湖县| 曲沃县| 三明市| 丹江口市| 高清| 瑞金市| 双峰县| 新津县| 和田市|