基于數據湖通用元數據模型的元數據管理系統及方法與流程

文檔序號：41775005發布日期：2025-04-29 18:48閱讀：8來源：國知局

本發明屬于元數據模型，具體涉及基于數據湖通用元數據模型的元數據管理系統及方法。

背景技術：

1、多源異構數據存入數據湖后需要對其進行數據治理，才能確保數據的質量、一致性和安全性。數據治理過程中很重要的一環就是元數據管理，元數據管理過程中需要采用合適的元數據模型來組織元數據結構，建立數據目錄，方便用戶查詢和分析數據。

2、傳統的元數據模型側重于數據倉庫內部的結構化資產，例如數據表、字段定義和屬性，而對半結構化和非結構化數據的支持不足，因此只能描述結構化數據之間的基本層次關系或簡單關聯，例如數據表的外鍵關系，從而忽視了異構數據之間復雜的多維關系網絡。異構數據關系的缺失不僅限制了數據工程師和分析師通過關聯分析挖掘數據價值的潛力，也增加了數據整合與轉換過程中的復雜性和錯誤風險。

3、然而對于現有元數據模型的調研表明，它們都沒有提出完整的模型來適配數據湖中的元數據用例，未考慮到元數據模型在面對不斷變化的數據需求和應用場景時的適應能力。因此有必要關注元數據模型的動態擴展能力，將發掘得到的異構數據關系動態擴展到元數據模型中，提高元數據模型對于不同領域和業務場景的適應性，使數據湖中的數據能夠被高效的應用于各種分析場景。

技術實現思路

1、本發明提出一種基于支持動態擴展的數據湖通用元數據模型的元數據管理系統。

2、本發明中，元數據模型以圖的形式建模，用節點表示數據實體和元數據實體，可以自定義數據結構，不受固定模式的約束，以支持多源異構數據的元數據；同時用邊表示節點之間的關聯關系，既包含原始數據自身的簡單關系，又支持動態擴展異構數據之間的復雜關系，能夠及時更新和同步元數據。所述實現方法使用傳統的數據建模方法，利用概念模型、邏輯模型和物理模型來展示提出的元數據模型的實際實施過程，數據湖架構采用apache?hudi。首先構建元數據模型的概念模型，定義實體、關系、分組和過程的概念，并設計uml類圖；然后定義轉換規則，將概念模型轉換為基于圖的邏輯模型，即將實體、關系、分組、過程轉換為節點和邊的形式進行表示；最后將多源異構數據入湖過程中攝取的元數據統一存儲在圖數據庫neo4j中進行建模，實現元數據模型的物理模型，包含元數據節點和關系邊，通過發掘異構數據之間的關聯關系，以數據節點和關系邊的形式動態存入圖數據庫，實現元數據模型的動態擴展。最后提出一個元數據管理系統，使用所述元數據模型進行建模，能夠將多源異構數據的元數據以圖的形式進行展示，使得元數據的查詢更加直觀和便捷，提高元數據管理的效率。

3、本發明還提供了一種基于支持動態擴展的數據湖通用元數據模型的元數據管理方法。

4、本發明的技術方案為：

5、基于數據湖通用元數據模型的元數據管理系統，包括：

6、元數據攝取模塊，在多源異構數據入湖過程中攝取元數據；

7、建模模塊，通過元數據模型對攝取的元數據進行建模，并支持動態擴展；

8、元數據庫，用于接收和存儲攝取的元數據；

9、元數據管理模塊，管理數據湖中多源異構數據的元數據和數據血緣，以圖的形式進行可視化展示；

10、其中，通過元數據模型對攝取的元數據進行建模，并支持動態擴展；包括：元數據以圖的形式建模，用節點表示數據實體和元數據實體，自定義數據結構，包括結構化數據、半結構化數據和非結構化數據；用邊表示節點之間的關聯關系。

11、根據本發明優選的，元數據模型共定義三類節點和三類邊，其中，三類節點包括一級節點、二級節點和三級節點，三類邊包括一級邊、二級邊和三級邊；

12、所述一級節點用于表示從原始數據源抽取的元數據實體，元數據實體的類型不同，其一級節點標簽也不同；

13、所述一級邊用于表示一級節點之間的關系；所述二級節點用于表示包含關系元數據的數據實體，屬性為數據的值，通過發掘關系元數據，動態創建二級節點；

14、所述二級邊用于表示數據實體與元數據實體之間的關系，根據發掘得到的關系動態創建二級邊；

15、所述三級節點用于表示用戶的實體和過程的實體；所述三級邊用于表示用戶、過程和數據實體之間的關系。

16、根據本發明優選的，元數據模型的實現過程如下：

17、設計元數據模型的概念模型，該概念模型描述用于對數據湖元數據進行建模的一系列概念；一系列概念包括數據實體、分組、關系、過程，并通過uml類圖的形式進行展示；

18、設計元數據模型的邏輯模型，定義從概念模型到邏輯模型的轉換規則，將概念模型轉換為圖的邏輯模型；

19、通過圖數據庫實現元數據模型的物理模型，包括：首先，將多源異構數據入湖時采集到的元數據和入湖后產生的元數據存儲到圖數據庫中，然后，針對不同應用場景進行數據關系挖掘，得到新的關系元數據，將關系元數據動態存入圖數據庫中，從而實現元數據模型的動態擴展。

20、進一步優選的，所述數據實體是元數據模型的基本單位，表示來自各種數據源的數據對象；

21、所述分組是將具有共同屬性的數據實體聚集起來形成一個組；

22、所述關系是指數據實體之間的關系和數據實體組之間的關系，它們用來表示數據實體之間的相關性或組之間的層次結構；

23、所述過程是指對數據實體進行的任何轉換過程，轉換后生成新的數據實體；或者，是指用戶對數據實體進行的訪問過程，以及數據在數據湖中的流轉過程，從而構建數據血緣。

24、根據本發明優選的，將元數據模型的邏輯模型設計為圖的形式，根據定義的轉換規則，利用圖的節點、邊和屬性將相應的概念以圖的形式表示；

25、所述轉換規則中，數據實體用節點表示，不同的數據實體對應的節點標簽不同，數據實體的相關屬性用節點的屬性進行表示；關系用邊表示，關系的相關屬性存儲邊的屬性中；分組和過程利用節點、邊組合表示。

26、根據本發明優選的，所述物理模型由圖形數據庫管理系統neo4j實現，采用hudi作為數據湖管理架構，在hudi攝取多源異構數據的過程中采集元數據，將采集到的元數據經過轉換、清洗處理后存入圖形數據庫管理系統neo4j中進行持久化存儲，以圖的形式建立元數據模型；通過圖形數據庫管理系統neo4j的cypher查詢語言對元數據進行查詢，直觀展示出多源異構數據的元數據信息及其在數據湖hudi中的存儲信息。

27、根據本發明優選的，在多源異構數據入湖過程中攝取元數據；包括：

28、通過流數據處理引擎將多源異構數據存入數據湖，包括結構化數據、半結構化數據和非結構化數據，在入湖過程中根據數據類型的不同，采用設配的元數據攝取方法；其中，結構化數據的元數據通過調用jar包的metadata類的方式進行攝取；半結構化數據的元數據通過自定義結構解析程序進行攝取，非結構化數據的元數據通過apache?tika進行攝取；最后，統一將攝取的元數據存入元數據庫中。

29、基于數據湖通用元數據模型的元數據管理方法，包括：

30、步驟1：在多源異構數據入湖過程中攝取元數據；

31、步驟2：將攝取的元數據存入圖數據庫中；

32、步驟3：通過元數據模型對攝取的元數據進行建模，并支持動態擴展；

33、步驟4：管理數據湖中多源異構數據的元數據和數據血緣，以圖的形式進行可視化展示；

34、其中，通過元數據模型對攝取的元數據進行建模，并支持動態擴展；包括：元數據以圖的形式建模，用節點表示數據實體和元數據實體，自定義數據結構，包括結構化數據、半結構化數據和非結構化數據；用邊表示節點之間的關聯關系。

35、本發明的有益效果為：

36、本發明提供基于數據湖通用元數據模型的元數據管理系統及方法，有助于提升元數據管理效率。動態可擴展性有利于數據湖整合來自多個來源的數據，針對不同的應用場景滿足不同類型的分析需求；能夠輕松適應新的數據類型、屬性和關系，無需進行大規模的重新設計或重構，從而為元數據管理和應用提供更持久的支持；有利于提高數據質量，方便不同系統之間的數據對接和融合，實現數據的快速流動和共享。

37、面向圖形的數據庫管理系統（例如neo4j）通常比關系數據庫處理數據更快，這是因為它們的數據模型更簡單，并且沒有acid屬性施加的約束，比傳統的關系數據庫更適合進行關系建模。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：郭瑩,趙志浩,王英龍,孫博文,王璽,孟旭東
技術所有人：山東省計算中心（國家超級計算濟南中心）
我是此專利的發明人

上一篇：一種神經內科腦血管介入穿刺定位裝置的制作方法
上一篇：一種短流程亞穩鈦合金的制備方法及其應用

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態勢感知、輿情分析和控制 3.區塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家庫。

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

基于數據湖通用元數據模型的元數據管理系統及方法與流程