麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種數據中臺管理非結構化數據的方法及系統與流程

文檔序號:41765988發布日期:2025-04-29 18:35閱讀:3來源:國知局
一種數據中臺管理非結構化數據的方法及系統與流程

本發明涉及數據管理,具體而言,涉及一種數據中臺管理非結構化數據的方法及系統。


背景技術:

1、在當前大數據時代,企業面臨的數據量呈爆炸性增長,尤其是非結構化數據(如文本、圖像、音頻、視頻等)的占比急劇上升,非結構化數據以其內容豐富、形式多樣、價值潛力巨大等特點,成為企業數據資產的重要組成部分。

2、然而,如何有效管理、分析和利用這些非結構化數據,成為企業面臨的重大挑戰,現階段,對于非結構化數據的管理主要存在以下缺點問題:

3、1、由于非結構化數據結構復雜、形式多樣,包括文本、圖像、視頻、音頻等多種類型,而且存儲在不同的系統和設備中,導致數據整合難度大,難以實現統一管理和高效利用。

4、2、傳統的數據處理方法難以應對海量的非結構化數據的處理需求,處理速度慢,效率低下,并且容易出錯。

5、3、不同系統和部門之間的數據往往相互獨立,形成數據孤島,導致數據無法有效共享和協同工作,影響了整體運營效率。

6、4、非結構化數據的管理涉及數據安全、隱私保護及合規性等多方面的問題,現有的數據安全技術在處理非結構化數據方面存在不足,難以滿足企業日益嚴格的數據安全要求。

7、5、非結構化數據的處理和分析需要綜合運用多種技術,如nlp、圖像識別、語音識別等,技術門檻較高,需要專業的技術人才和設備支持,人力資源成本高。

8、6、傳統的數據處理方法難以從非結構化數據中提取有價值的知識和信息,也不能進行智能搜索和復用,限制了數據價值的充分發揮。


技術實現思路

1、鑒于此,本發明的目的在于提出一種數據中臺管理非結構化數據的方法及系統,構建高效、智能、安全可靠的數據中臺管理架構,實現對來自不同系統和設備的非結構化數據的全面整合、高效處理、安全存儲和智能分析應用,集成多種智能處理技術,實現對非結構化數據的深度挖掘和分析,保證非結構化數據傳輸、存儲和處理的安全性和合規性,形成結構化的數據視圖,降低非結構化數據處理和分析的技術門檻,構建企業知識圖譜,實現對非結構化數據中知識和信息的提取、復用和智能搜索功能,推動非結構化數據管理的升級與發展,為企業數字化轉型和智能化升級提供有力支撐,為企業創造更大的數據價值。

2、本發明提供一種數據中臺管理非結構化數據的方法,包括以下步驟:

3、s1、接入多源異構數據,配置各種數據源信息,根據配置的數據源信息連接到所述多源異構數據對應的目標數據源,抓取目標數據源的非結構化數據;

4、具體地,所述各種數據源信息包括:社交媒體信息、企業內部系統信息、物聯網設備信息等;所述非結構化數據包括:文本、圖像、音頻、視頻等。

5、s2、通過智能識別引擎識別所述非結構化數據,對非結構化數據進行深度處理與知識提取;

6、具體地,智能識別引擎集成ocr(光學字符識別)、nlp(自然語言處理)及圖像識別技術,通過ocr(光學字符識別)、nlp(自然語言處理)及圖像識別技術,自動從圖片、掃描件、pdf文檔、音頻文件、視頻文件等多種非結構化數據源中提取文字、表格、圖像及音頻內容;

7、本發明基于智能識別引擎,自動識別并分類非結構化數據中的關鍵信息,如文本中的實體、關系、情感等,圖像中的對象、場景等。該智能識別引擎具備高度的準確性和泛化能力,能夠處理多種類型和格式的非結構化數據。

8、s3、定義統一的數據模型,將深度處理與知識提取后的非結構化數據保存到該數據模型中,對數據模型中的數據進行智能分類與索引,構建數據安全與隱私保護體系,安全存儲非結構化數據;

9、優選地,定義的統一的數據模型包括以下幾個基本字段:

10、id:唯一標識符,用于唯一標識每個數據項;

11、type:數據類型,例如文本、圖像、音頻、視頻;

12、content:非結構化數據的實際內容,可以是二進制數據或引用數據的url;

13、metadata:元數據,描述數據的附加信息,如創建時間、作者、描述、標簽等;

14、source:數據來源信息,例如數據的上傳者、上傳時間等;

15、s4、設計動態元數據管理機制,對非結構化數據的元數據進行實時更新和維護,形成統一的結構化的數據視圖;

16、優選地,設計一個多維度整合框架,將來自不同源、不同格式的非結構化數據進行統一整合,形成結構化的數據視圖。框架支持數據清洗、去重、標準化等預處理操作,保證數據的準確性和一致性。

17、本發明通過動態元數據管理機制對非結構化數據的元數據進行實時更新和維護,隨著非結構化數據的不斷變化和增加,及時更新元數據信息,新增、修改或刪除元數據信息,保證元數據的準確性和時效性。通過動態元數據管理,實時跟蹤數據的全生命周期,保證數據的安全性和合規性。

18、具體地,形成統一的結構化的數據視圖的方法是將來自不同渠道、不同類型的非結構化數據存儲到所述統一的結構化的數據模型中,采用該統一的數據模型作為數據視圖,進行統一的非結構化數據的管理和分析。

19、s5、通過智能識別引擎提取非結構化數據中的實體、關系、屬性信息,構建知識圖譜,展示知識圖譜;

20、具體地,構建知識圖譜的方法包括:將識別提取的非結構化數據中的實體、關系、屬性等信息存儲到圖數據庫neo4j,利用neo4j提供高效的圖形查詢和分析能力;展示知識圖譜的方法包括:將存儲到neo4j的知識圖譜信息,以知識圖譜的方式展示出來,展示出實體間的關聯關系,并提供圖形查詢和分析能力;可以輸入或選擇實體查詢關聯關系,可以點擊實體,繼續下鉆分析關聯關系。

21、本發明利用智能識別引擎提取的關鍵信息,構建知識圖譜。知識圖譜以圖結構的方式表示實體之間的關系,能夠直觀地展示數據的內在聯系和層次結構。通過知識圖譜,用戶可以更便捷地查詢和理解數據,發現潛在的業務價值。

22、s6、通過智能檢索引擎,理解用戶的查詢意圖,從知識圖譜、數據視圖中檢索相關信息,并提供豐富的上下文信息;

23、具體地,理解用戶的查詢意圖包括:在該智能檢索引擎中利用自然語言處理nlp,解析用戶輸入的查詢語句,進行分詞、詞性標注、句法分析,分析出查詢中的關鍵詞、短語以及它們之間的關系,為語義分析打下基礎;通過理解這些關鍵詞、短語和句子,進行語義分析,進一步深入分析用戶的查詢意圖;例如,對于查詢“最近的電影有哪些”,語義分析會識別出用戶想要獲取的是最新電影的信息,而不僅僅是包含“最近”和“電影”這兩個詞的網頁;

24、從知識圖譜、數據視圖檢索相關信息,并提供豐富的上下文信息包括:基于理解的用戶的查詢意圖,從所述知識圖譜及所述統一的結構化的數據視圖檢索相關信息;所述上下文信息是進行信息檢索時,與用戶輸入的查詢條件相關的周圍環境或背景信息。通過提供豐富的上下文信息,有助于更準確地理解和解析用戶的查詢意圖,從而提高查詢結果的準確性和相關性。

25、該智能檢索引擎支持基于內容的非結構化數據檢索,利用自然語言處理、語義分析等技術理解用戶的查詢意圖,并從知識圖譜和整合后的數據集中檢索相關信息。不僅檢索結果準確率提高,而且還能提供豐富的上下文信息,幫助用戶更好地理解數據。

26、s7、生態集成與開放api,提供豐富的api接口,實現與業務系統、數據平臺和分析工具的數據的無障礙流通和共享。

27、具體地,所述提供豐富的api接口的方法包括:將所述知識圖譜及所述統一的結構化的數據視圖以api接口方式對外開放,允許其他業務系統授權調用接口,獲得數據,該授權調用包括:授權調用用戶名、調用密碼、調用有效期等信息;通過調用api接口可以直接查詢知識圖譜數據和數據視圖數據;同時記錄詳細調用日志,方便安全審計;

28、本發明通過定義統一的數據模型和數據接口,實現數據的無障礙流通和共享。

29、進一步地,所述s1步驟的配置各種數據源信息的方法包括:配置從各種數據源獲取非結構化數據的獲取方式,所述獲取方式包括:api接口方式、數據抓取方式、文件上傳方式;

30、其中,所述api接口方式包括:配置api接口地址、端口、返回數據類型、認證方式信息;

31、所述數據抓取方式包括:配置抓取目標地址、是否有認證、認證方式信息;

32、所述文件上傳方式包括:配置目標文件位置、登錄用戶名、密碼信息。

33、進一步地,所述s2步驟的對非結構化數據進行深度處理的方法包括:

34、針對不同類型的非結構化數據,分別采用相應的處理技術進行深度處理,所述深度處理包括:對非結構化數據進行清洗、轉換;所述清洗包括:去除重復數據、格式轉換、錯誤修正,保證后續處理的有效性和準確性;所述轉換包括:將非結構化數據處理轉化為結構化或半結構化形式,便于后續的分析和應用;

35、所述對非結構化數據進行知識提取的方法包括:對于文本數據,利用nlp技術提取關鍵詞、實體、情感的關鍵信息;對于圖像數據,利用圖像識別技術識別圖像中的對象、場景、顏色的特征;對于音頻數據,通過語音識別和情感分析技術提取音頻內容;對于音視頻數據,通過視頻分析技術提取關鍵幀和場景信息。

36、進一步地,所述s3步驟的對數據進行智能分類的方法包括:

37、對深度處理后的非結構化數據進行智能分類,并根據分類結果構建索引;所述智能分類包括:文本分類、圖像分類、音頻分類;

38、所述文本分類包括:通過機器學習算法:決策樹、支持向量機svm、隨機森林、adaboost、lightgbm或xgboost,對文本特征進行提取和學習,實現較為準確的分類,通過自然語言處理nlp技術理解和處理文檔中的自然語言內容,從大量的文本數據中提取出有用信息用于分類;

39、所述圖像分類包括:通過特征提取算法sift、surf或hog,將圖像中的信息轉換為特征向量,將提取出來的特征向量通過分類器svm、knn、決策樹、隨機森林以及神經網絡,進行分類預測;

40、所述音頻分類包括:提取音頻的頻譜特征、梅爾頻率倒譜系數mfcc,作為分類的依據;并將智能分類的分類結果保存到對應信息的metadata元數據字段;

41、所述s3步驟的對數據進行索引的方法包括:對所述數據模型的id、type、元數據中的字段(如標簽)創建索引,以便后續高效檢索。

42、通過構建高效的索引機制,能夠快速定位到用戶需要的數據,極大地提升了用戶體驗。

43、進一步地,所述s3步驟的構建數據安全與隱私保護體系的方法包括:數據加密、訪問控制、審計跟蹤和數據脫敏;

44、所述數據加密包括:采用先進的加密算法aes、rsa、sm2、sm4,對數據傳輸加密,對存儲在數據庫中的敏感信息進行加密處理,保證數據不被未經授權的第三方竊取或篡改等;

45、所述訪問控制包括:身份驗證,保證身份合法才允許訪問數據,驗證用戶名、密碼、生物特征的身份信息,確認用戶的真實身份,防止非法用戶訪問數據;為不同的用戶設定不同的訪問級別和權限,限制用戶對數據的訪問和操作范圍,進一步保證數據的安全性;

46、所述審計跟蹤包括:對數據訪問過程進行監控和記錄,通過記錄用戶的訪問行為、操作歷史和異常情況,便于在發生安全問題時進行調查和追蹤,以便及時采取措施;

47、所述數據脫敏包括:利用脫敏算法替換、掩碼、數據混淆、數據仿真對敏感數據進行變形后傳輸、存儲,實現敏感隱私數據的保護。

48、本發明通過構建全面的數據安全與隱私保護體系,建立完善的安全合規治理體系,保證非結構化數據在存儲、處理、傳輸等過程中的安全性和合規性。

49、進一步地,所述s4步驟的設計動態元數據管理機制的方法包括:動態生成所述數據模型中的非結構化數據的元數據,并對元數據實時更新和維護;

50、所述元數據包括:創建時間、作者、描述、標簽、數據來源、數據格式、處理狀態、訪問權限;

51、所述對元數據實時更新和維護包括:對元數據的處理狀態、訪問權限進行更新和維護。

52、進一步地,所述s5步驟的通過智能識別引擎提取關鍵信息中的所述智能識別引擎是由分詞算法、詞性標注算法、命名實體識別算法、句法分析算法、語義分析算法、情感分析算法構成的ai算法集,通過這些ai算法進行實體抽取、關系抽取和屬性抽取,識別提取非結構化數據中的實體、關系、屬性信息;

53、其中,所述實體抽取是從非結構化數據中識別出符合定義的實體;

54、所述關系抽取是從非結構化數據中抽取出符合事實的關系三元組,即判定兩個實體間是否存在某種語義化的有向關系;

55、所述屬性抽取是抽取用于描述實體的特性的屬性信息。

56、本發明還提供一種數據中臺管理非結構化數據的系統,執行如上述所述的數據中臺管理非結構化數據的方法,包括:

57、抓取非結構化數據模塊:用于接入多源異構數據,配置各種數據源信息,根據配置的數據源信息連接到所述多源異構數據對應的目標數據源,抓取目標數據源的非結構化數據;

58、識別非結構化數據模塊:用于通過智能識別引擎識別所述非結構化數據,對非結構化數據進行深度處理與知識提取;

59、安全存儲非結構化數據模塊:用于定義統一的數據模型,將深度處理與知識提取后的非結構化數據保存到該數據模型中,對數據模型中的數據進行智能分類與索引,構建數據安全與隱私保護體系,安全存儲非結構化數據;

60、形成結構化數據視圖模塊:用于設計動態元數據管理機制,對非結構化數據的元數據進行實時更新和維護,形成統一的結構化的數據視圖;

61、構建知識圖譜模塊:用于通過智能識別引擎提取非結構化數據中的實體、關系、屬性信息,構建知識圖譜,展示知識圖譜;

62、檢索信息模塊:用于通過智能檢索引擎,理解用戶的查詢意圖,從知識圖譜、數據視圖中檢索相關信息,并提供豐富的上下文信息;

63、數據流通共享模塊:用于生態集成與開放api,提供豐富的api接口,實現與業務系統、數據平臺和分析工具的數據的無障礙流通和共享。

64、本發明還提供一種計算機可讀存儲介質,其上存儲有計算機程序,所述程序被處理器執行時實現如上述所述的數據中臺管理非結構化數據的方法的步驟。

65、本發明還提供一種計算機設備,所述計算機設備包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現如上述所述的數據中臺管理非結構化數據的方法的步驟。

66、與現有技術相比,本發明的有益效果在于:

67、本發明提供的數據中臺管理非結構化數據的方法及系統通過構建穩定、可擴展的數據中臺架構,實現對來自不同系統和設備的非結構化數據的全面整合、高效處理、安全存儲和智能分析,打破了數據孤島現象,提高了數據共享和協同工作的效率;集成多種智能處理技術,如nlp、圖像識別、語音識別等,實現對非結構化數據的深度挖掘和分析,提高了數據處理的速度和準確性,降低了人工干預的成本和錯誤率;建立完善的數據安全管理體系,通過數據加密、訪問控制和審計追蹤等手段,保證非結構化數據在傳輸、存儲和處理過程中的安全性和合規性;形成結構化的數據視圖,提供直觀易用的工具,降低了非結構化數據處理和分析的技術門檻,使企業能夠更加便捷地利用這些數據資源;構建企業知識圖譜,實現對非結構化數據中知識和信息的提取、復用和智能搜索功能,為企業決策提供有力支持,有利于為企業創造更大的數據價值。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 鄯善县| 资溪县| 门源| 射洪县| 陆良县| 土默特右旗| 修武县| 轮台县| 长泰县| 铜陵市| 赤水市| 民丰县| 乳山市| 中卫市| 密云县| 乐至县| 陵水| 惠安县| 仪陇县| 体育| 永修县| 广元市| 什邡市| 卓尼县| 翁牛特旗| 芦山县| 曲靖市| 康定县| 新兴县| 合水县| 泊头市| 靖江市| 磐安县| 隆化县| 白银市| 定州市| 瑞安市| 汽车| 房产| 兴义市| 惠东县|