麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種基于多維度深度策略優化的海量數據統計方法和系統與流程

文檔序號:41773655發布日期:2025-04-29 18:45閱讀:5來源:國知局
一種基于多維度深度策略優化的海量數據統計方法和系統與流程

本發明屬于數據處理,具體涉及一種基于多維度深度策略優化的海量數據統計方法和系統。


背景技術:

1、隨著信息技術的迅猛發展,我們已步入大數據時代,組件和數據格式日益繁雜多樣。如今,不僅包含常見的組件和結構化數據,還涵蓋了眾多國產化組件,如人大金倉、天云星、dm8等,以及不同類型的存儲形式,像阿里云的oss對象存儲等。這種多樣性極大地拓展了數據處理的范疇,但同時也帶來了諸多挑戰。

2、傳統的數據量統計方法主要圍繞結構化數據展開,對于半結構化和非結構化數據的統計則顯得力不從心。在當前的技術環境下,數據量統計的需求卻不斷增長,因為數據量不僅僅是反映數據存儲規模和資源占用情況的重要指標,更是數據對賬不可或缺的基礎元素。從企業管理層面看,數據量能夠為管理層提供決策依據,助力其深入了解業務發展態勢與特征表現。然而,面對數據組件的多樣性、統計規則的復雜性以及海量的數據規模,如何高效地存儲、管理和處理百億級、千億級的海量數據,并精準計算數據量,成為亟待解決的難題。

3、有鑒于此,提出一種基于多維度深度策略優化的海量數據統計方法和系統是非常具有意義的。


技術實現思路

1、為了克服傳統數據量統計方法的不足,針對解決在數據量巨大、組件種類繁多、數據格式多樣化的情況下的數據量統計的靈活性和精準性,本發明提供一種基于多維度深度策略優化的海量數據統計方法和系統,以解決數據組件多樣性、統計規則復雜性、數據量龐大等問題,實現不同類型數據量的準確統計。

2、第一方面,本發明提出了一種基于多維度深度策略優化的海量數據統計方法,該方法包括如下步驟:

3、針對不同組件下的表進行數據量統計,其中組件包括關系型數據庫、分布式計算存儲組件、文檔數據庫與消息隊列、全文數據庫、鍵值數據庫以及非結構化和半結構化組件,根據組件類型采用不同統計規則,組件統計包括全表統計、分區統計和入庫時間統計,對非結構化和半結構化組件配置過程統計;

4、在過程統計的任務執行過程中,根據每個節點的運行情況生成輸入量和輸出量;

5、對不同組件自定義配置統計規則,通過所述組件統計和所述過程統計相結合的方式完成數據量的統計;其中,關系型數據庫配置全表統計、入庫時間統計和過程統計;分布式計算存儲組件若為分區表,配置全表統計、分區統計和過程統計,若為非分區表,則可進行全表統計、入庫時間統計和過程統計;文檔數據庫、消息隊列配置全表統計、入庫時間統計和過程統計;全文數據庫配置全表統計和過程統計;鍵值數據庫配置全表統計、入庫時間統計和過程統計。

6、優選的,所述組件統計用于統計調度和數據加工的復雜性,具體包括:

7、初始化表默認統計規則,判斷其合理性與完整性,依據不同組件類型的默認統計規則約束進行判斷,若規則不完整,進一步判斷是否初始化統計,若處于初始化狀態,則清空當前所有早于此次統計時間的所有日志后執行下一步,否則結束統計;

8、判斷表定義信息是否完整,即表結構信息是否完整,若不完整,則結束統計,反之則進入下一步;

9、判斷是否存在運行中的任務阻塞,若有則等待任務完成后再結束統計,反之則進入下一步;

10、在不存在任務阻塞時,進一步判斷當前表是否僅配置入庫時間統計且為首次統計,若是則系統自動補全全表統計,反之則進入下一步;

11、進一步判斷統計類型,針對全表統計、分區統計、入庫時間統計三種類型分別處理。

12、優選的,所述過程統計的實現流程具體包括:構建數據接入或處理任務時,判斷是否開啟統計配置,若開啟統計配置,則進入下一步,否則僅啟用任務并記錄執行日志后結束流程;

13、對算子的源節點、算子節點和目標節點進行埋點標識,包括獲取組件環境變量、定義統計指標分組及具體指標、實現批量或流式處理統計操作、推送指標到prometheus、解析日志到es并加工輸出到mysql,為與組件統計精準度比對提供數據支撐,mysql表結構包含任務相關信息及輸入輸出量等字段。

14、進一步優選的,所述針對全表統計、分區統計、入庫時間統計三種類型分別處理,具體包括:若統計類型為全表統計,則默認直接全表count(*),進入下一步;

15、若統計類型為分區統計,則:

16、根據調用抽象層接口獲取表所有分區;

17、根據統計日志中獲取該表所有統計成功且未被刪除的分區范圍;

18、對比當前最新的分區與統計日志的分區差異,標識哪些是歷史分區和新增分區;若是新增分區,則加入統計任務;若歷史分區依然存在分區列表且日志中已有數據,則不做處理;若歷史分區不在分區列表中,則分區標識為刪除;

19、對跨分區的處理,按照t-1時間獲取分區規則,并轉換出分區名,判斷該分區是否在分區列表中,存在則加入統計,不存在則直接記錄為0且該分區統計任務標識為失敗;

20、繼續判斷是否存在未統計的分區,若存在則進一步分析是否是異步統計;

21、若統計類型為入庫時間統計,則獲取當前統計日志,封裝入庫時間查詢條件為00:00:00-23:59:59,進入下一步。

22、進一步優選的,還包括:判斷是否需要對表進行異步統計,若需要異步統計,則請求統一數據操作層的異步統計接口,記錄抽象層返回的唯一標識并封裝主日志記錄,最后完成抽象層回調接口;若不需要異步統計,則直接調用抽象層統計接口并封裝統計日志,即可獲取日志明細;

23、根據上一步驟的結果新增或更新統計日志,輸出原子指標。

24、進一步優選的,還包括:根據統計日志的原子指標計算衍生指標,根據全表統計、分區統計、全表統計與入庫時間統計結合的不同情況采用不同計算規則計算全量、增量和刪除量結果,計算規則如下:

25、對于全表統計,若全表統計失敗,則整個計算結果不變;若全表統計成功且入庫時間增量規則統計失敗,則全量為當批次統計成功的數據全量;增量為當批次統計成功的數據全量減去上次統計成功的數據全量,若為負數,則為0;刪除量為上次統計成功的數據全量減去當批次統計成功的數據全量,若為負數,則為0;

26、對于全表統計,首先明確調度范圍:第1次調度包含分區列表中的所有分區,第n次調度包含上次調度日期至t范圍內的所有分區及上一批次統計日志中沒跑成功過的分區,n大于等于2;

27、其次確認計算規則:若所有分區統計失敗,則整個計算結果不變;但若只要存在有分區統計成功日志,則總量為按所有非標記為刪除的分區對應取各個分區最新一條統計成功的數據量累加;增量為本批次統計成功的分區數據量之和減去拿本批次統計成功的分區取其對應歷史批次統計的最新一次成功的數據量之和,沒有取0;刪除量為對比本批次分區列表,原本日志中跑成功的分區但已不在最新的分區列表中的分區;

28、對于全表統計加入庫時間統計,入庫時間增量規則為上次全表統計成功的開始時間至當前發起統計時間的時間范圍內的增量,若不存在上次全表統計成功日志,則以time小于當前發起統計時間為準,分以下情況:

29、若全表統計失敗,則整個計算結果不變;

30、若全表統計成功且入庫時間增量規則統計失敗,則全量為當批次統計成功的數據全量;增量為當批次統計成功的數據全量減去上次統計成功的數據全量,若為負數,則為0;刪除量為上次統計成功的數據全量減去當批次統計成功的數據全量,若為負數,則為0;

31、若全表統計和入庫時間增量規則都統計成功,則全量為當批次統計成功的數據全量;增量為入庫時間增量規則計算出來的結果;刪除量為上次統計成功的數據全量加上當次增量加上當次全量,若是負數,則設置為0。

32、優選的,所述初始化表默認統計規則,判斷其合理性與完整性的約束條件為關系型數據庫、文檔數據庫、消息隊列、全文數據庫和鍵值數據庫默認全表統計,分布式分區表默認分區統計。

33、第二方面,本發明實施例提供了一種基于多維度深度策略優化的海量數據統計系統,包括:

34、組件統計模塊,配置用于針對不同組件下的表進行數據量統計,其中組件包括關系型數據庫、分布式計算存儲組件、文檔數據庫與消息隊列、全文數據庫、鍵值數據庫以及非結構化和半結構化組件,根據組件類型采用不同統計規則,組件統計包括全表統計、分區統計和入庫時間統計,對非結構化和半結構化組件配置過程統計;

35、過程統計模塊,配置用于在過程統計的任務執行過程中,根據每個節點的運行情況生成輸入量和輸出量;

36、統計規則配置模塊,配置用于對不同組件自定義配置統計規則,通過所述組件統計和所述過程統計相結合的方式完成數據量的統計;其中,關系型數據庫配置全表統計、入庫時間統計和過程統計;分布式計算存儲組件若為分區表,配置全表統計、分區統計和過程統計,若為非分區表,則可進行全表統計、入庫時間統計和過程統計;文檔數據庫、消息隊列配置全表統計、入庫時間統計和過程統計;全文數據庫配置全表統計和過程統計;鍵值數據庫配置全表統計、入庫時間統計和過程統計。

37、與現有技術相比,本發明的有益成果在于:

38、本發明主要基于組件本身自帶的統計能力,并結合任務執行過程中不斷運行產生的數據量變化情況,從而在大數據場景下實現半結構化及非結構化數據的數據量統計,并且使用統計規則和調度的靈活配置。既可以實現快速批量配置,又可以使得物理表數據量的完整性和準確性統計,進一步提高數據指標的價值,為決策者提供數據支撐。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 伊通| 景宁| 佛坪县| 贵阳市| 瓦房店市| 榕江县| 华安县| 巴林右旗| 沂南县| 阿巴嘎旗| 丰台区| 宜君县| 海晏县| 镇原县| 丹棱县| 高雄市| 河池市| 蒙自县| 玛曲县| 大理市| 文安县| 南江县| 贵德县| 临颍县| 鄯善县| 南陵县| 凌海市| 彰化市| 萨迦县| 荣成市| 永丰县| 军事| 西乡县| 浑源县| 鄂伦春自治旗| 秭归县| 罗甸县| 五大连池市| 印江| 阳山县| 高青县|