本發明涉及人工智能,可應用于大數據,本發明尤其涉及分區遷移方法、裝置、設備及存儲介質。
背景技術:
1、當數據湖中的分區字段發生變更時,分區字段的變化會改變數據湖的組織和索引方式,使得初始分區存儲的數據記錄出現重復,這種重復會導致數據異常,使得數據分析和業務決策變得不可靠。為了避免這種情況,需要對初始分區存儲的數據記錄進行數據遷移。
2、然而,初始分區存儲的數據記錄的遷移過程繁瑣,不利于提高數據記錄的遷移效率。其原因在于,現有技術缺乏數據湖的分區遷移方案,當前只能依賴繁瑣的人工操作來完成初始分區存儲的數據記錄的遷移,而人工操作的方式會耗費大量的人力資源和時間資源,增加了初始分區存儲的數據記錄的遷移時間,因此,不利于提高數據記錄的遷移效率。
技術實現思路
1、本發明提供一種分區遷移方法、裝置、計算機設備及存儲介質,以解決初始分區存儲的數據記錄的遷移過程繁瑣,不利于提高數據記錄的遷移效率的技術問題。
2、第一方面,提供了一種分區遷移方法,包括:
3、連接數據源,從所述數據源中獲取增量數據;
4、獲取所述增量數據中的目標分區字段,獲取數據湖中的元數據表,獲取所述元數據表中存儲的初始分區字段;
5、當所述目標分區字段和所述初始分區字段滿足預設條件時,獲取初始分區;
6、獲取所述初始分區存儲的數據記錄;
7、基于所述目標分區字段和預設的更新方式,對所述數據記錄進行更新,得到更新后的所述數據記錄;
8、獲取所述目標分區字段對應的目標分區,將更新后的所述數據記錄從所述初始分區遷移到所述目標分區。
9、進一步地,所述獲取所述增量數據中的目標分區字段,獲取數據湖中的元數據表,獲取所述元數據表中存儲的初始分區字段,包括:
10、獲取所述增量數據中的主鍵和目標分區字段,通過數據湖提供的查詢接口,獲取數據湖中的元數據表;
11、獲取所述主鍵的查詢請求,根據所述查詢請求查詢所述元數據表中是否存在所述主鍵;當所述元數據表存在所述主鍵時,獲取所述元數據表中存儲的初始分區字段。
12、進一步地,所述當所述目標分區字段和所述初始分區字段滿足預設條件時,獲取初始分區,包括:
13、獲取所述目標分區字段中的字段值,獲取所述初始分區字段中的字段值;
14、當所述目標分區字段中的字段值與所述初始分區字段中的字段值不一致時,獲取所述初始分區字段中的字段值對應的初始分區。
15、進一步地,所述獲取所述初始分區存儲的數據記錄,包括:
16、通過數據湖提供的訪問接口,訪問所述初始分區;
17、對所述初始分區的數據塊進行讀取操作,得到所述初始分區存儲的數據記錄。
18、進一步地,所述基于所述目標分區字段和預設的更新方式,對所述數據記錄進行更新,得到更新后的所述數據記錄,包括:
19、獲取更新指令,執行所述更新指令,將所述數據記錄中的所述初始分區字段更新為所述目標分區字段;
20、選取采用所述目標分區字段的所述數據記錄作為更新后的所述數據記錄。
21、進一步地,所述獲取所述目標分區字段對應的目標分區,將更新后的所述數據記錄從所述初始分區遷移到所述目標分區,包括:
22、獲取所述目標分區字段對應的目標分區,訪問所述目標分區字段對應的目標分區;
23、生成遷移指令,執行所述遷移指令,將更新后的所述數據記錄從所述初始分區遷移到所述目標分區。
24、進一步地,在所述獲取所述目標分區字段對應的目標分區,將更新后的所述數據記錄從所述初始分區遷移到所述目標分區之后,所述分區遷移方法,包括:
25、生成刪除指令,執行所述刪除指令,刪除所述初始分區存儲的數據記錄。
26、第二方面,提供了一種分區遷移裝置,包括:
27、第一獲取模塊,用于連接數據源,從所述數據源中獲取增量數據;
28、第二獲取模塊,用于獲取所述增量數據中的目標分區字段,獲取數據湖中的元數據表,獲取所述元數據表中存儲的初始分區字段;
29、第三獲取模塊,用于當所述目標分區字段和所述初始分區字段滿足預設條件時,獲取初始分區;
30、第四獲取模塊,用于獲取所述初始分區存儲的數據記錄;
31、更新模塊,用于基于所述目標分區字段和預設的更新方式,對所述數據記錄進行更新,得到更新后的所述數據記錄;
32、遷移模塊,用于獲取所述目標分區字段對應的目標分區,將更新后的所述數據記錄從所述初始分區遷移到所述目標分區。
33、第三方面,提供了一種計算機設備,包括存儲器、處理器以及存儲在存儲器中并可在處理器上運行的計算機程序,處理器執行計算機程序時實現上述分區遷移方法的步驟。
34、第四方面,提供了一種計算機可讀存儲介質,計算機可讀存儲介質存儲有計算機程序,計算機程序被處理器執行時實現上述分區遷移方法的步驟。
35、本申請提供一種分區遷移方法、裝置、計算機設備及存儲介質,連接數據源,從所述數據源中獲取增量數據;獲取所述增量數據中的目標分區字段,獲取數據湖中的元數據表,獲取所述元數據表中存儲的初始分區字段;當所述目標分區字段和所述初始分區字段滿足預設條件時,獲取初始分區;獲取所述初始分區存儲的數據記錄;基于所述目標分區字段和預設的更新方式,對所述數據記錄進行更新,得到更新后的所述數據記錄;獲取所述目標分區字段對應的目標分區,將更新后的所述數據記錄從所述初始分區遷移到所述目標分區,有益效果在于兩方面,一方面,獲取所述目標分區字段對應的目標分區,將更新后的所述數據記錄從所述初始分區遷移到所述目標分區,由于無需人工遷移,因此減少了初始分區存儲的數據記錄的遷移時間,有利于提高初始分區存儲的數據記錄的遷移效率;另一方面,實現了初始分區存儲的數據記錄的自動遷移,不會受到人工干預的影響,因此有利于增強更新后的所述數據記錄在遷移過程中的穩定性。
1.一種分區遷移方法,其特征在于,包括:
2.根據權利要求1所述的分區遷移方法,其特征在于,所述獲取所述增量數據中的目標分區字段,獲取數據湖中的元數據表,獲取所述元數據表中存儲的初始分區字段,包括:
3.根據權利要求1所述的分區遷移方法,其特征在于,所述當所述目標分區字段和所述初始分區字段滿足預設條件時,獲取初始分區,包括:
4.根據權利要求1所述的分區遷移方法,其特征在于,所述獲取所述初始分區存儲的數據記錄,包括:
5.根據權利要求1所述的分區遷移方法,其特征在于,所述基于所述目標分區字段和預設的更新方式,對所述數據記錄進行更新,得到更新后的所述數據記錄,包括:
6.根據權利要求1所述的分區遷移方法,其特征在于,所述獲取所述目標分區字段對應的目標分區,將更新后的所述數據記錄從所述初始分區遷移到所述目標分區,包括:
7.根據權利要求1至6任一項所述的分區遷移方法,其特征在于,在所述獲取所述目標分區字段對應的目標分區,將更新后的所述數據記錄從所述初始分區遷移到所述目標分區之后,所述分區遷移方法,包括:
8.一種分區遷移裝置,其特征在于,包括:
9.一種計算機設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1至7任一項所述分區遷移方法的步驟。
10.一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至7任一項所述分區遷移方法的步驟。