本發明實施例涉及數據處理領域,特別是涉及一種數據信息處理方法及裝置。
背景技術:
1、目前,常用的數據信息都是直接將數據或文件解析存儲,再統一進行計算處理。在進行數據信息查詢時,數據響應會非常慢,對數據分析和數據查看非常不便利。
2、公開號為cn115098506a、名稱為“一種關聯數據的存儲方法、裝置、設備及存儲介質”,公開了一種關聯數據的存儲方法,包括:在目標數據庫中獲取各數據節點,以及各數據節點對應的多個節點屬性,按照預設的數值區間,為每個數據節點確定各節點屬性分別對應的屬性標識;根據各所述數據節點對應的多個節點屬性,以及各節點屬性分別對應的屬性標識,構建各所述數據節點分別對應的節點信息表;根據目標數據庫中各樣本對應的關聯節點屬性,以及各所述節點信息表,獲取各樣本在不同關聯節點下對應的屬性標識集;根據各樣本在不同關聯節點下對應的屬性標識集,以及各樣本的樣本標識,構建樣本關聯信息表。然而,上述方法過于簡單,無法有效解決上述問題。
3、為此,有必要提供一種數據信息處理方法及裝置,以解決上述問題。
技術實現思路
1、本申請實施例的目的在于提出一種數據信息處理方法及裝置,通過節點相似程度挖掘新的數據關系,從而為數據抽取提供了多樣性和準確性。
2、根據本發明的一個方面,提供一種數據信息處理方法,所述方法包括:
3、根據基礎的數據標簽自動生成初始數據關系;
4、根據所述初始數據關系獲得基礎數據;
5、建設數據節點,通過節點相似程度挖掘新的數據關系。
6、優選地,根據業務屬性和信息屬性建立所述基礎的數據標簽。
7、優選地,所述通過節點相似程度挖掘新的數據關系包括:
8、設置第一數據節點和第二數據節點,所述第一數據節點和所述第二數據節點是多對多的關系;
9、以第一數據節點為行m,以第二數據節點為列n,得到第一矩陣a1,所述第一矩陣a1為m*n矩陣,所述第一矩陣a1的元素值aij為第i個第一數據節點在第j個第二數據節點關聯的次數,所述第一矩陣a1為行距矩陣;
10、計算所述第一矩陣a的行與行之間的距離值,對所述距離值進行歸一化處理,所述距離值越大,歸一化處理后的值越小,則相似性越小,所述距離值越小,歸一化處理后的值越大,則相似性越大。
11、優選地,以第一數據節點為行m以及列m,得到第二矩陣a2,所述第二矩陣a2為m*m矩陣,所述第二矩陣a2為相似矩陣。
12、優選地,計算所有數據節點到中心數據圓點的個數,并計算平均值,將超出平均值的數據節點去除。
13、優選地,統計每一個單關系中節點數與全部點數的比值,計算提升度值,將所述提升度值大于1的關系去除。
14、優選地,當所述第一矩陣a1為行為矩陣時,
15、m1(a,b)=sqrt((a1(a)-a1(b))^2)
16、m2(a,b)=sqrt((a2(a)-a2(b))^2)
17、mn(a,b)=sqrt(((an(a)-an(b))^2)
18、取m最小值數據產生的數組,定義為新的數據節點;
19、當所述第二矩陣a2為相似矩陣時,
20、m1(i,j)=|a1(a)-a1(b)|
21、m2(i,j)=|a2(a)-a2(b)|
22、mn(i,j)=|an(a)-an(b)|
23、取m最大值數據產生的數組,定義為新的數據節點;
24、其中,參數m表示數據a和數據b之間的邏輯距離,an(a)表示樣本i的第n個特征的值,an(b)表示樣本j的第n個特征的值。根據本發明的另一個方面,提供一種數據信息處理裝置,所述裝置包括:
25、初始數據關系生成模塊,其用于根據基礎的數據標簽自動生成初始數據關系;
26、基礎數據獲得模塊,其用于根據所述初始數據關系獲得基礎數據;
27、新的數據關系挖掘模塊,其用于建設數據節點,通過節點相似程度挖掘新的數據關系。
28、本申請公開的一種數據信息處理方法及裝置,所述方法包括:根據基礎的數據標簽自動生成初始數據關系;根據所述初始數據關系獲得基礎數據;建設數據節點,通過節點相似程度挖掘新的數據關系,通過節點相似程度挖掘新的數據關系,從而為數據抽取提供了多樣性和準確性。
1.一種數據信息處理方法,其特征在于,所述方法包括:
2.根據權利要求1所述的數據信息處理方法,其特征在于,根據業務屬性和信息屬性建立所述基礎的數據標簽。
3.根據權利要求1所述的數據信息處理方法,其特征在于,所述通過節點相似程度挖掘新的數據關系包括:
4.根據權利要求3所述的數據信息處理方法,其特征在于,以第一數據節點為行m以及列m,得到第二矩陣a2,所述第二矩陣a2為m*m矩陣,所述第二矩陣a2為相似矩陣。
5.根據權利要求4所述的數據信息處理方法,其特征在于,計算所有數據節點到中心數據圓點的個數,并計算平均值,將超出平均值的數據節點去除。
6.根據權利要求5所述的數據信息處理方法,其特征在于,統計每一個單關系中節點數與全部點數的比值,計算提升度值,將所述提升度值大于1的關系去除。
7.根據權利要求4所述的數據信息處理方法,其特征在于,
8.一種數據信息處理裝置,其特征在于,所述裝置包括:
9.一種電子設備,其特征在于,包括:
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質中存儲有計算機執行指令,所述計算機執行指令被處理器執行時用于實現如權利要求1至7任一項所述的方法。