1.一種基于熵的數據價值衡量與定價方法,其特征在于,包括如下步驟:
步驟1:定義數據商品新型的價格函數;
步驟2:將數據集抽象成為數據矩陣;
步驟3:從數據集的行和屬性兩個角度來度量數據集的信息量,獲得數據集的定價策略。
2.根據權利要求1所述的基于熵的數據價值衡量與定價方法,其特征在于,所述步驟1包括:令數據的價格P是數據信息熵H的函數,記為:
P=f(H) (1)
將一個擁有n個可能的值,記為{x1,x2,…,xn}和概率分布函數為p(X)的離散變量X的熵定義為H(X):
式中:p(xi)表示取xi值時的概率;當存在兩個離散變量X,Y,且分別對應有n和m個可能的輸出值,記為{x1,x2,…,xn},{y1,y2,…,ym},則定義X,Y的聯合概率分布函數p(X,Y),采用聯合熵來度量X,Y所共同擁有的信息量,定義為H(X,Y):
式中:p(xi,yj)表示輸出值xi,yj同時出現的聯合概率;n和m為正整數。
3.根據權利要求1所述的基于熵的數據價值衡量與定價方法,其特征在于,所述步驟2包括:
步驟2.1:將擁有n行記錄m列屬性的數據集抽象成為一個n×m的數據矩陣X,記為:
令ri=(xi1 xi2 … xim),ri表示第i條記錄,對應于矩陣X的第i行;其中i=1,2,…,n;矩陣X的第j列屬性記為:其中j=1,2,…,m。
4.根據權利要求1所述的基于熵的數據價值衡量與定價方法,其特征在于,所述步驟3包括:
步驟3.1:基于屬性的數據集信息度量;
對于單個屬性cj,共有k個可能的值記為利用信息熵來度量屬性cj所含有的信息量:
其中,
式中:H(cj)表示第j個屬性的信息熵,表示第j個屬性中第i個值出現的概率,
表示第j個屬性的第i個值,xij表示數據集中第i行第j列的值,
表示xij是否等于
當數據集中有多個屬性需要度量時,采用聯合熵,具體地,定義一個屬性集合所述屬性集合Sk的基于屬性的信息量定義為多個屬性的聯合熵:
式中:Hc(Sk)表示k個屬性組成的集合的信息熵,表示在這個屬性集合中第k個屬性,
表示這k個屬性組成的信息熵的聯合熵;聯合公式2、公式5、公式6求解公式7所定義的多屬性的聯合熵;
步驟3.2:基于行的數據集信息度量;將擁有n行記錄m個屬性的數據集X基于行的信息量定義為:
式中:ri表示第i個數據集中的一條記錄;Hr(X)表示數據子集X的信息熵,p(ri)表示第i條記錄出現的概率,
假設在數據交易平臺中,給定一個數據集D,數據購買者可能購買整個數據集D,也可能只購買數據集D的子集S,其中子集S可以就是數據集D本身;則基針對數據子集S給出如下定價策略如下:
式中,compensate(D)表示數據平臺為獲得數據集D所需要向數據擁有者支付的費用,h(D)表示數據集D在整個數據平臺中的熱度,Price(S)表示欲購買數據子集S的價格,Hr(S)表示S的信息熵,Hr(D)表示數據集D的信息熵,h(D)表示數據集D在數據平臺中的熱度;其中:
式中,click(D)表示該平臺下數據集D點擊瀏覽的次數,click(Di)表示該平臺下數據集Di點擊瀏覽的次數;Di表示數據平臺中第i個數據集;公式10中分子表示該數據集被點擊的次數,分母表示該平臺下所有數據集被點擊瀏覽的次數,從而來表示數據集D在整個數據交易平臺中的熱門程度。