麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

基于熵的數據價值衡量與定價方法與流程

文檔序號:12597791閱讀:來源:國知局

技術特征:

1.一種基于熵的數據價值衡量與定價方法,其特征在于,包括如下步驟:

步驟1:定義數據商品新型的價格函數;

步驟2:將數據集抽象成為數據矩陣;

步驟3:從數據集的行和屬性兩個角度來度量數據集的信息量,獲得數據集的定價策略。

2.根據權利要求1所述的基于熵的數據價值衡量與定價方法,其特征在于,所述步驟1包括:令數據的價格P是數據信息熵H的函數,記為:

P=f(H) (1)

將一個擁有n個可能的值,記為{x1,x2,…,xn}和概率分布函數為p(X)的離散變量X的熵定義為H(X):

<mrow> <mi>H</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msubsup> <mi>log</mi> <mn>2</mn> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

式中:p(xi)表示取xi值時的概率;當存在兩個離散變量X,Y,且分別對應有n和m個可能的輸出值,記為{x1,x2,…,xn},{y1,y2,…,ym},則定義X,Y的聯合概率分布函數p(X,Y),采用聯合熵來度量X,Y所共同擁有的信息量,定義為H(X,Y):

<mrow> <mi>H</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>y</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <msubsup> <mi>log</mi> <mn>2</mn> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>y</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

式中:p(xi,yj)表示輸出值xi,yj同時出現的聯合概率;n和m為正整數。

3.根據權利要求1所述的基于熵的數據價值衡量與定價方法,其特征在于,所述步驟2包括:

步驟2.1:將擁有n行記錄m列屬性的數據集抽象成為一個n×m的數據矩陣X,記為:

令ri=(xi1 xi2 … xim),ri表示第i條記錄,對應于矩陣X的第i行;其中i=1,2,…,n;矩陣X的第j列屬性記為:其中j=1,2,…,m。

4.根據權利要求1所述的基于熵的數據價值衡量與定價方法,其特征在于,所述步驟3包括:

步驟3.1:基于屬性的數據集信息度量;

對于單個屬性cj,共有k個可能的值記為利用信息熵來度量屬性cj所含有的信息量:

<mrow> <mi>H</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <msub> <mi>j</mi> <mi>i</mi> </msub> </msub> <mo>)</mo> </mrow> <msubsup> <mi>log</mi> <mn>2</mn> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <msub> <mi>j</mi> <mi>i</mi> </msub> </msub> <mo>)</mo> </mrow> </mrow> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

其中,

<mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <msub> <mi>j</mi> <mi>i</mi> </msub> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mi>&delta;</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>c</mi> <msub> <mi>j</mi> <mi>i</mi> </msub> </msub> <mo>)</mo> </mrow> </mrow> <mi>n</mi> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>&delta;</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>c</mi> <msub> <mi>j</mi> <mi>i</mi> </msub> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>c</mi> <msub> <mi>j</mi> <mi>i</mi> </msub> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&NotEqual;</mo> <msub> <mi>c</mi> <msub> <mi>j</mi> <mi>i</mi> </msub> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

式中:H(cj)表示第j個屬性的信息熵,表示第j個屬性中第i個值出現的概率,表示第j個屬性的第i個值,xij表示數據集中第i行第j列的值,表示xij是否等于

當數據集中有多個屬性需要度量時,采用聯合熵,具體地,定義一個屬性集合所述屬性集合Sk的基于屬性的信息量定義為多個屬性的聯合熵:

<mrow> <msub> <mi>H</mi> <mi>c</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>H</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <msub> <mi>i</mi> <mn>1</mn> </msub> </msub> <mo>,</mo> <msub> <mi>c</mi> <msub> <mi>i</mi> <mn>2</mn> </msub> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>c</mi> <msub> <mi>i</mi> <mi>k</mi> </msub> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

式中:Hc(Sk)表示k個屬性組成的集合的信息熵,表示在這個屬性集合中第k個屬性,表示這k個屬性組成的信息熵的聯合熵;聯合公式2、公式5、公式6求解公式7所定義的多屬性的聯合熵;

步驟3.2:基于行的數據集信息度量;將擁有n行記錄m個屬性的數據集X基于行的信息量定義為:

<mrow> <msub> <mi>H</mi> <mi>r</mi> </msub> <mrow> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msubsup> <mi>log</mi> <mn>2</mn> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

式中:ri表示第i個數據集中的一條記錄;Hr(X)表示數據子集X的信息熵,p(ri)表示第i條記錄出現的概率,

假設在數據交易平臺中,給定一個數據集D,數據購買者可能購買整個數據集D,也可能只購買數據集D的子集S,其中子集S可以就是數據集D本身;則基針對數據子集S給出如下定價策略如下:

式中,compensate(D)表示數據平臺為獲得數據集D所需要向數據擁有者支付的費用,h(D)表示數據集D在整個數據平臺中的熱度,Price(S)表示欲購買數據子集S的價格,Hr(S)表示S的信息熵,Hr(D)表示數據集D的信息熵,h(D)表示數據集D在數據平臺中的熱度;其中:

<mrow> <mi>h</mi> <mrow> <mo>(</mo> <mi>D</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>c</mi> <mi>l</mi> <mi>i</mi> <mi>c</mi> <mi>k</mi> <mrow> <mo>(</mo> <mi>D</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>&Sigma;</mi> <mi>c</mi> <mi>l</mi> <mi>i</mi> <mi>c</mi> <mi>k</mi> <mrow> <mo>(</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>

式中,click(D)表示該平臺下數據集D點擊瀏覽的次數,click(Di)表示該平臺下數據集Di點擊瀏覽的次數;Di表示數據平臺中第i個數據集;公式10中分子表示該數據集被點擊的次數,分母表示該平臺下所有數據集被點擊瀏覽的次數,從而來表示數據集D在整個數據交易平臺中的熱門程度。

當前第2頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 桑植县| 莲花县| 郧西县| 达州市| 辽中县| 株洲市| 张家口市| 阿克陶县| 章丘市| 洞头县| 井陉县| 洛南县| 滨海县| 玛沁县| 章丘市| 威远县| 鄂尔多斯市| 和硕县| 安徽省| 霍邱县| 普安县| 阜平县| 德州市| 洛川县| 霍林郭勒市| 方正县| 古丈县| 峨边| 永吉县| 揭阳市| 伊吾县| 五大连池市| 通江县| 阿图什市| 安康市| 固安县| 灵璧县| 乐平市| 钟祥市| 蓝山县| 隆昌县|