本申請(qǐng)涉及數(shù)據(jù)科學(xué),尤其涉及一種數(shù)據(jù)處理方法和裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品。
背景技術(shù):
1、在統(tǒng)計(jì)學(xué)和數(shù)據(jù)科學(xué)領(lǐng)域,協(xié)方差矩陣是一種重要的統(tǒng)計(jì)信息載體。由于協(xié)方差矩陣通常包含著個(gè)體的各類個(gè)人數(shù)據(jù)信息,在實(shí)際運(yùn)用協(xié)方差矩陣時(shí),為防止個(gè)體隱私泄露,常采用差分隱私技術(shù)對(duì)其進(jìn)行處理,確保處理后的協(xié)方差矩陣能夠保護(hù)個(gè)體隱私。其中,差分隱私技術(shù)是一種通過向數(shù)據(jù)集中添加受控的隨機(jī)噪聲,以防止任何人獲取關(guān)于數(shù)據(jù)集中個(gè)體信息的數(shù)學(xué)技術(shù)。差分隱私可以在保護(hù)個(gè)體隱私的同時(shí),允許數(shù)據(jù)的聚合分析。
2、現(xiàn)有技術(shù)通常直接對(duì)協(xié)方差矩陣添加噪聲來實(shí)現(xiàn)差分隱私,而后求其逆矩陣用于數(shù)據(jù)分析。然而,現(xiàn)有技術(shù)求得的協(xié)方差矩陣的逆矩陣往往不穩(wěn)定。這一問題導(dǎo)致協(xié)方差矩陣無法應(yīng)用于諸多數(shù)據(jù)科學(xué)方法(如線性回歸、方差分析等),甚至導(dǎo)致對(duì)原始數(shù)據(jù)的錯(cuò)誤解讀,進(jìn)而產(chǎn)生其他危害。
3、因此,如何提高協(xié)方差矩陣的逆矩陣的準(zhǔn)確性和穩(wěn)定性,成為了亟待解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)實(shí)施例的目的是提供一種數(shù)據(jù)處理方法和裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品,能有效提高協(xié)方差矩陣的逆矩陣的準(zhǔn)確性和穩(wěn)定性。
2、為實(shí)現(xiàn)上述目的,本申請(qǐng)實(shí)施例的第一方面提供了一種數(shù)據(jù)處理方法,包括:
3、將原始數(shù)據(jù)集歸一化至預(yù)設(shè)數(shù)值區(qū)間,得到候選數(shù)據(jù)集;
4、對(duì)所述候選數(shù)據(jù)集進(jìn)行協(xié)方差矩陣構(gòu)建,得到協(xié)方差矩陣;
5、基于所述協(xié)方差矩陣構(gòu)造變換對(duì)稱矩陣,并基于所述協(xié)方差矩陣和所述變換對(duì)稱矩陣生成變換協(xié)方差矩陣;
6、采用差分隱私算法,對(duì)所述變換協(xié)方差矩陣添加噪聲,得到加噪矩陣,并對(duì)所述加噪矩陣進(jìn)行求逆運(yùn)算,得到加噪逆矩陣;
7、根據(jù)所述加噪逆矩陣和所述變換對(duì)稱矩陣,得到目標(biāo)逆協(xié)方差矩陣。
8、與現(xiàn)有技術(shù)相比,本申請(qǐng)實(shí)施例提供的一種數(shù)據(jù)處理方法,其有益效果在于:通過將原始數(shù)據(jù)集歸一化至預(yù)設(shè)數(shù)值區(qū)間得到候選數(shù)據(jù)集,能夠避免因數(shù)據(jù)量級(jí)等差異帶來的運(yùn)算干擾。進(jìn)一步地,基于候選數(shù)據(jù)集構(gòu)建協(xié)方差矩陣,能有效保留原始數(shù)據(jù)集的統(tǒng)計(jì)信息。進(jìn)一步地,基于協(xié)方差矩陣構(gòu)造變換對(duì)稱矩陣并生成變換協(xié)方差矩陣,能夠通過變換對(duì)稱矩陣優(yōu)化數(shù)據(jù)結(jié)構(gòu),使后續(xù)生成的目標(biāo)逆協(xié)方差矩陣更穩(wěn)定。進(jìn)一步地,采用差分隱私算法對(duì)變換協(xié)方差矩陣添加噪聲,通過添加合理的噪聲保障了數(shù)據(jù)的隱私性和可用性。進(jìn)一步地,對(duì)加噪矩陣進(jìn)行求逆運(yùn)算得到加噪逆矩陣,并依據(jù)其與變換對(duì)稱矩陣得出目標(biāo)逆協(xié)方差矩陣。本申請(qǐng)采用矩陣變換原理,有效克服了現(xiàn)有技術(shù)中直接采用差分隱私加噪聲機(jī)制導(dǎo)致協(xié)方差矩陣逆運(yùn)算不穩(wěn)定、效用低的問題,增強(qiáng)了協(xié)方差矩陣相應(yīng)逆矩陣的準(zhǔn)確性和穩(wěn)定性,使其可更好地應(yīng)用于各類涉及協(xié)方差矩陣逆矩陣的相關(guān)數(shù)據(jù)分析場(chǎng)景。
9、在一些實(shí)施例,所述基于所述協(xié)方差矩陣構(gòu)造變換對(duì)稱矩陣,并基于所述協(xié)方差矩陣和所述變換對(duì)稱矩陣生成變換協(xié)方差矩陣,包括:
10、基于所述協(xié)方差矩陣、優(yōu)化變量和約束條件構(gòu)造所述變換對(duì)稱矩陣;
11、根據(jù)所述變換對(duì)稱矩陣對(duì)所述協(xié)方差矩陣進(jìn)行變換,得到所述變換協(xié)方差矩陣。
12、在一些實(shí)施例,所述采用差分隱私算法,對(duì)所述變換協(xié)方差矩陣添加噪聲,得到加噪矩陣,包括:
13、根據(jù)變換協(xié)方差矩陣,確定用于添加噪聲的敏感度δ;
14、通過拉普拉斯機(jī)制,根據(jù)所述敏感度δ在所述變換協(xié)方差矩陣上添加噪聲,得到加噪矩陣,所述加噪矩陣滿足ε-差分隱私。
15、在一些實(shí)施例,所述通過拉普拉斯機(jī)制,根據(jù)所述敏感度δ在所述變換協(xié)方差矩陣上添加噪聲,得到加噪矩陣,包括:
16、使用隨機(jī)數(shù)生成器生成服從參數(shù)為δ/ε的拉普拉斯隨機(jī)數(shù)集合;
17、將所述拉普拉斯隨機(jī)數(shù)集合中的隨機(jī)數(shù)元素分配給所述變換協(xié)方差矩陣的每個(gè)元素,得到所述加噪矩陣。
18、在一些實(shí)施例,所述將原始數(shù)據(jù)集歸一化至預(yù)設(shè)數(shù)值區(qū)間,得到候選數(shù)據(jù)集,包括:
19、記原始數(shù)據(jù)集x={x_1,…,x_n},確定所述原始數(shù)據(jù)集中的最大值和最小值,所述最大值為x_max,所述最小值為x_min;
20、將所述原始數(shù)據(jù)集x中的每個(gè)數(shù)據(jù)x_i通過y_i=(x_i–x_min)/(x_max–x_min)公式進(jìn)行轉(zhuǎn)換,生成所述候選數(shù)據(jù)集y,所述候選數(shù)據(jù)集y={y_1,…,y_n}。
21、在一些實(shí)施例,所述確定所述原始數(shù)據(jù)集中的最大值和最小值,包括:
22、對(duì)所述原始數(shù)據(jù)集中的每個(gè)原始子集的元素按照從小到大的順序進(jìn)行排序;
23、將排序后的原始子集的第一個(gè)元素作為所述原始子集的最小值,最后一個(gè)元素作為所述原始子集的最大值。
24、為實(shí)現(xiàn)上述目的,本申請(qǐng)實(shí)施例的第二方面提供了一種數(shù)據(jù)處理裝置,所述裝置包括:
25、歸一化模塊,用于將原始數(shù)據(jù)集歸一化至預(yù)設(shè)數(shù)值區(qū)間,得到候選數(shù)據(jù)集;
26、構(gòu)建模塊,用于對(duì)所述候選數(shù)據(jù)集進(jìn)行協(xié)方差矩陣構(gòu)建,得到協(xié)方差矩陣;
27、生成模塊,用于基于所述協(xié)方差矩陣構(gòu)造變換對(duì)稱矩陣,并基于所述協(xié)方差矩陣和所述變換對(duì)稱矩陣生成變換協(xié)方差矩陣;
28、加噪模塊,用于采用差分隱私算法,對(duì)所述變換協(xié)方差矩陣添加噪聲,得到加噪矩陣,并對(duì)所述加噪矩陣進(jìn)行求逆運(yùn)算,得到加噪逆矩陣;
29、求逆模塊,用于根據(jù)所述加噪逆矩陣和所述變換對(duì)稱矩陣,得到目標(biāo)逆協(xié)方差矩陣。
30、為實(shí)現(xiàn)上述目的,本申請(qǐng)實(shí)施例的第三方面提出了一種電子設(shè)備,所述電子設(shè)備包括處理器、存儲(chǔ)器以及存儲(chǔ)在所述存儲(chǔ)器中且被配置為由所述處理器執(zhí)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述第一方面所述的方法。
31、為實(shí)現(xiàn)上述目的,本申請(qǐng)實(shí)施例的第四方面提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括存儲(chǔ)的計(jì)算機(jī)程序,其中,在所述計(jì)算機(jī)程序運(yùn)行時(shí)控制所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行上述第一方面所述的方法。
32、為實(shí)現(xiàn)上述目的,本申請(qǐng)實(shí)施例的第五方面提出了一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序或計(jì)算機(jī)指令,所述計(jì)算機(jī)程序或所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述第一方面所述的方法。
1.一種數(shù)據(jù)處理方法,其特征在于,包括:
2.如權(quán)利要求1所述的數(shù)據(jù)處理方法,其特征在于,所述基于所述協(xié)方差矩陣構(gòu)造變換對(duì)稱矩陣,并基于所述協(xié)方差矩陣和所述變換對(duì)稱矩陣生成變換協(xié)方差矩陣,包括:
3.如權(quán)利要求1所述的數(shù)據(jù)處理方法,其特征在于,所述采用差分隱私算法,對(duì)所述變換協(xié)方差矩陣添加噪聲,得到加噪矩陣,包括:
4.如權(quán)利要求3所述的數(shù)據(jù)處理方法,其特征在于,所述通過拉普拉斯機(jī)制,根據(jù)所述敏感度δ在所述變換協(xié)方差矩陣上添加噪聲,得到加噪矩陣,包括:
5.如權(quán)利要求1所述的數(shù)據(jù)處理方法,其特征在于,所述將原始數(shù)據(jù)集歸一化至預(yù)設(shè)數(shù)值區(qū)間,得到候選數(shù)據(jù)集,包括:
6.如權(quán)利要求5所述的數(shù)據(jù)處理方法,其特征在于,所述確定所述原始數(shù)據(jù)集中的最大值和最小值,包括:
7.一種數(shù)據(jù)處理裝置,其特征在于,包括:
8.一種電子設(shè)備,其特征在于,包括處理器、存儲(chǔ)器以及存儲(chǔ)在所述存儲(chǔ)器中且被配置為由所述處理器執(zhí)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6中任意一項(xiàng)所述的數(shù)據(jù)處理方法。
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括存儲(chǔ)的計(jì)算機(jī)程序,其中,在所述計(jì)算機(jī)程序運(yùn)行時(shí)控制所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行如權(quán)利要求1至6中任意一項(xiàng)所述的數(shù)據(jù)處理方法。
10.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序或計(jì)算機(jī)指令,所述計(jì)算機(jī)程序或所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6中任意一項(xiàng)所述的數(shù)據(jù)處理方法。