本發明屬于信息安全領域,涉及一種對數據型文件中的敏感信息脫敏保護技術,具體地說是一種數據文件可定制化脫敏方法和系統。
背景技術:
近年來伴隨著互聯網的高速發展,互聯網同個人生活的聯系也越來越密切。這不僅給用戶帶來了生活上的遍歷,使人們能夠隨時隨地的進行瀏覽網頁、查詢問題、購買商品等操作,同時也使用戶產生了大量的有關個人隱私的行為數據,這些數據由于政府監管、商業目的或是研究的需要將會發布或提供給第三方使用。這些發布或共享的數據中包括用戶的敏感信息,如果數據擁有者直接將這些數據發布或共享,會造成大量的個人隱私泄露,給用戶、涉事單位和社會帶來惡劣的影響;同時如果數據擁有者使用不當的方式對敏感數據進行任意處理,可能會使數據使用者對數據進行錯誤的分析,從而使數據使用者做出錯誤的決策,造成巨大的經濟損失。
為了防止在數據發布和共享時泄露隱私信息,目前為止已經提出了采用匿名化的方式對數據進行保護。據不完全統計,目前關于數據發布和共享時的數據安全的發明文獻有以下幾個。
1.社交網絡數據發布的混合隨機化隱私保護方法:此發明將現有的k-匿名法和隨機化的方法結合,能夠阻止采用結構背景知識的重定位攻擊,滿足社交網絡用戶對隱私安全的需求。
2.基于頻率的軌跡抑制數據發布隱私保護的系統及其方法:此發明根據數據發布隱私保護系統,采用特定的軌跡局部抑制法進行匿名處理。
3.一種優化的社交網絡圖數據發布隱私保護方法:此發明根據提出的數據發布隱私保護方法對社交網絡發布的數據進行隱私保護處理。
4.一種數據發布方法及裝置:此發明根據已知類別的屬性將待發布數據進行聚類處理后得到待發布數據的屬性的類別,然后根據不同屬性的類別對所對應的發布方法來發布待發布數據,從而可以為待發布數據的發布提供隱私保護。
以上發明,數據使用人員操作的數據是源數據,而且將處理后的數據直接發布或共享給第三方,不能滿足當攻擊者為系統內部數據使用人員時的數據保護需求,同時也不能滿足數據使用人員對向不同等級的第三方進行共享的數據進行不同程度的保護的需求。
技術實現要素:
本發明的技術任務是針對上述現有技術的不足,為了實現數據使用人員在不同數據使用場景中的敏感數據的安全,同時保證即使內部數據使用人員對原始數據不進行任何操作,也不能獲得一些敏感度極高的數據,提供了一種數據文件可定制化脫敏方法和系統。
為了實現上述目標,本發明采取如下技術方案。
1、數據文件可定制化脫敏系統,其特征在于:系統包括敏感信息設置單元(1),解析器(2),格式轉換器(3),數據處理單元(4),脫敏規則定制單元(5);
敏感信息設置單元(1):用于系統操作人員對新接收的數據文件進行初始化脫敏設置,設置針對該數據文件默認情況下需要保護的子節點及該子節點相應的脫敏方法名;
解析器(2):用于解析xml文件,得到代表此xml文件的文檔對象;
格式轉換器(3):用于將數據提供人員提供的數據文件格式轉換為xml文件格式,同時由數據使用人員選擇是否對輸出的文件進行格式轉換;
數據處理單元(4):用于保存脫敏函數,驗證默認配置文件的完整性,獲取代表xml文件的文檔對象和臨時脫敏配置文件,并根據臨時脫敏配置文件中保存的脫敏規則修改文檔對象,最終將文檔對象中內容寫回xml文件;
脫敏規則定制單元(5):用于顯示該xml文件的默認配置文件,同時用于數據使用人員設置臨時脫敏配置文件。
2、所述敏感信息設置單元用于系統操作人員對新接收的數據文件進行初始化脫敏設置,然后將設置信息保存在默認配置文件中;敏感信息設置單元將該默認配置文件中內容序列化為字符串后,將字符串按設定散列算法進行計算,然后將該xml文件名和該散列字符串保存在存儲系統中的散列值記錄文件中。
3、所述數據處理單元讀取存儲系統中數據使用人員選擇的xml文件的默認配置文件,如果不存在該默認配置文件,則發出警告提示該xml文件未初始化設置;否則將默認配置文件進行完整性驗證。
4、所述數據處理單元用于得到代表xml文件的文檔對象和臨時脫敏配置文件,并根據臨時脫敏配置文件中的內容,生成路徑,并按照路徑對文檔對象中的敏感數據進行修改,最后將文檔對象內容寫回xml文件。其中臨時脫敏配置文件中保存著數據使用人員的設置信息和系統操作人員設置的默認配置信息。
5、所述脫敏規則定制單元用于讀取并顯示默認配置文件中的內容,同時用于數據使用人員設置臨時脫敏配置文件。其中,數據使用人員不可以通過脫敏規則定制單元對系統操作人員的默認配置信息進行修改。
6、所述格式轉換器用于將數據提供人員提供的非xml文件格式的數據文件轉換為xml文件格式,同時將數據處理單元處理后的xml文件轉換為數據使用人員選擇的數據格式。
7、數據文件可定制化脫敏系統,敏感信息設置單元(1),解析器(2),格式轉換器(3),數據處理單元(4),脫敏規則定制單元(5);(2)與(4)相連,(3)與(4)相連,(4)與(5)相連。
8、數據文件可定制化脫敏方法,其特征在于方法包括兩個階段。
(1)初始化設置階段:
第一步:數據提供人員提交數據文件,格式轉換器判斷此數據文件是否為xml文件格式,如果為xml文件格式,則直接將數據文件存入存儲系統中;否則,格式轉換器將此數據文件轉換為xml文件格式后將數據文件存入存儲系統中;
第二步:系統操作人員對新接收的數據文件進行初始化脫敏設置;
系統操作人員操作敏感信息設置單元,設置默認情況下需要保護的子節點以及該子節點相應的脫敏方法名。敏感信息設置單元將設置信息保存在存儲系統中的默認配置文件中;敏感信息設置單元將默認配置文件中內容序列化為字符串后,將字符串按設定散列算法計算,然后將該xml文件名和該散列字符串保存在存儲系統中的散列值記錄文件中。
(2)數據操作階段:數據使用人員選擇要操作的xml文件,設為s,脫敏系統從存儲系統中讀取該xml文件s,并針對此xml文件s做以下操作:
步驟1:數據處理單元讀取存儲系統中文件s的默認配置文件,如果不存在默認配置文件,則發出警告提示xml文件s未初始化設置;否則將默認配置文件中內容序列化為字符串后,將字符串按設定散列算法計算,然后在存儲系統中的散列值記錄文件中按照xml文件s的文件名查找并取出對應的散列值,將兩個散列值進行比較,驗證完整性,如果二者不相同則驗證不通過,提示錯誤,如果二者完全一致則繼續;
步驟2:解析器解析xml文件s,得到代表xml文件s的文檔對象,即document對象,設為w;
步驟3:脫敏規則定制單元讀取存儲系統中的文件s的默認配置文件,并顯示默認配置文件中所有的父節點、子節點、脫敏狀態及對應的可選脫敏函數,同時將脫敏狀態標記為“是”的字段顯示為需要脫敏并不可取消狀態,通過脫敏規則定制單元進行設置,將設置結果保存在臨時脫敏配置文件中,并轉至步驟4繼續執行;
步驟4:數據處理單元判斷臨時脫敏配置文件中是否還有下一行數據,如果存在下一行數據,轉至步驟5繼續執行;如果不存在下一行數據,轉至步驟7繼續執行;
步驟5:設此行是第i行,取得臨時脫敏配置文件中第i行的脫敏狀態并定義為t,如果t為“否”,則直接轉至步驟4繼續執行;否則,取出臨時脫敏配置文件中第i行的脫敏函數f,然后取出臨時脫敏配置文件中第i行的父節點定義為a,子節點定義為b,根據a和b得到節點路徑d=“/a/b”,在文檔對象w中取得節點路徑d所對應的子節點集d(具體方法專業人員均可編程實現,在此不贅述),轉至步驟6繼續執行;
步驟6:判斷子節點集d中是否存在下一個子節點,如果存在,取出該子節點并定義為s,取出子節點s的數據m,使用脫敏函數f對m進行脫敏處理得到m,即m=f(m),用m替換子節點s中的數據值m,并轉至步驟6繼續執行;如果數據集d中不存在下一個子節點,則轉至步驟4繼續執行;
步驟7:將脫敏的文檔對象w內容寫回xml文件s,刪除文檔對象w,將xml文件提交給格式轉換器;
步驟8:格式轉換器獲取數據使用人員需要的輸出文件格式,格式轉換器將xml文件s轉換為對應的文件格式后輸出數據文件。
本發明是一種數據文件可定制化脫敏方法和系統。與現有技術相比具有以下突出的優點。
1.系統操作人員可以針對每個xml文件設置特殊的默認配置文件,保證了對每個xml文件內容的不同保護。
2.在不改變xml文件對應的默認配置文件的情況下,數據使用人員可以對xml文件進行定制化脫敏設置,滿足了數據使用人員在不同數據使用場景下的數據安全需求。
3.對于用戶和開發人員來說,對業務數據操作不需要考慮對數據的脫敏處理,所有的脫敏操作對應用層開發人員和用戶是透明的。
附圖說明
圖1是本發明數據文件可定制化脫敏方法和系統的結構圖。
圖2是本發明脫敏系統對數據使用人員選擇的xml文件進行脫敏處理的流程圖。
圖3是本發明中默認配置文件的存儲格式示例圖。
圖4是本發明中臨時脫敏配置文件的存儲格式示例圖。
圖5是本發明中散列值記錄文件的存儲格式示例圖。
具體實施方式
下面將結合附圖對本發明做進一步的詳細說明。圖1是系統的結構圖,主要包括數據處理單元,敏感信息設置單元,解析器,格式轉換器和脫敏規則定制單元,其中默認配置文件存儲在存儲系統中。圖2是脫敏系統對數據使用人員選擇的xml文件進行脫敏處理的流程圖,具體步驟通過以下數據操作階段的步驟實現;圖3是默認配置文件的存儲格式示例圖,用于存儲系統操作人員設置的默認配置信息。圖4是臨時脫敏配置文件的存儲格式示例圖,用于數據處理單元判斷xml文件中節點數據是否是敏感數據。圖5是散列值記錄文件的存儲格式示例圖,用于存儲xml文件名和按照設定散列算法對該xml文件對應的默認配置文件進行散列計算得到的散列值。
初始化設置階段。
第一步:數據提供人員提交數據文件,格式轉換器判斷此數據文件是否為xml文件格式,如果為xml文件格式,則直接將數據文件存入存儲系統中;否則,格式轉換器將此數據文件轉換為xml文件格式后將數據文件存入存儲系統中。
第二步:系統操作人員對新接收的數據文件進行初始化脫敏設置,系統操作人員操作敏感信息設置單元,設置默認情況下需要保護的子節點以及該子節點相應的脫敏方法名。將設置信息保存在存儲系統中該xml文件的默認配置文件中。
第三步:敏感信息設置單元將默認配置文件中內容序列化為字符串后,將字符串按設定散列算法計算,然后將該xml文件名和該散列字符串保存在存儲系統中的散列值記錄文件中。
數據操作階段。
第一步:數據使用人員選擇要操作的xml文件,設為s,脫敏系統從存儲系統中讀取該xml文件s。
第二步:數據處理單元讀取存儲系統中xml文件s的默認配置文件,如果不存在默認配置文件,則發出警告提示xml文件s未初始化設置;否則將默認配置文件中內容序列化為字符串后,將字符串按設定散列算法計算。
第三步:數據處理單元在存儲系統中的散列值記錄文件中按照s的文件名查找并取出對應的散列值,將兩個散列值進行比較,驗證完整性,如果二者不相同則驗證不通過,提示錯誤,如果二者完全一致則繼續。
第四步:解析器解析xml文件s,得到代表此xml文件s的文檔對象w,即document對象,設為w。
第五步:脫敏規則定制單元讀取存儲系統中的xml文件的默認配置文件,并顯示默認配置文件中所有的父節點、子節點、脫敏狀態及對應的可選脫敏函數,同時將脫敏狀態標記為“是”的節點顯示為脫敏并不可取消狀態。
第六步:數據使用人員通過脫敏規則定制單元設置,將設置結果保存在臨時脫敏配置文件中。
第七步:數據處理單元判斷臨時脫敏配置文件是否還有下一行數據,如果存在下一行數據,轉至第八步繼續執行;否則轉至第十步繼續執行。
第八步:設臨時脫敏配置文件中此行是第i行,取得第i行的脫敏狀態并定義為t,如果t為“否”,則直接轉至第七步繼續執行;否則,取出第i行的脫敏函數f,然后取出第i行的父節點定義為a,子節點定義為b,根據a和b得到節點路徑d=“/a/b”,在文檔對象w中取得節點路徑d所對應的子節點集d(具體方法專業人員均可編程實現,在此不贅述),轉至第九步繼續執行。
第九步:判斷子節點集d中是否存在下一個子節點,如果存在,取出該子節點并定義為s,取出子節點s的數據m,使用脫敏函數f對m進行脫敏處理得到m,即m=f(m),用m替換子節點s中的數據值m,并轉至第九步繼續執行;如果數據集d中不存在下一個子節點,則轉至第七步繼續執行。
第十步:數據處理單元將脫敏的文檔對象w內容寫回xml文件s,刪除文檔對象w,并xml文件提交給格式轉換器。
第十一步:格式轉換器獲取數據使用人員需要輸出的文件格式,格式轉換器將xml文件s轉換為對應的文件格式后輸出數據文件。