本發明涉及一種隱私泄露評估方法和系統,尤其涉及一種基于社交隱私關系挖掘的隱私泄露評估方法和系統,屬于數據挖掘和隱私安全。
背景技術:
1、數據安全一直是國家關注的重點,大眾的隱私保護意識也逐漸加強。隨著互聯網的發展,社交軟件的使用已經成為日常,社交平臺上的數據每天呈指數級增長。facebook、twitter、微信、qo等平臺存儲了用戶提交的視頻、圖片和文字。這些多模態數據包含大量的個人隱私信息,存在隱私泄露的風險。社交關系也是隱私屬性的一種,這在許多情況下都沒有得到足夠的關注。暴露隱藏的社會關系可能會導致個人聲譽受損,也可能被攻擊者利用。因此如何準確快速的評估隱私泄露的風險是至關重要的。
2、現有的技術大多數是處理分析多模態的顯性屬性,用于推薦系統和檢索系統,隱藏屬性的研究處于剛起步,現有少量研究關注利用隱藏屬性實現實體識別或者利用顯性屬性發現隱藏關系,而針對挖掘社交隱藏關系的方向上暫無人涉及。mtcnn算法是一種基于深度學習的人臉檢測和人臉對齊方法,它可以同時完成人臉檢測和人臉對齊的任務,相比于傳統的算法,它的性能更好,檢測速度更快。facenet是一種用于人臉識別和驗證的深度學習模型,由google于2015年發布。其主要創新在于將人臉圖像嵌入到一個高維的向量空間中,使得相似的臉在這個空間中距離較近,而不同的臉距離較遠。這種表示方法使得人臉識別任務(如人臉驗證、人臉識別和聚類)可以通過簡單的距離度量來實現。fp-tree挖掘算法效率高,節省內存,不產生候選集,但構建復雜,可能丟失信息。yolov8檢測精度高,處理圖像速度快,部署靈活,對小目標檢測也有改進。但它也有缺點,像在復雜場景中可能不夠魯棒,而且檢測決策的解釋性比較差。
技術實現思路
1、發明目的:本發明的目的是提供一種能夠整合多模態信息并挖掘隱藏屬性的基于社交隱私關系挖掘的隱私泄露評估方法和系統。
2、技術方案:本發明所述的一種基于社交隱私關系挖掘的隱私泄露評估方法,包括:
3、收集社交平臺上包含人臉的圖片,并通過mtcnn和facenet對收集圖片中人臉檢測識別的人臉信息數據;
4、基于所述人臉信息數據,在開放環境和封閉環境下進行主體對齊;所述主體對齊表示將不同圖片中屬于同一人物的人臉信息數據對齊到所述人物;所述封閉環境表示人臉數據庫中擁有可以參考的人臉信息數據,所述開放環境表示人臉數據庫中沒有可以參考的人臉信息數據;
5、基于主體對齊后數據,通過數據挖掘算法,將所有照片中出現的人臉信息組合成列表數據結構,利用fp-tree算法挖掘人臉信息的頻繁項;
6、基于yolov8提供的人體姿態估計關鍵點檢測和目標檢測算法,對所有照片數據進行處理,得到每張圖片的關系數據;
7、基于每張圖片的關系數據,通過transformer進行親密關系分類訓練,得到訓練后的關系分類transformer模型;
8、基于訓練后的關系分類transformer模型,對挖掘出的頻繁項所在的原始圖片進行頻繁項的關系分類;
9、使用測試數據對模型進行測試,挖掘出隱私關系并做出粗粒度類別判定,評估隱私泄露的風險。
10、進一步地,所述在封閉環境下進行主體對齊,具體為,使用檢測識別的人臉信息數據與數據庫中的人臉信息數據進行比對,計算人臉相似度,當相似度達到閾值,判定為同一人物。
11、進一步地,所述在開放環境下進行主體對齊,具體為,將圖片中所有的人臉順序標記,采用依次遍歷的方式進行人臉相似度計算,完成主體對齊。
12、進一步地,所述將圖片中所有的人臉順序標記,采用依次遍歷的方式進行人臉相似度計算,完成主體對齊,包括:依次檢測所有圖片,按順序標記圖片中出現的人臉,將標簽以列表結構存儲;對所述列表結構從第一個人開始向后順序遍歷,依次與下一個人的人臉信息數據進行人臉相似度計算,若相似度達到預設閾值則認定為同一人,并使用對比的人的標記覆蓋被對比人的標記,實現將一組數據中屬于同一人的人臉信息數據對齊。
13、進一步地,所述基于數據挖掘算法,將所有照片中出現的人臉信息組合成列表數據結構,利用fp-tree算法挖掘人臉信息的頻繁項,包括:
14、(1)對數據庫進行掃描,統計每個項的出現頻率,作為支持度;根據設定的最小支持度閾值,篩選出頻繁項,將頻繁項按出現頻率降序排序;
15、(2)構建fp-tree;
16、(3)挖掘條件模式基:從每個頻繁項開始,構建對應條件模式基;所述條件模式基為在fp-tree中,包含該項的所有路徑集合;每條路徑都代表一個模式,路徑上的項是與對應頻繁項共現的項;對每個頻繁項,構建其條件模式基后,再根據該模式基構建一個條件fp-tree;
17、(4)對于每一個頻繁項,重復步驟(3),從條件模式基中構建新的fp-tree,遞歸挖掘頻繁項,直到沒有更多頻繁項挖掘;
18、(5)返回結果。
19、進一步地,所述構建fp-tree,包括:
20、構建空樹,創建一個空的根節點;
21、插入事務,對于每一條事務,按照排序后的頻繁項順序,構建樹,具體的:對于事務中的每個項,如果該項已經存在于樹中,則將該項的節點計數器加1,如果該項不存在于樹中,則在樹中創建新的節點;
22、在樹中,節點的值表示項,節點的計數器表示該項在該路徑下的頻率。
23、進一步地,所述基于yolov8中提供的人體姿態估計關鍵點檢測和目標檢測算法,將研究對象包含的所有照片數據進行處理,包括:
24、將圖片中出現的x個人物,以組合排列的方式計算cx2組關系數據;每組關系數據中包含圖像物品信息和人體關鍵點之間的歐式距離,結構為[物品種類,人物x鼻尖與人物x+1鼻尖的歐式距離,人物x左肩頸與人物x+1右肩頸的歐式距離,人物x右肩頸與人物x+1左肩頸的歐式距離,人物x左手與人物x+1右手的歐式距離,人物x右手與人物x+1左手的歐式距離,人物x左胯與人物x+1右胯的歐式距離,人物x右胯與人物x+1左胯的歐式距離,圖片標記,人物x臉部檢測框的左上角坐標,人物x+1臉部檢測框的左上角坐標];將每張圖片中的關系數據存入csv文件。
25、進一步地,所述基于每張圖片的關系數據,通過transformer進行親密關系分類訓練,得到訓練后的關系分類transformer模型,包括:利用word2vec模型提取每張圖片的關系數據特征,利用resnet101模型提取關系主體的圖像特征,利用注意力機制融合兩個不同模態的特征作訓練數據,通過包含encoder結構的transformer進行親密關系分類訓練,所述親密關系包括:情侶、閨蜜、親子、普通朋友、陌生人、上下級、同事和夫妻。
26、基于相同的發明構思,本發明還提供了一種基于社交隱私關系挖掘的隱私泄露評估系統,包括:
27、預處理模塊,用于收集社交平臺上包含人臉的圖片,并通過mtcnn和facenet對收集圖片中人臉檢測識別的人臉信息數據;
28、對齊模塊,用于基于所述人臉信息數據,在開放環境和封閉環境下進行主體對齊;所述主體對齊表示將不同圖片中屬于同一人物的人臉信息數據對齊到所述人物;所述封閉環境表示人臉數據庫中擁有可以參考的人臉信息數據,所述開放環境表示人臉數據庫中沒有可以參考的人臉信息數據;
29、分析模塊,用于基于主體對齊后數據,通過數據挖掘算法,將所有照片中出現的人臉信息組合成列表數據結構,利用fp-tree算法挖掘人臉信息的頻繁項;
30、提取模塊,用于基于yolov8提供的人體姿態估計關鍵點檢測和目標檢測算法,對所有照片數據進行處理,得到每張圖片的關系數據;
31、訓練模塊,用于基于每張圖片的關系數據,通過transformer進行親密關系分類訓練,得到訓練后的關系分類transformer模型;
32、分類模塊,用于基于訓練后的關系分類transformer模型,對挖掘出的頻繁項所在的原始圖片進行頻繁項的關系分類;
33、評估模塊,用于使用測試數據對模型進行測試,挖掘出隱私關系并做出粗粒度類別判定,評估隱私泄露的風險。
34、基于相同的發明構思,本發明還提供了一種計算機程序產品,包括計算機程序/指令,該計算機程序/指令被處理器執行時實現根據上述任一項所述的基于社交隱私關系挖掘的隱私泄露評估方法的步驟。
35、有益效果:與現有研究相比,本發明通過數據挖掘算法挖掘社交隱私關系,利用transformer推理社交隱私關系,對社交隱私關系進行挖掘和推理以此來實驗在社交平臺僅發布圖像是否可以暴露自己的社交隱藏關系,是否有隱私泄露的危險,能夠充分對各來源的多模態信息進行整合,挖掘出隱藏屬性,了解該類隱私攻擊的方法,為以后阻止關聯隱私挖掘的隱私保護奠定基礎,為隱私保護領域提供了新的方向。