本發(fā)明屬于多模態(tài)認知計算領域,更具體的涉及一種多模態(tài)不實新聞檢測方法及裝置。
背景技術:
1、隨著社交網絡的快速發(fā)展和普及,已經進入了一個信息爆炸的時代。社交網絡以其便捷、即時的特性,成為了大眾獲取信息、交流想法和分享觀點的主要平臺。然而,隨之而來的是對社交網絡中信息真實性和可信度的擔憂。在這個信息過載的環(huán)境下,不實信息往往通過社交網絡迅速傳播,給個人、組織甚至整個社會帶來了巨大的危害。同時,面對海量的信息流,人工審核的效率和準確率都難以令人滿意。因此,自動化檢測不實信息的技術變得尤為重要。
2、早期的不實新聞檢測方法聚焦于手工特征的提取和使用。這些特征主要包括:文章結構和內容語義特征、文本信息的語言風格、參與傳播的用戶屬性以及傳播規(guī)律等。通過提取這些深層特征,使用樸素貝葉斯、支持向量機、決策樹等算法構建分類模型,可以實現(xiàn)不實新聞的檢測。盡管這些手動提取的特征可以提高假新聞檢測的性能,但通過人工提取有價值的特征需要耗費大量的時間和精力。此外,手工提取的特征很大程度上依賴于特定的社交平臺,很難在不同領域、語言和主題中進行有效概括。
3、隨著深度學習的發(fā)展和計算能力的提高,目前的假新聞檢測任務主要分為基于情境的方法和基于內容的方法。基于情境的方法依賴于信息的傳播結構以及賬號信息來進行不實新聞檢測。然而它們的現(xiàn)實性較差,需要大量的基礎信息或者需要構建圖傳播結構,數(shù)據(jù)的收集與處理具有較大的復雜性。
4、基于內容的方法主要包括單模態(tài)和多模態(tài)兩種類型。單模態(tài)方法主要利用單一的文本內容或者圖像信息來進行不實新聞檢測。然而單模態(tài)方法沒有考慮多模態(tài)信息的交互補充和融合,造成檢測效率低下且應用場景受限。因此多模態(tài)的方法受到了越來越多的關注。
5、在多模態(tài)不實新聞檢測方法中,研究者們最初使用長短期記憶網絡自動提取并融合新聞的多模態(tài)特征,此外引入社交評論特征,提高不實新聞的檢測效果。之后基于事件和語義不變性的方法被提出,通過剔除特定事件特征、保留事件間的共享特征提高檢測精度。接著研究者引入變分自動編碼器來從多模態(tài)表示中重建數(shù)據(jù),從而促進模型學習模態(tài)之間的相關性。研究的過程中也逐漸使用預訓練模型來進行數(shù)據(jù)的預處理,提取深層的特征,提高了檢測的精度。后來研究者陸續(xù)引入圖片和文本中的實體以及實體相關的外界知識,用來豐富內容并進行語義增強。此外,不實新聞的廣泛傳播也離不開它在讀者中引起的情緒反應,情感特征也被用于幫助檢測不實新聞。隨著基于對比學習的語言-圖像預訓練模型clip的產生,圖文不匹配關系、多模態(tài)歧義學習、圖文相似性等思想被廣泛應用,對多模態(tài)信息的對齊和融合有了進一步的影響和提高,多模態(tài)不實新聞檢測任務也取得了優(yōu)異的成果。
6、近年來,更多的多模態(tài)模型相繼產生,為不實新聞檢測任務提供了高效精準的檢測工具。對比學習、共注意力機制、感知行為模擬、可解釋性、原因推理等創(chuàng)新性工作也相繼產生,多模態(tài)不實新聞檢測的發(fā)展也獲得了前所未有的提高。但現(xiàn)有方法針對圖像,僅使用像素級或實體級信息,適用于檢測圖像內容的篡改但并未理解圖片內容的場景和語義;針對文本時僅考慮新聞的原始內容,忽略了大模型對外界實證信息的挖掘和分析;容易造成跨模態(tài)特征間對齊度低,融合效果差,導致檢測精度低的問題,再者,同時對不同情感類型的新聞使用相同的處理器會造成檢測精度下降,且真假新聞間積極情感和消極情感的分布存在差異性的現(xiàn)象也沒有被應用。
技術實現(xiàn)思路
1、本發(fā)明實施例提供一種多模態(tài)不實新聞檢測方法及裝置,用于對新聞信息進行深入挖掘和分析,實現(xiàn)對多模態(tài)信息的語義增強以及對新聞情感特征的發(fā)掘及應用。
2、本發(fā)明實施例提供一種多模態(tài)不實新聞檢測方法,包括:
3、根據(jù)bert模型對第一圖像字幕信息包括的每個單詞進行特征編碼,得到第一字幕表征,根據(jù)bert模型對第一實證信息包括的每個單詞進行特征編碼,得到第一實證表征;其中,所述第一圖像字幕信息與從數(shù)據(jù)集中選擇的第一新聞包括的第一圖片信息對應,所述第一實證信息與從數(shù)據(jù)集中選擇的第一新聞包括的第一文本信息對應;
4、第一文本表征和所述第一實證表征、第一圖片表征和所述第一字幕表征依次通過由兩編碼器構成的共注意力塊,得到第一實證強化文本表征、第一文本強化實證表征、第一字幕強化圖片表征和第一圖片強化字幕表征;將基于全連接映射函數(shù)得到三類多模態(tài)特征進行拼接,得到第一多模態(tài)語義增強表征;其中,第一新聞包括的第一文本信息和第一圖片信息分別經過特征編碼,得到所述第一文本表征和所述第一圖片表征;所述三類多模態(tài)特征分別包括第一實證強化文本表征和第一字幕強化圖片表征、第一強化文本表征和第一強化圖片表征、第一文本強化實證表征和第一圖片強化字幕表征;
5、所述第一文本表征、所述第一圖片表征分別通過自注意力機制、與所述強化表征進行拼接和映射,依次得到第一單模態(tài)文本表征和第一單模態(tài)圖片表征;
6、所述第一文本表征基于bilstm網絡、自注意力機制、全連接層和平均化得到所有專家對第一文本表征綜合分析的情感表征及所有專家對第一文本表征綜合分析的情感傾向評估值;根據(jù)所述所有專家對第一文本表征綜合分析的情感表征和所有專家對第一圖片表征綜合分析的情感表征得到第一新聞整體情感表征;根據(jù)所述所有專家對第一文本表征綜合分析的情感傾向評估值和所有專家對第一圖片表征綜合分析的情感傾向評估值得到第一新聞整體的積極情感概率;所述第一新聞整體的積極情感概率和新聞真假性標簽基于交叉熵損失函數(shù)得到第一情感推理檢測損失函數(shù);
7、對所述第一單模態(tài)文本表征、所述第一單模態(tài)圖片表征、所述第一多模態(tài)語義增強表征和所述第一新聞整體情感表征進行拼接融合得到第一新聞整體內容特征,根據(jù)所述第一新聞整體內容特征和不同情感新聞處理器得到第一新聞處理特征;根據(jù)所述第一新聞整體情感表征和門控制單元得到多個所述不同情感新聞處理器的注意力權重;根據(jù)多個所述不同情感新聞處理器的注意力權重和所述第一新聞處理特征得到用于真假性分類的新聞聚合特征,根據(jù)所述用于真假性分類的新聞聚合特征和不實新聞檢測器,得到第一新聞的預測標簽。
8、優(yōu)選地,所述第一文本表征和所述第一實證表征通過由兩個編碼器構成的共注意力塊,得到第一實證強化文本表征,具體包括:
9、將所述第一新聞包括的所述第一文本表征和所述第一實證表征映射到相同的維度;所述第一文本表征和所述第一實證表征通過下列公式確定單頭注意力的輸出和多頭注意力的綜合輸出:
10、
11、multihead(ti,ri,ri)=concat(h1,h2,...,hm)·wo
12、所述多頭注意力的綜合輸出和所述第一文本表征拼接,通過歸一化和全連接層得到如下所示第一實證強化文本表征:
13、
14、h′=norm(ti+multihead(ti,ri,ri))
15、其中,hi表示單頭注意力下第j個頭的輸出向量,ti表示第一文本表征,ri表示第一實證表征,表示第j個頭對應的查詢投影矩陣,表示第j個頭對應的鍵投影矩陣,表示第j個頭對應的值投影矩陣,dk表示第一文本表征和第一實證表征投影到相同空間后的維度,dh表示每個頭部輸出特征的維數(shù),m表示注意力的頭數(shù),multihead(ti,ri,ri)表示整體多頭注意力機制的輸出結果,wo表示權重矩陣,concat(·)表示向量連接操作,h′表示對第一本文表征和整體多頭注意力機制的輸出結果進行歸一化操作,表示第一實證強化文本表征,norm(·)表示歸一化層,ffn(·)表示全連接網絡。
16、優(yōu)選地,所述將基于全連接映射函數(shù)得到三類多模態(tài)特征進行拼接,得到第一多模態(tài)語義增強表征,具體包括:
17、將所述第一實證強化文本表征和所述第一字幕強化圖片表征拼接得到第一多模態(tài)特征;將第一強化表征包括的第一強化文本表征和第一強化圖片表征拼接得到第二多模態(tài)特征;將所述第一文本強化實證表征和第一圖片強化字幕表征拼接得到第三多模態(tài)特征;其中,所述第一新聞包括的第一文本信息和第一圖片信息基于預訓練的多模態(tài)大模型得到所述第一強化表征;
18、將所述第一多模態(tài)特征、所述第二多模態(tài)特征和所述第三多模態(tài)特征進行拼接得到如下所示的第一多模態(tài)語義增強表征:
19、mter=θ·mlpm(concat(m1,m2,m3))
20、
21、其中,mter表示第一多模態(tài)語義增強表征,concat(·)表示向量連接操作,θ表示圖文相似性,mlpm(·)表示多模態(tài)特征的全連接映射函數(shù),m1表示第一多模態(tài)特征,m2表示第二多模態(tài)特征,m3表示第三多模態(tài)特征,σ1(·)、σ2(·)和σ3(·)分別表示全連接映射函數(shù),表示第一實證強化文本表征,表示第一字幕強化圖片表征,表示第一強化文本表征,表示第一強化圖片表征,表示第一文本強化實證表征,表示第一圖片強化字幕表征。
22、優(yōu)選地,所述第一文本表征通過自注意力機制、與所述強化表征進行拼接和映射,得到如下所示第一單模態(tài)文本表征:
23、
24、所述圖片表征通過自注意機制、與所述強化表征進行拼接和映射,得到如下所示第一單模態(tài)圖片表征:
25、
26、其中,ttra表示第一單模態(tài)文本表征,表示第一強化文本表征,ti表示第一文本表征,concat(·)表示向量連接操作,selfattention(ti)表示對第一文本表征做自注意力操作,mlpt(·)是第一單模態(tài)文本特征的全連接映射函數(shù),vtra表示第一單模態(tài)圖片表征,vi表示第一圖片表征,selfattention(vi)表示對第一圖片表征做自注意力操作,表示第一強化圖片表征,mlpv(·)表示第一單模態(tài)圖片特征的全連接映射函數(shù)。
27、優(yōu)選地,所述第一文本表征基于bilstm網絡、自注意力機制、全連接層和平均化得到所有專家對第一文本表征綜合分析的情感表征及所有專家對第一文本表征綜合分析的情感傾向評估值,具體包括:
28、所述第一文本表征基于bilstm網絡得到如下所示的隱藏狀態(tài):
29、
30、所述隱藏狀態(tài)根據(jù)自注意網絡和全連接層映射,分別得到第一文本表征評估的情感表征和第一文本表征的情感傾向評估值,基于對多個所述第一文本表征評估的情感表征和多個所述第一文本表征的情感傾向評估值取均值,得到所有專家對第一文本表征綜合分析后的情感表征以及所有專家對第一文本表征綜合分析后的情感傾向評估值:
31、
32、其中,表示第i新聞包括的第一文本表征的隱藏狀態(tài),表示前向隱藏狀態(tài),表示后向隱藏狀態(tài),表示第k個專家對第v新聞包括的第一文本表征的情感傾向評估值,表示第k個專家對第i新聞包括的第一文本表征評估的情感表征,et表示所有專家對第一文本表征綜合分析后的情感表征,表示所有專家對第一文本表征綜合分析后的情感傾向評估值,avg表示求平均操作,wt表示可學習的句子參數(shù),bt表示可學習的偏移參數(shù)。
33、優(yōu)選地,所述第一新聞整體的積極情感概率、第一新聞整體情感表征和第一情感推理檢測損失函數(shù)如下所示:
34、
35、e=mlpe(concat(λet,(1-λ)ev))
36、
37、其中,ye表示第一新聞整體的積極情感概率,表示所有專家對第一文本表征綜合分析后的情感傾向評估值,表示所有專家對第一圖片表征綜合分析后的情感傾向評估值,e表示第一新聞整體的情感表征,et表示所有專家對第一文本表征綜合分析后的情感表征,ev表示所有專家對第一圖片表征綜合分析的情感表征,λ表示權重因子,concat(·)表示向量連接操作,mlpe(·)表示情感特征的全連接映射函數(shù),lemo表示第一情感推理檢測損失函數(shù),y表示新聞的真假性標簽。
38、優(yōu)選地,所述第一新聞整體內容特征如下所示:
39、m=[ttra;vtra;mter;e]
40、多個所述不同情感新聞處理器的注意力權重如下所示:
41、a=[a1,a2,…,ax]=softmax(g(e;θg))
42、所述用于真假性分類的新聞聚合特征:
43、
44、mx=hx(m;θx)
45、其中,m表示第一新聞整體內容特征,ttra表示第一單模態(tài)文本表征,vtra表示第一單模態(tài)圖片表征,mter表示第一多模態(tài)語義增強表征,e表示第一新聞整體情感表征,g表示門控制單元,θg表示控制單元的參數(shù),a表示由[a1,a2,…,ax]組成的一個向量,ax表示第x個情感類型處理器對應的表達權重,mall表示用于真假性分類的新聞聚合特征,mx表示第一新聞處理特征,hx表示第x個情感類型的新聞處理器,θx代表對應處理器中的參數(shù)。
46、優(yōu)選地,所述第一新聞的預測標簽如下所示:
47、
48、其中,表示第一新聞的預測標簽,wf和bf表示可訓練的參數(shù),mall表示用于真假性分類的新聞聚合特征,softmax(·)表示映射函數(shù)。
49、優(yōu)選地,所述得到第一新聞的預測標簽之后,還包括:
50、根據(jù)所述第一新聞的預測標簽通過交叉熵損失函數(shù)得到如下所示的所有新聞的檢查損失函數(shù):
51、
52、根據(jù)所述所有新聞的檢查損失函數(shù)、所述第一情感推理檢測損失函數(shù)和參數(shù)因子得到最終損失函數(shù):
53、lfinal=γlemo+lfnd
54、其中,lemo表示第一情感推理檢測損失函數(shù),lfnd表示新聞的檢查損失函數(shù),γ表示參數(shù)因子。
55、本發(fā)明實施例提供一種多模態(tài)不實新聞檢測裝置,包括:
56、第一得到單元,用于根據(jù)bert模型對第一圖像字幕信息包括的每個單詞進行特征編碼,得到第一字幕表征,根據(jù)bert模型對第一實證信息包括的每個單詞進行特征編碼,得到第一實證表征;其中,所述第一圖像字幕信息與從數(shù)據(jù)集中選擇的第一新聞包括的第一圖片信息對應,所述第一實證信息與從數(shù)據(jù)集中選擇的第一新聞包括的第一文本信息對應;
57、第二得到單元,用于所述第一文本表征和所述第一實證表征、所述第一圖片表征和所述第一字幕表征依次通過由兩編碼器構成的共注意力塊,得到第一實證強化文本表征、第一文本強化實證表征、第一字幕強化圖片表征和第一圖片強化字幕表征;將基于全連接映射函數(shù)得到三類多模態(tài)特征進行拼接,得到第一多模態(tài)語義增強表征;其中,第一新聞包括的第一文本信息和第一圖片信息分別經過特征編碼,得到所述第一文本表征和所述第一圖片表征;所述三類多模態(tài)特征分別包括第一實證強化文本表征和第一字幕強化圖片表征、第一強化文本表征和第一強化圖片表征、第一文本強化實證表征和第一圖片強化字幕表征;
58、第三得到單元,用于所述第一文本表征、所述第一圖片表征分別通過自注意力機制、與所述強化表征進行拼接和映射,依次得到第一單模態(tài)文本表征和第一單模態(tài)圖片表征;
59、第四得到單元,用于所述第一文本表征基于bilstm網絡、自注意力機制、全連接層和平均化得到所有專家對第一文本表征綜合分析的情感表征及所有專家對第一文本表征綜合分析的情感傾向評估值;根據(jù)所述所有專家對第一文本表征綜合分析的情感表征和所有專家對第一圖片表征綜合分析的情感表征得到第一新聞整體情感表征;根據(jù)所述所有專家對第一文本表征綜合分析的情感傾向評估值和所有專家對第一圖片表征綜合分析的情感傾向評估值得到第一新聞整體的積極情感概率;所述第一新聞整體的積極情感概率和新聞真假性標簽基于交叉熵損失函數(shù)得到第一情感推理檢測損失函數(shù);
60、第五得到單元,用于對所述第一單模態(tài)文本表征、所述第一單模態(tài)圖片表征、所述第一多模態(tài)語義增強表征和所述第一新聞整體情感表征進行拼接融合得到第一新聞整體內容特征,根據(jù)所述第一新聞整體內容特征和不同情感新聞處理器得到第一新聞處理特征;根據(jù)所述第一新聞整體情感表征和門控制單元得到多個所述不同情感新聞處理器的注意力權重;根據(jù)多個所述不同情感新聞處理器的注意力權重和所述第一新聞處理特征得到用于真假性分類的新聞聚合特征,根據(jù)所述用于真假性分類的新聞聚合特征和不實新聞檢測器,得到第一新聞的預測標簽。
61、本發(fā)明實施例提供一種計算機設備,所述計算機設備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述計算機程序被所述處理器執(zhí)行時,使得所述處理器執(zhí)行上述所述的多模態(tài)不實新聞檢測方法。
62、本發(fā)明實施例提供一種計算機可讀存儲介質,其特征在于,存儲有計算機程序,所述計算機程序被處理器執(zhí)行時,使得所述處理器執(zhí)行上述所述的多模態(tài)不實新聞檢測方法。
63、本發(fā)明實施例提供一種多模態(tài)不實新聞檢測方法及裝置,該方法通過bert模型分別對第一文本表征和第一圖片表征進行知識增強,引入了第一字幕表征和第一實證表征,解決了現(xiàn)有方法存在對數(shù)據(jù)挖掘和分析不充分問題;利用共注意力機制和自注意力機制,分別得到第一實證強化文本表征、第一文本強化實證表征、第一字幕強化圖片表征和第一圖片強化字幕表征,結合上述多種表征實現(xiàn)多模態(tài)特征,多模態(tài)特征與第一單模態(tài)文本表征和第一單模態(tài)圖片表征可以補充交互、語義增強,從而解決了當前由跨模態(tài)特征相似度低和融合效果差導致的檢測精度低的問題;進一步地,設計專家網絡確定第一新聞整體的積極情感概率和第一新聞整體的情感表征,結合真假新聞中情感傾向的差異性構造了情感推理損失輔助虛假新聞檢測任務;設計平衡性學習模塊來讓模型依據(jù)新聞情感類型進行專項處理提高通用性和檢測精度,增加了社交網絡上多模態(tài)虛假新聞檢測的準確性和判別方法在現(xiàn)實中的適用性。該方法可以對新聞信息進行深入挖掘和分析,實現(xiàn)對多模態(tài)信息的語義增強以及對新聞情感特征的發(fā)掘及應用。