本發(fā)明屬于數(shù)據(jù)處理,具體涉及一種虛假信息檢測(cè)方法、系統(tǒng)、電子設(shè)備及產(chǎn)品。
背景技術(shù):
1、在當(dāng)今社交網(wǎng)絡(luò)的高速發(fā)展過(guò)程中,信息傳播的效率和覆蓋范圍達(dá)到了前所未有的廣度,然而,這種信息傳播的便利性也導(dǎo)致了如謠言等虛假信息的廣泛傳播問(wèn)題。謠言等虛假信息的傳播具有高隱蔽性和突發(fā)性,且伴隨人工智能技術(shù)的快速發(fā)展,多媒體內(nèi)容的偽造技術(shù)也愈發(fā)成熟,相關(guān)部門往往難以在傳播初期及時(shí)察覺(jué)并采取措施,導(dǎo)致虛假信息在公眾間迅速發(fā)酵,甚至引發(fā)恐慌和輿情危機(jī)。因此,加強(qiáng)虛假信息的檢測(cè)能力顯得尤為重要。
2、當(dāng)前的虛假信息檢測(cè)方法多依賴于人工審核或基于單一模態(tài)的分析工具實(shí)現(xiàn),但是,在使用現(xiàn)有技術(shù)過(guò)程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問(wèn)題:
3、目前的虛假信息通常以各種形式呈現(xiàn),如文字、圖片、視頻和音頻等,這些多模態(tài)數(shù)據(jù)極大地增加了虛假信息識(shí)別和監(jiān)控的復(fù)雜性。而現(xiàn)有技術(shù)對(duì)復(fù)雜、多模態(tài)虛假信息的檢測(cè)能力較弱,難以處理涉及文本、圖片、音頻和視頻等多模態(tài)信息的復(fù)合性內(nèi)容,尤其是在社交網(wǎng)絡(luò)中,由于虛假信息的傳播速度遠(yuǎn)超辟謠信息的傳播速度,傳統(tǒng)的依賴人工和單模態(tài)分析的方式難以滿足實(shí)時(shí)監(jiān)控和有效應(yīng)對(duì)的需求。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明旨在至少在一定程度上解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種虛假信息檢測(cè)方法、系統(tǒng)、電子設(shè)備及產(chǎn)品。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:
3、第一方面,本發(fā)明提供了一種虛假信息檢測(cè)方法,包括:
4、從指定數(shù)據(jù)源抓取辟謠數(shù)據(jù),并根據(jù)所述辟謠數(shù)據(jù)構(gòu)建得到知識(shí)圖譜;
5、接收用戶輸入的待求證數(shù)據(jù),并對(duì)所述待求證數(shù)據(jù)根據(jù)數(shù)據(jù)類型進(jìn)行分解處理,得到子待求證數(shù)據(jù);其中,所述子待求證數(shù)據(jù)包括初始文本數(shù)據(jù)、初始圖片數(shù)據(jù)、初始音頻數(shù)據(jù)和/或初始視頻數(shù)據(jù);
6、從所述子待求證數(shù)據(jù)中提取得到與所述待求證數(shù)據(jù)匹配的待求證文本數(shù)據(jù);
7、利用預(yù)設(shè)的大語(yǔ)言模型對(duì)所述待求證文本數(shù)據(jù)進(jìn)行邏輯分析處理,以便判斷所述待求證文本數(shù)據(jù)是否存在邏輯問(wèn)題,如是,則判定所述待求證數(shù)據(jù)為虛假信息,如否,則進(jìn)入下一步;
8、基于所述知識(shí)圖譜對(duì)所述待求證文本數(shù)據(jù)進(jìn)行虛假信息檢測(cè)處理,以便得到所述待求證文本數(shù)據(jù)的虛假信息檢測(cè)結(jié)果。
9、在一個(gè)可能的設(shè)計(jì)中,根據(jù)所述辟謠數(shù)據(jù)構(gòu)建得到知識(shí)圖譜,包括:
10、對(duì)所述辟謠數(shù)據(jù)進(jìn)行多源特征提取處理,得到與所述辟謠數(shù)據(jù)對(duì)應(yīng)的多源特征數(shù)據(jù);其中,所述多源特征數(shù)據(jù)包括文本特征數(shù)據(jù)、圖片特征數(shù)據(jù)、音頻特征數(shù)據(jù)和視頻特征數(shù)據(jù);
11、根據(jù)所述文本特征數(shù)據(jù)得到所述辟謠數(shù)據(jù)的事件類型,并根據(jù)所述事件類型生成事件標(biāo)識(shí);
12、分別將所述文本特征數(shù)據(jù)、所述圖片特征數(shù)據(jù)、所述音頻特征數(shù)據(jù)和所述視頻特征數(shù)據(jù)存儲(chǔ)至對(duì)象存儲(chǔ)系統(tǒng),并分別生成與所述文本特征數(shù)據(jù)、所述圖片特征數(shù)據(jù)、所述音頻特征數(shù)據(jù)和所述視頻特征數(shù)據(jù)對(duì)應(yīng)的存儲(chǔ)路徑,再分別將所述文本特征數(shù)據(jù)、所述圖片特征數(shù)據(jù)、所述音頻特征數(shù)據(jù)和所述視頻特征數(shù)據(jù)與所述事件標(biāo)識(shí)和對(duì)應(yīng)的存儲(chǔ)路徑進(jìn)行綁定后,存入預(yù)設(shè)的文本數(shù)據(jù)表、圖片數(shù)據(jù)表、音頻數(shù)據(jù)表和視頻數(shù)據(jù)表中;
13、根據(jù)所述文本數(shù)據(jù)表、所述圖片數(shù)據(jù)表、所述音頻數(shù)據(jù)表和所述視頻數(shù)據(jù)表,構(gòu)建得到知識(shí)圖譜。
14、在一個(gè)可能的設(shè)計(jì)中,得到與所述辟謠數(shù)據(jù)對(duì)應(yīng)的多源特征數(shù)據(jù)后,所述方法還包括:
15、分別對(duì)所述圖片特征數(shù)據(jù)、所述音頻特征數(shù)據(jù)和所述視頻特征數(shù)據(jù)進(jìn)行文字提取處理,得到附加文本特征數(shù)據(jù),并將所述附加文本特征數(shù)據(jù)融入所述文本特征數(shù)據(jù)中,得到最終的文本特征數(shù)據(jù),以便從所述最終的文本特征數(shù)據(jù)中提取得到所述辟謠數(shù)據(jù)的事件類型。
16、在一個(gè)可能的設(shè)計(jì)中,根據(jù)所述文本特征數(shù)據(jù)得到所述辟謠數(shù)據(jù)的事件類型,包括:
17、從所述文本特征數(shù)據(jù)中提取得到所述辟謠數(shù)據(jù)的事件特征向量;
18、基于預(yù)設(shè)的svm模型,根據(jù)所述事件特征向量計(jì)算得到所述辟謠數(shù)據(jù)的決策函數(shù)值;其中,所述決策函數(shù)值為:
19、;
20、式中, x表示所述事件特征向量; αi表示預(yù)設(shè)的第 i個(gè)拉格朗日乘子; n表示預(yù)設(shè)的訓(xùn)練集的樣本數(shù)量; yi表示預(yù)設(shè)的訓(xùn)練集中第 i個(gè)訓(xùn)練樣本 xi的標(biāo)簽; k( x, xi)表示核函數(shù),用于計(jì)算第 i個(gè)訓(xùn)練樣本 xi和所述事件特征向量 x之間的相似度; b表示預(yù)設(shè)的偏置項(xiàng);
21、根據(jù)所述決策函數(shù)值,得到所述辟謠數(shù)據(jù)的事件類型。
22、在一個(gè)可能的設(shè)計(jì)中,基于所述知識(shí)圖譜對(duì)所述待求證文本數(shù)據(jù)進(jìn)行虛假信息檢測(cè)處理,以便得到所述待求證文本數(shù)據(jù)的虛假信息檢測(cè)結(jié)果,包括:
23、采用node2vec算法將所述知識(shí)圖譜中的節(jié)點(diǎn)嵌入到低維向量空間中,得到所述知識(shí)圖譜中多個(gè)節(jié)點(diǎn)的節(jié)點(diǎn)嵌入向量;
24、對(duì)所述待求證文本數(shù)據(jù)進(jìn)行特征提取處理,得到與所述待求證數(shù)據(jù)對(duì)應(yīng)的待求證特征數(shù)據(jù),并獲取所述待求證特征數(shù)據(jù)的待求證嵌入向量;
25、使用余弦相似度分別計(jì)算得到所述待求證嵌入向量與所述知識(shí)圖譜中多個(gè)節(jié)點(diǎn)的節(jié)點(diǎn)嵌入向量之間的相似度,并選取所述知識(shí)圖譜中,與所述待求證嵌入向量之間的相似度最高的節(jié)點(diǎn)嵌入向量對(duì)應(yīng)的節(jié)點(diǎn)作為最優(yōu)匹配節(jié)點(diǎn);
26、判斷所述待求證嵌入向量與所述最優(yōu)匹配節(jié)點(diǎn)的節(jié)點(diǎn)嵌入向量之間的相似度是否大于預(yù)設(shè)的相似度閾值,如是,則根據(jù)與所述最優(yōu)匹配節(jié)點(diǎn)對(duì)應(yīng)的辟謠數(shù)據(jù),得到所述待求證文本數(shù)據(jù)的虛假信息檢測(cè)結(jié)果。
27、在一個(gè)可能的設(shè)計(jì)中,所述待求證特征數(shù)據(jù)的待求證嵌入向量包括待求證時(shí)間嵌入向量vtinput、待求證地點(diǎn)嵌入向量vlinput、待求證人嵌入向量vpinput、待求證物嵌入向量voinput和待求證事件類型嵌入向量veinput;所述知識(shí)圖譜中任一節(jié)點(diǎn)的節(jié)點(diǎn)嵌入向量包括時(shí)間嵌入向量vtj、地點(diǎn)嵌入向量vlj、人嵌入向量vpj、物嵌入向量voj和事件類型嵌入向量vej;對(duì)應(yīng)地,所述待求證嵌入向量與所述任一節(jié)點(diǎn)的節(jié)點(diǎn)嵌入向量之間的相似度為:
28、;
29、式中,,為所述待求證時(shí)間嵌入向量vtinput與所述時(shí)間嵌入向量vtj之間的相似度;,為所述待求證地點(diǎn)嵌入向量vlinput與所述地點(diǎn)嵌入向量vlj之間的相似度;,為所述待求證人嵌入向量vpinput與所述人嵌入向量vpj之間的相似度;,為所述待求證物嵌入向量voinput與所述物嵌入向量voj之間的相似度;為所述待求證事件類型嵌入向量veinput與所述事件類型嵌入向量vej之間的相似度。
30、在一個(gè)可能的設(shè)計(jì)中,所述方法還包括:
31、將各用戶輸入的待求證數(shù)據(jù)以及與其匹配的虛假信息檢測(cè)結(jié)果存儲(chǔ)至日志數(shù)據(jù)庫(kù);
32、獲取所述日志數(shù)據(jù)庫(kù)中,指定時(shí)間范圍內(nèi)的所有待求證數(shù)據(jù)對(duì)應(yīng)的事件類型,并對(duì)同一事件類型的待求證數(shù)據(jù)進(jìn)行頻次匯總,得到各事件類型在所述指定時(shí)間范圍內(nèi)的檢測(cè)頻次;
33、獲取各事件類型的事件級(jí)別,并根據(jù)各事件類型的檢測(cè)頻次和事件級(jí)別,得到各事件類型的嚴(yán)重程度;
34、對(duì)任一事件類型,判斷其檢測(cè)頻次是否大于預(yù)設(shè)的頻次閾值,且其嚴(yán)重程度是否大于預(yù)設(shè)的嚴(yán)重程度閾值,如是,則對(duì)所述任一事件類型進(jìn)行虛假信息預(yù)警。
35、第二方面,本發(fā)明提供了一種虛假信息檢測(cè)系統(tǒng),包括:
36、知識(shí)圖譜構(gòu)建模塊,用于從指定數(shù)據(jù)源抓取辟謠數(shù)據(jù),并根據(jù)所述辟謠數(shù)據(jù)構(gòu)建得到知識(shí)圖譜;
37、待求證數(shù)據(jù)接收模塊,用于接收用戶輸入的待求證數(shù)據(jù),并對(duì)所述待求證數(shù)據(jù)根據(jù)數(shù)據(jù)類型進(jìn)行分解處理,得到子待求證數(shù)據(jù);其中,所述子待求證數(shù)據(jù)包括初始文本數(shù)據(jù)、初始圖片數(shù)據(jù)、初始音頻數(shù)據(jù)和/或初始視頻數(shù)據(jù);
38、虛假信息檢測(cè)模塊,分別與所述知識(shí)圖譜構(gòu)建模塊和所述待求證數(shù)據(jù)接收模塊通信連接,用于從所述子待求證數(shù)據(jù)中提取得到與所述待求證數(shù)據(jù)匹配的待求證文本數(shù)據(jù);還用于利用預(yù)設(shè)的大語(yǔ)言模型對(duì)所述待求證文本數(shù)據(jù)進(jìn)行邏輯分析處理,以便判斷所述待求證文本數(shù)據(jù)是否存在邏輯問(wèn)題,如是,則判定所述待求證數(shù)據(jù)為虛假信息,如否,則基于所述知識(shí)圖譜對(duì)所述待求證文本數(shù)據(jù)進(jìn)行虛假信息檢測(cè)處理,以便得到所述待求證文本數(shù)據(jù)的虛假信息檢測(cè)結(jié)果。
39、第三方面,本發(fā)明提供了一種電子設(shè)備,包括:
40、存儲(chǔ)器,用于存儲(chǔ)計(jì)算機(jī)程序指令;以及,
41、處理器,用于執(zhí)行所述計(jì)算機(jī)程序指令從而完成如上述任意一項(xiàng)所述的一種虛假信息檢測(cè)方法的操作。
42、第四方面,本發(fā)明提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序或指令,所述計(jì)算機(jī)程序或所述指令在被計(jì)算機(jī)執(zhí)行時(shí)實(shí)現(xiàn)如上述任意一項(xiàng)所述的一種虛假信息檢測(cè)方法。
43、本發(fā)明的有益效果為:
44、本發(fā)明公開(kāi)了一種虛假信息檢測(cè)方法、系統(tǒng)、電子設(shè)備及產(chǎn)品,可實(shí)現(xiàn)對(duì)多源虛假信息的自動(dòng)化檢測(cè),同時(shí)檢測(cè)實(shí)時(shí)性高。具體地,本發(fā)明在實(shí)施過(guò)程中,首先,從指定數(shù)據(jù)源抓取辟謠數(shù)據(jù),并根據(jù)所述辟謠數(shù)據(jù)構(gòu)建得到知識(shí)圖譜;再接收用戶輸入的待求證數(shù)據(jù),并對(duì)所述待求證數(shù)據(jù)根據(jù)數(shù)據(jù)類型進(jìn)行分解處理,得到子待求證數(shù)據(jù);隨后,從所述子待求證數(shù)據(jù)中提取得到與所述待求證數(shù)據(jù)匹配的待求證文本數(shù)據(jù);接著,利用預(yù)設(shè)的大語(yǔ)言模型對(duì)所述待求證文本數(shù)據(jù)進(jìn)行邏輯分析處理,以便判斷所述待求證文本數(shù)據(jù)是否存在邏輯問(wèn)題,如是,則判定所述待求證數(shù)據(jù)為虛假信息,如否,則基于所述知識(shí)圖譜對(duì)所述待求證文本數(shù)據(jù)進(jìn)行虛假信息檢測(cè)處理,以便得到所述待求證文本數(shù)據(jù)的虛假信息檢測(cè)結(jié)果。基于本發(fā)明,可實(shí)現(xiàn)對(duì)多種類型待求證數(shù)據(jù)的虛假信息檢測(cè),且通過(guò)自動(dòng)化檢測(cè),檢測(cè)的實(shí)時(shí)性更高,有利于減少因謠言傳播而引發(fā)的社會(huì)恐慌和誤解,從而保障公眾獲取真實(shí)可靠的信息,降低虛假信息帶來(lái)的社會(huì)風(fēng)險(xiǎn)。
45、本發(fā)明的其他有益效果將在具體實(shí)施方式中進(jìn)一步進(jìn)行說(shuō)明。