麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

大模型回答事實(shí)核驗(yàn)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):41742343發(fā)布日期:2025-04-25 17:22閱讀:6來(lái)源:國(guó)知局
大模型回答事實(shí)核驗(yàn)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

本技術(shù)涉及人工智能,具體而言,涉及一種大模型回答事實(shí)核驗(yàn)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。


背景技術(shù):

1、大模型因?yàn)槠浣y(tǒng)計(jì)歸納的本質(zhì),天生存在幻覺(jué)問(wèn)題,包括事實(shí)性幻覺(jué)(factuality)和忠實(shí)性幻覺(jué)(faithfulness),其中事實(shí)類幻覺(jué)因?yàn)樯婕暗礁鞣N領(lǐng)域的專業(yè)知識(shí),通常需要從外部知識(shí)庫(kù)檢索得到相應(yīng)的證據(jù)來(lái)輔助核查。然而,相關(guān)技術(shù)中的大模型回答事實(shí)核查方法,對(duì)于多跳推理回答的核查效果不佳。

2、針對(duì)上述的問(wèn)題,目前尚未提出有效的解決方案。


技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)實(shí)施例提供了一種大模型回答事實(shí)核驗(yàn)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),以至少解決相關(guān)技術(shù)中的大模型回答事實(shí)核查方法對(duì)于多跳推理回答的核查效果不佳的技術(shù)問(wèn)題。

2、根據(jù)本技術(shù)實(shí)施例的一個(gè)方面,提供了一種大模型回答事實(shí)核驗(yàn)方法,包括:將大模型給出的回答分解為多個(gè)事實(shí)點(diǎn),并確定初始的狀態(tài),將初始的狀態(tài)添加至優(yōu)先隊(duì)列中,其中,狀態(tài)用于表征每個(gè)事實(shí)點(diǎn)的核驗(yàn)狀態(tài),在初始的狀態(tài)中每個(gè)事實(shí)點(diǎn)均為待核驗(yàn)狀態(tài);從優(yōu)先隊(duì)列中獲取一個(gè)優(yōu)先級(jí)最高的狀態(tài),作為第一狀態(tài),并在第一狀態(tài)不為預(yù)設(shè)的目標(biāo)狀態(tài)的情況下,采用強(qiáng)化學(xué)習(xí)算法網(wǎng)絡(luò),確定在第一狀態(tài)下,執(zhí)行目標(biāo)核驗(yàn)動(dòng)作,到達(dá)第二狀態(tài)所能夠獲得的動(dòng)作獎(jiǎng)勵(lì)值,其中,目標(biāo)核驗(yàn)動(dòng)作用于對(duì)一個(gè)事實(shí)點(diǎn)進(jìn)行事實(shí)核驗(yàn),得到事實(shí)點(diǎn)對(duì)應(yīng)的核驗(yàn)結(jié)果,在目標(biāo)狀態(tài)中每個(gè)事實(shí)點(diǎn)對(duì)應(yīng)的核驗(yàn)結(jié)果均為核驗(yàn)通過(guò);依據(jù)動(dòng)作獎(jiǎng)勵(lì)值,確定第二狀態(tài)對(duì)應(yīng)的優(yōu)先級(jí),并在優(yōu)先隊(duì)列中未添加過(guò)第二狀態(tài)的情況下,將第二狀態(tài)添加至優(yōu)先隊(duì)列中;再次從優(yōu)先隊(duì)列中獲取一個(gè)優(yōu)先級(jí)最高的狀態(tài),作為第一狀態(tài),重復(fù)上述確定動(dòng)作獎(jiǎng)勵(lì)值及優(yōu)先級(jí)并更新優(yōu)先隊(duì)列的過(guò)程,直至第一狀態(tài)為目標(biāo)狀態(tài)或優(yōu)先隊(duì)列為空,并在第一狀態(tài)為目標(biāo)狀態(tài)的情況下,判定大模型給出的回答的事實(shí)核驗(yàn)通過(guò)。

3、可選地,確定在第一狀態(tài)下,執(zhí)行目標(biāo)核驗(yàn)動(dòng)作,到達(dá)第二狀態(tài)所能夠獲得的獎(jiǎng)勵(lì)值之后,方法還包括:獲取獎(jiǎng)勵(lì)哈希表中第一狀態(tài)對(duì)應(yīng)的第一累計(jì)獎(jiǎng)勵(lì)值,其中,第一累計(jì)獎(jiǎng)勵(lì)值用于表征從初始的狀態(tài)到第一狀態(tài)所累計(jì)的動(dòng)作獎(jiǎng)勵(lì)值的總和;依據(jù)第一累計(jì)獎(jiǎng)勵(lì)值和動(dòng)作獎(jiǎng)勵(lì)值,確定第二狀態(tài)對(duì)應(yīng)的第二累計(jì)獎(jiǎng)勵(lì)值,其中,第二累計(jì)獎(jiǎng)勵(lì)值用于表征從初始的狀態(tài)到第二狀態(tài)所累計(jì)的動(dòng)作獎(jiǎng)勵(lì)值的總和;在獎(jiǎng)勵(lì)哈希表中不存在第二狀態(tài)對(duì)應(yīng)的第二累計(jì)獎(jiǎng)勵(lì)值,或者獎(jiǎng)勵(lì)哈希表中記錄的第二狀態(tài)對(duì)應(yīng)的歷史的第二累計(jì)獎(jiǎng)勵(lì)值小于新確定的第二累計(jì)獎(jiǎng)勵(lì)值的情況下,將第二狀態(tài)對(duì)應(yīng)的新確定的第二累計(jì)獎(jiǎng)勵(lì)值更新至獎(jiǎng)勵(lì)哈希表中。

4、可選地,確定第二狀態(tài)對(duì)應(yīng)的優(yōu)先級(jí)包括:采用強(qiáng)化學(xué)習(xí)算法網(wǎng)絡(luò),確定第二狀態(tài)對(duì)應(yīng)的狀態(tài)價(jià)值,其中,狀態(tài)價(jià)值為強(qiáng)化學(xué)習(xí)算法網(wǎng)絡(luò)預(yù)測(cè)的,從第二狀態(tài)到目標(biāo)狀態(tài)所能獲得的獎(jiǎng)勵(lì)值;依據(jù)第二狀態(tài)對(duì)應(yīng)的狀態(tài)價(jià)值和第二累計(jì)獎(jiǎng)勵(lì)值,確定第二狀態(tài)對(duì)應(yīng)的優(yōu)先級(jí)。

5、可選地,在從優(yōu)先隊(duì)列中獲取一個(gè)優(yōu)先級(jí)最高的狀態(tài),作為第一狀態(tài)之后,方法還包括:判斷第一狀態(tài)是否為目標(biāo)狀態(tài);在第一狀態(tài)為目標(biāo)狀態(tài)的情況下,獲取從初始的狀態(tài)至目標(biāo)狀態(tài)的過(guò)程中所經(jīng)歷的各個(gè)狀態(tài)的序列;依據(jù)序列,確定各個(gè)事實(shí)點(diǎn)的核驗(yàn)順序,并將核驗(yàn)順序發(fā)送至前端交互界面進(jìn)行展示。

6、可選地,強(qiáng)化學(xué)習(xí)算法網(wǎng)絡(luò)包括:q-learning算法網(wǎng)絡(luò),其中,q-learning算法網(wǎng)絡(luò)中包含:特征提取層、對(duì)決網(wǎng)絡(luò)和狀態(tài)網(wǎng)絡(luò),特征提取層,用于提取狀態(tài)的特征,對(duì)決網(wǎng)絡(luò),用于學(xué)習(xí)在不同狀態(tài)下執(zhí)行各個(gè)核驗(yàn)動(dòng)作的相對(duì)優(yōu)劣,狀態(tài)網(wǎng)絡(luò),用于學(xué)習(xí)在不同狀態(tài)下所能獲得的預(yù)期回報(bào)。

7、可選地,采用強(qiáng)化學(xué)習(xí)算法網(wǎng)絡(luò),確定在第一狀態(tài)下,執(zhí)行目標(biāo)核驗(yàn)動(dòng)作,到達(dá)第二狀態(tài)所能夠獲得的動(dòng)作獎(jiǎng)勵(lì)值包括:采用狀態(tài)網(wǎng)絡(luò),確定第一狀態(tài)對(duì)應(yīng)的價(jià)值期望;確定動(dòng)作空間中在第一狀態(tài)下,所能夠執(zhí)行的全部核驗(yàn)動(dòng)作;采用對(duì)決網(wǎng)絡(luò),確定在第一狀態(tài)下,執(zhí)行各個(gè)核驗(yàn)動(dòng)作對(duì)應(yīng)的優(yōu)勢(shì)價(jià)值的平均值;依據(jù)作為目標(biāo)核驗(yàn)動(dòng)作的核驗(yàn)動(dòng)作對(duì)應(yīng)的優(yōu)勢(shì)價(jià)值、價(jià)值期望、以及優(yōu)勢(shì)價(jià)值的平均值,確定動(dòng)作獎(jiǎng)勵(lì)值。

8、可選地,強(qiáng)化學(xué)習(xí)算法網(wǎng)絡(luò)的訓(xùn)練步驟包括:獲取訓(xùn)練數(shù)據(jù)集,其中,訓(xùn)練數(shù)據(jù)中包含歷史回答核驗(yàn)過(guò)程中的四元組數(shù)據(jù),四元組數(shù)據(jù)中包含:第一狀態(tài)、在第一狀態(tài)所采取的目標(biāo)核驗(yàn)動(dòng)作、采取目標(biāo)核驗(yàn)動(dòng)作后所到達(dá)的第二狀態(tài)、采取目標(biāo)核驗(yàn)動(dòng)作到達(dá)第二狀態(tài)所得到的真實(shí)動(dòng)作獎(jiǎng)勵(lì)值;采用初始模型,預(yù)測(cè)在訓(xùn)練數(shù)據(jù)集中的第一狀態(tài)下執(zhí)行目標(biāo)核驗(yàn)動(dòng)作的獎(jiǎng)勵(lì)值,得到預(yù)測(cè)動(dòng)作獎(jiǎng)勵(lì)值;依據(jù)真實(shí)動(dòng)作獎(jiǎng)勵(lì)值和預(yù)測(cè)動(dòng)作獎(jiǎng)勵(lì)值,確定損失函數(shù)值,并依據(jù)損失函數(shù)值,更新初始模型的模型參數(shù),得到強(qiáng)化學(xué)習(xí)算法網(wǎng)絡(luò)。

9、根據(jù)本技術(shù)實(shí)施例的另一個(gè)方面,還提供了一種大模型回答事實(shí)核驗(yàn)裝置,包括:狀態(tài)確定模塊,用于將大模型給出的回答分解為多個(gè)事實(shí)點(diǎn),并確定初始的狀態(tài),將初始的狀態(tài)添加至優(yōu)先隊(duì)列中,其中,狀態(tài)用于表征每個(gè)事實(shí)點(diǎn)的核驗(yàn)狀態(tài),在初始的狀態(tài)中每個(gè)事實(shí)點(diǎn)均為待核驗(yàn)狀態(tài);獎(jiǎng)勵(lì)確定模塊,用于從優(yōu)先隊(duì)列中獲取一個(gè)優(yōu)先級(jí)最高的狀態(tài),作為第一狀態(tài),并在第一狀態(tài)不為預(yù)設(shè)的目標(biāo)狀態(tài)的情況下,采用強(qiáng)化學(xué)習(xí)算法網(wǎng)絡(luò),確定在第一狀態(tài)下,執(zhí)行目標(biāo)核驗(yàn)動(dòng)作,到達(dá)第二狀態(tài)所能夠獲得的動(dòng)作獎(jiǎng)勵(lì)值,其中,目標(biāo)核驗(yàn)動(dòng)作用于對(duì)一個(gè)事實(shí)點(diǎn)進(jìn)行事實(shí)核驗(yàn),得到事實(shí)點(diǎn)對(duì)應(yīng)的核驗(yàn)結(jié)果,在目標(biāo)狀態(tài)中每個(gè)事實(shí)點(diǎn)對(duì)應(yīng)的核驗(yàn)結(jié)果均為核驗(yàn)通過(guò);隊(duì)列更新模塊,用于依據(jù)動(dòng)作獎(jiǎng)勵(lì)值,確定第二狀態(tài)對(duì)應(yīng)的優(yōu)先級(jí),并在優(yōu)先隊(duì)列中未添加過(guò)第二狀態(tài)的情況下,將第二狀態(tài)添加至優(yōu)先隊(duì)列中;循環(huán)核驗(yàn)?zāi)K,用于再次從優(yōu)先隊(duì)列中獲取一個(gè)優(yōu)先級(jí)最高的狀態(tài),作為第一狀態(tài),重復(fù)上述確定動(dòng)作獎(jiǎng)勵(lì)值及優(yōu)先級(jí)并更新優(yōu)先隊(duì)列的過(guò)程,直至第一狀態(tài)為目標(biāo)狀態(tài)或優(yōu)先隊(duì)列為空,并在第一狀態(tài)為目標(biāo)狀態(tài)的情況下,判定大模型給出的回答的事實(shí)核驗(yàn)通過(guò)。

10、根據(jù)本技術(shù)實(shí)施例的又一方面,還提供了一種電子設(shè)備,包括:存儲(chǔ)器和處理器,處理器用于運(yùn)行存儲(chǔ)在存儲(chǔ)器中的程序,其中,程序運(yùn)行時(shí)執(zhí)行大模型回答事實(shí)核驗(yàn)方法。

11、根據(jù)本技術(shù)實(shí)施例的再一方面,還提供了一種非易失性存儲(chǔ)介質(zhì),非易失性存儲(chǔ)介質(zhì)包括存儲(chǔ)的計(jì)算機(jī)程序,其中,非易失性存儲(chǔ)介質(zhì)所在設(shè)備通過(guò)運(yùn)行計(jì)算機(jī)程序執(zhí)行大模型回答事實(shí)核驗(yàn)方法。

12、根據(jù)本技術(shù)實(shí)施例的再一方面,還提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)大模型回答事實(shí)核驗(yàn)方法的步驟。

13、在本技術(shù)實(shí)施例中,采用將大模型給出的回答分解為多個(gè)事實(shí)點(diǎn),并確定初始的狀態(tài),將初始的狀態(tài)添加至優(yōu)先隊(duì)列中,其中,狀態(tài)用于表征每個(gè)事實(shí)點(diǎn)的核驗(yàn)狀態(tài),在初始的狀態(tài)中每個(gè)事實(shí)點(diǎn)均為待核驗(yàn)狀態(tài);從優(yōu)先隊(duì)列中獲取一個(gè)優(yōu)先級(jí)最高的狀態(tài),作為第一狀態(tài),并在第一狀態(tài)不為預(yù)設(shè)的目標(biāo)狀態(tài)的情況下,采用強(qiáng)化學(xué)習(xí)算法網(wǎng)絡(luò),確定在第一狀態(tài)下,執(zhí)行目標(biāo)核驗(yàn)動(dòng)作,到達(dá)第二狀態(tài)所能夠獲得的動(dòng)作獎(jiǎng)勵(lì)值,其中,目標(biāo)核驗(yàn)動(dòng)作用于對(duì)一個(gè)事實(shí)點(diǎn)進(jìn)行事實(shí)核驗(yàn),得到事實(shí)點(diǎn)對(duì)應(yīng)的核驗(yàn)結(jié)果,在目標(biāo)狀態(tài)中每個(gè)事實(shí)點(diǎn)對(duì)應(yīng)的核驗(yàn)結(jié)果均為核驗(yàn)通過(guò);依據(jù)動(dòng)作獎(jiǎng)勵(lì)值,確定第二狀態(tài)對(duì)應(yīng)的優(yōu)先級(jí),并在優(yōu)先隊(duì)列中未添加過(guò)第二狀態(tài)的情況下,將第二狀態(tài)添加至優(yōu)先隊(duì)列中;再次從優(yōu)先隊(duì)列中獲取一個(gè)優(yōu)先級(jí)最高的狀態(tài),作為第一狀態(tài),重復(fù)上述確定動(dòng)作獎(jiǎng)勵(lì)值及優(yōu)先級(jí)并更新優(yōu)先隊(duì)列的過(guò)程,直至第一狀態(tài)為目標(biāo)狀態(tài)或優(yōu)先隊(duì)列為空,并在第一狀態(tài)為目標(biāo)狀態(tài)的情況下,判定大模型給出的回答的事實(shí)核驗(yàn)通過(guò)的方式,通過(guò)將多跳推理問(wèn)題形式化為解空間上的最優(yōu)推理路徑查找問(wèn)題,利用強(qiáng)化學(xué)習(xí)與最短路徑搜索算法的結(jié)合實(shí)現(xiàn)動(dòng)態(tài)評(píng)估推理路徑,達(dá)到了充分適用多種事實(shí)核查任務(wù),并為最終核驗(yàn)結(jié)果提供一定的可解釋性的目的,進(jìn)而解決了相關(guān)技術(shù)中的大模型回答事實(shí)核查方法對(duì)于多跳推理回答的核查效果不佳技術(shù)問(wèn)題。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
主站蜘蛛池模板: 钦州市| 喀喇| 阳信县| 密山市| 浪卡子县| 同仁县| 龙口市| 扎鲁特旗| 六安市| 太谷县| 棋牌| 楚雄市| 泰顺县| 措勤县| 鄂尔多斯市| 武胜县| 黑山县| 当雄县| 尚志市| 林周县| 灵台县| 赞皇县| 开平市| 随州市| 锡林郭勒盟| 百色市| 三亚市| 潢川县| 绍兴市| 永丰县| 乌拉特后旗| 盐山县| 株洲市| 论坛| 高阳县| 尉氏县| 麻江县| 孙吴县| 六枝特区| 保德县| 姚安县|