本發(fā)明涉及一種人工智能大模型的問答文本重置方法及裝置,屬于人工智能大模型。
背景技術(shù):
1、聚焦人工智能大模型的底層技術(shù),問答文本的質(zhì)量往往影響著大模型的輸出效果。在多輪對話的實(shí)際背景下,問答文本(尤其是提問文本)往往存在不完整的問題,利用現(xiàn)有的大模型框架處理不完整的文本尤其困難,往往因?yàn)闊o法準(zhǔn)確理解文本信息而導(dǎo)致輸出結(jié)果不準(zhǔn)確。
2、文本中的不完整性,特別是指代詞和省略詞的使用,導(dǎo)致了語義上的模糊性,這在自然語言處理領(lǐng)域引發(fā)了廣泛關(guān)注。為此,研究人員提出了兩個核心子任務(wù):指代消解和省略補(bǔ)全。這兩個任務(wù)的目標(biāo)是將語義缺失或依賴于特定語境的文本轉(zhuǎn)換成語義完整、獨(dú)立表達(dá)的文本,以確保機(jī)器能夠準(zhǔn)確理解文本的意義。在現(xiàn)代的大規(guī)模模型問答系統(tǒng)中,一種主流的方法是通過對話重置技術(shù)來提升機(jī)器的語義理解能力。這一方法充分利用了對話的歷史信息,即用戶與機(jī)器之間的多輪互動記錄。通過這種方式,復(fù)雜多輪的對話可以被簡化為單輪對話,使模型能夠更有效地處理用戶的輸入。具體來說,對話重置模型會分析用戶當(dāng)前的輸入文本,識別并補(bǔ)充其中的指代詞和省略信息,從而使機(jī)器能夠全面理解用戶的意圖,提供更加準(zhǔn)確和相關(guān)的回應(yīng)。
3、在自然語言處理領(lǐng)域,文本問答對話重置任務(wù)涉及對文本序列的操作,其核心設(shè)計(jì)挑戰(zhàn)主要有兩個方面:一方面,需要選取能有效處理文本長期依賴性的神經(jīng)網(wǎng)絡(luò);另一方面,該模型還應(yīng)具備出色的特征提取能力,以確保能夠捕捉和理解復(fù)雜的語義結(jié)構(gòu)。另一大挑戰(zhàn)是如何準(zhǔn)確地識別并補(bǔ)充語義缺失的文本內(nèi)容。目前,業(yè)界較為推崇的方法是使用基于指針網(wǎng)絡(luò)的生成技術(shù)。這種技術(shù)借助完全復(fù)制機(jī)制,即通過指針地址引用用戶的歷史對話內(nèi)容,逐字構(gòu)建出一個全新的、語義完整的重置文本。這種方法成功地將復(fù)雜的多輪對話情境簡化為單輪對話,不過其生成過程相對耗時,效率較低。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是提供一種人工智能大模型的問答文本重置方法及裝置,通過transformer架構(gòu)的上下文理解能力和基于光標(biāo)地址關(guān)鍵信息快速抽取技術(shù),達(dá)到快速重置問答文本,并確保重置后文本語義完整和準(zhǔn)確性的效果。
2、為達(dá)到上述目的/為解決上述技術(shù)問題,本發(fā)明是采用下述技術(shù)方案實(shí)現(xiàn)的:
3、第一方面,本發(fā)明提供一種人工智能大模型的問答文本重置方法,包括如下步驟:
4、根據(jù)人工智能大模型的問答文本,得到含有標(biāo)記的拼接文本;
5、利用transformer模型對所述拼接文本進(jìn)行動態(tài)語義編碼,得到文本語義向量;
6、利用光標(biāo)預(yù)測模型處理所述拼接文本和所述文本語義向量,得到文本語義向量中多個關(guān)鍵信息的光標(biāo)地址;
7、根據(jù)所述關(guān)鍵信息的光標(biāo)地址,對所述文本語義向量進(jìn)行重置,得到重置后的文本語義向量;
8、利用解碼器對所述重置后的文本語義向量進(jìn)行解碼,得到重置后的問答文本。
9、結(jié)合第一方面,進(jìn)一步的,所述根據(jù)人工智能大模型的問答文本,得到含有標(biāo)記的拼接文本,包括:
10、根據(jù)人工智能大模型中相鄰兩個輪次的問答文本生成文檔樣本,所述文檔樣本的格式為(a,b,current),其中,a表示上一輪人工智能大模型的輸入文本,b表示上一輪人工智能大模型的輸出文本,current表示當(dāng)前輪次待重置的文本,當(dāng)前輪次待重置的文本包括當(dāng)前輪次人工智能大模型的輸入文本和輸出文本;
11、將文檔樣本中的文本數(shù)據(jù)按順序進(jìn)行拼接,并在a之前設(shè)置頭部標(biāo)記,在a和b、b和current的連接處設(shè)置連接處標(biāo)記,在current之后設(shè)置尾部標(biāo)記,得到含有標(biāo)記的拼接文本。
12、結(jié)合第一方面,進(jìn)一步的,所述利用transformer模型對所述拼接文本進(jìn)行動態(tài)語義編碼,得到文本語義向量,包括:
13、利用基于transformer的rbt3預(yù)訓(xùn)練模型對拼接文本中所有字符進(jìn)行并行處理,得到多個字向量,公式如下:
14、;
15、其中,表示拼接文本中第i個字向量的輸入嵌入,表示第i個字向量的詞嵌入,表示第i個字向量的位置嵌入,,n為拼接文本的長度;
16、將每個字向量映射成查詢向量、鍵向量和值向量,計(jì)算拼接文本中不同字向量之間的相似度,計(jì)算公式如下:
17、;
18、其中,表示拼接文本中第i個字向量對第j個字向量的相似度得分,qi表示第i個字向量的查詢向量,kj表示第j個字向量的鍵向量,為鍵向量的維度;
19、利用softmax函數(shù)不同字向量之間的相似度進(jìn)行歸一化處理,得到歸一化后的相似度概率分布,公式如下:
20、;
21、其中,表示歸一化處理后的相似度,為查詢矩陣,k為鍵矩陣,v為值矩陣;
22、根據(jù)歸一化后的相似度概率分布對所有字向量的值向量進(jìn)行加權(quán)求和,得到文本語義向量。
23、結(jié)合第一方面,進(jìn)一步的,所述利用光標(biāo)預(yù)測模型處理所述拼接文本和所述文本語義向量,得到文本語義向量中多個關(guān)鍵信息的光標(biāo)地址,包括:
24、利用光標(biāo)預(yù)測模型處理拼接文本,得到拼接文本的關(guān)鍵信息;
25、根據(jù)拼接文本的關(guān)鍵信息,利用光標(biāo)預(yù)測模型得到文本語義向量中每個字符位置是關(guān)鍵信息的光標(biāo)地址的概率,公式如下:
26、;
27、其中,表示文本語義向量中的第i個字符的關(guān)鍵信息的光標(biāo)地址預(yù)測概率,表示文本語義向量中的第i個字符,為光標(biāo)預(yù)測模型的學(xué)習(xí)參數(shù),b為偏置值,l為文本語義向量的總長度;
28、根據(jù)文本語義向量中每個字符位置是關(guān)鍵信息的光標(biāo)地址的概率,選取概率最大的字符位置作為對應(yīng)的關(guān)鍵信息的光標(biāo)地址。
29、結(jié)合第一方面,進(jìn)一步的,所述關(guān)鍵信息包括關(guān)鍵詞、指代詞和/或缺省位置,所述關(guān)鍵信息的光標(biāo)地址包括關(guān)鍵詞位置開始光標(biāo)地址、關(guān)鍵詞位置結(jié)束光標(biāo)地址、缺省位置光標(biāo)地址、指代詞位置開始光標(biāo)地址和指代詞位置結(jié)束光標(biāo)地址。
30、結(jié)合第一方面,進(jìn)一步的,根據(jù)關(guān)鍵信息的光標(biāo)地址,對文本語義向量進(jìn)行重置,得到重置后的文本語義向量,包括:
31、根據(jù)關(guān)鍵詞位置開始光標(biāo)地址和關(guān)鍵詞位置結(jié)束光標(biāo)地址從文本語義向量中提取上一輪問答文本的關(guān)鍵詞;如果存在缺省位置光標(biāo)地址,則將關(guān)鍵詞插入缺省位置光標(biāo)地址;如果存在指代詞位置開始光標(biāo)地址和指代詞位置結(jié)束光標(biāo)地址,則根據(jù)指代詞位置開始光標(biāo)地址和指代詞位置結(jié)束光標(biāo)地址,利用關(guān)鍵詞替換文本語義向量中的指代詞。
32、第二方面,本發(fā)明提供一種人工智能大模型的問答文本重置裝置,包括:
33、數(shù)據(jù)處理模塊,用于根據(jù)人工智能大模型的問答文本,得到含有標(biāo)記的拼接文本;
34、語義編碼模塊,用于利用transformer模型對所述拼接文本進(jìn)行動態(tài)語義編碼,得到文本語義向量;
35、光標(biāo)預(yù)測模塊,用于利用光標(biāo)預(yù)測模型處理所述拼接文本和所述文本語義向量,得到文本語義向量中多個關(guān)鍵信息的光標(biāo)地址;
36、文本重置模塊,用于根據(jù)所述關(guān)鍵信息的光標(biāo)地址,對所述文本語義向量進(jìn)行重置,得到重置后的文本語義向量;
37、文本輸出模塊,用于利用解碼器對所述重置后的文本語義向量進(jìn)行解碼,得到重置后的問答文本。
38、結(jié)合第二方面,進(jìn)一步的,所述語義編碼模塊,具體用于:
39、利用基于transformer的rbt3預(yù)訓(xùn)練模型對拼接文本中所有字符進(jìn)行并行處理,得到多個字向量,公式如下:
40、;
41、其中,表示拼接文本中第i個字向量的輸入嵌入,表示第i個字向量的詞嵌入,表示第i個字向量的位置嵌入,,n為拼接文本的長度;
42、將每個字向量映射成查詢向量、鍵向量和值向量,計(jì)算拼接文本中不同字向量之間的相似度,計(jì)算公式如下:
43、;
44、其中,表示拼接文本中第i個字向量對第j個字向量的相似度得分,qi表示第i個字向量的查詢向量,kj表示第j個字向量的鍵向量,為鍵向量的維度;
45、利用softmax函數(shù)不同字向量之間的相似度進(jìn)行歸一化處理,得到歸一化后的相似度概率分布,公式如下:
46、;
47、其中,表示歸一化處理后的相似度,為查詢矩陣,k為鍵矩陣,v為值矩陣;
48、根據(jù)歸一化后的相似度概率分布對所有字向量的值向量進(jìn)行加權(quán)求和,得到文本語義向量。
49、結(jié)合第二方面,進(jìn)一步的,所述光標(biāo)預(yù)測模塊,具體用于:
50、利用光標(biāo)預(yù)測模型處理拼接文本,得到拼接文本的關(guān)鍵信息;
51、根據(jù)拼接文本的關(guān)鍵信息,利用光標(biāo)預(yù)測模型得到文本語義向量中每個字符位置是關(guān)鍵信息的光標(biāo)地址的概率,公式如下:
52、;
53、其中,表示文本語義向量中的第i個字符的關(guān)鍵信息的光標(biāo)地址預(yù)測概率,表示文本語義向量中的第i個字符,為光標(biāo)預(yù)測模型的學(xué)習(xí)參數(shù),b為偏置值,l為文本語義向量的總長度;
54、根據(jù)文本語義向量中每個字符位置是關(guān)鍵信息的光標(biāo)地址的概率,選取概率最大的字符位置作為對應(yīng)的關(guān)鍵信息的光標(biāo)地址。
55、結(jié)合第二方面,進(jìn)一步的,所述文本重置模塊,具體用于:
56、根據(jù)關(guān)鍵詞位置開始光標(biāo)地址和關(guān)鍵詞位置結(jié)束光標(biāo)地址從文本語義向量中提取上一輪問答文本的關(guān)鍵詞;如果存在缺省位置光標(biāo)地址,則將關(guān)鍵詞插入缺省位置光標(biāo)地址;如果存在指代詞位置開始光標(biāo)地址和指代詞位置結(jié)束光標(biāo)地址,則根據(jù)指代詞位置開始光標(biāo)地址和指代詞位置結(jié)束光標(biāo)地址,利用關(guān)鍵詞替換文本語義向量中的指代詞。
57、與現(xiàn)有技術(shù)相比,本發(fā)明所達(dá)到的有益效果:
58、本發(fā)明提出了一種人工智能大模型的問答文本重置方法及裝置,首先選取transformer模型作為神經(jīng)網(wǎng)絡(luò),充分利用transformer架構(gòu)的上下文理解能力來提取問答文本的上下文全局特征,將問答文本轉(zhuǎn)換為向量形式,然后利用光標(biāo)預(yù)測模型預(yù)測多個關(guān)鍵信息的光標(biāo)地址,從而根據(jù)光標(biāo)地址提取文本關(guān)鍵信息進(jìn)行指代消解和信息省略的補(bǔ)全,最終得到重置后的完整語義文本,能夠顯著提高文本重置的精度并大幅降低處理時延。