所屬的技術人員知道,本發明可以實現為系統、方法或計算機程序產品,因此,本公開可以具體實現為以下形式,即:可以是完全的硬件、也可以是完全的軟件(包括固件、駐留軟件、微代碼等),還可以是硬件和軟件結合的形式,本文一般稱為“電路”、“模塊”或“系統”。此外,在一些實施例中,本發明還可以實現為在一個或多個計算機可讀介質中的計算機程序產品的形式,該計算機可讀介質中包含計算機可讀的程序代碼。可以采用一個或多個計算機可讀的介質的任意組合。計算機可讀介質可以是計算機可讀信號介質或者計算機可讀存儲介質。計算機可讀存儲介質例如可以是一一但不限于——電、磁、光、電磁、紅外線、或半導體的系統、裝置或器件,或者任意以上的組合。計算機可讀存儲介質的更具體的例子(非窮舉的列表)包括:具有一個或多個導線的電連接、便攜式計算機磁盤、硬盤、隨機存取存儲器(ram),只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計算機可讀存儲介質可以是任何包含或存儲程序的有形介質,該程序可以被指令執行系統、裝置或者器件使用或者與其結合使用。盡管上面已經示出和描述了本發明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發明的限制,本領域的普通技術人員在本發明的范圍內可以對上述實施例進行變化、修改、替換和變型。
背景技術:
1、大模型訓練是指通過大數據訓練出一個復雜的神經網絡模型,通過大量數據的訓練確定網絡中權重和偏置的值,使其能夠適應特定的功能。在大模型的訓練過程中,模型的參數通常是隨機初始化的,并隨著訓練的進行逐漸收斂到合適的數值,以捕捉輸入數據中的復雜模式與關系。然而,大模型的訓練通常需要大量的計算資源和時間,這限制了其在實際應用中的廣泛推廣。
2、現有的大模型訓練加速方法主要包括分布式訓練和混合精度訓練等,但這些方法主要關注于減少計算和內存資源需求,而在解碼和推理階段的優化相對較少。此外,自回歸式解碼機制在大模型推理中廣泛應用,但其逐字生成輸出token的方式導致計算量增加,耗費時間。基于此導致用戶在進行提問時得到的答案的速度也較低。
技術實現思路
1、本發明所要解決的技術問題是針對現有技術的不足,具體提供了一種基于早停判斷和多頭解碼的問答處理方法,具體如下:
2、1)第一方面,本發明提供一種基于早停判斷和多頭解碼的問答處理方法,具體技術方案如下:
3、獲取用戶在人機交互平臺上輸入的問題數據,將所述問題數據輸入至預設大模型中進行處理,得到所述問題數據對應的答案數據;
4、所述預設大模型包含hidden層、self-att層以及feedfroward層,通過設定早停判斷機制以及多頭解碼機制進行訓練。
5、本發明提供的一種基于早停判斷和多頭解碼的問答處理方法的有益效果如下:
6、本方案通過早停判斷機制以及多頭解碼機制,優化解碼以及推理階段,減少計算量,提高訓練效率,通過上述方式可以提升預設大模型的訓練效率,同時能夠因減少計算量而導致預設大模型的訓練精度更高,得到更貼近用戶的問題數據的答案數據。
7、在上述方案的基礎上,本發明還可以做如下改進。
8、進一步,所述hidden層的計算邏輯為:
9、x=t*wt;
10、其中,t為輸入的訓練數據,w為hidden層的權重矩陣,t為轉置,x為hidden層的輸出結果。
11、進一步,所述self-att層的計算邏輯為:
12、
13、其中,q=x*wqt,k=x*wkt,v=x*wvt,wq,wk,wv為三個不同的權重矩陣,q,k,v分別代表三個線性計算層的輸出結果。
14、進一步,所述feedfroward層的計算邏輯為:
15、
16、其中,f=x*wft,wf為feedforward層的權重矩陣,e為自然常數。
17、2)第二方面,本發明還提供一種基于早停判斷和多頭解碼的問答處理系統,具體技術方案如下:
18、獲取模塊用于:獲取用戶在人機交互平臺上輸入的問題數據,將所述問題數據輸入至預設大模型中進行處理,得到所述問題數據對應的答案數據;
19、所述預設大模型包含hidden層、self-att層以及feedfroward層,通過設定早停判斷機制以及多頭解碼機制進行訓練。
20、在上述方案的基礎上,本發明還可以做如下改進。
21、進一步,所述hidden層的計算邏輯為:
22、x=t*wt;
23、其中,t為輸入的訓練數據,w為hidden層的權重矩陣,t為轉置,x為hidden層的輸出結果。
24、進一步,所述self-att層的計算邏輯為:
25、
26、其中,q=x*wqt,k=x*wkt,v=x*wvt,wq,wk,wv為三個不同的權重矩陣,q,k,v分別代表三個線性計算層的輸出結果。
27、進一步,所述feedfroward層的計算邏輯為:
28、
29、其中,f=x*wft,wf為feedforward層的權重矩陣,e為自然常數。
30、3)第三方面,本發明還提供一種電子設備,所述電子設備包括處理器,所述處理器與存儲器耦合,所述存儲器中存儲有至少一條計算機程序,所述至少一條計算機程序由所述處理器加載并執行,以使所述電子設備實現如上任一項方法。
31、4)第四方面,本發明還提供一種計算機可讀存儲介質,所述計算機可讀存儲介質中存儲有至少一條計算機程序,所述至少一條計算機程序由處理器加載并執行,以使計算機實現如上任一項方法。
32、需要說明的是,本發明的第二方面至第四方面的技術方案及對應的可能的實現方式所取得的有益效果,可以參見上述對第一方面及其對應的可能的實現方式的技術效果,此處不再贅述。
1.一種基于早停判斷和多頭解碼的問答處理方法,其特征在于,包括:
2.根據權利要求1所述的一種基于早停判斷和多頭解碼的問答處理方法,其特征在于,所述hidden層的計算邏輯為:
3.根據權利要求1所述的一種基于早停判斷和多頭解碼的問答處理方法,其特征在于,所述self-att層的計算邏輯為:
4.根據權利要求1所述的一種基于早停判斷和多頭解碼的問答處理方法,其特征在于,所述feedfroward層的計算邏輯為:
5.一種基于早停判斷和多頭解碼的問答處理系統,其特征在于,包括:
6.根據權利要求5所述的一種基于早停判斷和多頭解碼的問答處理系統,其特征在于,所述hidden層的計算邏輯為:
7.根據權利要求5所述的一種基于早停判斷和多頭解碼的問答處理系統,其特征在于,所述self-att層的計算邏輯為:
8.根據權利要求5所述的一種基于早停判斷和多頭解碼的問答處理系統,其特征在于,所述feedfroward層的計算邏輯為:
9.一種電子設備,其特征在于,所述電子設備包括處理器,所述處理器與存儲器耦合,所述存儲器中存儲有至少一條計算機程序,所述至少一條計算機程序由所述處理器加載并執行,以使所述電子設備實現如權利要求1至4任一項權利要求所述的方法。
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質中存儲有至少一條計算機程序,所述至少一條計算機程序由處理器加載并執行,以使計算機實現如權利要求1至4任一項權利要求所述的方法。