本申請涉及人工智能,特別是涉及文本生成大模型的安全護欄增強方法、裝置和計算機設備。
背景技術:
1、目前,護欄技術在大語言模型的安全防護中扮演著至關重要的角色,例如文本生成大模型用于文學創作、文案撰寫以及策略制定等,通常利用護欄防御機制來識別和應對各類攻擊,以防止有害內容輸出,確保信息安全。但在面對各種提示詞越獄攻擊時,大語言模型的護欄防御能力存在不足,即現有的護欄防御機制僅在特定領域表現較好,當攻擊形式變化或發生跨領域攻擊,其防御能力顯著下降,無法有效應對多樣化的越獄攻擊。
2、針對相關技術中存在大模型安全護欄防御能力不足,無法有效應對多樣化的越獄攻擊的問題,目前還沒有提出有效的解決方案。
技術實現思路
1、在本實施例中提供了一種文本生成大模型的安全護欄增強方法、裝置和計算機設備,以解決相關技術中大模型安全護欄防御能力不足,無法有效應對多樣化的越獄攻擊的問題。
2、第一個方面,在本實施例中提供了一種文本生成大模型的安全護欄增強方法,所述方法包括:
3、基于預設的訓練數據集,對預定義的組合型護欄進行訓練;所述組合型護欄的訓練為:通過所述組合型護欄中的每個護欄模型,對訓練數據集中的樣本文本生成提示進行識別,得到每個所述護欄模型對應的輸出結果;根據各所述輸出結果,動態調整每個所述護欄模型對應的權重;
4、通過訓練后的所述組合型護欄對輸入的文本生成提示進行處理,得到對應的決策結果;所述決策結果由每個所述護欄模型對所述文本生成提示的處理結果,以及訓練后每個所述護欄模型對應的權重確定。
5、在其中的一些實施例中,所述根據各所述輸出結果,動態調整每個所述護欄模型對應的權重,包括:
6、確定各所述護欄模型中的目標護欄模型;
7、將每個所述護欄模型對應的輸出結果與所述目標護欄模型對應的輸出結果進行比較;
8、根據比較結果,動態調整所述護欄模型對應的權重。
9、在其中的一些實施例中,所述根據比較結果,動態調整所述護欄模型對應的權重,包括:
10、獲取預定義的集成學習模型;
11、基于所述集成學習模型所定義的決策函數,對所述比較結果進行處理;
12、根據處理結果,動態調整所述護欄模型對應的權重。
13、在其中的一些實施例中,所述決策結果由每個所述護欄模型對所述文本生成提示的處理結果,以及每個所述護欄模型對應的權重確定,包括:
14、基于每個所述護欄模型對所述文本生成提示的處理結果,以及每個所述護欄模型對應的權重,確定所述組合型護欄針對文本生成提示的評估值;
15、判斷所述評估值是否大于或等于預設閾值;
16、根據判斷結果,輸出所述組合型護欄針對所述文本生成提示的決策結果。
17、在其中的一些實施例中,在所述基于預設的訓練數據集,對所述組合型護欄進行訓練之后,還包括:
18、對原始攻擊樣本進行轉化,得到目標攻擊樣本;
19、通過所述目標攻擊樣本,對訓練后的所述組合型護欄進行模擬攻擊,得到所述組合型護欄的防護測試結果。
20、在其中的一些實施例中,所述對原始攻擊樣本進行轉化,得到目標攻擊樣本,包括:
21、確定所述原始攻擊樣本對應的目標場景;
22、基于所述目標場景,通過預定義的場景構建函數對所述原始攻擊樣本進行轉化,得到對應的所述目標攻擊樣本。
23、在其中的一些實施例中,所述對原始攻擊樣本進行轉化,得到目標攻擊樣本,包括:
24、基于梯度下降原理對所述原始攻擊樣本進行整體文本更新,得到對應的所述目標攻擊樣本。
25、第二個方面,在本實施例中提供了一種文本生成大模型的安全護欄增強裝置,所述裝置包括:
26、訓練模塊,用于基于預設的訓練數據集,對預定義的組合型護欄進行訓練;所述組合型護欄的訓練為:通過所述組合型護欄中的每個護欄模型,對訓練數據集中樣本文本生成提示進行識別,得到每個所述護欄模型對應的輸出結果;根據各所述輸出結果,動態調整每個所述護欄模型對應的權重;
27、處理模塊,用于通過訓練后的所述組合型護欄對輸入的文本生成提示進行處理,得到對應的決策結果;所述決策結果由每個所述護欄模型對所述文本生成提示的處理結果,以及訓練后每個所述護欄模型對應的權重確定。
28、第三個方面,在本實施例中提供了一種計算機設備,包括存儲器、處理器以及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現上述第一個方面所述的文本生成大模型的安全護欄增強方法。
29、第四個方面,在本實施例中提供了一種存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現上述第一個方面所述的文本生成大模型的安全護欄增強方法。
30、與相關技術相比,在本實施例中提供的文本生成大模型的安全護欄增強方法、裝置和計算機設備,通過基于預設的訓練數據集,對預定義的組合型護欄進行訓練;組合型護欄的訓練為:通過組合型護欄中的每個護欄模型,對訓練數據集中樣本文本生成提示進行識別,得到每個護欄模型對應的輸出結果;根據各輸出結果,動態調整每個護欄模型對應的權重;通過訓練后的組合型護欄對輸入的文本生成提示進行處理,得到對應的決策結果;決策結果由每個護欄模型對文本生成提示的處理結果,以及訓練后每個護欄模型對應的權重確定,解決了大模型安全護欄防御能力不足,無法有效應對多樣化的越獄攻擊的問題,實現了提升大模型安全護欄防御能力,從而能夠有效應對多樣化的越獄攻擊。
31、本申請的一個或多個實施例的細節在以下附圖和描述中提出,以使本申請的其他特征、目的和優點更加簡明易懂。
1.一種文本生成大模型的安全護欄增強方法,其特征在于,所述方法包括:
2.根據權利要求1所述的文本生成大模型的安全護欄增強方法,其特征在于,所述根據各所述輸出結果,動態調整每個所述護欄模型對應的權重,包括:
3.根據權利要求2所述的文本生成大模型的安全護欄增強方法,其特征在于,所述根據比較結果,動態調整所述護欄模型對應的權重,包括:
4.根據權利要求1所述的文本生成大模型的安全護欄增強方法,其特征在于,所述決策結果由每個所述護欄模型對所述文本生成提示的處理結果,以及每個所述護欄模型對應的權重確定,包括:
5.根據權利要求1所述的文本生成大模型的安全護欄增強方法,其特征在于,在所述基于預設的訓練數據集,對所述組合型護欄進行訓練之后,還包括:
6.根據權利要求5所述的文本生成大模型的安全護欄增強方法,其特征在于,所述對原始攻擊樣本進行轉化,得到目標攻擊樣本,包括:
7.根據權利要求5所述的文本生成大模型的安全護欄增強方法,其特征在于,所述對原始攻擊樣本進行轉化,得到目標攻擊樣本,包括:
8.一種文本生成大模型的安全護欄增強裝置,其特征在于,所述裝置包括:
9.一種計算機設備,包括存儲器和處理器,其特征在于,所述存儲器中存儲有計算機程序,所述處理器被設置為運行所述計算機程序以執行權利要求1至7中任一項所述的文本生成大模型的安全護欄增強方法的步驟。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至7中任一項所述的文本生成大模型的安全護欄增強方法的步驟。