文本生成大模型的安全護欄增強方法、裝置和計算機設備與流程

文檔序號：41773847發布日期：2025-04-29 18:46閱讀：5來源：國知局

本申請涉及人工智能，特別是涉及文本生成大模型的安全護欄增強方法、裝置和計算機設備。

背景技術：

1、目前，護欄技術在大語言模型的安全防護中扮演著至關重要的角色，例如文本生成大模型用于文學創作、文案撰寫以及策略制定等，通常利用護欄防御機制來識別和應對各類攻擊，以防止有害內容輸出，確保信息安全。但在面對各種提示詞越獄攻擊時，大語言模型的護欄防御能力存在不足，即現有的護欄防御機制僅在特定領域表現較好，當攻擊形式變化或發生跨領域攻擊，其防御能力顯著下降，無法有效應對多樣化的越獄攻擊。

2、針對相關技術中存在大模型安全護欄防御能力不足，無法有效應對多樣化的越獄攻擊的問題，目前還沒有提出有效的解決方案。

技術實現思路

1、在本實施例中提供了一種文本生成大模型的安全護欄增強方法、裝置和計算機設備，以解決相關技術中大模型安全護欄防御能力不足，無法有效應對多樣化的越獄攻擊的問題。

2、第一個方面，在本實施例中提供了一種文本生成大模型的安全護欄增強方法，所述方法包括：

3、基于預設的訓練數據集，對預定義的組合型護欄進行訓練；所述組合型護欄的訓練為：通過所述組合型護欄中的每個護欄模型，對訓練數據集中的樣本文本生成提示進行識別，得到每個所述護欄模型對應的輸出結果；根據各所述輸出結果，動態調整每個所述護欄模型對應的權重；

4、通過訓練后的所述組合型護欄對輸入的文本生成提示進行處理，得到對應的決策結果；所述決策結果由每個所述護欄模型對所述文本生成提示的處理結果，以及訓練后每個所述護欄模型對應的權重確定。

5、在其中的一些實施例中，所述根據各所述輸出結果，動態調整每個所述護欄模型對應的權重，包括：

6、確定各所述護欄模型中的目標護欄模型；

7、將每個所述護欄模型對應的輸出結果與所述目標護欄模型對應的輸出結果進行比較；

8、根據比較結果，動態調整所述護欄模型對應的權重。

9、在其中的一些實施例中，所述根據比較結果，動態調整所述護欄模型對應的權重，包括：

10、獲取預定義的集成學習模型；

11、基于所述集成學習模型所定義的決策函數，對所述比較結果進行處理；

12、根據處理結果，動態調整所述護欄模型對應的權重。

13、在其中的一些實施例中，所述決策結果由每個所述護欄模型對所述文本生成提示的處理結果，以及每個所述護欄模型對應的權重確定，包括：

14、基于每個所述護欄模型對所述文本生成提示的處理結果，以及每個所述護欄模型對應的權重，確定所述組合型護欄針對文本生成提示的評估值；

15、判斷所述評估值是否大于或等于預設閾值；

16、根據判斷結果，輸出所述組合型護欄針對所述文本生成提示的決策結果。

17、在其中的一些實施例中，在所述基于預設的訓練數據集，對所述組合型護欄進行訓練之后，還包括：

18、對原始攻擊樣本進行轉化，得到目標攻擊樣本；

19、通過所述目標攻擊樣本，對訓練后的所述組合型護欄進行模擬攻擊，得到所述組合型護欄的防護測試結果。

20、在其中的一些實施例中，所述對原始攻擊樣本進行轉化，得到目標攻擊樣本，包括：

21、確定所述原始攻擊樣本對應的目標場景；

22、基于所述目標場景，通過預定義的場景構建函數對所述原始攻擊樣本進行轉化，得到對應的所述目標攻擊樣本。

23、在其中的一些實施例中，所述對原始攻擊樣本進行轉化，得到目標攻擊樣本，包括：

24、基于梯度下降原理對所述原始攻擊樣本進行整體文本更新，得到對應的所述目標攻擊樣本。

25、第二個方面，在本實施例中提供了一種文本生成大模型的安全護欄增強裝置，所述裝置包括：

26、訓練模塊，用于基于預設的訓練數據集，對預定義的組合型護欄進行訓練；所述組合型護欄的訓練為：通過所述組合型護欄中的每個護欄模型，對訓練數據集中樣本文本生成提示進行識別，得到每個所述護欄模型對應的輸出結果；根據各所述輸出結果，動態調整每個所述護欄模型對應的權重；

27、處理模塊，用于通過訓練后的所述組合型護欄對輸入的文本生成提示進行處理，得到對應的決策結果；所述決策結果由每個所述護欄模型對所述文本生成提示的處理結果，以及訓練后每個所述護欄模型對應的權重確定。

28、第三個方面，在本實施例中提供了一種計算機設備，包括存儲器、處理器以及存儲在所述存儲器上并可在所述處理器上運行的計算機程序，所述處理器執行所述計算機程序時實現上述第一個方面所述的文本生成大模型的安全護欄增強方法。

29、第四個方面，在本實施例中提供了一種存儲介質，其上存儲有計算機程序，該程序被處理器執行時實現上述第一個方面所述的文本生成大模型的安全護欄增強方法。

30、與相關技術相比，在本實施例中提供的文本生成大模型的安全護欄增強方法、裝置和計算機設備，通過基于預設的訓練數據集，對預定義的組合型護欄進行訓練；組合型護欄的訓練為：通過組合型護欄中的每個護欄模型，對訓練數據集中樣本文本生成提示進行識別，得到每個護欄模型對應的輸出結果；根據各輸出結果，動態調整每個護欄模型對應的權重；通過訓練后的組合型護欄對輸入的文本生成提示進行處理，得到對應的決策結果；決策結果由每個護欄模型對文本生成提示的處理結果，以及訓練后每個護欄模型對應的權重確定，解決了大模型安全護欄防御能力不足，無法有效應對多樣化的越獄攻擊的問題，實現了提升大模型安全護欄防御能力，從而能夠有效應對多樣化的越獄攻擊。

31、本申請的一個或多個實施例的細節在以下附圖和描述中提出，以使本申請的其他特征、目的和優點更加簡明易懂。

技術特征：

1.一種文本生成大模型的安全護欄增強方法，其特征在于，所述方法包括：

2.根據權利要求1所述的文本生成大模型的安全護欄增強方法，其特征在于，所述根據各所述輸出結果，動態調整每個所述護欄模型對應的權重，包括：

3.根據權利要求2所述的文本生成大模型的安全護欄增強方法，其特征在于，所述根據比較結果，動態調整所述護欄模型對應的權重，包括：

4.根據權利要求1所述的文本生成大模型的安全護欄增強方法，其特征在于，所述決策結果由每個所述護欄模型對所述文本生成提示的處理結果，以及每個所述護欄模型對應的權重確定，包括：

5.根據權利要求1所述的文本生成大模型的安全護欄增強方法，其特征在于，在所述基于預設的訓練數據集，對所述組合型護欄進行訓練之后，還包括：

6.根據權利要求5所述的文本生成大模型的安全護欄增強方法，其特征在于，所述對原始攻擊樣本進行轉化，得到目標攻擊樣本，包括：

7.根據權利要求5所述的文本生成大模型的安全護欄增強方法，其特征在于，所述對原始攻擊樣本進行轉化，得到目標攻擊樣本，包括：

8.一種文本生成大模型的安全護欄增強裝置，其特征在于，所述裝置包括：

9.一種計算機設備，包括存儲器和處理器，其特征在于，所述存儲器中存儲有計算機程序，所述處理器被設置為運行所述計算機程序以執行權利要求1至7中任一項所述的文本生成大模型的安全護欄增強方法的步驟。

10.一種計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執行時實現權利要求1至7中任一項所述的文本生成大模型的安全護欄增強方法的步驟。

技術總結
本申請涉及一種文本生成大模型的安全護欄增強方法、裝置和計算機設備，其中，該方法包括：通過基于預設的訓練數據集，對預定義的組合型護欄進行訓練，訓練過程為：通過組合型護欄中的每個護欄模型，對訓練數據集中樣本文本生成提示進行識別，得到每個護欄模型對應的輸出結果；根據各輸出結果，動態調整每個護欄模型對應的權重；通過訓練后的組合型護欄對輸入的文本生成提示進行處理，得到決策結果；決策結果由每個護欄模型對文本生成提示的處理結果，以及訓練后每個護欄模型對應的權重確定。通過本申請，解決了大模型安全護欄防御能力不足，無法有效應對多樣化的越獄攻擊的問題，實現了提升大模型安全護欄防御能力，以有效應對多樣化的越獄攻擊。

技術研發人員：鄭天航,黃欣哲,修可棟,任奎
受保護的技術使用者：杭州高新區（濱江）區塊鏈與數據安全研究院
技術研發日：
技術公布日：2025/4/28

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：鄭天航,黃欣哲,修可棟,任奎
技術所有人：杭州高新區（濱江）區塊鏈與數據安全研究院
我是此專利的發明人

上一篇：一種基于圖神經網絡與卷積神經網絡的藥物反應預測方法
上一篇：醫療導診方法及相關裝置與流程

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態勢感知、輿情分析和控制 3.區塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家庫。

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

文本生成大模型的安全護欄增強方法、裝置和計算機設備與流程