本申請涉及推薦系統,具體的說是一種基于大模型自博弈的公平推薦方法及系統。
背景技術:
1、在大語言模型推薦系統中,過度集中推薦熱門物品已成為限制推薦系統公平性和多樣性的一大障礙。傳統的微調方法,如監督學習和直接偏好優化,通常用于大模型的訓練過程中,通過使用已標注的推薦數據或結合推薦數據與隨機負樣本來優化模型輸出。然而,這些方法在微調過程中容易引入偏見,導致熱門物品的過度推薦,從而影響推薦結果的多樣性和公平性。盡管它們能夠提升模型的推薦能力,但其對偏差的依賴性較強,通常無法有效緩解推薦中存在的偏向性問題,且往往需要依賴外部數據、額外的標注或復雜的后處理步驟,增加了計算開銷和系統復雜性。
2、自博弈機制起源于強化學習領域,最初用于零和博弈問題。通過讓多個智能體在同一環境中相互對抗,促使智能體優化策略以達到博弈的平衡。自博弈具有自適應性和自我優化特性,使其在解決長期反饋或高度不確定的任務時尤為有效。盡管自博弈在強化學習和博弈論中得到廣泛應用,但在推薦系統中的潛力尚未被充分開發。目前的推薦系統研究大多集中在基于用戶歷史行為或物品相似度的優化策略上,未能充分考慮通過自博弈自我優化推薦策略,從而提高系統的公平性和內容多樣性。
技術實現思路
1、在本實施例中提供了一種基于大模型自博弈的公平推薦方法、系統、電子設備及存儲介質,以解決相關技術中在當前推薦系統面臨的熱門項偏倚問題。
2、第一方面,本發明實施例提供一種基于大模型自博弈的公平推薦方法,所述基于大模型自博弈的公平推薦方法包括:
3、自博弈數據生成環節,基于用戶歷史行為數據作為正樣本,結合當前模型推薦策略生成的推薦結果作為負樣本,構建偏好數據集,并通過數據過濾去除正負樣本相似度過高的樣本;
4、監督訓練環節,在預訓練的大語言模型基礎上,利用所述偏好數據集進行監督訓練,通過交叉熵損失優化模型參數,生成初步推薦策略;
5、直接偏好優化環節,基于自博弈生成的偏好數據集,通過優化目標函數直接調整推薦策略,抑制熱門物品的過度推薦并平衡長尾分布,其中所述優化目標函數通過比較當前模型與參考模型在正負樣本上的輸出概率差異構建。
6、在一個可選的實施例中,所述自博弈數據生成環節中,正樣本包括用戶的點擊、瀏覽或評分行為數據;負樣本通過模型迭代推薦策略生成,并與用戶行為數據動態匹配。
7、在一個可選的實施例中,所述數據過濾包括:
8、計算目標推薦物品與預測推薦物品的嵌入向量歐氏距離,若距離小于預設閾值,則剔除對應的正負樣本。
9、在一個可選的實施例中,所述監督訓練環節的模型初始化采用預訓練的大語言模型參數,并通過adam優化器進行參數更新。
10、在一個可選的實施例中,所述監督訓練環節中,交叉熵損失函數定義為:
11、;
12、其中,為真實結果分布,為預測輸出概率分布。
13、在一個可選的實施例中,所述直接偏好優化環節的優化目標函數為:
14、;
15、其中,為當前模型,為參考模型,為權重參數;為正樣本,為負樣本,為輸入上下文。
16、在一個可選的實施例中,所述直接偏好優化環節進一步包括通過自博弈機制生成多樣化偏好數據,以提升低頻物品的推薦概率。
17、與現有技術相比,本發明的基于大模型自博弈的公平推薦方法的有益效果如下:
18、本發明旨在通過引入自博弈機制,優化大語言模型在推薦任務中的長尾現象,提升推薦系統的多樣性與公平性。通過自對弈的反饋機制,本方法在無需額外數據或先驗知識的前提下,能夠自適應地調整推薦內容,從而減少熱門項的過度推薦,改善推薦結果的分布。本方法的目標是通過模型的自生成訓練數據,提升推薦系統在不同用戶群體和應用場景中的性能,增強推薦系統的個性化和多樣性,并在長期迭代中提升模型的穩定性與公平性。
19、第二方面,本發明實施例提供一種基于大模型自博弈的公平推薦系統,包括:
20、自博弈數據生模塊,被配置為:基于用戶歷史行為數據作為正樣本,結合當前模型推薦策略生成的推薦結果作為負樣本,構建偏好數據集,并通過數據過濾去除正負樣本相似度過高的樣本;
21、監督訓練模塊,被配置為:在預訓練的大語言模型基礎上,利用所述偏好數據集進行監督訓練,通過交叉熵損失優化模型參數,生成初步推薦策略;
22、直接偏好優化模塊,被配置為:基于自博弈生成的偏好數據集,通過優化目標函數直接調整推薦策略,抑制熱門物品的過度推薦并平衡長尾分布,其中所述優化目標函數通過比較當前模型與參考模型在正負樣本上的輸出概率差異構建。
23、第三方面,本發明實施例提供一種電子設備,包括處理器、通信接口、存儲器和總線,其中,處理器,通信接口,存儲器通過總線完成相互間的通信,處理器可以調用存儲器中的邏輯指令,以執行如第一方面所提供的方法的步驟。
24、第四方面,本發明實施例提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如第一方面所述的基于大模型自博弈的公平推薦方法的步驟。
25、與現有技術相比,本發明的基于大模型自博弈的公平推薦系統、電子設備及存儲介質的有益效果與第一方面所述的基于大模型自博弈的公平推薦方法相同,故此處不再贅述。
1.一種基于大模型自博弈的公平推薦方法,其特征在于,所述基于大模型自博弈的公平推薦方法包括:
2.根據權利要求1所述的基于大模型自博弈的公平推薦方法,其特征在于,
3.根據權利要求1所述的基于大模型自博弈的公平推薦方法,其特征在于,
4.根據權利要求1所述的基于大模型自博弈的公平推薦方法,其特征在于,所述監督訓練環節的模型初始化采用預訓練的大語言模型參數,并通過adam優化器進行參數更新。
5.根據權利要求1所述的基于大模型自博弈的公平推薦方法,其特征在于,所述監督訓練環節中,交叉熵損失函數定義為:
6.根據權利要求1所述的基于大模型自博弈的公平推薦方法,其特征在于,所述直接偏好優化環節的優化目標函數為:
7.根據權利要求1所述的基于大模型自博弈的公平推薦方法,其特征在于,所述直接偏好優化環節進一步包括通過自博弈機制生成多樣化偏好數據,以提升低頻物品的推薦概率。
8.一種基于大模型自博弈的公平推薦系統,其特征在于,包括:
9.一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現如權利要求1至7中任一項所述的基于大模型自博弈的公平推薦方法。
10.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該計算機程序被處理器執行時實現如權利要求1至7中任一項所述的基于大模型自博弈的公平推薦方法的步驟。