本技術涉及人工智能,更具體的說,是涉及一種基于大模型的交互方法、裝置、相關設備及程序產品。
背景技術:
1、隨著通用大模型技術的發展,使得人機對話的效果大幅提升。當前全雙工交互系統,通過語音識別技術將說話人的語音內容識別成文本后送入大模型,大模型會針對所有的請求均進行響應,這其中包括人機對話、人人對話、噪音三大類,其中大模型對人人對話和噪音的數據也會給出無效的響應,且打斷用戶的正常人人之間的話題,嚴重影響了用戶的正常交互。
技術實現思路
1、鑒于上述問題,提出了本技術以便提供一種基于大模型的交互方法、裝置、相關設備及程序產品,以提升大模型在多人閑聊場景下的智能性,提升用戶的交互體驗。具體方案如下:
2、第一方面,提供了一種基于大模型的交互方法,包括:
3、識別本輪交互請求的語音對應的本輪交互文本,并確定本輪交互請求的說話人角色信息;
4、調用大模型,以指示所述大模型結合輸入信息確定本輪交互請求的對話狀態信息,所述輸入信息包括總交互人數、所述說話人角色信息、所述本輪交互文本及歷史交互文本,所述對話狀態信息包括表征大模型本身是否被用戶指示進行回答的輸出指示信息,及話題屬性信息;
5、至少結合所述對話狀態信息,判定本輪交互請求大模型是否需要進行響應,以及在需要進行響應時,調用大模型生成本輪交互請求的對話回復,并輸出所述對話回復。
6、在一種可能的設計中,在本技術實施例的第一方面的另一種實現方式中,還包括:
7、確定本輪交互請求的說話人屬性信息;
8、則所述輸入信息還包括所述說話人屬性信息。
9、在一種可能的設計中,在本技術實施例的第一方面的另一種實現方式中,確定本輪交互請求的說話人角色信息及說話人屬性信息的過程,包括:
10、對本輪交互請求的語音進行聲紋識別,并與設定的各角色聲紋進行比對,得到本輪交互請求的說話人角色信息;
11、通過聲紋識別結果,確定本輪交互請求的說話人屬性信息,所述屬性信息包括以下至少一項:說話人性別、年齡;
12、或,查詢配置的所述本輪交互請求的說話人角色對應的說話人屬性信息。
13、在一種可能的設計中,在本技術實施例的第一方面的另一種實現方式中,還包括:
14、獲取本輪交互請求與上一輪交互請求的交互間隔時間;
15、則,至少結合所述對話狀態信息,判定本輪交互請求大模型是否需要進行響應的過程,包括:
16、結合所述對話狀態信息及所述交互間隔時間,判定本輪交互請求大模型是否需要進行響應。
17、在一種可能的設計中,在本技術實施例的第一方面的另一種實現方式中,至少結合所述對話狀態信息,判定本輪交互請求大模型是否需要進行響應的過程,包括:
18、若所述輸出指示信息表征大模型本身被用戶指示進行回答,則判定本輪交互請求大模型需要進行響應。
19、在一種可能的設計中,在本技術實施例的第一方面的另一種實現方式中,所述話題屬性信息包括以下至少一項:話題是否完整、話題有無連續性、話題是否完結、話題類型;
20、則至少結合所述對話狀態信息,判定本輪交互請求大模型是否需要進行響應的過程,還包括:
21、基于所述話題屬性信息中各項的結果,判斷是否滿足配置的大模型響應條件,若滿足任一條大模型響應條件則判定本輪交互請求大模型需要進行響應;
22、其中,所述大模型響應條件為用戶配置的由一項或多項話題屬性信息的取值結果組成。
23、在一種可能的設計中,在本技術實施例的第一方面的另一種實現方式中,所述話題屬性信息包括以下至少一項:話題是否完整、話題有無連續性、話題是否完結、話題類型;所述對話狀態信息還包括本輪交互請求的用戶情緒;
24、則至少結合所述對話狀態信息,判定本輪交互請求大模型是否需要進行響應的過程,還包括:
25、基于所述話題屬性信息中各項的結果及所述用戶情緒,判斷是否滿足配置的大模型響應條件,若滿足任一條大模型響應條件則判定本輪交互請求大模型需要進行響應;
26、其中,所述大模型響應條件為用戶配置的由一項或多項話題屬性信息的取值結果,和/或用戶情緒類型組成。
27、在一種可能的設計中,在本技術實施例的第一方面的另一種實現方式中,所述大模型響應條件包括如下至少一條:
28、話題完整,且話題有連續性,且話題已完結;
29、話題完整,且話題類型為尋求回復型;
30、話題完整,且話題類型為情感撫慰型,且用戶情緒為負向類型。
31、在一種可能的設計中,在本技術實施例的第一方面的另一種實現方式中,結合所述對話狀態信息及所述交互間隔時間,判定本輪交互請求大模型是否需要進行響應的過程,包括:
32、基于所述對話狀態信息,判定本輪交互請求大模型是否需要進行響應;以及,
33、判定所述交互間隔時間是否超過設定時間閾值,若是,判定本輪交互請求大模型需要進行響應。
34、在一種可能的設計中,在本技術實施例的第一方面的另一種實現方式中,在需要進行響應時,調用大模型生成本輪交互請求的對話回復的過程,包括:
35、在因所述交互間隔時間超過設定時間閾值判定需要進行響應時,調用大模型,以基于設定交互角色的說話人屬性信息,和/或歷史交互中表現出的興趣,生成推薦話題的對話回復;
36、在因其它原因判定需要進行響應時,調用大模型,以結合所述本輪交互文本及歷史交互文本生成對話回復。
37、第二方面,提供了一種基于大模型的交互裝置,包括:
38、語音識別單元,用于識別本輪交互請求的語音對應的本輪交互文本;
39、角色識別單元,用于定本輪交互請求的說話人角色信息;
40、對話狀態識別單元,用于調用大模型,以指示所述大模型結合輸入信息確定本輪交互請求的對話狀態信息,所述輸入信息包括總交互人數、所述說話人角色信息、所述本輪交互文本及歷史交互文本,所述對話狀態信息包括表征大模型本身是否被用戶指示進行回答的輸出指示信息,及話題屬性信息;
41、響應判定單元,用于至少結合所述對話狀態信息,判定本輪交互請求大模型是否需要進行響應;
42、響應輸出單元,用于在需要進行響應時,調用大模型生成本輪交互請求的對話回復,并輸出所述對話回復。
43、第三方面,提供了一種電子設備,包括:存儲器和處理器;
44、所述存儲器,用于存儲程序;
45、所述處理器,用于執行所述程序,實現本技術前述第一方面中任一項所描述的基于大模型的交互方法的各個步驟。
46、第四方面,提供了一種可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時,實現本技術前述第一方面中任一項所描述的基于大模型的交互方法的各個步驟。
47、第五方面,提供了一種計算機程序產品,包括計算機程序,該計算機程序被處理器執行時,實現本技術前述第一方面中任一項所描述的基于大模型的交互方法的各個步驟。
48、借由上述技術方案,本技術針對人機交互場景識別本輪交互請求的語音對應的本輪交互文本,同時確定本輪交互請求的說話人角色信息。為了避免大模型對人人對話、噪音等無效請求也進行響應,本技術可以調用大模型,指示大模型結合總交互人數、說話人角色信息、本輪及歷史交互文本等信息,確定本輪交互請求的對話狀態信息,對話狀態信息包括表征大模型本身是否被用戶指示進行回答的輸出指示信息,及話題屬性信息,也即,大模型可以針對本輪交互請求分析出本輪是否被用戶強制觸發響應,及本輪交互請求所討論的話題屬性信息,在此基礎上,可以結合對話狀態信息,判定本輪交互請求大模型是否需要進行響應,在需要進行響應時,可以調用大模型生成本輪交互請求的對話回復并輸出。顯然,本技術方案中大模型并非對所有交互請求均進行響應,而是參考輸入信息確定本輪交互請求的對話狀態信息,據此判定大模型本輪是否需要進行響應,如此可以降低針對人人對話、噪音等數據的無效響應,提升人機交互整體的智能性及交互流暢度,提升用戶的交互體驗。