本發明涉及語義解析領域,適用于金融領域及醫療領域,尤其涉及一種語義提取方法、裝置、計算機設備及存儲介質。
背景技術:
1、隨著自然語言處理(nlp)技術的飛速發展,機器閱讀理解(machine?readingcomprehension,?mrc)已經成為人工智能領域中的一個重要研究方向。特別是提取式問答(extractive?question?answering,?eqa),作為一種典型的應用場景,已廣泛應用于各種實際任務中,如智能客服、智能問診、信息檢索、法律文檔分析等。在這些應用中,系統需要根據給定的文本段落回答用戶提出的問題,通常要求系統從文本中抽取出最相關的答案片段。
2、在當前的提取式問答模型中,基于編碼器的模型(如bert、roberta等)因其強大的表示能力和預訓練特性,已成為最主流的解決方案。這些模型通過深度神經網絡架構,能夠捕捉到語義層面的復雜信息,并在給定文本中準確地提取出與問題相關的答案。然而,盡管這些模型在處理標準問題格式時表現優異,但它們在面對語義相同但格式不同的問題時仍然存在顯著的挑戰。
技術實現思路
1、基于此,有必要針對上述技術問題,提供一種語義提取方法、裝置、計算機設備及存儲介質,以提高語言模型對問題格式變化的魯棒性。
2、一種語義提取方法,包括:
3、獲取問題文本,對所述問題文本中的參考文本進行特征提取,生成多個語義中心特征;
4、對所述問題文本中的查詢問題進行特征提取,獲得查詢特征;
5、對所述多個語義中心特征進行加權,獲得全局語義中心特征;
6、根據所述全局語義中心特征和所述查詢特征確定目標語義信息。
7、可選地,所述對所述問題文本中的參考文本進行特征提取,生成多個語義中心特征包括:
8、對所述參考文本進行預處理,獲得預處理文本;
9、對所述預處理文本進行主題分析,獲得多個語義中心;
10、根據所述語義中心構建子空間;
11、將所述預處理文本處理為多維信息向量,并將所述多維信息向量分別映射在各個所述子空間中,以生成所述多個語義中心特征。
12、可選地,所述對所述問題文本中的查詢問題進行特征提取,獲得查詢特征,包括:
13、對所述查詢問題進行文本分割,獲得多個詞組,根據所述多個詞組創建詞匯表;
14、計算所述詞匯表中每一詞組的詞頻;
15、對所述查詢問題進行句法分析,獲得句法特征;
16、對所述查詢問題進行命名實體識別,獲得實體信息;
17、對所述查詢問題進行情感分析,獲得情感信息;
18、根據所述詞匯表、所述詞頻、所述句法特征、所述實體信息和所述情感信息生成所述查詢特征。
19、可選地,所述對所述多個語義中心特征進行加權,獲得全局語義中心特征,包括:
20、通過第一注意力機制處理所述查詢特征,獲得權重分配系數;
21、根據所述權重分配系數對所述多個語義中心特征進行加權,獲得所述全局語義中心特征。
22、可選地,所述根據所述全局語義中心特征和所述查詢特征確定目標語義信息,包括:
23、融合所述全局語義中心特征和所述查詢特征,獲得融合特征;
24、通過第二注意力機制處理所述融合特征,獲得所述目標語義信息。
25、可選地,所述根據所述全局語義中心特征和所述查詢特征確定目標語義信息之后,還包括:
26、通過預設輸出模板處理所述目標語義信息,生成所述問題文本的應答信息。
27、一種語義提取裝置,包括:
28、語義中心特征解析模塊,用于獲取問題文本,對所述問題文本中的參考文本進行特征提取,生成多個語義中心特征;
29、查詢特征解析模塊,用于對所述問題文本中的查詢問題進行特征提取,獲得查詢特征;
30、全局特征模塊,用于對所述多個語義中心特征進行加權,獲得全局語義中心特征;
31、確定語義信息模塊,用于根據所述全局語義中心特征和所述查詢特征確定目標語義信息。
32、可選地,所述語義中心特征解析模塊包括:
33、預處理單元,用于對所述參考文本進行預處理,獲得預處理文本;
34、構建語義中心單元,用于對所述預處理文本進行主題分析,獲得多個語義中心;
35、構建子空間單元,用于根據所述語義中心構建子空間;
36、生成語義中心特征單元,用于將所述預處理文本處理為多維信息向量,并將所述多維信息向量分別映射在各個所述子空間中,以生成所述多個語義中心特征。
37、一種計算機設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機可讀指令,所述處理器執行所述計算機可讀指令時實現上述語義提取方法。
38、一個或多個存儲有計算機可讀指令的可讀存儲介質,所述計算機可讀指令被一個或多個處理器執行時,使得所述一個或多個處理器執行如上述語義提取方法。
39、上述語義提取方法、裝置、計算機設備及存儲介質,通過解析問題文本,生成多個語義中心特征和查詢特征,可以理解用戶查詢意圖。對所述多個語義中心特征進行加權,獲得全局語義中心特征,可以更準確地捕捉參考文本的語義信息,提高語義識別模型的性能和準確性。根據所述全局語義中心特征和所述查詢特征確定目標語義信息,可以更準確地校準查詢的語義,減少歧義。本發明從語義層面對查詢進行校準,顯著提升了抽取式問答系統的魯棒性和準確性,尤其是在處理格式多變的語義等價問題時,展現了卓越的優勢。
1.一種語義提取方法,其特征在于,包括:
2.如權利要求1所述的語義提取方法,其特征在于,所述對所述問題文本中的參考文本進行特征提取,生成多個語義中心特征包括:
3.如權利要求1所述的語義提取方法,其特征在于,所述對所述問題文本中的查詢問題進行特征提取,獲得查詢特征,包括:
4.如權利要求1所述的語義提取方法,其特征在于,所述對所述多個語義中心特征進行加權,獲得全局語義中心特征,包括:
5.如權利要求1所述的語義提取方法,其特征在于,所述根據所述全局語義中心特征和所述查詢特征確定目標語義信息,包括:
6.如權利要求1所述的語義提取方法,其特征在于,所述根據所述全局語義中心特征和所述查詢特征確定目標語義信息之后,還包括:
7.一種語義提取裝置,其特征在于,包括:
8.如權利要求7所述的語義提取裝置,其特征在于,所述語義中心特征解析模塊包括:
9.一種計算機設備,包括存儲器、處理器以及存儲在所述存儲器中并在所述處理器上運行的計算機可讀指令,其特征在于,所述處理器執行所述計算機可讀指令時實現如權利要求1至6中任一項所述語義提取方法。
10.一個或多個存儲有計算機可讀指令的可讀存儲介質,所述計算機可讀指令被一個或多個處理器執行時,使得所述一個或多個處理器執行如權利要求1至6中任一項所述語義提取方法。