本技術涉及人工智能,尤其涉及一種答案文本的生成方法、裝置及存儲介質。
背景技術:
1、隨著人工智能技術的發展,圖片問答技術作為計算機視覺與自然語言處理交叉領域的一項重要技術,正日益受到學術界與工業界的廣泛關注。該技術可以通過理解圖片內容以及與之相關的自然語言,自動生成符合語境和/或圖片包含的文本信息的答案。
2、目前,圖片問答技術通常需要依賴于較為簡單的圖像處理算法,因此在面對復雜場景或物體以及圖片存在印章或水印的情況下,現有的圖片問答技術在將圖片中的視覺信息轉化為文本信息的過程中,會生成過于零散或碎片化的文字,使得識別結果不夠準確。
技術實現思路
1、本技術提供一種答案文本的生成方法、裝置及存儲介質,能夠根據待識別圖像的遮擋程度,進行與之匹配的文本信息提取策略,并根據文本信息抽取得到用于回答問題的答案文本,從而提升了答案文本的準確率。
2、為達到上述目的,本技術采用如下技術方案:
3、第一方面,本技術提供一種答案文本的生成方法,該方法包括:獲取待識別圖像及與待識別圖像的內容相關的問題;根據待識別圖像的遮擋程度,確定對應的文本信息提取策略;基于文本信息提取策略,對待識別圖像進行識別,得到待識別圖像的文本信息,并從文本信息中提取用于回答問題的答案文本。
4、根據上述技術手段,本技術可以根據待識別圖像的遮擋程度,確定不同的文本信息提取策略,從而實施與待識別圖像相適應的文本信息提取策略。根據不同的文本信息提取策略,可以針對未被遮擋的簡單圖像與部分被遮擋或完全被遮擋的復雜圖像進行區分處理,避免過于簡單的處理流程使得復雜圖像準確率降低,過于復雜的處理流程使得簡單圖像耗時過高。
5、一種可能的實現方式中,文本信息提取策略包括一下至少一個:未被遮擋圖像對應的文本信息提取策略;部分被遮擋圖像對應的文本信息提取策略;完全被遮擋圖像對應的文本信息提取策略。
6、根據上述技術手段,本技術可以根據遮擋程度區分為未被遮擋圖像、部分被遮擋圖像、完全被遮擋圖像,使得文本信息提取策略可以完整覆蓋各種不同的圖像,從而對不同的圖像執行更合適的文本信息提取流程。
7、一種可能的實現方式中,對待識別圖像進行文本識別,得到第一文本信息;基于第一文本信息中任意兩個文字之間的關聯度,對第一文本信息中的每個文字進行排序,得到待識別圖像對應的第二文本信息;其中,關聯度用于反映兩個文字之間的通順程序。
8、根據上述技術手段,本技術可以對第一文本信息的順序進行調整得到第二文本信息。第二文本信息為第一文本信息最通順的排列方式,使得后續的使用過程中的結果更加準確,提升了文本的可讀性。
9、一種可能的實現方式中,以目標文字對位中心,根據維特比算法,依次確定第一文本信息中除了目標文字對之外的其他文字與目標文字對的相對位置,以得到第二文本信息。
10、根據上述技術手段,本技術可以根據維特比算法實現對文本信息的調整,為文本信息的順序調整提供了一個完善的流程。
11、一種可能的實現方式中,基于閾值處理技術,去除待識別圖像的遮擋圖像,得到去除遮擋的待識別圖像;通過預設多模態人工智能模型,對去除遮擋的待識別圖像進行文字識別,得到待識別圖像的文本信息。
12、根據上述技術手段,本技術可以去除待識別圖像的遮擋部分,從而提升文字識別結果的準確率。
13、一種可能的實現方式中,將待識別圖像進行拆分,得到完全被遮擋部分圖像和未被遮擋部分圖像;基于未被遮擋圖像對應的文本信息提取策略,對完全被遮擋部分圖像進行處理,得到第三文本信息;基于完全被遮擋圖像對應的文本信息提取策略,對未被遮擋部分圖像進行處理,得到第四文本信息;基于第三文本信息和第四文本信息,確定待識別圖像對應的文本信息。
14、根據上述技術手段,本技術可以將部分被遮擋的圖像進行拆分,得到完全被遮擋部分圖像和未被遮擋部分圖像。使得待識別圖像中的復雜圖像部分進行更加復雜、耗時更長的文本信息提取策略,簡單圖形進行較為簡單的文本信息提取策略。降低了資源利用率的同時,提升了提取結果的準確率。
15、一種可能的實現方式中,在遮擋程度為未被遮擋的情況下,確定問題所需要的信息類型,并基于人工智能模型,根據信息類型對待識別圖像的文本信息進行抽取,得到用于回答問題的答案文本;在遮擋程度為完全被遮擋的情況下,通過預設多模態人工智能模型,根據問題對待識別圖像的文本信息進行抽取,得到用于回答問題的答案文本。
16、根據上述技術手段,本技術可
17、第二方面,本技術提供一種答案文本的生成裝置,該裝置包括:通信單元和處理單元。
18、通信單元,用于獲取待識別圖像及與待識別圖像的內容相關的問題;
19、處理單元,用于根據待識別圖像的遮擋程度,確定對應的文本信息提取策略;
20、處理單元,還用于基于文本信息提取策略,對待識別圖像進行識別,得到待識別圖像的文本信息,并從文本信息中提取用于回答問題的答案文本。
21、一種可能的實現方式中,文本信息提取策略包括一下至少一個:未被遮擋圖像對應的文本信息提取策略;部分被遮擋圖像對應的文本信息提取策略;完全被遮擋圖像對應的文本信息提取策略。
22、一種可能的實現方式中,處理單元,還用于對待識別圖像進行文本識別,得到第一文本信息;基于第一文本信息中任意兩個文字之間的關聯度,對第一文本信息中的每個文字進行排序,得到待識別圖像對應的第二文本信息;其中,關聯度用于反映兩個文字之間的通順程序。
23、一種可能的實現方式中,處理單元,還用于以目標文字對位中心,根據維特比算法,依次確定第一文本信息中除了目標文字對之外的其他文字與目標文字對的相對位置,以得到第二文本信息。
24、一種可能的實現方式中,處理單元,還用于基于閾值處理技術,去除待識別圖像的遮擋圖像,得到去除遮擋的待識別圖像;通過預設多模態人工智能模型,對去除遮擋的待識別圖像進行文字識別,得到待識別圖像的文本信息。
25、一種可能的實現方式中,處理單元,還用于將待識別圖像進行拆分,得到完全被遮擋部分圖像和未被遮擋部分圖像;基于未被遮擋圖像對應的文本信息提取策略,對完全被遮擋部分圖像進行處理,得到第三文本信息;基于完全被遮擋圖像對應的文本信息提取策略,對未被遮擋部分圖像進行處理,得到第四文本信息;基于第三文本信息和第四文本信息,確定待識別圖像對應的文本信息。
26、一種可能的實現方式中,處理單元,還用于在遮擋程度為未被遮擋的情況下,確定問題所需要的信息類型,并基于人工智能模型,根據信息類型對待識別圖像的文本信息進行抽取,得到用于回答問題的答案文本;在遮擋程度為完全被遮擋的情況下,通過預設多模態人工智能模型,根據問題對待識別圖像的文本信息進行抽取,得到用于回答問題的答案文本。
27、第三方面,本技術提供了一種電子設備,該電子設備包括:處理器和通信接口;通信接口和處理器耦合,處理器用于運行計算機程序或指令,以實現如第一方面和第一方面的任一種可能的實現方式中所描述的答案文本的生成方法。
28、第四方面,本技術提供了一種計算機可讀存儲介質,計算機可讀存儲介質中存儲有指令,當指令在終端上運行時,使得終端執行如第一方面和第一方面的任一種可能的實現方式中所描述的答案文本的生成方法。
29、第五方面,本技術提供一種包含指令的計算機程序產品,當計算機程序產品在電子設備上運行時,使得電子設備執行如第一方面和第一方面的任一種可能的實現方式中所描述的答案文本的生成方法。
30、第六方面,本技術提供一種芯片,芯片包括處理器和通信接口,通信接口和處理器耦合,處理器用于運行計算機程序或指令,以實現如第一方面和第一方面的任一種可能的實現方式中所描述的答案文本的生成方法。
31、具體的,本技術中提供的芯片還包括存儲器,用于存儲計算機程序或指令。