本申請涉及人工智能領(lǐng)域,具體而言,涉及一種標(biāo)簽信息的確定方法、裝置、存儲介質(zhì)、電子設(shè)備和程序產(chǎn)品。
背景技術(shù):
1、目前,實體識別是構(gòu)建知識圖譜、智能搜索和合規(guī)性分析等關(guān)鍵應(yīng)用的基礎(chǔ)。
2、在相關(guān)技術(shù)中,通常只是基于預(yù)設(shè)規(guī)則進(jìn)行實體的抽取,比如,正則表達(dá)式匹配,但是,該方法靈活性有限,難以適應(yīng)一詞多義和長句語義解析的挑戰(zhàn),且構(gòu)建和維護(hù)規(guī)則集耗時耗力,難以規(guī)模化和自動化,存在對文本進(jìn)行解析的準(zhǔn)確性低的技術(shù)問題。
3、針對相關(guān)技術(shù)中對文本進(jìn)行解析的準(zhǔn)確性低的技術(shù)問題,目前尚未提出有效的解決方案。
技術(shù)實現(xiàn)思路
1、本申請的主要目的在于提供一種標(biāo)簽信息的確定方法、裝置、存儲介質(zhì)、電子設(shè)備和程序產(chǎn)品,以解決相關(guān)技術(shù)中對文本進(jìn)行解析的準(zhǔn)確性低的技術(shù)問題。
2、為了實現(xiàn)上述目的,根據(jù)本申請的一個方面,提供了一種標(biāo)簽信息的確定方法。該方法可以包括:獲取待處理數(shù)據(jù);將待處理數(shù)據(jù)拆分為字符序列;獲取與字符序列之間的關(guān)聯(lián)度大于關(guān)聯(lián)度閾值的關(guān)聯(lián)數(shù)據(jù);基于關(guān)聯(lián)數(shù)據(jù),確定字符序列在待處理數(shù)據(jù)中的上下文信息;基于關(guān)聯(lián)數(shù)據(jù)和上下文信息,確定字符序列的標(biāo)簽信息。
3、可選地,將待處理數(shù)據(jù)拆分為字符序列,包括:提取待處理數(shù)據(jù)中的文本數(shù)據(jù);對文本數(shù)據(jù)進(jìn)行拆分,得到字符序列。
4、可選地,獲取與字符序列之間的關(guān)聯(lián)度大于關(guān)聯(lián)度閾值的關(guān)聯(lián)數(shù)據(jù),包括:對字符序列進(jìn)行標(biāo)注,得到標(biāo)注字符序列;將標(biāo)注字符序列轉(zhuǎn)換為詞嵌入向量;利用詞典信息,確定與詞嵌入向量的關(guān)聯(lián)度大于關(guān)聯(lián)度閾值的關(guān)聯(lián)數(shù)據(jù),其中,詞典信息用于向詞嵌入向量提供額外語義和/或字符。
5、可選地,基于關(guān)聯(lián)數(shù)據(jù),確定字符序列在待處理數(shù)據(jù)中的上下文信息,包括:對關(guān)聯(lián)數(shù)據(jù)和詞嵌入向量進(jìn)行整合處理,得到整合數(shù)據(jù);獲取整合數(shù)據(jù)的上下文數(shù)據(jù)。
6、可選地,基于關(guān)聯(lián)數(shù)據(jù)和上下文信息,確定字符序列的標(biāo)簽信息,包括:基于關(guān)聯(lián)數(shù)據(jù)和上下文信息,對字符序列進(jìn)行識別,得到字符序列的多個初始標(biāo)簽信息;從多個初始標(biāo)簽信息中,確定標(biāo)簽信息。
7、可選地,從多個初始標(biāo)簽信息中,確定標(biāo)簽信息,包括:調(diào)取條件隨機場模型,確定初始標(biāo)簽信息的評價信息;基于評價信息,從多個初始標(biāo)簽信息中,確定標(biāo)簽信息。
8、為了實現(xiàn)上述目的,根據(jù)本申請的一個方面,提供了一種標(biāo)簽信息的確定裝置。該裝置可以包括:第一獲取單元,用于獲取待處理數(shù)據(jù);拆分單元,用于將待處理數(shù)據(jù)拆分為字符序列;第二獲取單元,用于獲取與字符序列之間的關(guān)聯(lián)度大于關(guān)聯(lián)度閾值的關(guān)聯(lián)數(shù)據(jù);確定單元,用于基于關(guān)聯(lián)數(shù)據(jù),確定字符序列在待處理數(shù)據(jù)中的上下文信息;識別單元,用于基于關(guān)聯(lián)數(shù)據(jù)和上下文信息,確定字符序列的標(biāo)簽信息。
9、可選地,拆分單元還可以包括:提取模塊,提取待處理數(shù)據(jù)中的文本數(shù)據(jù);拆分模塊,用于對文本數(shù)據(jù)進(jìn)行拆分,得到字符序列。
10、可選地,第二獲取單元還可以包括:標(biāo)注模塊,用于對字符序列進(jìn)行標(biāo)注,得到標(biāo)注字符序列;轉(zhuǎn)換模塊,用于將標(biāo)注字符序列轉(zhuǎn)換為詞嵌入向量;第一確定模塊,用于利用詞典信息,確定與詞嵌入向量的關(guān)聯(lián)度大于關(guān)聯(lián)度閾值的關(guān)聯(lián)數(shù)據(jù),其中,詞典信息用于向詞嵌入向量提供額外語義和/或字符。
11、可選地,確定單元還可以包括:整合模塊,用于對關(guān)聯(lián)數(shù)據(jù)和詞嵌入向量進(jìn)行整合處理,得到整合數(shù)據(jù);獲取模塊,用于獲取整合數(shù)據(jù)的上下文數(shù)據(jù)。
12、可選地,識別單元還可以包括:識別模塊,用于基于關(guān)聯(lián)數(shù)據(jù)和上下文信息,對字符序列進(jìn)行識別,得到字符序列的多個初始標(biāo)簽信息;第二確定模塊,用于從多個初始標(biāo)簽信息中,確定標(biāo)簽信息。
13、可選地,第二確定模塊可以包括:第一子確定模塊,用于調(diào)取條件隨機場模型,確定初始標(biāo)簽信息的評價信息;第二子確定模塊,用于基于評價信息,從多個初始標(biāo)簽信息中,確定標(biāo)簽信息。
14、為了實現(xiàn)上述目的,根據(jù)本申請的另一方面,還提供了一種計算機可讀存儲介質(zhì),該計算機可讀存儲介質(zhì)可以包括存儲的可執(zhí)行程序,其中,在可執(zhí)行程序運行時可以控制計算機可讀存儲介質(zhì)所在設(shè)備執(zhí)行上述方法。
15、為了實現(xiàn)上述目的,根據(jù)本申請的另一方面,還提供了一種電子設(shè)備,該電子設(shè)備可以包括:存儲器,存儲有可執(zhí)行程序;處理器,用于運行程序,其中,程序運行時執(zhí)行上述方法。
16、為了實現(xiàn)上述目的,根據(jù)本申請的另一方面,還提供了一種計算機程序產(chǎn)品,該計算機程序產(chǎn)品可以包括計算機指令,該計算機指令被處理器執(zhí)行時實現(xiàn)上述方法的步驟。
17、在本申請實施例中,獲取待處理數(shù)據(jù);將待處理數(shù)據(jù)拆分為字符序列;獲取與字符序列之間的關(guān)聯(lián)度大于關(guān)聯(lián)度閾值的關(guān)聯(lián)數(shù)據(jù);基于關(guān)聯(lián)數(shù)據(jù),確定字符序列在待處理數(shù)據(jù)中的上下文信息;基于關(guān)聯(lián)數(shù)據(jù)和上下文信息,確定字符序列的標(biāo)簽信息。也即,在本申請實施例中,獲取已配置接口協(xié)議和待配置接口協(xié)議,確定二者之間的差異信息,利用目標(biāo)接口的配置數(shù)據(jù),對差異信息進(jìn)行轉(zhuǎn)換,以得到配置數(shù)據(jù),可以按照配置數(shù)據(jù),對已配置接口協(xié)議進(jìn)行更新,從而得到待配置接口協(xié)議,進(jìn)而實現(xiàn)了提高對文本進(jìn)行解析的準(zhǔn)確性的技術(shù)效果,解決了對文本進(jìn)行解析的準(zhǔn)確性低的技術(shù)問題。
1.一種標(biāo)簽信息的確定方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述待處理數(shù)據(jù)拆分為字符序列,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取與所述字符序列之間的關(guān)聯(lián)度大于關(guān)聯(lián)度閾值的關(guān)聯(lián)數(shù)據(jù),包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基于所述關(guān)聯(lián)數(shù)據(jù),確定所述字符序列在所述待處理數(shù)據(jù)中的上下文信息,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述關(guān)聯(lián)數(shù)據(jù)和所述上下文信息,確定所述字符序列的標(biāo)簽信息,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述從多個初始標(biāo)簽信息中,確定所述標(biāo)簽信息,包括:
7.一種標(biāo)簽信息的確定裝置,其特征在于,包括:
8.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)包括存儲的可執(zhí)行程序,其中,在所述可執(zhí)行程序運行時控制所述計算機可讀存儲介質(zhì)所在設(shè)備執(zhí)行權(quán)利要求1至6中任意一項所述的方法。
9.一種電子設(shè)備,其特征在于,包括:
10.一種計算機程序產(chǎn)品,包括計算機指令,其特征在于,所述計算機指令被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至6中任意一項所述的方法的步驟。