本發(fā)明涉及遷移學(xué)習(xí),更具體的說是涉及一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法及系統(tǒng)。
背景技術(shù):
1、近年來,隨著大數(shù)據(jù)技術(shù)的飛速發(fā)展,各行各業(yè)越來越注重?cái)?shù)據(jù)的價(jià)值,且積累的數(shù)據(jù)源和數(shù)據(jù)結(jié)構(gòu)呈現(xiàn)出多樣化的特點(diǎn),其中文本數(shù)據(jù)的產(chǎn)生也越來越多,由于文本數(shù)據(jù)的特征表達(dá)多高維稀疏,且中文語義復(fù)雜,對(duì)這些文本進(jìn)行語義解析和分類一直是一大難題,學(xué)術(shù)界和工業(yè)界產(chǎn)生了一些優(yōu)秀的算法,如lda、plsa、深度學(xué)習(xí)分類等方法。
2、跨領(lǐng)域知識(shí)遷移可以將知識(shí)從源域遷移到目標(biāo)域緩解了數(shù)據(jù)稀疏性問題。而在實(shí)際應(yīng)用中,例如電影和辦公用品、電影和電子產(chǎn)品等語義關(guān)聯(lián)不大,且語義異構(gòu)性較強(qiáng)的這類弱語義匹配領(lǐng)域往往更為常見。所以,如何應(yīng)用跨領(lǐng)域知識(shí)遷移來提高標(biāo)簽嵌入的準(zhǔn)確性是當(dāng)前需要解決的問題。
3、因此,提出一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法及系統(tǒng),來解決現(xiàn)有技術(shù)存在的困難,是本領(lǐng)域技術(shù)人員亟需解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本發(fā)明提供了一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法及系統(tǒng),用于解決現(xiàn)有技術(shù)中存在的技術(shù)問題。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
3、一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法,包括以下步驟:
4、獲取源域和目標(biāo)域的文本數(shù)據(jù);
5、對(duì)源域和目標(biāo)域的文本數(shù)據(jù)進(jìn)行預(yù)處理;
6、獲取預(yù)處理后的源域和目標(biāo)域中的關(guān)鍵詞標(biāo)簽,利用知識(shí)圖譜probase對(duì)源域和目標(biāo)域的關(guān)鍵詞標(biāo)簽進(jìn)行空間擴(kuò)展,得到擴(kuò)展后的關(guān)鍵詞標(biāo)簽;
7、將擴(kuò)展后的關(guān)鍵詞標(biāo)簽輸入標(biāo)簽嵌入模型,得到嵌入特征;
8、將嵌入特征輸入bp神經(jīng)網(wǎng)絡(luò)得到各個(gè)嵌入特征的權(quán)重,并根據(jù)各個(gè)嵌入特征的權(quán)重更新嵌入特征;
9、通過對(duì)更新后的嵌入特征與數(shù)據(jù)庫中各個(gè)知識(shí)遷移的嵌入特征進(jìn)行對(duì)比,得到知識(shí)遷移的標(biāo)簽嵌入結(jié)果。
10、可選的,對(duì)源域和目標(biāo)域的文本數(shù)據(jù)預(yù)處理包括:對(duì)源域和目標(biāo)域的文本數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗與去噪處理,去除異常數(shù)據(jù)和異常格式,對(duì)清洗后的源域和目標(biāo)域的文本數(shù)據(jù)進(jìn)行平滑處理。
11、可選的,利用知識(shí)圖譜probase對(duì)源域和目標(biāo)域的關(guān)鍵詞標(biāo)簽進(jìn)行空間擴(kuò)展,得到擴(kuò)展后的關(guān)鍵詞標(biāo)簽的具體內(nèi)容為:
12、首先利用余弦相似性算法,計(jì)算源域和目標(biāo)域初始標(biāo)簽與probase中詞匯的語義相似性;
13、設(shè)定相似性閾值,篩選出初始標(biāo)簽與probase中詞匯的語義相似性高于設(shè)定的相似性閾值的詞匯,將相似的詞匯添加到標(biāo)簽集合中,得到擴(kuò)展后的關(guān)鍵詞標(biāo)簽。
14、可選的,將擴(kuò)展后的關(guān)鍵詞標(biāo)簽輸入標(biāo)簽嵌入模型,得到嵌入特征的具體內(nèi)容為:將擴(kuò)展后的關(guān)鍵詞標(biāo)簽輸入標(biāo)簽嵌入模型的輸入層,通過標(biāo)簽嵌入模型的隱藏層,從標(biāo)簽嵌入模型的輸出層獲取每個(gè)關(guān)鍵詞標(biāo)簽的嵌入向量,即為嵌入特征。
15、可選的,根據(jù)各個(gè)嵌入特征的權(quán)重更新嵌入特征的具體內(nèi)容為:
16、根據(jù)各個(gè)嵌入特征和對(duì)應(yīng)的權(quán)重計(jì)算加權(quán)嵌入特征;
17、根據(jù)加權(quán)嵌入特征更新嵌入特征。
18、可選的,還包括:將標(biāo)簽嵌入結(jié)果輸入檢驗(yàn)?zāi)P椭序?yàn)證標(biāo)簽嵌入結(jié)果的準(zhǔn)確性。
19、一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入系統(tǒng),應(yīng)用上述任一項(xiàng)的一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法,包括依次連接的獲取模塊、預(yù)處理模塊、擴(kuò)展模塊、特征模塊、更新模塊、結(jié)果模塊;其中,
20、獲取模塊:獲取源域和目標(biāo)域的文本數(shù)據(jù);
21、預(yù)處理模塊:對(duì)源域和目標(biāo)域的文本數(shù)據(jù)進(jìn)行預(yù)處理;
22、擴(kuò)展模塊:獲取預(yù)處理后的源域和目標(biāo)域中的關(guān)鍵詞標(biāo)簽,利用知識(shí)圖譜probase對(duì)源域和目標(biāo)域的關(guān)鍵詞標(biāo)簽進(jìn)行空間擴(kuò)展,得到擴(kuò)展后的關(guān)鍵詞標(biāo)簽;
23、特征模塊:將擴(kuò)展后的關(guān)鍵詞標(biāo)簽輸入標(biāo)簽嵌入模型,得到嵌入特征;
24、更新模塊:將嵌入特征輸入bp神經(jīng)網(wǎng)絡(luò)得到各個(gè)嵌入特征的權(quán)重,并根據(jù)各個(gè)嵌入特征的權(quán)重更新嵌入特征;
25、結(jié)果模塊:通過對(duì)更新后的嵌入特征與數(shù)據(jù)庫中各個(gè)知識(shí)遷移的嵌入特征進(jìn)行對(duì)比,得到知識(shí)遷移的標(biāo)簽嵌入結(jié)果。
26、經(jīng)由上述的技術(shù)方案可知,與現(xiàn)有技術(shù)相比,本發(fā)明公開提供了一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法及系統(tǒng),其有益效果為:
27、1)通過利用知識(shí)圖譜probase對(duì)源域和目標(biāo)域的關(guān)鍵詞標(biāo)簽進(jìn)行擴(kuò)展處理,獲取與每個(gè)類別相關(guān)的多個(gè)擴(kuò)展標(biāo)簽詞;為了過濾掉與目標(biāo)域不相關(guān)的標(biāo)簽詞,提高模型的適應(yīng)性和泛化能力;
28、2)通過對(duì)更新后的嵌入特征與數(shù)據(jù)庫中各個(gè)知識(shí)遷移的嵌入特征進(jìn)行對(duì)比以及進(jìn)行驗(yàn)證可以提高標(biāo)簽嵌入的準(zhǔn)確性及效率。
1.一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法,其特征在于,對(duì)源域和目標(biāo)域的文本數(shù)據(jù)預(yù)處理包括:對(duì)源域和目標(biāo)域的文本數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗與去噪處理,去除異常數(shù)據(jù)和異常格式,對(duì)清洗后的源域和目標(biāo)域的文本數(shù)據(jù)進(jìn)行平滑處理。
3.根據(jù)權(quán)利要求1所述的一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法,其特征在于,利用知識(shí)圖譜probase對(duì)源域和目標(biāo)域的關(guān)鍵詞標(biāo)簽進(jìn)行空間擴(kuò)展,得到擴(kuò)展后的關(guān)鍵詞標(biāo)簽的具體內(nèi)容為:
4.根據(jù)權(quán)利要求1所述的一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法,其特征在于,將擴(kuò)展后的關(guān)鍵詞標(biāo)簽輸入標(biāo)簽嵌入模型,得到嵌入特征的具體內(nèi)容為:將擴(kuò)展后的關(guān)鍵詞標(biāo)簽輸入標(biāo)簽嵌入模型的輸入層,通過標(biāo)簽嵌入模型的隱藏層,從標(biāo)簽嵌入模型的輸出層獲取每個(gè)關(guān)鍵詞標(biāo)簽的嵌入向量,即為嵌入特征。
5.根據(jù)權(quán)利要求1所述的一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法,其特征在于,根據(jù)各個(gè)嵌入特征的權(quán)重更新嵌入特征的具體內(nèi)容為:
6.根據(jù)權(quán)利要求1所述的一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法,其特征在于,還包括:將標(biāo)簽嵌入結(jié)果輸入檢驗(yàn)?zāi)P椭序?yàn)證標(biāo)簽嵌入結(jié)果的準(zhǔn)確性。
7.一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入系統(tǒng),其特征在于應(yīng)用權(quán)利要求1-6任一項(xiàng)所述的一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法,包括依次連接的獲取模塊、預(yù)處理模塊、擴(kuò)展模塊、特征模塊、更新模塊、結(jié)果模塊;其中,