麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法及系統(tǒng)與流程

文檔序號(hào):41374866發(fā)布日期:2025-03-21 15:30閱讀:31來源:國(guó)知局
一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法及系統(tǒng)與流程

本發(fā)明涉及遷移學(xué)習(xí),更具體的說是涉及一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法及系統(tǒng)。


背景技術(shù):

1、近年來,隨著大數(shù)據(jù)技術(shù)的飛速發(fā)展,各行各業(yè)越來越注重?cái)?shù)據(jù)的價(jià)值,且積累的數(shù)據(jù)源和數(shù)據(jù)結(jié)構(gòu)呈現(xiàn)出多樣化的特點(diǎn),其中文本數(shù)據(jù)的產(chǎn)生也越來越多,由于文本數(shù)據(jù)的特征表達(dá)多高維稀疏,且中文語義復(fù)雜,對(duì)這些文本進(jìn)行語義解析和分類一直是一大難題,學(xué)術(shù)界和工業(yè)界產(chǎn)生了一些優(yōu)秀的算法,如lda、plsa、深度學(xué)習(xí)分類等方法。

2、跨領(lǐng)域知識(shí)遷移可以將知識(shí)從源域遷移到目標(biāo)域緩解了數(shù)據(jù)稀疏性問題。而在實(shí)際應(yīng)用中,例如電影和辦公用品、電影和電子產(chǎn)品等語義關(guān)聯(lián)不大,且語義異構(gòu)性較強(qiáng)的這類弱語義匹配領(lǐng)域往往更為常見。所以,如何應(yīng)用跨領(lǐng)域知識(shí)遷移來提高標(biāo)簽嵌入的準(zhǔn)確性是當(dāng)前需要解決的問題。

3、因此,提出一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法及系統(tǒng),來解決現(xiàn)有技術(shù)存在的困難,是本領(lǐng)域技術(shù)人員亟需解決的問題。


技術(shù)實(shí)現(xiàn)思路

1、有鑒于此,本發(fā)明提供了一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法及系統(tǒng),用于解決現(xiàn)有技術(shù)中存在的技術(shù)問題。

2、為了實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:

3、一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法,包括以下步驟:

4、獲取源域和目標(biāo)域的文本數(shù)據(jù);

5、對(duì)源域和目標(biāo)域的文本數(shù)據(jù)進(jìn)行預(yù)處理;

6、獲取預(yù)處理后的源域和目標(biāo)域中的關(guān)鍵詞標(biāo)簽,利用知識(shí)圖譜probase對(duì)源域和目標(biāo)域的關(guān)鍵詞標(biāo)簽進(jìn)行空間擴(kuò)展,得到擴(kuò)展后的關(guān)鍵詞標(biāo)簽;

7、將擴(kuò)展后的關(guān)鍵詞標(biāo)簽輸入標(biāo)簽嵌入模型,得到嵌入特征;

8、將嵌入特征輸入bp神經(jīng)網(wǎng)絡(luò)得到各個(gè)嵌入特征的權(quán)重,并根據(jù)各個(gè)嵌入特征的權(quán)重更新嵌入特征;

9、通過對(duì)更新后的嵌入特征與數(shù)據(jù)庫中各個(gè)知識(shí)遷移的嵌入特征進(jìn)行對(duì)比,得到知識(shí)遷移的標(biāo)簽嵌入結(jié)果。

10、可選的,對(duì)源域和目標(biāo)域的文本數(shù)據(jù)預(yù)處理包括:對(duì)源域和目標(biāo)域的文本數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗與去噪處理,去除異常數(shù)據(jù)和異常格式,對(duì)清洗后的源域和目標(biāo)域的文本數(shù)據(jù)進(jìn)行平滑處理。

11、可選的,利用知識(shí)圖譜probase對(duì)源域和目標(biāo)域的關(guān)鍵詞標(biāo)簽進(jìn)行空間擴(kuò)展,得到擴(kuò)展后的關(guān)鍵詞標(biāo)簽的具體內(nèi)容為:

12、首先利用余弦相似性算法,計(jì)算源域和目標(biāo)域初始標(biāo)簽與probase中詞匯的語義相似性;

13、設(shè)定相似性閾值,篩選出初始標(biāo)簽與probase中詞匯的語義相似性高于設(shè)定的相似性閾值的詞匯,將相似的詞匯添加到標(biāo)簽集合中,得到擴(kuò)展后的關(guān)鍵詞標(biāo)簽。

14、可選的,將擴(kuò)展后的關(guān)鍵詞標(biāo)簽輸入標(biāo)簽嵌入模型,得到嵌入特征的具體內(nèi)容為:將擴(kuò)展后的關(guān)鍵詞標(biāo)簽輸入標(biāo)簽嵌入模型的輸入層,通過標(biāo)簽嵌入模型的隱藏層,從標(biāo)簽嵌入模型的輸出層獲取每個(gè)關(guān)鍵詞標(biāo)簽的嵌入向量,即為嵌入特征。

15、可選的,根據(jù)各個(gè)嵌入特征的權(quán)重更新嵌入特征的具體內(nèi)容為:

16、根據(jù)各個(gè)嵌入特征和對(duì)應(yīng)的權(quán)重計(jì)算加權(quán)嵌入特征;

17、根據(jù)加權(quán)嵌入特征更新嵌入特征。

18、可選的,還包括:將標(biāo)簽嵌入結(jié)果輸入檢驗(yàn)?zāi)P椭序?yàn)證標(biāo)簽嵌入結(jié)果的準(zhǔn)確性。

19、一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入系統(tǒng),應(yīng)用上述任一項(xiàng)的一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法,包括依次連接的獲取模塊、預(yù)處理模塊、擴(kuò)展模塊、特征模塊、更新模塊、結(jié)果模塊;其中,

20、獲取模塊:獲取源域和目標(biāo)域的文本數(shù)據(jù);

21、預(yù)處理模塊:對(duì)源域和目標(biāo)域的文本數(shù)據(jù)進(jìn)行預(yù)處理;

22、擴(kuò)展模塊:獲取預(yù)處理后的源域和目標(biāo)域中的關(guān)鍵詞標(biāo)簽,利用知識(shí)圖譜probase對(duì)源域和目標(biāo)域的關(guān)鍵詞標(biāo)簽進(jìn)行空間擴(kuò)展,得到擴(kuò)展后的關(guān)鍵詞標(biāo)簽;

23、特征模塊:將擴(kuò)展后的關(guān)鍵詞標(biāo)簽輸入標(biāo)簽嵌入模型,得到嵌入特征;

24、更新模塊:將嵌入特征輸入bp神經(jīng)網(wǎng)絡(luò)得到各個(gè)嵌入特征的權(quán)重,并根據(jù)各個(gè)嵌入特征的權(quán)重更新嵌入特征;

25、結(jié)果模塊:通過對(duì)更新后的嵌入特征與數(shù)據(jù)庫中各個(gè)知識(shí)遷移的嵌入特征進(jìn)行對(duì)比,得到知識(shí)遷移的標(biāo)簽嵌入結(jié)果。

26、經(jīng)由上述的技術(shù)方案可知,與現(xiàn)有技術(shù)相比,本發(fā)明公開提供了一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法及系統(tǒng),其有益效果為:

27、1)通過利用知識(shí)圖譜probase對(duì)源域和目標(biāo)域的關(guān)鍵詞標(biāo)簽進(jìn)行擴(kuò)展處理,獲取與每個(gè)類別相關(guān)的多個(gè)擴(kuò)展標(biāo)簽詞;為了過濾掉與目標(biāo)域不相關(guān)的標(biāo)簽詞,提高模型的適應(yīng)性和泛化能力;

28、2)通過對(duì)更新后的嵌入特征與數(shù)據(jù)庫中各個(gè)知識(shí)遷移的嵌入特征進(jìn)行對(duì)比以及進(jìn)行驗(yàn)證可以提高標(biāo)簽嵌入的準(zhǔn)確性及效率。



技術(shù)特征:

1.一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法,其特征在于,包括以下步驟:

2.根據(jù)權(quán)利要求1所述的一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法,其特征在于,對(duì)源域和目標(biāo)域的文本數(shù)據(jù)預(yù)處理包括:對(duì)源域和目標(biāo)域的文本數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗與去噪處理,去除異常數(shù)據(jù)和異常格式,對(duì)清洗后的源域和目標(biāo)域的文本數(shù)據(jù)進(jìn)行平滑處理。

3.根據(jù)權(quán)利要求1所述的一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法,其特征在于,利用知識(shí)圖譜probase對(duì)源域和目標(biāo)域的關(guān)鍵詞標(biāo)簽進(jìn)行空間擴(kuò)展,得到擴(kuò)展后的關(guān)鍵詞標(biāo)簽的具體內(nèi)容為:

4.根據(jù)權(quán)利要求1所述的一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法,其特征在于,將擴(kuò)展后的關(guān)鍵詞標(biāo)簽輸入標(biāo)簽嵌入模型,得到嵌入特征的具體內(nèi)容為:將擴(kuò)展后的關(guān)鍵詞標(biāo)簽輸入標(biāo)簽嵌入模型的輸入層,通過標(biāo)簽嵌入模型的隱藏層,從標(biāo)簽嵌入模型的輸出層獲取每個(gè)關(guān)鍵詞標(biāo)簽的嵌入向量,即為嵌入特征。

5.根據(jù)權(quán)利要求1所述的一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法,其特征在于,根據(jù)各個(gè)嵌入特征的權(quán)重更新嵌入特征的具體內(nèi)容為:

6.根據(jù)權(quán)利要求1所述的一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法,其特征在于,還包括:將標(biāo)簽嵌入結(jié)果輸入檢驗(yàn)?zāi)P椭序?yàn)證標(biāo)簽嵌入結(jié)果的準(zhǔn)確性。

7.一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入系統(tǒng),其特征在于應(yīng)用權(quán)利要求1-6任一項(xiàng)所述的一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法,包括依次連接的獲取模塊、預(yù)處理模塊、擴(kuò)展模塊、特征模塊、更新模塊、結(jié)果模塊;其中,


技術(shù)總結(jié)
本發(fā)明公開了一種跨領(lǐng)域知識(shí)遷移的標(biāo)簽嵌入方法及系統(tǒng),涉及遷移學(xué)習(xí)技術(shù)領(lǐng)域。包括:獲取源域和目標(biāo)域的文本數(shù)據(jù);對(duì)源域和目標(biāo)域的文本數(shù)據(jù)進(jìn)行預(yù)處理;獲取預(yù)處理后的源域和目標(biāo)域中的關(guān)鍵詞標(biāo)簽,利用知識(shí)圖譜Probase對(duì)源域和目標(biāo)域的關(guān)鍵詞標(biāo)簽進(jìn)行空間擴(kuò)展,得到擴(kuò)展后的關(guān)鍵詞標(biāo)簽;將擴(kuò)展后的關(guān)鍵詞標(biāo)簽輸入標(biāo)簽嵌入模型,得到嵌入特征;將嵌入特征輸入BP神經(jīng)網(wǎng)絡(luò)得到各個(gè)嵌入特征的權(quán)重,并根據(jù)各個(gè)嵌入特征的權(quán)重更新嵌入特征;通過對(duì)更新后的嵌入特征與數(shù)據(jù)庫中各個(gè)知識(shí)遷移的嵌入特征進(jìn)行對(duì)比,得到知識(shí)遷移的標(biāo)簽嵌入結(jié)果。本發(fā)明可以提高標(biāo)簽嵌入的準(zhǔn)確性及效率。

技術(shù)研發(fā)人員:張鵬,潘進(jìn)
受保護(hù)的技術(shù)使用者:深圳微言科技有限責(zé)任公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/3/20
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
主站蜘蛛池模板: 黄龙县| 五家渠市| 靖西县| 宜城市| 柘城县| 苍南县| 右玉县| 浪卡子县| 化州市| 密云县| 东至县| 勐海县| 哈尔滨市| 中江县| 玛纳斯县| 东方市| 景东| 磐石市| 措美县| 本溪| 丹巴县| 富锦市| 台前县| 错那县| 山阳县| 天津市| 盐山县| 辽阳市| 中方县| 东兴市| 日喀则市| 武功县| 乐都县| 碌曲县| 榆林市| 南宁市| 沐川县| 昆明市| 雅江县| 民县| 丰都县|