本發明涉及自然語言處理,尤其涉及一種習題資源的自動標注方法及裝置。
背景技術:
1、隨著人工自動技術的迅猛發展,在線教育領域迎來了蓬勃的發展機遇,包括不限于自動解題、習題推薦、難度預測和自動組卷。在真實的工業生產環境中,為了實現對習題資源的精準推送,確保習題內容與學生的知識掌握水平相匹配,習題的標簽必不可少。
2、依靠教育專家進行人工標注即費時又存在偏差,因此急需一種既能自動地對習題進行標注,又能給出高精度預測結果的自動標注方法。
技術實現思路
1、本發明提供一種習題資源的自動標注方法及裝置,用以解決現有技術中人工對習題資源標注較為麻煩的缺陷,實現一種高精度的習題資源自動標注方法。
2、本發明提供一種習題資源的自動標注方法,包括:
3、將待分類習題輸入預訓練的標簽分類模型,得到所述標簽分類模型輸出的標簽概率分布;
4、將所述待分類習題輸入預訓練的元標簽分類模型,得到所述元標簽分類模型輸出的元標簽概率分布,其中,元標簽為基于標簽確定的表征所述標簽獨特性的獨立短語;
5、基于所述標簽與所述元標簽的映射關系對所述元標簽概率分布進行重組,使用重組后的元標簽概率分布對所述標簽概率分布加權,并根據加權結果確定所述待分類習題的標注結果。
6、根據本發明提供的一種習題資源的自動標注方法,所述將待分類習題輸入預訓練的標簽分類模型,得到所述標簽分類模型輸出的標簽概率分布的步驟之前,還包括:
7、將習題資源的數學文本作為樣本、將所述數學文本的知識點作為標簽構建標簽數據集;
8、在所述標簽數據集上使用遮蔽語言任務預訓練得到預備模型;
9、基于多任務學習在所述標簽數據集上對所述預備模型微調,得到用于輸出標簽概率分布的標簽分類模型。
10、根據本發明提供的一種習題資源的自動標注方法,所述多任務學習的主任務定義為標簽分類任務,輔助任務定義為類中心學習任務,其中,所述類中心學習任務為基于距離的優化任務,用于聚攏輸入文本的關鍵特征。
11、根據本發明提供的一種習題資源的自動標注方法,所述將所述待分類習題輸入預訓練的元標簽分類模型,得到所述元標簽分類模型輸出的元標簽概率分布的步驟之前,還包括:
12、將習題資源的數學文本作為樣本、將所述數學文本的知識點作為標簽構建標簽數據集;
13、基于預先定義的劃分規則為每個標簽確定與其對應的元標簽,并以所述標簽數據集為基礎構建得到元標簽數據集;
14、在所述標簽數據集上使用遮蔽語言任務預訓練得到預備模型;
15、在所述元標簽數據集上對所述預備模型微調,得到用于輸出所述元標簽概率分布的所述元標簽分類模型。
16、根據本發明提供的一種習題資源的自動標注方法,所述預先定義的劃分規則包括以下規則一至規則四:
17、規則一為提取標簽文本的獨立短語,分解為至少兩個備選元標簽;
18、規則二為舍棄單獨出現在任一標簽中的備選元標簽;
19、規則三為舍棄出現頻率大于預設閾值的備選元標簽,其中,所述出現頻率為備選元標簽出現總次數與標簽總數量的比值;
20、規則四為在標簽文本無法分解出至少兩個備選元標簽的情況下,根據所述標簽對應的知識點確定備選元標簽。
21、根據本發明提供的一種習題資源的自動標注方法,所述根據加權結果確定所述待分類習題的標注結果的步驟,具體包括:
22、根據加權結果確定所述標簽概率分布中每個標簽的置信度分數;
23、按照所述置信度分數從大到小的順序對所述標簽概率分布中的標簽排序,得到重排序的標簽概率分布;
24、將所述重排序的標簽概率分布中置信度分數大于預設分數閾值的標簽作為所述待分類習題的標注結果。
25、本發明還提供一種習題資源的自動標注裝置,包括:
26、標簽概率分布模塊,用于將待分類習題輸入預訓練的標簽分類模型,得到所述標簽分類模型輸出的標簽概率分布;
27、元標簽概率分布模塊,用于將所述待分類習題輸入預訓練的元標簽分類模型,得到所述元標簽分類模型輸出的元標簽概率分布,其中,元標簽為基于標簽確定的表征所述標簽獨特性的獨立短語;
28、標注模塊,用于基于所述標簽與所述元標簽的映射關系對所述元標簽概率分布進行重組,使用重組后的元標簽概率分布對所述標簽概率分布加權,并根據加權結果確定所述待分類習題的標注結果。
29、本發明還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現如上述任一種所述習題資源的自動標注方法。
30、本發明還提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如上述任一種所述習題資源的自動標注方法。
31、本發明還提供一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執行時實現如上述任一種所述習題資源的自動標注方法。
32、本發明提供的習題資源的自動標注方法及裝置,通過將語義豐富的標簽拆分成獨立的元標簽,并預訓練得到標簽分類模型和元標簽分類模型,基于元標簽概率分布對標簽概率分布的結果進行加權引導,有效解決了現有的分類算法難以區分高相似度標簽的問題,提高了自動標注的準確性和對長尾標簽的識別能力。
1.一種習題資源的自動標注方法,其特征在于,包括:
2.根據權利要求1所述的習題資源的自動標注方法,其特征在于,所述將待分類習題輸入預訓練的標簽分類模型,得到所述標簽分類模型輸出的標簽概率分布的步驟之前,還包括:
3.在根據權利要求2所述的習題資源的自動標注方法,其特征在于,所述多任務學習的主任務定義為標簽分類任務,輔助任務定義為類中心學習任務,其中,所述類中心學習任務為基于距離的優化任務,用于聚攏輸入文本的關鍵特征。
4.在根據權利要求1所述的習題資源的自動標注方法,其特征在于,所述將所述待分類習題輸入預訓練的元標簽分類模型,得到所述元標簽分類模型輸出的元標簽概率分布的步驟之前,還包括:
5.在根據權利要求4所述的習題資源的自動標注方法,其特征在于,所述預先定義的劃分規則包括以下規則一至規則四:
6.在根據權利要求1所述的習題資源的自動標注方法,其特征在于,所述根據加權結果確定所述待分類習題的標注結果的步驟,具體包括:
7.一種習題資源的自動標注裝置,其特征在于,包括:
8.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現如權利要求1至6任一項所述習題資源的自動標注方法。
9.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述習題資源的自動標注方法。
10.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述習題資源的自動標注方法。