利用基于詞上下文的字嵌入與神經網絡的中文分詞方法與流程

文檔序號：11250873閱讀：來源：國知局

技術特征：

技術總結
本發明提出了一種利用基于詞上下文的字嵌入與神經網絡的中文分詞方法，在大規模的自動切分數據上學習字嵌入，將學習得到的字嵌入作為神經網絡分詞模型的輸入，可以有效幫助模型學習。具體步驟如下：根據字上下文以及詞位標記在大規模自動切分數據上學習字嵌入，將字嵌入作為神經網絡分詞模型的輸入，有效地提高了分詞的性能。對比其它基于神經網絡的中文分詞技術，該方法采用了基于詞上下文的字嵌入，有效地將詞信息融合進了分詞模型，成功的提高了分詞任務的準確性。

技術研發人員：戴新宇;郁振庭;陳家駿;黃書劍;張建兵
受保護的技術使用者：南京大學
技術研發日：2017.05.23
技術公布日：2017.09.15