技術(shù)總結(jié)
本發(fā)明公開了一種左右遞歸新詞發(fā)現(xiàn)方法,屬于搜索引擎技術(shù)領(lǐng)域,來源于詞法分析和快速檢索使用和研發(fā)實(shí)踐。該方法用信息熵來衡量一個(gè)字符串的左鄰集合和右鄰集合的隨機(jī)性、將新詞分為實(shí)體名詞、派生詞、縮略詞、復(fù)合詞和數(shù)字組合詞,其處理步驟包括語料預(yù)處理、位置集合計(jì)算、集合遍歷、收納性判斷、詞頻計(jì)算、左遞歸、右遞歸、合并。
技術(shù)研發(fā)人員:尹云飛;劉歡;曾亞飛
受保護(hù)的技術(shù)使用者:浪潮電子信息產(chǎn)業(yè)股份有限公司;重慶大學(xué)
文檔號碼:201611152464
技術(shù)研發(fā)日:2016.11.30
技術(shù)公布日:2017.05.10