1.一種左右遞歸新詞發現方法,包括語料預處理[1]、位置集合計算[2]、集合遍歷[3]、收納性判斷[4]、詞頻計算[5]、左遞歸[6]、右遞歸[7]、合并[8]八個步驟:
語料預處理[1]:通過正則過濾、全半角轉換、空白符號刪除、無關特殊符刪除、非文本刪除、斷句切分對輸入語料進行處理;
位置集合計算[2]:計算輸入語料中的字在輸入語料中出現的位置;
集合遍歷[3]:遍歷位置集合;
收納性判斷[4]:判斷位置集合中的每一個元素是否滿足收納規則的要求;
詞頻計算[5]:計算每一個字出現的頻次;
左遞歸[6]:針對每一個字,依次取其左邊的字組成新詞并進行判斷;
右遞歸[7]:針對每一個字,依次取其右邊的字組成新詞并進行判斷;
合并[8]:將左遞歸發現的新詞集合與右遞歸發現的新詞集合進行合并。
2.根據權利要求1所述的一種左右遞歸新詞發現方法,其特征在于:語料預處理[1]通過正則過濾、全半角轉換、空白符號刪除、無關特殊符刪除、非文本刪除、斷句切分對輸入語料進行處理;其中,正則過濾是刪除語料中包含的Html標簽、Xml標簽;全半角轉換是將語料中的全角符號轉換成半角符號、將中文的繁體轉換成簡體;空白符號刪除是刪除語料中多余的空格、換行符、制表符;無關特殊符刪除是刪除語料中包含的ASCII編碼、特殊領域編碼、亂碼符號;非文本刪除是刪除文本中的圖片、聲音、視頻數據;斷句切分是根據句號、感嘆號、問號、省略號、分號、空格、換行符將語料切分成一個一個的句子;為了避免語料中大量完全相同的句子對新詞指標計算造成的誤差,對切分好的句子進行Hash求值,并將Hash碼完全相同的句子去重。
3.根據權利要求1所述的一種左右遞歸新詞發現方法,其特征在于:位置集合計算[2]計算輸入語料中的字在輸入語料中出現的位置;其中位置集合的計算公式為:
其中w1,w2,…,wm表示輸入語料中出現過且互不相同的字;(wi,POSi)表示一個集合而是該集合的一個元素,表示第i個字wi在輸入語料中第j次出現的位置;
表示第i個字wi在
位置出現過。
4.根據權利要求1所述的一種左右遞歸新詞發現方法,其特征在于:集合遍歷[3]是遍歷位置集合,記位置集合為W,也就是依次從位置集合W中取出每個字wi,保存于變量word中,即word=wi,i=i+1。
5.根據權利要求1所述的一種左右遞歸新詞發現方法,其特征在于:收納性判斷[4]是判斷位置集合中的每一個元素是否滿足收納規則的要求;收納性規則是指按照實體名詞、派生詞、縮略詞、復合詞、數字組合詞這五種類型進行收納。
6.根據權利要求1所述的一種左右遞歸新詞發現方法,其特征在于:詞頻計算[5]是指計算每一個字出現的頻次,頻次公式為:
其中,N(X)表示字符串X出現的次數;N表示語料的總字數。
7.根據權利要求1所述的一種左右遞歸新詞發現方法,其特征在于:左遞歸[6]是指針對每一個字依次取其左邊的字組成新詞進行判斷;記當前字為word,則其步驟包括:(1)計算word的左信息熵;(2)根據預設的信息熵閾值檢測計算出的左信息熵是否滿足閾值,若不滿足則計算word的左鄰集合,左鄰集合是word左邊字組成的集合;(3)在左鄰集合中任取一個元素pre,將pre與word組合成pre+word返回上一步重新計算左信息熵,并再次做判斷;(4)如果計算出的左信息熵滿足閾值,則計算互信息;(5)根據預設的互信息閾值,檢測計算出的互信息是否滿足閾值,若不滿足則計算對應的左鄰集合;(6)在左鄰集合中任取一個元素pre,將pre與word組合成pre+word返回上一步重新計算左信息熵,并再次做判斷,以此類推;(7)如果計算出的互信息滿足閾值,則判斷word或者pre+word是否已經存在于詞庫,如果沒有存在則加入詞庫P1,如果存在則從位置集合中再取出一個新的word,重復進行前述步驟。
8.根據權利要求1所述的一種左右遞歸新詞發現方法,其特征在于:右遞歸[7]是指針對每一個字依次取其右邊的字組成新詞并進行判斷;記當前字為word,則其步驟包括:(1)計算word的右信息熵;(2)根據預設的信息熵閾值,檢測計算出的右信息熵是否滿足閾值,如不滿足則計算word的右鄰集合,右鄰集合是word右邊字組成的集合;(3)在右鄰集合中任取一個元素suf,將word與suf組合成word+suf返回上一步重新計算右信息熵,并再次做判斷;(4)如果計算出的右信息熵滿足閾值,則計算互信息;(5)根據預設的互信息閾值,檢測計算出的互信息是否滿足閾值,若不滿足則計算對應的右鄰集合;(6)在右鄰集合中任取一個元素suf,將word與suf組合成word+suf返回上一步重新計算右信息熵,并再次做判斷,以此類推;(7)如果計算出的互信息滿足閾值,則判斷word或者word+suf是否已經存在于詞庫,如果沒有存在則加入詞庫P2,如果存在則從位置集合中再取出一個新的word,重復進行前述步驟。
9.根據權利要求1所述的一種左右遞歸新詞發現方法,其特征在于:合并[8]是將左遞歸發現的新詞集合與右遞歸發現的新詞集合進行合并,記左遞歸發現的新詞集合為P1、右遞歸發現的新詞集合為P2,將P1與P2合并是指求P1和P2的交集。