一種左右遞歸新詞發現方法與流程

文檔序號：11155414閱讀：來源：國知局

技術特征：

1.一種左右遞歸新詞發現方法，包括語料預處理[1]、位置集合計算[2]、集合遍歷[3]、收納性判斷[4]、詞頻計算[5]、左遞歸[6]、右遞歸[7]、合并[8]八個步驟：

語料預處理[1]：通過正則過濾、全半角轉換、空白符號刪除、無關特殊符刪除、非文本刪除、斷句切分對輸入語料進行處理；

位置集合計算[2]：計算輸入語料中的字在輸入語料中出現的位置；

集合遍歷[3]：遍歷位置集合；

收納性判斷[4]：判斷位置集合中的每一個元素是否滿足收納規則的要求；

詞頻計算[5]：計算每一個字出現的頻次；

左遞歸[6]：針對每一個字，依次取其左邊的字組成新詞并進行判斷；

右遞歸[7]：針對每一個字，依次取其右邊的字組成新詞并進行判斷；

合并[8]：將左遞歸發現的新詞集合與右遞歸發現的新詞集合進行合并。

2.根據權利要求1所述的一種左右遞歸新詞發現方法，其特征在于：語料預處理[1]通過正則過濾、全半角轉換、空白符號刪除、無關特殊符刪除、非文本刪除、斷句切分對輸入語料進行處理；其中，正則過濾是刪除語料中包含的Html標簽、Xml標簽；全半角轉換是將語料中的全角符號轉換成半角符號、將中文的繁體轉換成簡體；空白符號刪除是刪除語料中多余的空格、換行符、制表符；無關特殊符刪除是刪除語料中包含的ASCII編碼、特殊領域編碼、亂碼符號；非文本刪除是刪除文本中的圖片、聲音、視頻數據；斷句切分是根據句號、感嘆號、問號、省略號、分號、空格、換行符將語料切分成一個一個的句子；為了避免語料中大量完全相同的句子對新詞指標計算造成的誤差，對切分好的句子進行Hash求值，并將Hash碼完全相同的句子去重。

3.根據權利要求1所述的一種左右遞歸新詞發現方法，其特征在于：位置集合計算[2]計算輸入語料中的字在輸入語料中出現的位置；其中位置集合的計算公式為：

$<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>W</mi> <mo>{</mo> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>POS</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>,</mo> <msub> <mi>POS</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mn>...</mn> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>POS</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>m</mi> </msub> <mo>,</mo> <msub> <mi>POS</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> <mo>}</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>POS</mi> <mi>i</mi> </msub> <mo>=</mo> <mo>{</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <msub> <mi>pos</mi> <msub> <mi>i</mi> <mn>1</mn> </msub> </msub> <mo>,</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <msub> <mi>pos</mi> <msub> <mi>i</mi> <mn>2</mn> </msub> </msub> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <msub> <mi>pos</mi> <msub> <mi>i</mi> <mi>n</mi> </msub> </msub> <mo>}</mo> </mrow> </mtd> </mtr> </mtable> </mfenced>$

其中w₁，w₂，…，w_m表示輸入語料中出現過且互不相同的字；(w_i，POS_i)表示一個集合而是該集合的一個元素，表示第i個字w_i在輸入語料中第j次出現的位置；表示第i個字w_i在位置出現過。

4.根據權利要求1所述的一種左右遞歸新詞發現方法，其特征在于：集合遍歷[3]是遍歷位置集合，記位置集合為W，也就是依次從位置集合W中取出每個字w_i，保存于變量word中，即word＝w_i，i＝i+1。

5.根據權利要求1所述的一種左右遞歸新詞發現方法，其特征在于：收納性判斷[4]是判斷位置集合中的每一個元素是否滿足收納規則的要求；收納性規則是指按照實體名詞、派生詞、縮略詞、復合詞、數字組合詞這五種類型進行收納。

6.根據權利要求1所述的一種左右遞歸新詞發現方法，其特征在于：詞頻計算[5]是指計算每一個字出現的頻次，頻次公式為：

$<mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>N</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> </mrow> <mi>N</mi> </mfrac> </mrow>$

其中，N(X)表示字符串X出現的次數；N表示語料的總字數。

7.根據權利要求1所述的一種左右遞歸新詞發現方法，其特征在于：左遞歸[6]是指針對每一個字依次取其左邊的字組成新詞進行判斷；記當前字為word，則其步驟包括：(1)計算word的左信息熵；(2)根據預設的信息熵閾值檢測計算出的左信息熵是否滿足閾值，若不滿足則計算word的左鄰集合，左鄰集合是word左邊字組成的集合；(3)在左鄰集合中任取一個元素pre，將pre與word組合成pre+word返回上一步重新計算左信息熵，并再次做判斷；(4)如果計算出的左信息熵滿足閾值，則計算互信息；(5)根據預設的互信息閾值，檢測計算出的互信息是否滿足閾值，若不滿足則計算對應的左鄰集合；(6)在左鄰集合中任取一個元素pre，將pre與word組合成pre+word返回上一步重新計算左信息熵，并再次做判斷，以此類推；(7)如果計算出的互信息滿足閾值，則判斷word或者pre+word是否已經存在于詞庫，如果沒有存在則加入詞庫P1，如果存在則從位置集合中再取出一個新的word，重復進行前述步驟。

8.根據權利要求1所述的一種左右遞歸新詞發現方法，其特征在于：右遞歸[7]是指針對每一個字依次取其右邊的字組成新詞并進行判斷；記當前字為word，則其步驟包括：(1)計算word的右信息熵；(2)根據預設的信息熵閾值，檢測計算出的右信息熵是否滿足閾值，如不滿足則計算word的右鄰集合，右鄰集合是word右邊字組成的集合；(3)在右鄰集合中任取一個元素suf，將word與suf組合成word+suf返回上一步重新計算右信息熵，并再次做判斷；(4)如果計算出的右信息熵滿足閾值，則計算互信息；(5)根據預設的互信息閾值，檢測計算出的互信息是否滿足閾值，若不滿足則計算對應的右鄰集合；(6)在右鄰集合中任取一個元素suf，將word與suf組合成word+suf返回上一步重新計算右信息熵，并再次做判斷，以此類推；(7)如果計算出的互信息滿足閾值，則判斷word或者word+suf是否已經存在于詞庫，如果沒有存在則加入詞庫P2，如果存在則從位置集合中再取出一個新的word，重復進行前述步驟。

9.根據權利要求1所述的一種左右遞歸新詞發現方法，其特征在于：合并[8]是將左遞歸發現的新詞集合與右遞歸發現的新詞集合進行合并，記左遞歸發現的新詞集合為P1、右遞歸發現的新詞集合為P2，將P1與P2合并是指求P1和P2的交集。

完整全部詳細技術資料下載

當前第2頁1 2 3

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

利用遞歸方法求5相關技術

遞歸方法相關技術

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種左右遞歸新詞發現方法與流程