麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種左右遞歸新詞發現方法與流程

文檔序號:11155414閱讀:來源:國知局

技術特征:

1.一種左右遞歸新詞發現方法,包括語料預處理[1]、位置集合計算[2]、集合遍歷[3]、收納性判斷[4]、詞頻計算[5]、左遞歸[6]、右遞歸[7]、合并[8]八個步驟:

語料預處理[1]:通過正則過濾、全半角轉換、空白符號刪除、無關特殊符刪除、非文本刪除、斷句切分對輸入語料進行處理;

位置集合計算[2]:計算輸入語料中的字在輸入語料中出現的位置;

集合遍歷[3]:遍歷位置集合;

收納性判斷[4]:判斷位置集合中的每一個元素是否滿足收納規則的要求;

詞頻計算[5]:計算每一個字出現的頻次;

左遞歸[6]:針對每一個字,依次取其左邊的字組成新詞并進行判斷;

右遞歸[7]:針對每一個字,依次取其右邊的字組成新詞并進行判斷;

合并[8]:將左遞歸發現的新詞集合與右遞歸發現的新詞集合進行合并。

2.根據權利要求1所述的一種左右遞歸新詞發現方法,其特征在于:語料預處理[1]通過正則過濾、全半角轉換、空白符號刪除、無關特殊符刪除、非文本刪除、斷句切分對輸入語料進行處理;其中,正則過濾是刪除語料中包含的Html標簽、Xml標簽;全半角轉換是將語料中的全角符號轉換成半角符號、將中文的繁體轉換成簡體;空白符號刪除是刪除語料中多余的空格、換行符、制表符;無關特殊符刪除是刪除語料中包含的ASCII編碼、特殊領域編碼、亂碼符號;非文本刪除是刪除文本中的圖片、聲音、視頻數據;斷句切分是根據句號、感嘆號、問號、省略號、分號、空格、換行符將語料切分成一個一個的句子;為了避免語料中大量完全相同的句子對新詞指標計算造成的誤差,對切分好的句子進行Hash求值,并將Hash碼完全相同的句子去重。

3.根據權利要求1所述的一種左右遞歸新詞發現方法,其特征在于:位置集合計算[2]計算輸入語料中的字在輸入語料中出現的位置;其中位置集合的計算公式為:

<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>W</mi> <mo>{</mo> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>POS</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>,</mo> <msub> <mi>POS</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mn>...</mn> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>POS</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>m</mi> </msub> <mo>,</mo> <msub> <mi>POS</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> <mo>}</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>POS</mi> <mi>i</mi> </msub> <mo>=</mo> <mo>{</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <msub> <mi>pos</mi> <msub> <mi>i</mi> <mn>1</mn> </msub> </msub> <mo>,</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <msub> <mi>pos</mi> <msub> <mi>i</mi> <mn>2</mn> </msub> </msub> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <msub> <mi>pos</mi> <msub> <mi>i</mi> <mi>n</mi> </msub> </msub> <mo>}</mo> </mrow> </mtd> </mtr> </mtable> </mfenced>

其中w1,w2,…,wm表示輸入語料中出現過且互不相同的字;(wi,POSi)表示一個集合而是該集合的一個元素,表示第i個字wi在輸入語料中第j次出現的位置;表示第i個字wi位置出現過。

4.根據權利要求1所述的一種左右遞歸新詞發現方法,其特征在于:集合遍歷[3]是遍歷位置集合,記位置集合為W,也就是依次從位置集合W中取出每個字wi,保存于變量word中,即word=wi,i=i+1。

5.根據權利要求1所述的一種左右遞歸新詞發現方法,其特征在于:收納性判斷[4]是判斷位置集合中的每一個元素是否滿足收納規則的要求;收納性規則是指按照實體名詞、派生詞、縮略詞、復合詞、數字組合詞這五種類型進行收納。

6.根據權利要求1所述的一種左右遞歸新詞發現方法,其特征在于:詞頻計算[5]是指計算每一個字出現的頻次,頻次公式為:

<mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>N</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> </mrow> <mi>N</mi> </mfrac> </mrow>

其中,N(X)表示字符串X出現的次數;N表示語料的總字數。

7.根據權利要求1所述的一種左右遞歸新詞發現方法,其特征在于:左遞歸[6]是指針對每一個字依次取其左邊的字組成新詞進行判斷;記當前字為word,則其步驟包括:(1)計算word的左信息熵;(2)根據預設的信息熵閾值檢測計算出的左信息熵是否滿足閾值,若不滿足則計算word的左鄰集合,左鄰集合是word左邊字組成的集合;(3)在左鄰集合中任取一個元素pre,將pre與word組合成pre+word返回上一步重新計算左信息熵,并再次做判斷;(4)如果計算出的左信息熵滿足閾值,則計算互信息;(5)根據預設的互信息閾值,檢測計算出的互信息是否滿足閾值,若不滿足則計算對應的左鄰集合;(6)在左鄰集合中任取一個元素pre,將pre與word組合成pre+word返回上一步重新計算左信息熵,并再次做判斷,以此類推;(7)如果計算出的互信息滿足閾值,則判斷word或者pre+word是否已經存在于詞庫,如果沒有存在則加入詞庫P1,如果存在則從位置集合中再取出一個新的word,重復進行前述步驟。

8.根據權利要求1所述的一種左右遞歸新詞發現方法,其特征在于:右遞歸[7]是指針對每一個字依次取其右邊的字組成新詞并進行判斷;記當前字為word,則其步驟包括:(1)計算word的右信息熵;(2)根據預設的信息熵閾值,檢測計算出的右信息熵是否滿足閾值,如不滿足則計算word的右鄰集合,右鄰集合是word右邊字組成的集合;(3)在右鄰集合中任取一個元素suf,將word與suf組合成word+suf返回上一步重新計算右信息熵,并再次做判斷;(4)如果計算出的右信息熵滿足閾值,則計算互信息;(5)根據預設的互信息閾值,檢測計算出的互信息是否滿足閾值,若不滿足則計算對應的右鄰集合;(6)在右鄰集合中任取一個元素suf,將word與suf組合成word+suf返回上一步重新計算右信息熵,并再次做判斷,以此類推;(7)如果計算出的互信息滿足閾值,則判斷word或者word+suf是否已經存在于詞庫,如果沒有存在則加入詞庫P2,如果存在則從位置集合中再取出一個新的word,重復進行前述步驟。

9.根據權利要求1所述的一種左右遞歸新詞發現方法,其特征在于:合并[8]是將左遞歸發現的新詞集合與右遞歸發現的新詞集合進行合并,記左遞歸發現的新詞集合為P1、右遞歸發現的新詞集合為P2,將P1與P2合并是指求P1和P2的交集。

當前第2頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 惠州市| 太湖县| 永兴县| 紫金县| 北辰区| 于都县| 山西省| 潼南县| 吉水县| 临西县| 织金县| 镇安县| 绥化市| 金阳县| 高碑店市| 黄骅市| 自贡市| 沧州市| 土默特右旗| 扶绥县| 栾城县| 新乡市| 沐川县| 昌都县| 涿州市| 霍州市| 图们市| 九龙坡区| 沁水县| 福建省| 慈利县| 甘孜县| 海丰县| 临颍县| 佛冈县| 志丹县| 沙湾县| 双城市| 二手房| 景宁| 积石山|