麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

一種從互聯網上自動提取雙語翻譯詞典的方法

文檔序號:6600788閱讀:600來源:國知局

專利名稱::一種從互聯網上自動提取雙語翻譯詞典的方法
技術領域
:本發明涉及統計自然語言處理
技術領域
,特別涉及一種從互聯網上自動提取雙語翻譯詞典的方法。
背景技術
:無論是科研還是平時生活,人們對外語的接觸和依賴程度都很高。傳統的翻譯詞典主要來自人工的整理編輯,生成周期長,而且更新慢,覆蓋度不高。現有的基于互聯網生成翻譯詞典的方法需要依靠多種自然語言處理技術和機器學習技術,這些方法在處理很大規模數據時可能成為性能的瓶頸,同時要依賴事先建立的資源。我們構造的雙語翻譯詞典來自互聯網,除了傳統詞匯外還可以很好的覆蓋當前流行詞匯以及命名實體,給人們的實際應用以及機器翻譯等其他領域的科研帶來極大的便禾U。以下是雙語詞典相關的名詞解析1.雙語詞匯在中英文雙語網頁中,存在大量的具有翻譯關系或者其他關聯的中英雙語出現在一起。這些相互對應的中英雙語構成雙語對,我們稱之為雙語詞匯。隨著互聯網的快速發展,這些雙語詞匯已經具有龐大的數量,經過提取便能很好的服務平時的生活和科研應用。2.詞頻同一個雙語詞匯在不同的網頁中可能重復出現,雙語詞匯在抓取的所有網頁中出現的次數稱為詞頻。3.括號雙語詞匯在許多雙語網頁中,人們常常習慣在一個詞或短語之后的括號內跟上該詞或短語的翻譯,具有這種對應關系雙語詞匯我們稱為括號雙語詞匯。括號雙語詞匯出現在各種類型的雙語網頁中,包括購物、官方主頁、新聞等,覆蓋了人們生活的各個方面。但括號雙語詞匯還包括很多非翻譯的關系,例如補充說明、論壇id等,整體上覆蓋率很高,但正確率偏低。4.英中雙語詞匯括號內為英文、括號前為中文的括號雙語詞匯。5.中英雙語詞匯括號內為中文、括號前為英文的括號雙語詞匯。6.中文語料庫所有雙語詞匯中括號內的中文組成中文語料庫。7.前綴在英中雙語詞匯中,從左括號開始依次從右往左遍歷中文,將得到的字串逐個在中文語料庫中查找,可以查找到的字串成為該英中雙語詞匯的一個前綴8.良結構雙語詞匯在一些專業網站或者外語學習網站,會有經過用戶整理的某一類詞語以及對應的翻譯,這些詞語和翻譯往往以很規整的結構出現,我們稱為良結構詞匯。這部分雙語詞匯都是經過人工整理的,正確率高,同時這些雙語詞匯出現的結構規整,便于提取。但由于這部分雙語詞匯是經過整理以后的,覆蓋率相對括號雙語詞匯偏低。9.流行用語流行用語是指互聯網中出現的很多傳統詞典無法覆蓋的英語詞匯,例如orz(失意體前屈),ft(暈倒)、pmp(拍馬屁)等,這些或者是單詞的縮寫,或者是拼音的縮寫,或者是象形文字等等。10.命名實體命名實體主要指一些用來描述地名、公司名、品牌名或者新的技術等的特定詞匯,由于公司名、品牌名以及技術都在不斷地更新,新的詞匯也在不停地出現,所以很多命名實體詞匯為傳統詞典所無法覆蓋,例如Baleno(班尼路)、cloudcomputing(云計算)、kobe(科比)等。11.詞根詞根指英文單詞意義的主要部分,通過英文單詞中去掉由于語態和復數形式添加的后綴獲得。例如witten的詞根為wit,managing的詞根為manag。
發明內容(一)要解決的技術問題本發明要解決的技術問題是在從互聯網構建雙語詞典時如何快速有效地自動構建且不依賴任何外來資源的問題。(二)技術方案一種從互聯網上自動提取雙語翻譯詞典的方法,包括以下步驟Sl從中外雙語網頁中提取括號雙語詞匯和良結構雙語詞匯,并記錄詞頻;所述雙語詞匯為具有翻譯關系的中外雙語出現在一起組成的詞匯,所述良結構雙語詞匯為先前經過人工整理的具有準確翻譯的雙語詞匯,所述括號雙語詞匯為詞或短語之后的括號內跟上該詞或短語的翻譯的雙語詞匯,包括外中雙語詞匯,括號內為外語、括號前為中文的括號雙語詞匯。中外雙語詞匯,括號內為中文、括號前為外語的括號雙語詞匯。S2對所述提取的括號雙語詞匯進行截取,得到翻譯準確的括號雙語詞匯;S3對良結構雙語詞匯和經過步驟S2后的括號雙語詞匯進行詞根合并和篩選;S4對給定的中文或外語,首先在良結構雙語詞匯中查找對應的翻譯,如果找到則忽略括號雙語詞匯的翻譯;否則在括號雙語詞匯中尋找對應的翻譯,所有中文、外語和對應的翻譯構成雙語翻譯詞典。其中,所述步驟Sl包括SlOl利用搜索引擎的抓取技術抓取互聯網上所有的雙語網頁;S102從所述雙語網頁中提取括號雙語詞匯,提取雙語詞匯時在網頁中查找括號,然后自右向左遍歷左括號左邊的內容,以出現語言屬性變化或者出現標點符號為界,所述語言屬性為中文或外語,括號前內容與括號中內容構成雙語詞匯;S103:按照良結構雙語詞匯提取規則從所述雙語網頁中提取符合規則結構要求的良結構雙語詞匯,所述提取規則為網頁中具有“<br>...</br>'\"<tr>...</tr>"和"<td>...</td>”這種結構之間的內容都是結構相同的中外文混雜內容,那么認為這些對應中外文內容存在翻譯關系,構成良結構雙語詞匯。其中,所述步驟S2包括S201根據括號左邊以及括號中內容的語言屬性進行分類,包括外中雙語詞匯和中外雙語詞匯,提取所述括號雙語詞匯括號中的中文作為中文語料庫;S202:對所有外中雙語詞匯中括號左邊的中文,從左括號自右向左依次利用步驟S201所得到的中文語料庫進行中文字符串匹配,得到所有可以匹配的外中雙語詞匯,將相同的外中雙語詞匯合并,詞頻相加,其中,匹配上的中文字符串稱為所述外中雙語詞匯的前£雙;S203利用所有中外雙語詞匯對步驟S202得到的詞頻進行修正,若某外中雙語詞匯的前綴可以在中外雙語詞匯的集合中找到,則將該中外雙語詞匯的詞頻累加到外中雙語詞匯上;S204將每個外語對應的所有括號雙語詞匯表示為一種樹形數據結構來表示,所述樹形數據結構中,外中雙語詞匯的外語詞為根節點,每個前綴建立一前綴節點,每個所述前綴節點下面連接一系列子節點,每個所述前綴節點是其子節點的子串,從所述樹形數據結構中選擇翻譯準確的括號雙語詞匯的方法如下(1)如果一個父節點A的所有子節點中,存在某一子節點B,B的詞頻占A節點詞頻的50%以上,那么保留B節點,同時刪除A和A的子節點以及子節點以下的所有節點,;(2)如果一個父節點A的所有子節點中,找不到任何一子節點B,B的詞頻占A節點詞頻的50%以上,則保留A節點,刪除A節點以下的所有節點;其中,所述父節點A不包括根節點,至上而下對每個節點按(1)(2)兩步進行篩選,剩下節點對應的雙語詞匯即為翻譯準確的括號雙語詞匯。其中,所述步驟S3包括S301將所有中文項相同的雙語詞匯利用中文結構圖表示,所述中文結構圖為三層樹形數據結構,中文項為根節點,根節點的子節點為所述中文項所有對應外語項的詞根,所有的外語項又為各自詞根的子節點;S302對同一中文結構圖中的任意兩個詞根a,b,若--<0.2max(len(a),len{b))此時,若freq(a)>freq(b),刪除詞根b及b所有子節點,同時freq(a)=freq(a)+freq(b),否則,刪除詞根a及a所有子節點,同時freq(b)=freq(a)+freq(b),此處dis(a,b)表示詞根a,b之間的編輯距離,Ien(a)表示詞根a的長度,freq(a)表示詞根a的詞頻,所述編輯距離為將一個字符串a通過將一個字符換成另一個字符、刪除某個字符或者插入字符轉為另一個字符串b所需要的最少步驟;S303:將每個詞根R用子節點中詞頻最大的節點B替代,詞頻仍然為詞根R原來的詞頻,然后刪掉詞根R的所有子節點;S304:根據所述中文結構圖,將每條外語的所有中文父節點作為該外語的子節點,建立外語結構圖,所述外語結構圖中外語項為根,所有該外語項的翻譯中文項作為該外語項的子節點,對所述外語結構圖中根節點下的所有子節點按照詞頻從大到小排序,保留前K個節點,刪除多余子節點,保留下來的節點為根節點外語對應的中文翻譯;S305:在中文結構圖中,將根節點下的所有子節點按照詞頻從大到小排序,保留前K個節點,刪除多余子節點,得到根節點中文對應的外語翻譯。其中,所述K為1-10之間的整數。其中,所述外語包括英語、法語、德語、西班牙語或意大利語。(三)有益效果本發明依據雙語詞匯的詞頻能夠快速有效、不依賴任何外來資源自動構建雙語翻譯詞典,克服了詞匯對齊以及機器學習等方法在大規模數據時所產生的性能瓶頸問題;而且更新周期短、工作量小、覆蓋面廣,可以有效的得到最新流行詞匯和實體命名的翻譯;生成雙語詞典的過程完全由計算機完成,不需要人工干預。圖1是根據本發明的從互聯網上自動提取雙語翻譯詞典的方法流程圖;圖2是根據本發明的從互聯網上自動提取雙語翻譯詞典的方法中括號雙語詞匯進行截取時的樹形結構示意圖;圖3是根據本發明的從互聯網上自動提取雙語翻譯詞典的方法中詞根合并時的中文結構圖;圖4是根據本發明的從互聯網上自動提取雙語翻譯詞典的方法中詞根合并時的外語結構圖。具體實施例方式本發明提出的從互聯網上自動提取雙語翻譯詞典的方法,結合附圖和實施例說明如下,以英語為實施例來說明本發明。如圖1所示,為采用本方法生成雙語詞典的流程圖。包括步驟步驟一從中英雙語網頁中提取括號雙語詞匯和良結構雙語詞匯,提取所述括號雙語詞匯時,自右向左遍歷左括號左邊的內容以出現語言屬性變化或者出現標點符號為界,所述語言屬性為中文或英文。如“......,XXX不開心(uphappy)”若“XXX”為中文,則提取時將“XXX不開心(unhappy)”提取為一個括號雙語詞匯,若“XXX”為非中文,則提取“不開心(uphappy)”為一個括號雙語詞匯。良結構雙語詞匯主要提取格式比較規整的網頁內容,例如網頁中包含以下內容“英文名English<br/>家庭生活familylife<br/>家譜familytree<br/>”,如果連續的“<br>...</br>”這種結構之間的內容都是結構相同的中英文混雜內容,那么認為這些對應中英文內容存在翻譯關系,構成良結構雙語詞匯,類似的標記還包括“<tr>...</tr>”和“<td>...</td>”等。步驟二對所述提取的括號雙語詞匯進行截取,截取得到翻譯準確的括號雙語詞匯,在截取時具體包括如下步驟1、根據括號左邊以及括號中內容的語言屬性進行分類,包括英中雙語詞匯和中英雙語詞匯,截取時主要針對所有英中雙語詞匯進行,提取所述括號雙語詞匯括號中的中文作為中文語料庫。如unhappy(不開心),將“不開心”存入中文語料庫。2、對所有英中雙語詞匯中括號左邊的中文,從左括號自右向左依次利用步驟1所得到的中文語料庫進行中文字符串匹配,得到所有可以匹配的英中雙語詞匯,將相同的英中雙語詞匯合并,詞頻相加,其中,和中文語料庫中中文匹配上的中文字符串稱為所述英中雙語詞匯的前綴。如步驟一中提取的英中雙語詞匯“XXX不開心(unhappy)”在中文語料庫中進行匹配,“不開心”會被匹配上,可得到“不開心(unhappy)”的雙語詞匯,其中,“不開心”為該雙語詞匯的前綴。若匹配后得到多個不同網頁中的“不開心(unhappy)”雙語詞匯,則將其合并為一個“不開心(unhappy)”雙語詞匯,并將其它相同的雙語詞匯的詞頻加到合并后的“不開心(unhappy),,雙語詞匯。3、利用所有中英雙語詞匯對步驟2得到的詞頻進行修正,修正方式為若某英中雙語詞匯的前綴可以在中英雙語詞匯的集合中找到,則將該中英雙語詞匯的詞頻累加到英中雙語詞匯上。如利用中英雙語詞匯“unhappy(不開心)”對英中雙語詞匯“不開心(unhappy),,進行修訂,將“unhappy(不開心),,的詞頻加到“不開心(unhappy)”上。4、將每個英文對應的所有括號雙語詞匯表示為一種樹形數據結構來表示,如圖2所示,在所述樹形數據結構中,英中雙語詞匯的英文詞為根節點(unhappy),每個前綴建立一前綴節點(開心或不幸),每個所述前綴節點下面連接一系列子節點(不開心或唔開心),每個所述前綴節點是其子節點的子串,從所述樹形數據結構中選擇翻譯準確的括號雙語詞匯的方法如下(1)如果一個父節點A的所有子節點中,如“開心”節點,存在某一子節點B,“不開心”節點,B的詞頻占A節點詞頻的50%以上,那么保留B節點,同時刪除A和A的子節點以及子節點以下的所有節點,即刪除“開心”、“唔開心”節點以及子節點;(2)如果一個父節點A的所有子節點中,如“不幸”節點,找不到任何一子節點B,B的詞頻占A節點詞頻的50%以上,則保留A節點,刪除A節點以下的所有節點,即保留“不幸”節點,刪除“不幸”節點的所有子節點;從根節點至上而下對每個節點按(1)(2)兩步進行篩選,剩下節點對應的雙語詞匯即為翻譯準確的括號雙語詞匯。步驟三對良結構雙語詞匯和經過步驟二后的括號雙語詞匯進行詞根合并和篩選,為了消除由于互聯網資源的拼寫錯誤等情況,在詞根合并時,如果同一個詞的不同翻譯間的詞根的編輯距離小于預定閾值,則進行合并,同時為了消除一些單復數或者其他形式造成的影響,詞根合并之后進行篩選,具體包括1、將所有中文項相同的雙語詞匯利用中文結構圖表示,如圖3所示,所述中文結構圖為三層樹形數據結構,中文項為根節點,根節點的子節點為所述雙語詞匯中所有英文的詞根,所有的英文項又為各自詞根的子節點;2、對同一中文結構圖中的任意兩個詞根a,b,若--<0.2ms&(len(a),len(b))此時,若freq(a)>freq(b),刪除詞根b及b所有子節點,同時freq(a)=freq(a)+freq(b),否則,刪除詞根a及a所有子節點,同時freq(b)=freq(a)+freq(b),此處dis(a,b)表示詞根a,b之間的編輯距離,len(a)表示詞根a的長度,freq(a)表示詞根a的詞頻,所述編輯距離為將一個字符串a通過將一個字符換成另一個字符、刪除某個字符8或者插入字符轉為另一個字符串b所需要的最少步驟,若上式>0.2時同時保留a和b節點。如drinkingtea(正在喝茶),其中文項根節點為“正在喝茶”,其詞根為drinktea,若另一個詞根drimktea(拼寫錯誤),將m換成n需要一步,dis(drinktea,drimktea)=1,max(len(drinktea),len(drimktea))=9,根據上述公式算出結果為0.11<0.2。顯然錯誤拼寫占少數,freq(drinktea)>freq(drimktea),此時保留詞根drink節點,刪除詞根drimk節點及其所有子節點。3、將每個詞根R用子節點中詞頻最大的節點B替代,詞頻仍然為詞根R原來的詞頻,然后刪掉詞根R的所有子節點,如詞根drinktea節點的子節點drinkingtea的詞頻最大,則用drinkingtea代替drinktea,然后刪掉詞根drinktea節點的所有子節點4、根據所述中文結構圖,重新組合建立如圖4所示的英文結構圖,所述英文結構圖中英文項為根,如drinkingtea所有該英文項的翻譯中文項作為該英文項的子節點,如正在喝茶、喝茶和喝茶中,對所述英文結構圖中根節點下的所有子節點按照詞頻從大到小排序,保留前K(K取1-10的整數)個節點,刪除多余子節點,得到從英文到中文的翻譯。若選擇前2個詞頻最高的子節點“正在喝茶”和“喝茶中”。5、在中文結構圖中也刪除與所述多余子節點中中文相同的節點,如節點“喝茶”,在未刪除的中文結構圖中保留中文項翻譯的英文詞條詞頻最高的前K條結果,得到從中文到英文的翻譯,其中K取1-10的整數。步驟四對給定的中文,首先在良結構雙語詞匯中尋找對應的翻譯,如果找到則忽略括號雙語詞匯的翻譯;否則在括號雙語詞匯中尋找對應的翻譯,同樣方法處理每條英文,所有中文、外語和其對應的翻譯構成雙語翻譯詞典。完成以上各步驟后,即生成了可直接使用的雙語翻譯詞典,該翻譯詞典既包含了傳統詞匯的翻譯,同時包含了很多網絡流行用語或者其他命名實體的翻譯。為了驗證本發明的有效性和可靠性,我們進行了翻譯準確性的相關實驗。從運行效率上講,當程序運行硬件環境為2.0G主頻CPU、8G內存時,計算機使用從互聯網中抓取的雙語詞匯數據(數據存儲規模約為350Gigabyte)提取生成雙語翻譯詞典,消耗的時間約為18小時,最終生成425萬條從中到英的翻譯和511萬條從英到中的翻譯。1、括號雙語詞匯的截取括號雙語詞匯從抓取的12億網頁中提取,存儲規模約為350G。每條雙語詞匯包括中文項、英文項以及url。在原始提取的雙語詞匯中,括號前的內容與括號中的內容并不一定完全對應,例如“其實不開心(unhappy)”這樣的雙語詞匯,首先需要進行截取,提取出“不開心(unhappy),,。括號雙語詞匯的截取主要分為兩大步,首先提取出所有可能匹配的雙語詞匯,然后從中選出準確匹配的雙語詞匯。截取過程中同時將相同的雙語詞匯合并,并統計詞頻。截取后的雙語詞匯內容包括表1括號雙語詞匯包含的內容<table>tableseeoriginaldocumentpage10</column></row><table>經過這一步處理后,得到的數據規模為5G左右。2、詞根合并篩選盡管經過截取后的括號雙語詞匯以及良結構雙語詞匯中中英雙語是相互對應的,但二者卻不一定是翻譯關系,因為互聯網中還存在著很多垃圾資源。為了消除這些垃圾資源以及諸如拼寫錯誤等信息,我們引入了詞根合并的方法。首先將每條中文的所有對應英文轉換為詞根,詞根間再根據編輯距離進行合并,最終根據詞頻保留前K條,得到括號和良結構雙語詞匯各自部分的翻譯詞典。經過詞根合并,括號雙語詞匯共提取出330多萬條從中文到英文的翻譯以及480多萬條從英文到中文的翻譯。而從網頁中提取的良結構雙語詞匯規模為279M,共提取出230多萬條從中文到英文的翻譯和230多萬條從英文到中文的翻譯。3.翻譯結果的合并良結構雙語詞匯是經過人工整理的,可信度很高,所以合并時采用了覆蓋合并的策略,即對于查詢詞首先在良結構雙語詞匯中查找翻譯,如果找到翻譯則忽略括號雙語詞匯,否則從括號雙語詞匯中查找翻譯。最終得到425萬條從中到英的翻譯和511萬條從英到中的翻譯。從翻譯效果上將,我們生成的翻譯詞典覆蓋度要比傳統詞典高,尤其是對于一些命名實體詞匯,例如對當前流行的一些品牌的中英文名字進行翻譯。同時,同國外的一些使用互聯網做資源、利用分詞對齊等方法生成雙語翻譯詞典的方法相比,在準確率和召回率上都有著一定優勢。和提取中英雙語詞匯類似,本發明還可以用于提取中文與法語、德語、西班牙語或意大利語等雙語網頁中的雙語詞匯。以上實施方式僅用于說明本發明,而并非對本發明的限制,有關
技術領域
的普通技術人員,在不脫離本發明的精神和范圍的情況下,還可以做出各種變化和變型,因此所有等同的技術方案也屬于本發明的范疇,本發明的專利保護范圍應由權利要求限定。權利要求一種從互聯網上自動提取雙語翻譯詞典的方法,其特征在于,包括以下步驟S1從中外雙語網頁中提取括號雙語詞匯和良結構雙語詞匯,并記錄詞頻;所述雙語詞匯為具有翻譯關系的中外雙語出現在一起組成的詞匯,所述良結構雙語詞匯為先前經過人工整理的具有準確翻譯的雙語詞匯,所述括號雙語詞匯為詞或短語之后的括號內跟上該詞或短語的翻譯的雙語詞匯,包括外中雙語詞匯,括號內為外語、括號前為中文的括號雙語詞匯,中外雙語詞匯,括號內為中文、括號前為外語的括號雙語詞匯;S2對所述提取的括號雙語詞匯進行截取,得到翻譯準確的括號雙語詞匯;S3對良結構雙語詞匯和經過步驟S2后的括號雙語詞匯進行詞根合并和篩選;S4對給定的中文或外語,首先在良結構雙語詞匯中查找對應的翻譯,如果找到則忽略括號雙語詞匯的翻譯;否則在括號雙語詞匯中尋找對應的翻譯,所有中文、外語和對應的翻譯構成雙語翻譯詞典。2.如權利要求1所述的從互聯網上自動提取雙語翻譯詞典的方法,其特征在于,所述步驟S1包括S101利用搜索引擎的抓取技術抓取互聯網上所有的雙語網頁;S102:從所述雙語網頁中提取括號雙語詞匯,提取雙語詞匯時在網頁中查找括號,然后自右向左遍歷左括號左邊的內容,以出現語言屬性變化或者出現標點符號為界,所述語言屬性為中文或外語,括號前內容與括號中內容構成雙語詞匯;S103按照良結構雙語詞匯提取規則從所述雙語網頁中提取符合規則結構要求的良結構雙語詞匯,所述提取規則為網頁中具有“<br>.</br>”、“<tr>.</tr>”和“<td>.</td>”這種結構之間的內容都是結構相同的中外文混雜內容,那么認為這些對應中外文內容存在翻譯關系,構成良結構雙語詞匯。3.如權利要求1所述的從互聯網上自動提取雙語翻譯詞典的方法,其特征在于,所述步驟S2包括S201根據括號左邊以及括號中內容的語言屬性進行分類,包括外中雙語詞匯和中外雙語詞匯,提取所述括號雙語詞匯括號中的中文作為中文語料庫;S202:對所有外中雙語詞匯中括號左邊的中文,從左括號自右向左依次利用步驟S201所得到的中文語料庫進行中文字符串匹配,得到所有可以匹配的外中雙語詞匯,將相同的外中雙語詞匯合并,詞頻相加,其中,匹配上的中文字符串稱為所述外中雙語詞匯的前綴;5203利用所有中外雙語詞匯對步驟S202得到的詞頻進行修正,若某外中雙語詞匯的前綴可以在中外雙語詞匯的集合中找到,則將該中外雙語詞匯的詞頻累加到外中雙語詞匯上;5204將每個外語對應的所有括號雙語詞匯表示為一種樹形數據結構來表示,所述樹形數據結構中,外中雙語詞匯的外語詞為根節點,每個前綴建立一前綴節點,每個所述前綴節點下面連接一系列子節點,每個所述前綴節點是其子節點的子串,從所述樹形數據結構中選擇翻譯準確的括號雙語詞匯的方法如下(1)如果一個父節點A的所有子節點中,存在某一子節點B,B的詞頻占A節點詞頻的50%以上,那么保留B節點,同時刪除A和A的子節點以及子節點以下的所有節點;(2)如果一個父節點A的所有子節點中,找不到任何一子節點B,B的詞頻占A節點詞頻的50%以上,則保留A節點,刪除A節點以下的所有節點,其中,所述父節點A不包括根節點,至上而下對每個節點按(1)(2)兩步進行篩選,剩下節點對應的雙語詞匯即為翻譯準確的括號雙語詞匯。4.如權利要求1所述的從互聯網上自動提取雙語翻譯詞典的方法,其特征在于,所述步驟S3包括5301將所有中文項相同的雙語詞匯利用中文結構圖表示,所述中文結構圖為三層樹形數據結構,中文項為根節點,根節點的子節點為所述中文項所有對應外語項的詞根,所有的外語項又為各自詞根的子節點;5302對同一中文結構圖中的任意兩個詞根a,b,若<formula>formulaseeoriginaldocumentpage3</formula>此時,若freq(a)>freq(b),刪除詞根b及b所有子節點,同時freq(a)=freq(a)+freq(b),否則,刪除詞根a及a所有子節點,同時freq(b)=freq(a)+freq(b),此處dis(a,b)表示詞根a,b之間的編輯距離,len(a)表示詞根a的長度,freq(a)表示詞根a的詞頻,所述編輯距離為將一個字符串a通過將一個字符換成另一個字符、刪除某個字符或者插入字符轉為另一個字符串b所需要的最少步驟;5303將每個詞根R用子節點中詞頻最大的節點B替代,詞頻仍然為詞根R原來的詞頻,然后刪掉詞根R的所有子節點;S304:根據所述中文結構圖,將每條外語的所有中文父節點作為該外語的子節點,建立外語結構圖,所述外語結構圖中外語項為根,所有該外語項的翻譯中文項作為該外語項的子節點,對所述外語結構圖中根節點下的所有子節點按照詞頻從大到小排序,保留前K個節點,刪除多余子節點,保留下來的節點為根節點外語對應的中文翻譯;S305在中文結構圖中,將根節點下的所有子節點按照詞頻從大到小排序,保留前K個節點,刪除多余子節點,得到根節點中文對應的外語翻譯。5.如權利要求4所述的從互聯網上自動提取雙語翻譯詞典的方法,其特征在于,所述K為1-10之間的整數。6.如權利要求1-5任一所述的從互聯網上自動提取雙語翻譯詞典的方法,其特征在于,所述外語包括英語、法語、德語、西班牙語或意大利語。全文摘要本發明公開了一種從互聯網上自動提取雙語翻譯詞典的方法,其特征在于,包括從中外雙語網頁中提取括號雙語詞匯和良結構雙語詞匯;對所述提取的括號雙語詞匯進行截取,得到翻譯準確的括號雙語詞匯;對良結構雙語詞匯和經過上一步后的括號雙語詞匯進行詞根合并;對給定的中文,首先在良結構雙語詞匯中尋找對應的翻譯,如果找到則忽略括號雙語詞匯的翻譯;否則在括號雙語詞匯中尋找對應的翻譯,同樣方法處理每條外語,最終得到最后的雙語翻譯詞典。本發明依據雙語詞匯的詞頻能夠快速有效、不依賴任何外來資源自動構建雙語翻譯詞典。文檔編號G06F17/30GK101833571SQ20101014736公開日2010年9月15日申請日期2010年4月13日優先權日2010年4月13日發明者佟子健,劉娟,周立柱,張崇,茹立云,韓軍申請人:清華大學;北京搜狗科技發展有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 察雅县| 吴忠市| 阳朔县| 长顺县| 漳浦县| 徐闻县| 文安县| 二手房| 忻州市| 旅游| 汝南县| 英吉沙县| 株洲市| 永昌县| 淄博市| 台中县| 平和县| 德格县| 固安县| 乌审旗| 郓城县| 永川市| 腾冲县| 迁安市| 高邮市| 永兴县| 彰化县| 金平| 乌兰察布市| 湖州市| 金堂县| 石泉县| 望都县| 光泽县| 许昌县| 万盛区| 禹州市| 东乡县| 西平县| 卢湾区| 济宁市|