麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

文檔圖像識別方法和設備的制作方法

文檔序號:6494079閱讀:288來源:國知局
文檔圖像識別方法和設備的制作方法
【專利摘要】本發明公開了文檔圖像識別方法和設備。用于識別具有混合的主要語言和次要語言的字母的文檔圖像的方法包括分割步驟,用于將文檔圖像分割成至少一個長字符串;提取步驟,用于從該至少一個長字符串中的每一個中根據該長字符串中包含的特殊字符提取字符串單元;以及識別步驟,用于基于各識別的字符串單元來識別該文檔圖像。
【專利說明】文檔圖像識別方法和設備
【技術領域】
[0001]本發明涉及用于識別文檔圖像的方法和設備。特別地,本發明涉及用于通過辨識(distinguish)從文檔圖像分割出的長字符串中的各部分的語言來識別文檔圖像的方法和設備。
【背景技術】
[0002]在光學字符識別(OCR)領域中,大多數OCR系統常常需要應對一些多語言混合的文檔圖像。已經開發出了許多用于這樣的具有多種語言的混合的文檔的辨別(distinct ion)或者分類(categorization )的技術。一些技術在對于包含不同語言的文檔進行OCR之前實現對該文檔的分類。
[0003]例如,文獻I和2中公開了用于區分這種類型的文檔的方法,該文獻I和2通過引用將全文并入此。在此方法中,已經開發出了如下這樣的系統,即該系統可識別二十三種基于拉丁語的語言(英語、法語等)以及三種基于漢語的語言(漢語、日語和韓語)。首先,該系統使用向上凹度(upward concavity)的分析來區分基于拉丁語的腳本與基于漢語的腳本。然后,該系統通過分析字符單元的光學密度來辨識基于漢語的語言。對于基于拉丁語的語言,系統通過分析語言的單詞形狀標志來對它們進行辨識。
[0004]文獻3和4公開了其它的分類方法,文獻3和4通過引用將全文并入此。在此方法中,已經開發了如下系統,該系統可識別阿拉伯語、表意字和拉丁語腳本。系統通過使用各種屬性(行的高度分布、字符密度和水平投影)來歸類(classify)出這三種主要的腳本(阿拉伯語、表意字和拉丁語腳本)。
[0005]這些方法的缺陷在于它們不能區分包含具有相同或相似形狀的字符(character)的語言,例如基于漢語的語言中的簡體中文和繁體中文;俄語(希臘語)和拉丁語等。將以具有混合的俄語(希臘語)/拉丁語字母的文檔圖像為例來描述出現不正確的結果的原因,并且該表述“混合的俄語(希臘語)/拉丁語字母”指的是混合的俄語和拉丁語字母或者混合的希臘語和拉丁語字母。出現不正確的結果的原因在于為了識別具有混合的俄語(希臘語)/拉丁語字母的文檔圖像中的字符,OCR系統需要基于俄語(希臘語)字符集和拉丁語字符集兩者來實現識別。拉丁語的字符集由兩部分構成:ASCII字符集和擴展字符集。而且,對于拉丁語,基本上,它們的ASCII字符集部分中定義的字符全部與擴展字符集部分中定義的字符一起被用于拉丁語單詞中。對于俄語和希臘語字符集,ASCII字符集中定義的字符沒有被用于俄語(希臘語)單詞中。在俄語(希臘語)字符集中,存在許多具有與拉丁語字母中的字符相似的形狀、但是具有不同的代碼的字符。例如,其代碼在IS0-8859-7(俄語字符集)中定義為OxBO的俄語字符的形狀與在IS0-8859中定義為0x41的拉丁字符‘A’的形狀相同。OCR系統不能基于它們的形狀特征區分俄語(希臘語)和拉丁語字母中定義的這些相似的字符。因此,這些相似字符的識別結果常常是不正確的。
[0006]為了應對包括具有相同或相似形狀和不同代碼的字符的這類文檔圖像,中國專利申請N0.200810108571.1中公開了基于OCR結果的分類方法,該中國專利申請通過引用將全文并入此。該方法用于區分簡體中文和繁體中文。首先,通過基于大量的已知語言文檔的訓練處理來生成簡體中文和繁體中文兩者中的識別置信度范圍。然后,通過簡體中文OCR和繁體中文OCR分別識別未知語言文檔。基于該識別置信度范圍,選擇簡體中文或者繁體中文識別結果中的特殊字符。該方法通過對這些特殊字符的在簡體中文和繁體中文兩者中的平均識別置信度進行比較,來確定文檔的語言。
[0007]該方法的缺陷在于其執行了整個文檔的語言的辨別,但是不能區分文檔的句子中的不同語言的單詞。圖1A示出了與此情況類似的示例性句子,其包括許多具有混合的不同語言的單詞。在該句子中根據不同語言的特殊字符確定該句子的語言可能是不可靠的。
[0008]通過引用而將全文并入此的文獻5中公開的方法通過計算一個單詞中的各字符的候選的分值以用于確定是否由其它語言字符進行替換來實現混合字母文檔中的語言確定。為了替換類似的字符,該方法生成拉丁一西里爾(西里爾一拉丁)變換表。此方法的缺陷在于需要字符的各候選的三重頻率(trigam frequency)和Levenstein距離。因此,該方法的過程費時并且具有巨大的開銷。此外,這些數據的生成依賴于可能是互聯網的大的子集的大的文檔。因此,文獻5中公開的方法不能快速且高效地準確識別混合字母文檔圖像。
[0009]美國專利3988715中公開了用于也基于OCR識別結果對包括具有相同或者相似形狀的字符的不同語言進行分類的另一種方法,該美國專利通過引用將全文并入此。此專利提出了一種用于應對混合有多種語言和數字的文檔的方法。首先,一種字符識別引擎識別字符并且對于每個字符輸出η個通道結果,其中每個通道對應于一種語言或數字。對于一個字符串,此方法計算第i個通道識別結果的組合條件概率(jointed conditionprobability)的乘積。通過比較字符串的η個通道中的組合條件概率的乘積,該方法辨識整個字符串的語言或數據類型,其中組合條件概率指的是在第i個通道中輸出結果正確的條件下其它η -1個通道中的識別結果的組合概率。
[0010]該方法沒有使用結果的具有更有用的信息的識別置信度;該方法假定在一個字符串中,僅存在一種語言。因此,如果由于單詞分割錯誤而使得一個字符串包括不同語言部分,則該方法的辨別結果將是不可靠的,如圖1B所示。
[0011]因此,如果一個長字符串包括兩種或更多種語言的部分時,現有技術將不能準確地確定整個單詞的語言?,F有技術中的用于區分多種語言的技術沒有公開任何應對這種類型的字符串的步驟或設備。也就是說,現有技術不能可靠地和準確地識別包括不同語言部分的字符串。
[0012]由于不同字母表中定義的相似字符總是具有相同或相似的形狀,
[0013]現有技術沒有公開任何基于該相似字符區分多種語言的步驟或設備。
[0014]現有技術沒有公開任何應對全部由相似字符構成的單詞的步驟或設備。
[0015]引用文獻列表
[0016][I].P.Sibun and A.L.Spitz.Language Determination:Natural LanguageProcessing from Scanned Document Images.1n Proceeding of the Fourth Conferenceon Applied Natural Language Processing.Pp.423-433, Las Vegas,Aprill995.[0017][2].L.Spitz.Determination of the Script and Language Content ofDocument Images.1EEE Transaction on Pattern Analysis and Machine Intelligence,Voll9, n0.3,pp.235-245,1997.[0018][ 3 ].Y.Suen,S.Bergler,N.Nobile, B.Waked, C.P.Nadal andA.Bloch,Categorizing Document Image Into Script and Language Classes, In theprocessings of the International Confidence on Advances in Pattern Recognition,23-25Novemberl998, Plymouth, UKj pp.297-306.[0019][4].N.Nobile, S.Berglerj C.Y.Suen and S.Khoury.Language Identificationof On-Line Documents Using Word Shapes.1n Proceedings of the FourthInternational Conference on Document Analysis and Recognition, August1997,Ulmj Germany, pp.258-262.[0020][5].Christoph Ringlstetterj Klaus U.Schulz, Stoyan Mihov and KaterinaLouka.The same is Not The Same - Postcorrection of Alphabet Confusion Errorsin Mixed-Alphabet OCR Recognition.Proceedings of the 2005 Eight InternationalConference on Document Analysis and Recognition(ICDARr 05).
【發明內容】

[0021]本發明旨在解決上述問題。本發明的一個目的是提供一種解決上述問題中的任一個的方法和系統。
[0022]本發明的一個目的是提供一種用于可靠和準確地識別文檔圖像中的包括不同語言部分的字符串的方法和設備。
[0023]本發明的另一個目的是提供一種用于可靠和準確地識別文檔圖像中的完全由相似字符構成的字符串的方法和設備。
[0024]在本發明的一個方面,提供了一種具有混合的主要語言和次要語言的字母的文檔圖像的識別方法,包括:分割步驟,用于將文檔圖像分割成至少一個長字符串;提取步驟,用于從該至少一個長字符串中的每一個中根據該長字符串中包含的特殊字符提取字符串單元;以及識別步驟,用于基于各識別的字符串單元來識別該文檔圖像。
[0025]在本發明的另一個方面,提供了一種具有混合的主要語言和次要語言的字母的文檔圖像的識別設備,包括:分割裝置,被配置為將文檔圖像分割成至少一個長字符串;提取裝置,被配置為從該至少一個長字符串中的每一個中根據該長字符串中包含的特殊字符提取字符串單元;以及識別裝置,被配置為基于各識別的字符串單元來識別該文檔圖像。
[0026]從參照附圖的示例性實施例的以下描述,本發明的其它特征將變得清晰。
【專利附圖】

【附圖說明】
[0027]并入說明書中并且構成說明書的一部分的附圖示出了本發明的實施例,并且與描述一起用于解釋本發明的原理。在附圖中,相似的附圖標記指示相似的項目。
[0028]圖1A和IB示出具有混合的主要語言字母和次要語言字母的兩個可能的單詞。
[0029]圖2是用于實現文檔圖像識別的計算設備的布置的框圖。
[0030]圖3是示出第一實施例的文檔圖像識別方法的流程圖。
[0031]圖4是示出第一實施例的文檔圖像識別設備的框圖。
[0032]圖5是示出第一實施例中的提取步驟的過程的流程圖。[0033]圖6是示出提取裝置的框圖。
[0034]圖7A和7B是特殊符號的解釋性示圖。
[0035]圖8示意性地示出字符的圖像幾何特征。
[0036]圖9A和9B是示出第二實施例的文檔圖像識別方法的流程圖。
[0037]圖1OA和IOB示出俄語和拉丁語中的相似字符表。
[0038]圖1lA和IlB示出希臘語和拉丁語中的相似字符表。
[0039]圖12是示出基于代碼的確定步驟的過程的流程圖。
[0040]圖13是示出第二實施例的第一確定步驟的過程的流程圖。
[0041]圖14是示出第二實施例的第三確定步驟的過程的流程圖。
[0042]圖15示出不相似字符的前三個候選的比較。
[0043]圖16是示出修正步驟的過程的流程圖。
[0044]圖17是示出第三實施例的文檔圖像識別方法的流程圖。
[0045]圖18是示出基于置信度的確定步驟的過程的流程圖。
[0046]圖19是字符串單元中的非相似字符的前三個候選的置信度。
[0047]圖20是示出本發明的實施例的文檔圖像識別設備的框圖。
[0048]圖21A至21C示出示例I。
[0049]圖22示出示例I的比較例。
[0050]圖23A和23B示出示例2。
[0051 ]圖24示出示例2的比較例。
【具體實施方式】
[0052]下文將參照附圖詳細描述本發明的實施例。
[0053]為了有助于透徹地并且適當地理解本發明,下文將首先解釋本發明的說明書以及權利要求書中所使用的術語。
[0054]在本申請的說明書和權利要求中,尤其是當在文檔圖像中使用時,術語“主語言”或“主要語言”是在文檔圖像中具有較大比例的單詞的語言,并且術語“次語言”或“次要語言”是文檔圖像中具有較小比例的單詞的語言。例如,在主要由俄語寫成的文檔中,俄語是主要語言,并且諸如意大利語(英語、德語、法語等)的其它語言可以是次要語言。
[0055]在本發明中,例如,將基于作為主要語言的俄語或希臘語以及作為次要語言的拉丁語來進行描述。為了方便起見,在以下的方法的各步驟的描述中主要描述在具有混合的俄語/拉丁語的文檔的上下文中的識別,并且基于俄語和拉丁語的混合生成以下的特殊數據和閾值。由于俄語/拉丁語和希臘語/拉丁語中的辨別和修正具有相同的步驟,并且實際上,俄語(希臘語)/拉丁語中采用的特殊數據或閾值依賴于文檔中混合的語言,因此以下的步驟也可應用于具有混合的希臘語和拉丁語的文檔圖像的識別。
[0056]在該實施例中,俄語字符的代碼在IS0-8859-7 (從OxaO到Oxff)中被定義,并且希臘語字符的代碼在IS0-8859-5 (從OxaO到Oxff的代碼)中被定義。拉丁語字符在IS0-8859-1, -2,— 4 中被定義。
[0057]但是,本發明并不限于此,并且可應用于具有混合的主要語言和次要語言的任何其它文檔的識別。[0058]術語“候選”是通過包含主要語言和次要語言字符的OCR字典利用一個字符識別引擎識別字符的初步識別結果,并且候選是該初步識別的字符可能是的字符。一般來說,一個字符可具有多個候選,并且該多個候選可按置信度的順序被排序,而不管它們的語言類型如何,并且一個候選的置信度指的是通過利用包含主要語言和次要語言字符的OCR字典進行識別所獲得的置信度。
[0059]術語“相似字符”指的是與主要語言和次要語言中的具有相似形狀的兩個對應字符之一相一致的字符。特別地,相似字符可指的是主要語言中的字符或者次要語言中的對應的相似的字符,主要語言中的相似字符和次要語言中的對應的相似字符具有相同或者相似的形狀,但是在主要語言和次要語言各自的字符集中具有不同的代碼。
[0060]術語“相似字符表”由相似字符(B卩,主要語言中的相似字符和次要語言中的對應的相似字符)構成,因此相似字符表通常包括兩個子表,一個子表由主要語言中的相似字符構成,并且另一子表由次要語言中的相似字符構成。只要一個字符被包含在相似字符表、即其兩個子表中的任一個中,則該字符被認為是相似字符。
[0061]術語“非相似字符”指的是不在該相似字符表中的字符。
[0062]術語“特殊符號”是一種字符,并且是逗號(‘,’)、句點(’)、連字符()等中的一個。在多語言文檔中,不同語言的一些詞語可能被用特殊符號鏈接以形成一個長字符串。
[0063]圖2是示出根據實施例的實現文檔圖像識別過程的計算設備的布置的框圖。為了簡便起見,該過程被示出為內置在單個計算設備中。但是,不管該過程被內置在單個計算設備中還是被內置在作為網絡系統的多個計算設備中,該過程都是有效的。
[0064]如圖2所示,計算設備100用于實現文檔圖像識別的過程。計算設備100可包括CPU101、芯片組102、RAM103、存儲控制器104、顯示控制器105、硬盤驅動器106、CD — ROM驅動器107、以及顯示器108。計算設備100還可包括連接于CPUlOl和芯片組102之間的信號線111、連接于芯片組102和RAM103之間的信號線112、連接于芯片組102和各種外圍設備之間的外圍設備總線113、連接于存儲控制器104和硬盤驅動器106之間的信號線114、連接于存儲控制器104和CD - ROM驅動器107之間的信號線115、以及連接于顯示控制器105和顯示器108之間的信號線116。
[0065]客戶設備120可直接或經由網絡130連接到計算設備100。客戶設備120可例如向計算設備100發送執行文檔圖像識別的處理所需要的指令和/或參數,并且計算設備100可將信息返回給客戶設備120或者在顯示器108上顯示信息。
[0066][第一實施例]
[0067]將參照圖3和4描述根據本發明的第一實施例,其中,圖3是示出根據該實施例的識別具有混合的主要語言和次要語言的字母的文檔圖像的方法的流程圖。
[0068]在步驟S301 (分割步驟(segmenting step))中,將文檔圖像分割成至少一個(通常為多個)長字符串。作為用于分割的常用技術,具有混合的主要語言和次要語言單詞的文檔圖像被一個字符識別引擎利用包括主要語言和次要語言的OCR字典初步識別,其中識別過程包括但不限于行分割,字符分離以及單個字符識別,然后從由此獲得的識別結果中根據其中的空格字符來分割出長字符串。應注意,上述技術僅是示例性的,并且本發明并不因此受限。
[0069]在步驟S302 (提取步驟)中,從該至少一個長字符串中的每一個中根據該長字符串中包含的特殊字符提取字符串單元。由于在具有混合的主要語言和次要語言單詞的文檔的上下文中,在大多數情況下,長字符串可包括屬于不同語言的一些單詞,并且長字符串中的不同語言的單詞總是通過諸如連字符的特殊符號相鏈接,因此該提取步驟可將可能的混合語言長字符串劃分成較短的字符串單元,每個字符串單元屬于單一語言,從而長字符串的各部分的語言的確定將更加容易,因此長字符串可被更加可靠和準確地識別,而不會使得該長字符串被認為屬于一種語言。下文將描述提取步驟的操作。
[0070]在步驟S303 (識別步驟)中,基于各提取的字符串單元來識別文檔圖像?;谔崛〔襟E的提取結果可以可靠和準確地識別長字符串繼而識別整個文檔圖像。識別技術不被具體限制。
[0071]圖4是示出第一實施例的識別文檔圖像的設備的框圖。該設備400可包括被配置為將文檔圖像分割成至少一個(通常為多個)長字符串的分割裝置401,被配置為從該至少一個長字符串中的每一個中根據該長字符串中包含的特殊字符提取字符串單元的提取裝置402,以及被配置為基于各提取的字符串單元來識別該文檔圖像的識別裝置403。
[0072]將參照圖5詳細描述該提取步驟。在步驟S501 (匹配確定步驟)中,根據長字符串中包含的各字符的候選的代碼確定具有如下的至少一個候選的字符,該至少一個候選中的每一個候選是符號并且與該長字符串中包含的特殊符號的預定列表中包含的一個特殊符號匹配。更具體而言,特殊字符的匹配確定包括首先選擇長字符串中的其第一候選為次要語言符號(即拉丁語符號)的字符,然后將該第一候選和所選字符的后續候選的代碼與特殊符號列表中的代碼相比較。如果該字符的一個候選的代碼在該特殊符號列表中被找到,則該候選與和在該特殊符號列表中找到的代碼對應的特殊符號相匹配,并且該字符可能是該特殊符號。但是,一個字符可能具有若干個候選,該若干個候選的代碼可能由于初步OCR的精度而都在該特殊符號列表中被找到,也就是說,該字符可能與若干個不同的特殊符號相匹配。
[0073]圖7A和7B是特殊符號的說明性示圖,其中圖7A示出包含特殊符號的一個長字符串的示例,并且圖7B示出該特殊符號的字符的候選。如圖7A和7B所示,字符的第一候選和第二候選都與特殊符號列表中的符號相匹配。
[0074]如果存在與特殊符號的預定列表中的符號相匹配的任何候選,則過程前進到步驟S502,以便更準確地確定該字符實際上是哪個特殊符號,否則該長字符串將被示為屬于單一語言的字符串單元。
[0075]在步驟S502 (檢測步驟)中,具有匹配的候選的字符對應于哪個特殊符號是通過將該字符的圖像幾何特征與對應的匹配特殊符號中的每一個的圖像幾何特征進行比較來確定的,其中當字符的圖像幾何特征在一個特殊符號的圖像幾何特征的閾值的范圍內時,該字符被視為該特殊符號。更具體而言,對于與特殊符號列表中的符號相匹配的一些候選,確定長字符串中的與匹配的候選對應的字符的圖像幾何特征是否與該特殊符號列表中的該符號中的任一個的圖像幾何特征相一致。
[0076]如果具有匹配的候選的字符的圖像幾何特征和特殊符號列表中的對應的匹配特殊符號中的任一個的圖像幾何特征相一致,則長字符串中的匹配的字符被視為特殊符號,并且該長字符串可基于該特殊符號被劃分成字符串單元。否則,該長字符串將被示為屬于
單一語言的字符串單元。[0077]字符的圖像幾何特征可包括字符圖像的寬/高比,字符圖像的底部距第一基準線的距離,以及字符的頂部距第二基準線的距離。應注意,圖像幾何特征并不局限于此。
[0078]在上述圖像幾何特征中,第一基準線和第二基準線可與包含該字符的字符串有關,例如,該第一基準線可以是該字符串的底部邊界線,而該第二基準線可以是該字符串的頂部邊界線,但是,第一和第二基準線不因此受限。
[0079]圖8示意性地示出字符的圖像幾何特征,其中,在字符串圖像上呈現可能的特殊符號的圖像幾何特征。
[0080]特殊符號列表中的符號的圖像幾何特征被預先確定:和’的寬/高比分別被設為[1.5,5.0],[0.7,1.3];對于(字符代碼為IS0-8859中定義的0x2d),字符圖像底部至行的底部邊界的距離閾值被設定為[行高度*0.350,行高度*0.691];對于’(字符代碼為IS0-8859中定義的0x2e),字符圖像頂部至行的頂部邊界的距離閾值被設定為[行高度*0.580,行高度*0.912]。其中,上述閾值范圍中的行高度對應于行的實際高度。
[0081]圖6示出第一實施例中的提取裝置402的配置。提取裝置402可包括匹配確定裝置601和檢測裝置602,該匹配確定裝置601被配置為根據長字符串中包含的各字符的候選的代碼確定具有如下的至少一個候選的字符,該至少一個候選中的每一個候選是符號并且與該長字符串中包含的特殊符號的預定列表中包含的一個特殊符號匹配,該檢測裝置602被配置為通過將具有匹配的候選的字符的圖像幾何特征與對應的匹配特殊符號中的每一個的圖像幾何特征進行比較來確定該具有匹配的候選的字符對應于哪個特殊符號。
[0082][良好效果]
[0083]通過上述方法,可以可靠和準確地識別具有混合的主要語言和次要語言字母的文檔圖像。
[0084]一般來說,在多語言文檔中,一些不同語言的單詞可通過特殊符號被鏈接以形成一個長的字符串。并且,這些新的長字符串總是被識別為一個單詞而不被分割。因此,整個長字符串將基于一種語言被識別,在此情況下該長字符串的一些字符繼而該長字符串將被不正確地識別。作為對比,第一實施例的方法可根據特殊符號提取多個長字符串中的每一個中包含的字符串單元,因此將識別對象局限于各屬于單一語言的字符串單元,并且可包括兩種或更多種語言的部分的該長字符串的各部分可被以相應語言準確地識別。因此,這樣的長字符串可被可靠和準確地識別。
[0085][第二實施例]
[0086]將參照圖9A至圖16來描述根據本發明的第二實施例。第二實施例與第一實施例的不同之處在于識別步驟、即基于字符串單元識別文檔圖像的過程。因此,第二實施例的與第一實施例相似的步驟和部分將被省略并且將不被詳細描述。
[0087]一般來說,不同字母表中的相似字符總是具有相同或相似的形狀,并且如果它們不被正確地識別則將使得文檔圖像的識別結果劣化?,F有技術沒有公開任何用于基于相似字符區分多種語言的步驟或設備。作為對比,根據本發明的第二實施例的方法基于字符串單元中的相似字符的判定結果來確定字符串單元的語言,因此可以訊速和高效地確定字符串單元的語言,從而包含該字符串單元的長字符串繼而整個文檔圖像可被準確和高效地識別。
[0088]圖9A至9B是示出第二實施例的文檔圖像識別方法的流程圖,其中圖9B示出圖9A中的語言確定步驟包括基于代碼的確定步驟。
[0089]在如圖9A所示的步驟S901 (判定步驟)中,基于字符串單元中的各字符的候選的代碼以及相似字符表,判定字符串單元中包含的各字符是相似字符還是不相似字符。一個字符在其的第一非符號且非數字候選的代碼被包含在相似字符表中時被視為相似字符,否則該字符是非相似字符。下文將詳細描述相似字符表。
[0090]在步驟S902 (語言確定步驟)中,基于判定步驟的結果確定字符串單元的語言。下文將詳細描述步驟S902。
[0091]現在將參照圖1OA和IOB以及圖1IA和IlB描述相似字符表。相似字符表可被用于確定字符串單元中的字符是否是可與其它語言中的一個或多個對應字符具有相同或相似形狀的相似字符。相似字符表的結構在圖1OA和IOB以及圖1lA和IlB中被示出??煽粗罥J,相似字符表實際上為彼此對應的一對相似字符子表,一個子表由主要語言中的相似字符構成,而另一個子表由次要語言中的相似字符構成并且與主要語言中的相似字符一一對應。
[0092]例如,圖1OA和IOB示出主要語言為俄語并且次要語言為拉丁語的情況下的相似字符表。圖1OA示出俄語的相似字符子表Rus 口,并且呈現俄語中的相似字符的代碼和形狀,圖1OB示出拉丁語的相似字符子表Latin_Rus[],并且呈現拉丁語中的對應的相似字符的代碼和形狀。在子表Latin_Rus[]中,各字符與Rus[]中的各字符對應,并且對應的兩個字符具有相似的形狀和不同的代碼。
[0093]圖1lA和IlB示出主要語言為希臘語并且次要語言為拉丁語的情況下的相似字符表。圖1lA示出希臘語的相似字符子表Grk□,圖1lB示出拉丁語的相似字符子表Latin_Grk[]。在這兩個字符表中也可找到希臘語和拉丁語中的相似字符。
[0094]相似字符表是通過如下操作生成的,即察看主要語言(諸如俄語或希臘語)以及次要語言(諸如拉丁語)中的字母表集合中的字符,并且選擇具有相似或相同形狀的字符對。此外,相似字符表中的字符對可基于具有混合的主要語言/次要語言的常用字體下的一些文檔圖像的識別結果被調整。
[0095]現在將參照圖9B詳細描述步驟S902的處理,其中圖9B示出語言確定步驟S902包括步驟S902 -1 (基于代碼的確定步驟),用于基于在判定步驟中所判定的字符串單元中的字符的候選的代碼來確定字符串單元的語言。
[0096]現在將參照圖12描述步驟S902 — I的過程,圖12是示出基于代碼的確定步驟S902 -1的過程的流程圖。
[0097]在步驟S1201 (第一確定步驟)中,在字符串單元中包含的各字符的第一非符號且非數字候選被判定為相似字符的情況下,通過利用次要語言單詞詞典(Minor Languageword lexicon)來確定字符串單元的語言。
[0098]更具體而言,首先選擇字符串單元中的各字符的即不是符號也不是數值的第一候選。如果字符串單元的所選擇的第一候選都是根據相似字符表的相似字符,則難以僅通過候選的代碼來確定該字符串單元的語言。為了辨識這種單詞,使用常用的次要語言單詞詞典來確定其所有的第一候選都是相似字符的字符串單元是否是常用的次要語言單詞。在主要語言是俄語或希臘語并且次要語言是拉丁語的情況下,次要語言單詞詞典由拉丁語單詞構成。也就是說,如果俄語是主要語言,則次要語言單詞詞典將包含在俄語文檔中出現的所有常用的拉丁語單詞。下文將詳細描述基于詞典進行的字符串單元的語言的確定以及次要語言單詞詞典的確定。
[0099]在步驟S1202 (第二確定步驟)中,在字符串單元中包含的各字符的第一非符號且非數字候選被判定為主要語言中的非相似字符的情況下,確定該字符串單元的語言為主要語言,如果根據相似字符表,
[0100]所選擇的第一候選都是非相似俄語字符,則將字符串單元的語言確定為俄語。
[0101]在步驟S1203 (第三確定步驟)中,在字符串單元中包含的各字符的第一非符號且非數字候選并非全部都是相似字符或主要語言中的非相似字符的情況下,僅基于字符串單元中包含的非相似字符確定字符串單元的語言。在這樣的情況下,由于非相似字符的數量通常小,
[0102]因此將大大降低計算開銷。
[0103]接下來,將在俄語是主要語言的情況下描述常用次要語言單詞詞典的產生。在針對俄語文檔的常用次要語言單詞詞典中,拉丁語單詞被如下地生成。首先,收集在準備好的俄語文檔中出現的在Latin_Rus[]中的相似字符所構成的拉丁語單詞,并且記錄它們的出現次數。其次,根據收集的拉丁語單詞中的字符,選擇Rus[]中的對應的相似字符以形成對應的俄語單詞,并且它們在同一俄語文檔中出現的次數也被記錄。如果一個這樣的拉丁語單詞的出現次數大于對應的俄語單詞的出現次數,并且大于或者等于預定閾值TH,則此拉丁語單詞將被包含在針對俄語的常用次要語言單詞詞典中。閾值TH可以是5,但是該預定閾值還可以是任何其它值。
[0104]例如,在準備的俄語文檔中拉丁語單詞“PM”(代碼:IS0_8859中的0x50,0x4d)被發現5次。基于該拉丁語單詞,Rus口中的對應相似俄語字符(代碼:IS0-8859-7中OxcO,Oxbc)被選擇以形成對應的俄語單詞“PM”并且記錄其在同一俄語文檔中的出現次數。由于俄語單詞“PM”的出現次數為0,因此,單詞“PM”被存儲在針對俄語的次要語言單詞詞典中。
[0105]類似的,對于希臘語文檔,針對希臘語/拉丁語的常用次要語言單詞詞典可基于Grk[]、Latin_Grk[]生成并且在同一步驟中被準備,其中希臘語是主要語言。
[0106]次要語言單詞詞典的生成還等同地應用于其它主要語言和次要語言的情況。
[0107]現在將參照圖13描述基于次要語言單詞詞典的字符串的語言的確定,圖13是示出第二實施例的第一確定步驟的流程圖。
[0108]在步驟S1301中,字符串單元中包含的各字符的第一非符號且非數字候選被用它們的對應的次要語言相似字符替換以形成次要語言單詞。例如,在俄語/拉丁語的情況下,如果要被確定的字符串單元中包含的各字符是相似俄語字符,則各字符可被用子表Latin_Rus[]中的對應的相似字符替換,然后獲得全部由次要語言字符(諸如拉丁語字符)構成的替換后的字符串單元。當然,如果字符的第一非符號且非數字候選是次要語言中的相似字符,則該字符的第一候選將被使用而不進行替換。
[0109]在步驟S1302中,將由此獲得的替換后的次要語言單詞與次要語言單詞詞典中的單詞進行比較以確定它們是否匹配。
[0110]結果,當替換后的次要語言單詞與次要語言單詞詞典中的一個單詞匹配的情況下,將該字符串單元的語言確定為次要語言,否則,將該字符串單元的語言確定為主要語言。
[0111]現在將參照圖14描述第三確定步驟的過程,并且第三確定步驟可包括基于各非相似字符的多個非符號且非數字候選確定字符串單元的語言的步驟(步驟S1401)。結果,在該非相似字符的至少前三個非符號且非數字候選都是主要語言非相似字符的情況下,確定該字符串的語言為主要語言。
[0112]更具體而言,如果字符串單元的語言不能僅通過所選擇的第一候選被確定,則檢查包括各非相似字符的所有選擇的第一候選以及它們的后續候選的多個候選,以確定一個字符的至少一個所選擇的第一候選以及其后續候選是否都是非相似主要語言字符。如果可找到全部為非相似主要語言(諸如俄語)候選的至少一個字符,則設定字符串的語言為主要
;五古
P口口 ο
[0113]要被用于確定語言的候選的數量沒有被具體限制,并且通常不小于3,也就是說,要被用于確定非相似字符的語言的候選通常包含非相似字符的前三個非符號且非數字候選,包括第一非符號且非數字候選。
[0114]例如,如圖15所示,最后一個字符的所有候選(例如前三個候選)都是非相似俄語字符,因此此字符串的語言被設定為俄語。
[0115]如圖16所示,識別步驟進一步包括根據相似字符表以及確定的語言來修正字符串單元中包含的字符的步驟(修正步驟)。其中,在字符串單元中的相似字符的第一非符號且非數字候選的語言與確定的語言不一致的情況下,該相似字符被用相似字符表中包含的確定的語言的相似字符來替換,否則,該字符將不被改變。
[0116]更具體而言,如果字符串單元中的字符的第一非符號且非數字候選不屬于確定的字符單元語言,然后確定該第一字符是否是相似字符。如果是,則根據所選擇的第一候選的代碼,找到相似字符表中的與確定的該字符單元語言對應的相似字符,并且該字符被用所找到的相似字符替換。
[0117]如果所選擇的第一候選是非相似字符,則在字符串單元中包括其第一候選而不進行任何操作。
[0118]由此,字符串單元將通過使用適當的語言被最終確定,由此包含該字符串單元的長字符串繼而該文檔圖像可被適當地識別。
[0119][良好效果]
[0120]除了上述可包含通過特殊符號鏈接的一些不同語言的部分的長字符串之外,第二實施例中的方法至少還可有效且準確地應用于如下這樣的字符串單元,該字符串單元完全由特殊(非相似)單一字母表字符或者相似字符構成。
[0121]對于完全由相似字符構成的字符串單元,該方法采用相似字符以及常用次要語言單詞詞典來確定該字符串單元的語言。
[0122]不同于普通的相關背景字典,該方法中所使用的次要語言單詞詞典不需要包含相關語言中的大量單詞。次要語言單詞詞典僅包含在主要語言文檔中頻繁出現的完全由相似字符構成的次要語言單詞。例如,對于一個俄語(希臘語)文檔,拉丁語是次要語言,并且對于一個拉丁語文檔,俄語(希臘語)是次要語言。此詞典的規模很小,以致于搜索時間可被忽略,因為其僅包含一些特殊的次要字符單詞。
[0123]該實施例中使用的相似字符表僅記錄了相似字符代碼,而不包括任何附加信息,諸如受訓練數據的范圍和規模約束的發生頻率。僅相似字符被記錄在相似字符表中,而沒有它們在文檔中的發生頻率的任何統計信息。因此,計算開銷和記錄成本將大大減小。
[0124]相似字符表和詞典的規模很小,以致于搜索的時間成本可以低。
[0125]因此,此方法可基于相似字符表或者常用次要語言詞典快速且高效地確定完全由特殊單一字母表字符或者相似字符構成的單詞的語言,并且其計算開銷小。
[0126]綜上所述,此實施例中的方法可降低時間成本,這是因為語言主要是基于相似字符表和次要語言單詞詞典來確定的,并且不存在任何計算,而僅僅存在兩個小規模的表和(或)詞典中的搜索。
[0127][第三實施例]
[0128]將參照圖17至19描述根據本發明的第三實施例。第三實施例與第二實施例的不同之處在于語言確定步驟,更具體而言,第三實施例的方法中的語言確定步驟可進一步包括基于字符串單元中的非相似字符的置信度來確定語言。因此,第三實施例的與第二實施例相似的步驟和部分將被省略,并且不再被詳細描述。
[0129]對于由相似字符和非相似字符兩者構成的字符串單元,現有技術不能高效和可靠地確定該字符串單元的語言。作為對比,根據本發明的第三實施例的方法僅采用字符串單元的非相似字符的置信度來確定其語言,也就是說,該方法專注于其數量通常較小的非相似字符,這樣將降低時間成本并且高效,并且基于非相似字符的置信度的確定總是可靠的。因此,根據本發明的第三實施例的方法可高效且可靠地確定字符串單元的語言。
[0130]圖17是根據本發明的第三實施例的語言確定步驟的流程圖,其中如圖17所示的語言確定步驟進一步包括步驟S902-2 (基于置信度的確定步驟),用于基于在判定步驟中判定的字符串單元中的字符的置信度來確定字符串單元的語言。
[0131]現在將參照圖18詳細描述步驟S902-2的過程。
[0132]基于置信度的確定步驟可包括用于計算字符串單元中的各個非相似字符的主要語言最大置信度的總和以及各個非相似字符的次要語言最大置信度的總和的步驟S1802(置信度總和計算步驟),以及用于將次要語言最大置信度的總和與主要語言最大置信度的總和的比值與第一閾值進行比較以確定字符串單元的語言的步驟S1803,其中,當該比值小于第一閾值時,該字符串單元的語言被確定為主要語言,否則該字符串單元的語言被確定為次要語言。
[0133]在步驟S1802中,對于字符串單元中的各非相似字符,分別獲得它們的所有俄語(主要語言)候選的最大置信度并且進行求和,然后分別獲得它們的所有拉丁語(次要語言)候選的最大置信度并且進行求和。非相似字符的拉丁語的最大置信度的總和以及非相似字符的俄語的最大置信度的總和可被并行計算。非相似字符的置信度總和的計算中的函數如下所示:
【權利要求】
1.一種具有混合的主要語言的和次要語言的字母的文檔圖像的識別方法,包括: 分割步驟,用于將文檔圖像分割成至少一個長字符串; 提取步驟,用于從該至少一個長字符串中的每一個中根據該長字符串中包含的特殊符號提取字符串單兀;以及 識別步驟,用于基于各提取的字符串單元來識別該文檔圖像。
2.根據權利要求1所述的方法,其中,所述提取步驟包括: 匹配確定步驟,用于根據長字符串中包含的各字符的候選的代碼確定具有如下的至少一個候選的字符,該至少一個候選中的每一個候選是符號并且與該長字符串中包含的特殊符號的預定列表中包含的一個特殊符號匹配,以及 檢測步驟,用于通過將具有匹配的候選的字符的圖像幾何特征與對應的匹配特殊符號中的每一個的圖像幾何特征進行比較來確定該具有匹配的候選的字符對應于哪個特殊符號, 其中,當該字符的圖像幾何特征在一個特殊符號的圖像幾何特征的閾值的范圍中時,該字符是特殊符號,并且字符串單元基于該特殊符號被提取。
3.根據權利要求2所述的方法,其中, 該圖像幾何特征是選自以下組中的一個,該組包括字符圖像的寬/高比,字符圖像的底部距第一基準線的距離, 以及字符圖像的頂部距第二基準線的距離。
4.根據權利要求1-3中任一項所述的方法,其中,所述識別步驟包括: 判定步驟,用于基于字符串單元中的字符的候選的代碼以及相似字符表,判定該字符串單元中包含的一個或多個字符是相似字符還是非相似字符;以及 語言確定步驟,用于基于通過所述判定步驟獲得的結果來確定該字符串單元的語言,其中,當字符的第一非符號且非數字候選的代碼被包含在相似字符表中時,該字符是相似字符,否則該字符是非相似字符。
5.根據權利要求4所述的方法,其中,所述語言確定步驟包括: 基于代碼的確定步驟,基于判定步驟中所判定的字符串單元中的字符的候選的代碼來確定字符串單元的語言。
6.根據權利要求5所述的方法,其中,所述基于代碼的確定步驟包括: 第一確定步驟,用于在字符串單元中包含的各字符的第一非符號且非數字候選為相似字符的情況下,通過利用次要語言單詞詞典來確定該字符串單元的語言; 第二確定步驟,用于在字符串單元中包含的各字符的第一非符號且非數字候選為主要語言的非相似字符的情況下,確定該字符串單元的語言為主要語言;以及 第三確定步驟,用于在字符串單元中包含的各字符的第一非符號且非數字候選并非全部都是相似字符或主要語言的非相似字符的情況下,僅基于該字符串單元中包含的非相似字符確定該字符串單元的語言。
7.根據權利要求6所述的方法,其中,所述第一確定步驟包括: 替換步驟,用于使得字符串單元中包含的各字符的第一非符號且非數字候選被次要語言相似字符替換以形成次要語言單詞;以及 比較步驟,用于將替換后的次要語言單詞與該次要語言單詞詞典中的單詞進行比較以確定它們是否匹配,其中,在它們匹配的情況下確定字符串單元的語言為次要語言,否則將字符串單元的語言確定為主要語言。
8.根據權利要求6所述的方法,其中,所 述第三確定步驟包括: 基于字符串單元中的各非相似字符的多個非符號且非數字候選來確定該字符串單元的語言的步驟, 其中,在非相似字符的至少前三個非符號且非數字候選都是主要語言非相似字符的情況下,該字符串單元的語言被確定為主要語言。
9.根據權利要求4所述的方法,其中,所述語言確定步驟進一步包括: 基于置信度的確定步驟,用于基于所述判定步驟中判定的字符串單元中的字符的置信度來確定該字符串單元的語言。
10.根據權利要求9所述的方法,其中,所述基于置信度的確定步驟包括: 置信度總和計算步驟,用于計算字符串單元中的各非相似字符的主要語言最大置信度的總和以及各非相似字符的次要語言最大置信度的總和;以及 置信度總和比較步驟,用于將次要語言最大置信度的總和與主要語言最大置信度的總和的比值和第一閾值進行比較以該確定字符串單元的語言, 其中,當所述比值小于所述第一閾值時,該字符串單元的語言被確定為主要語言,否則被確定為次要語言。
11.根據權利要求4所述的方法,其中,所述識別步驟進一步包括: 修正步驟,用于根據相似字符表和確定的語言來修正字符串單元中包含的相似字符, 其中,在字符串單元中的相似字符的第一非符號且非數字候選不屬于確定的語言的情況下,該相似字符被用相似字符表中包含的屬于確定的語言的對應相似字符替代。
12.—種具有混合的主要語言的和次要語言的字母的文檔圖像的識別設備,包括: 分割裝置,被配置為將文檔圖像分割成至少一個長字符串; 提取裝置,被配置為從該至少一個長字符串中的每一個中根據該長字符串中包含的特殊符號提取字符串單元;以及 識別裝置,被配置為基于各提取的字符串單元來識別該文檔圖像。
13.根據權利要求12所述的設備,其中,所述提取裝置包括: 匹配確定裝置,被配置為根據長字符串中包含的各字符的候選的代碼確定具有如下的至少一個候選的字符,該至少一個候選中的每一個候選是符號并且與該長字符串中包含的特殊符號的預定列表中包含的一個特殊符號匹配,以及 檢測裝置,被配置為通過將具有匹配的候選的字符的圖像幾何特征與對應的匹配特殊符號中的每一個的圖像幾何特征進行比較來確定該具有匹配的候選的字符對應于哪個特殊符號, 其中,當該字符的圖像幾何特征在一個特殊符號的圖像幾何特征的閾值的范圍中時,該字符是特殊符號,并且該字符串單元基于該特殊符號被提取。
14.根據權利要求13所述的設備,其中, 該圖像幾何特征是選自以下組中的一個,該組包括字符圖像的寬/高比,字符圖像的底部距第一基準線的距離,以及字符圖像的頂部距第二基準線的距離。
15.根據權利要求12-14中任一項所述的設備,其中,所述識別裝置包括:判定裝置,被配置為基于字符串單元中的字符的候選的代碼以及相似字符表,判定該字符串單元中包含的一個或多個字符是相似字符還是非相似字符;以及 語言確定裝置,被配置為基于通過所述判定裝置獲得的結果來確定該字符串單元的語言, 其中,當字符的第一非符號且非數字候選的代碼被包含在相似字符表中時,該字符是相似字符,否則該字符是非相似字符。
16.根據權利要求15所述的設備,其中,所述語言確定裝置包括: 基于代碼的確定裝置,基于判定裝置中所判定的字符串單元中的字符的候選的代碼來確定該字符串單元的語言。
17.根據權利要求16所述的設備,其中,所述基于代碼的確定裝置包括: 第一確定裝置,被配置為在字符串單元中包含的各字符的第一非符號且非數字候選為相似字符的情況下,通過利用次要語言單詞詞典來確定該字符串單元的語言; 第二確定裝置,被配置為在字符串單元中包含的各字符的第一非符號且非數字候選為主要語言的非相似字符的情況下,確定該字符串單元的語言為主要語言;以及 第三確定裝置,被配置為在字符串單元中包含的各字符的第一非符號且非數字候選并非全部都是相似字符或主要語言的非相似字符的情況下,僅基于該字符串單元中包含的非相似字符確定該字符串單元的語言。
18.根據權利要求17所述的設備,其中,所述第一確定裝置包括: 替換裝置,被配置為使得字符串單元中包含的各字符的第一非符號且非數字候選被次要語言相似字符替換以形成次要語言單詞;以及 比較裝置,被配置為將替換后的次要語言單詞與該次要語言單詞詞典中的單詞進行比較以確定它們是否匹配, 其中,在它們匹配的情況下確定字符串單元的語言為次要語言,否則將字符串單元的語言確定為主要語言。
19.根據權利要求17所述的設備,其中,所述第三確定裝置包括: 被配置為基于字符串單元中的各非相似字符的多個非符號且非數字候選來確定該字符串單元的語言的裝置, 其中,在非相似字符的至少前三個非符號且非數字候選都是主要語言非相似字符的情況下,該字符串單元的語言被確定為主要語言。
20.根據權利要求15所述的設備,其中,所述語言確定裝置進一步包括: 基于置信度的確定裝置,被配置為基于所述判定裝置中判定的字符串單元中的字符的置信度來確定該字符串單元的語言。
21.根據權利要求20所述的設備,其中,所述基于置信度的確定裝置包括: 置信度總和計算裝置,被配置為計算字符串單元中的各非相似字符的主要語言最大置信度的總和以及各非相似字符的次要語言最大置信度的總和;以及 置信度總和比較裝置,被配置為將次要語言最大置信度的總和與主要語言最大置信度的總和的比值和第一閾值進行比較以確定該字符串單元的語言, 其中,當所述比值小于所述第一閾值時,該字符串單元的語言被確定為主要語言,否則被確定為次要語言。
22.根據權利要求15所述的設備,其中,所述識別裝置進一步包括: 修正裝置,被配置為根據相似字符表和確定的語言來修正字符串單元中包含的相似字符, 其中,在字符串單元中的相似字符的第一非符號且非數字候選不屬于確定的語言的情況下,該相似字 符被用相似字符表中包含的屬于確定的語言的對應相似字符替代。
【文檔編號】G06K9/20GK103902993SQ201210583676
【公開日】2014年7月2日 申請日期:2012年12月28日 優先權日:2012年12月28日
【發明者】李建杰, 李獻 申請人:佳能株式會社
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 勐海县| 如东县| 城口县| 平江县| 庆城县| 惠水县| 公主岭市| 通辽市| 和静县| 南部县| 霍州市| 竹溪县| 泾源县| 苏州市| 上思县| 嘉义市| 和龙市| 连山| 永修县| 绵竹市| 禄劝| 平阴县| 甘孜县| 苗栗县| 略阳县| 宁蒗| 泽库县| 繁峙县| 龙游县| 浠水县| 文昌市| 南充市| 涪陵区| 彭山县| 南阳市| 鄂州市| 台山市| 金堂县| 广元市| 漯河市| 镇赉县|