麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

字符識別裝置和字符識別方法

文檔序號:6539421閱讀:1782來源:國知局
專利名稱:字符識別裝置和字符識別方法
技術領域
本發明涉及用于識別從文檔(document)讀取的字符的技術。
背景技術
在稱為OCR(光學字符閱讀器)的字符識別技術中,預先把大量字符或術語的候選登記到詞典數據庫中。對登記在詞典數據庫中的字符(術語)與從文檔光學讀取的字符(術語)進行比較,以識別該文檔中的字符(術語)。因此,識別準確度很大程度上取決于詞典數據庫是否包含合適的字符或術語。
已知為諸如日語和英語的多種語言提供了預先準備的詞典數據庫。然后,對由通過文檔識別過程獲得的多個字符組成的單詞進行識別,從而選擇前述詞典數據庫中的一個。如果所識別的單詞被以預定值或高于該預定值的比率(相關率)登記在所選詞典中,那么使用該詞典繼續進行識別過程。如果該比率降到預定值以下,那么再使用另一詞典數據庫執行前述處理。然而,該技術要求在詞典查詢之前的階段中準確地識別字符并恰當地識別單詞。此外,該技術旨在用于語言選擇,因此無助于提高例如日語文檔本身的識別準確度。
已知提供了另一種技術,其中以若干個字符為單位來分離光學讀取的一系列字符串,以提取術語候選。然后,確定在各個術語候選中的多個字符的連接(linkage)是否與在詞典數據庫中登記的術語候選符中的一個相匹配。如果不匹配,那么以不同方式提取術語候選。然而,該技術要求預先準備構成術語候選的所有字符連接。因此數據庫的容量變得極大。此外,逐字符地搜索所有連接使得處理極大地復雜化了,從而需要大量的處理時間。

發明內容
鑒于以上情況提出了本發明,本發明提供了一種用于以更高準確度識別文檔中所寫字符的新機制。
為解決上述問題,本發明提供了一種字符識別裝置,其包括多個詞典數據庫,包含歸類到各個領域中的術語或字符;確定單元,確定文檔圖像數據表示的文檔的內容所屬的領域;選擇單元,從所述多個詞典數據庫中選擇與確定單元確定的領域有關的詞典數據庫;識別單元,通過使用所選詞典數據庫中存儲的術語或字符作為候選,對由文檔圖像數據表示的文檔中所寫的術語或字符進行識別;以及輸出單元,輸出識別單元的識別結果。根據該字符識別裝置,先確定文檔內容所屬的領域,然后再選擇適合于該領域的領域特定術語詞典數據庫并將其用于字符識別。由此可期望改進識別準確度。


下面根據附圖對本發明的實施例進行詳細描述,在這些附圖中圖1是示出根據第一實施例的字符識別裝置的構成的框圖;圖2是示出所述字符識別裝置的操作的流程圖;圖3是示出所述字符識別裝置的操作的流程圖;圖4是示出根據第二實施例的字符識別裝置的構成的框圖;圖5(a)到(e)是概念性地示出要存儲到區塊(section)格式數據庫中的內容的圖;圖6是示出所述字符識別裝置的操作的流程圖;以及圖7是示出所述字符識別裝置的操作的流程圖。
具體實施例方式
下面對本發明的實施例進行描述。
(1)第一實施例圖1是示出根據第一實施例的字符識別裝置10的構成的框圖。該字符識別裝置10可以通過嵌入掃描儀、復合機器(hybrid machine)等中的計算機來實現,或者可以通過用作與掃描儀或復合機器相連接的主機設備的計算機來實現。在該第一實施例中,準備了包含歸類到各個領域中的術語或字符的多個領域特定術語詞典數據庫,以確定文檔的內容屬于哪個領域。然后,從所述多個領域特定術語詞典數據庫中選擇與已確定的領域有關的領域特定術語詞典數據庫。通過使用存儲在該領域特定術語詞典數據庫中的術語或字符作為候選來執行字符識別。例如,圖1示出了領域特定術語詞典數據庫11a、11b以及11c。領域特定術語詞典數據庫11a包含在圖像處理領域中頻繁出現的術語或字符。領域特定術語詞典數據庫11b包含在攝影領域中頻繁出現的術語或字符。領域特定術語詞典數據庫11c包含在政治領域中頻繁出現的術語或字符。然而,除了這些領域,還可以為各種領域,如IT、計算機、法律、人名、地名以及公司名,準備合適的領域特定術語詞典數據庫。
格式數據庫12按相互對應的方式包含用于描述文檔格式的格式信息和文檔內容所屬領域的名稱。更具體來說,該格式信息包括指配給各個不同格式的文檔(如定單和申請表)的格式標識符;和用于描述各個格式的特征(格式本身的形式和結構)的信息。字符識別裝置10根據存儲在該格式數據庫12中的內容和文檔圖像數據的內容,確定文檔的內容屬于哪個領域。
存儲區特定文檔屬性存儲單元13包含在生成文檔圖像數據時指定為文檔圖像數據存儲目的地的存儲區與相應領域名稱之間的對應關系。在當前流行的復合機器等中,可以把由掃描儀讀取的圖像存儲到與從稱為“信箱區(mailbox)”的菜單指定的編號對應的存儲區中。能夠從該“信箱區”指定的存儲區就是上述的“在生成文檔圖像數據時指定為文檔圖像數據存儲目的地的存儲區”。在該“信箱區”中,例如,所指定的編號通常對于公司中的組織單元(部門、科室)或者對于用戶各不相同。因此,被指配了相同編號的多個存儲區通常包含相似領域的文檔圖像數據。例如,在應由公司的圖像處理開發部使用的信箱區中,所存儲的文檔通常與圖像處理有關。因此,把信箱區中的各存儲區和要由全職使用這些存儲區的用戶或組織所在的領域相互對應地存儲在存儲區特定文檔屬性存儲單元13中。這使得字符識別裝置10僅通過參照為信箱區指定的編號就可以確定文檔內容屬于哪個領域。
標準字符特征量存儲單元14包含關于每個單獨字符的標準字形(character pattern)的特征量。字符識別裝置10對存儲在該標準字符特征量存儲單元14中的特征量與從文檔光學讀取的字形的特征量進行對比,并依據它們之間的符合程度識別字符。
附帶說明的是,多個領域包括相互關聯度較高的多個領域和相互關聯度較低的多個領域。例如,圖像處理領域與攝影領域具有較高的相互關聯度。圖像處理領域與政治領域,或攝影領域與政治領域不具有多少相互關聯性。在領域關聯度存儲單元15中存儲有用于限定領域之間的這種關聯度的信息。例如,假定把最大關聯度表示為“1”。那么,存儲在領域關聯度存儲單元15中的信息使得圖像處理領域與攝影領域的關聯度為“0.8”,而使得圖像處理領域與政治領域及攝影領域與政治領域的關聯度皆為“0.1”。
文檔讀取單元16例如是圖像掃描儀裝置。當啟動字符識別處理時,該文檔讀取單元16利用光照射文檔以光學讀取文檔上的圖像,并生成文檔圖像數據。文檔內容確定單元17通過使用稍后描述的幾種方法來確定文檔圖像數據所示文檔的內容屬于哪個領域。術語詞典選擇單元18選擇與所確定的領域有關的領域的領域特定術語詞典數據庫。這里,術語詞典選擇單元18不僅選擇由文檔內容確定單元17確定的領域的領域特定術語詞典數據庫,而且選擇由領域關聯度存儲單元15限定成與該領域具有一定關聯度或更高關聯度的領域的領域特定術語詞典數據庫。
字符識別單元19通過參照標準字符特征量存儲單元14中存儲的特征量、從文檔光學讀取的字形的特征量以及所選的領域特定術語詞典數據庫,來識別該文檔中的字符。輸出單元20通過使用諸如屏面顯示的預定方法來輸出識別結果。
圖2和3是示出字符識別裝置10的操作的流程圖。
在圖2中,首先,文檔讀取單元16利用光照射文檔以光學讀取文檔上的圖像,并生成文檔圖像數據(步驟S11)。從文檔讀取單元16把該文檔圖像數據提供給文檔內容確定單元17。文檔內容確定單元17根據圖3所示的流程圖確定該文檔屬于哪個領域(步驟S12)。
在圖3中,文檔內容確定單元17參照存儲在存儲區特定文檔屬性存儲單元13中的內容,并確定是否存在任何與包含所述文檔圖像數據的區域相關聯的領域(步驟S21)。這里,如果存在相關聯的任何領域(在步驟S21處為“是”),那么文檔內容確定單元17把該領域識別為文檔內容所屬的領域(步驟S27)。
另一方面,如果不存在相關聯的領域(在步驟S21處為“否”),那么文檔內容確定單元17確定文檔圖像數據所表示的圖像是否包含任何格式標識符(步驟S22)。例如,某些格式標識符寫在文檔角部。這里,如果在圖像中檢測到任何格式標識符(在步驟S22處為“是”),那么文檔內容確定單元17參照存儲在格式數據庫12中的內容,來識別對應于該格式標識符的領域(步驟S27)。
另一方面,如果未檢測到格式標識符(在步驟S22處為“否”),那么文檔內容確定單元17對由文檔圖像數據所表示的文檔的格式(形式和結構)進行分析(步驟S23)。然后,如果可以根據分析結果和存儲在格式數據庫12中的內容識別其領域(在步驟S24處為“是”),那么文檔內容確定單元17識別出其領域(步驟S27)。
另一方面,如果無法根據格式識別其領域(在步驟S24處為“否”),那么文檔內容確定單元17對由文檔圖像數據所表示的文檔的一部分執行字符識別(步驟S25)。通過使用經由該識別處理獲得的字符或術語作為搜索關鍵字,文檔內容確定單元17對所有領域特定術語詞典數據庫11a、11b以及11c進行搜索(步驟S26)。如果在該搜索中找到包含匹配或相似的術語或字符的任何領域特定術語詞典數據庫,那么文檔內容確定單元17識別出其領域(步驟S27)。
這里,可以通過如下幾種方法來執行步驟S25處的字符識別處理。
某些文檔既包含印刷體字符(typed character)又包含手寫體字符。對于這些文檔,識別印刷體字符的準確度相對較高。因此,文檔內容確定單元17基于對印刷體字符的字符識別結果確定文檔的領域。具體來說,文檔內容確定單元17把文檔圖像數據所表示的文檔的字符區域分成以印刷體字符寫出的印刷體字符區域和以手寫體字符寫出的手寫體字符區域。然后文檔內容確定單元17對寫在印刷體字符區域中的印刷體字符執行字符識別處理。然后,通過使用識別結果作為搜索關鍵字,文檔內容確定單元17對所有領域特定術語詞典數據庫11a、11b以及11c進行搜索。
此外,用戶可以使用筆等在文檔的特征內容上作標記。例如,有時利用線標記(line marker)對特征內容進行圈畫、加下滑線或勾記。文檔內容確定單元17對文檔圖像數據進行分析,如果存在任何標記點,那么優先識別寫在該點處的字符。然后,通過使用識別結果作為搜索關鍵字,文檔內容確定單元17對所有領域特定術語詞典數據庫11a、11b以及11c進行搜索。此外,寫在文檔頂部的字符和以比其它字符更大的字體大小寫出的字符通常構成文檔的標題或題目,因此通常適合于確定該文檔的內容屬于哪個領域。因此,文檔內容確定單元17對文檔圖像數據進行分析,并且,如果存在任何寫在文檔頂部或以比其它字符更大的字體大小寫出的字符,那么優先識別這些字符。然后,通過使用識別結果作為搜索關鍵字,文檔內容確定單元17對所有領域特定術語詞典數據庫11a、11b以及11c進行搜索。
回到圖2,術語詞典選擇單元18選擇與由文檔內容確定單元17確定的領域有關的領域特定術語詞典數據庫(步驟S13)。例如,當文檔的內容被確定為屬于圖像處理領域時,術語詞典選擇單元18選擇關于圖像處理領域的領域特定術語詞典數據庫11a。除此之外,術語詞典選擇單元18參照存儲在領域關聯度存儲單元15中的內容,還選擇領域特定術語詞典數據庫11b,該領域特定術語詞典數據庫11b與被限定為與上述圖像處理領域具有一定關聯度或更高關聯度的領域有關(這里是攝影領域)。
接下來,字符識別單元19通過參照存儲在標準字符特征量存儲單元14中的特征量、從文檔光學讀取的字形的特征量以及所選領域特定術語詞典數據庫11a和11b的內容,來識別文檔中的字符或術語(步驟S14)。輸出單元20通過使用諸如屏面顯示的預定方法來輸出識別結果(步驟S15)。
根據上述第一實施例,鑒于文檔的內容來選擇包含合適的字符或術語的領域特定術語詞典數據庫。由此預期可改進識別準確度。
(2)第二實施例在上述第一實施例中,通過使用所選領域特定術語詞典數據庫對整個文檔執行字符識別。在下述第二實施例中,把單個文檔分成多個區域,然后,為字符識別選擇適于各個區域的領域特定術語詞典數據庫。圖4是示出根據第二實施例的字符識別裝置30的構成的框圖。與圖1中相同的組件由相同的標號標示。圖4所示的字符識別裝置30與圖1所示的第一實施例的字符識別裝置的不同之處在于前者設置有區塊格式數據庫31和文檔內容確定單元34(區塊劃分單元32和區塊內容確定單元33),來取代格式數據庫12、存儲區特定文檔屬性存儲單元13、領域關聯度存儲單元15以及文檔內容確定單元17。區塊格式數據庫31包含用于描述文檔中要填充的區塊的形式和大小的信息。例如,該信息包括如圖5(a)-(e)概念性地示出的各種區塊的形式和大小。
圖6和圖7是示出字符識別裝置30的操作的流程圖。
圖6所示的操作與圖2所示的前述操作的不同之處在于前者包括要逐區塊地執行的步驟S32到S35的處理,來取代對整個文檔執行的步驟S12到S15的處理。即,文檔讀取單元16利用光照射文檔以光學讀取文檔上的圖像,并生成文檔圖像數據(步驟S11)。然后,文檔內容確定單元34逐區塊地確定內容(領域)(步驟S32)。具體來說,如圖7所示,區塊劃分單元32最初參照存儲在區塊格式數據庫31中的內容,并以要填充的區塊為單位來劃分文檔(步驟S41)。接著,區塊內容確定單元33分析區塊的形式和大小以及在該區塊中寫入的任何印刷體字符、符號及標記(例如,諸如“姓名”和“地址”的印刷體字符以及表示郵政編碼或電話號碼的符號)。基于該分析結果,區塊內容確定單元33對寫在區塊中的內容的領域進行識別(步驟S42)。例如,具有“地址”描述的區塊的內容應當屬于地名領域。具有“姓名”描述的區塊的內容應當屬于人名領域。在圖7所示的處理完成之前對所有區塊執行這種處理(在步驟S43處為“是”)。
回到圖6,術語詞典選擇單元18選擇與由文檔內容確定單元34逐區塊地確定的領域有關的領域特定術語詞典數據庫(步驟S33)。字符識別單元19通過參照存儲在標準字符特征量存儲單元14中的特征量、從文檔光學讀取的字形的特征量以及逐區塊地選擇的領域特定術語詞典數據庫的內容,來識別區塊中的字符或術語(步驟S34)。輸出單元20通過使用諸如屏面顯示的預定方法來輸出識別結果(步驟S35)。
根據上述第二實施例,以要填充的區塊為單位來劃分文檔,并根據各區塊的內容選擇合適的領域特定術語詞典數據庫。因此與第一實施例相比可以按更高的準確度執行字符識別。
(3)變型例可以通過上述多個實施例的以下變型例來實施本發明。
領域和領域特定術語詞典數據庫不限于所述多個實施例中例示的那些,而是可以根據字符識別處理針對的文檔的類型和內容來自由地設置。
還可以組合實施第一實施例和第二實施例。例如,在第二實施例中,可以如第一實施例中那樣對領域間的關聯度加以考慮來執行字符識別。
當把文檔中的字符區域劃分成多個子區時,可以以文檔中的章、節、段為單位,而非以要填充的區塊為單位,來進行劃分。
可以采用在記錄介質(如磁記錄介質、光學記錄介質以及ROM,對于CPU或其它處理器來說它們是可讀的)上進行記錄的形式,把字符識別裝置10和30用以執行前述操作的控制程序提供給字符識別裝置10和30。也可以通過諸如因特網的網絡把控制程序下載到字符識別裝置10和30。
如上所述,對本發明的一些實施例概述如下。
本發明的實施例提供了一種字符識別裝置,其包括多個詞典數據庫,包含歸類到各個領域中的術語或字符;確定單元,確定文檔圖像數據表示的文檔的內容所屬的領域;選擇單元,從所述多個詞典數據庫中選擇與確定單元確定的領域有關的詞典數據庫;識別單元,通過使用所選詞典數據庫中存儲的術語或字符作為候選,對由文檔圖像數據表示的文檔中所寫的術語或字符進行識別;以及輸出單元,輸出識別單元的識別結果。根據該字符識別裝置,先確定文檔內容所屬的領域,然后再選擇適合于該領域的領域特定術語詞典數據庫并將其用于字符識別。由此可期望改進識別準確度。
在本發明的該實施例中,字符識別裝置還包括用于把文檔的寫有字符的區域劃分成多個子區的區域劃分單元。確定單元逐子區地確定寫在所劃分的子區中的內容所屬的領域。選擇單元選擇與確定單元確定的各個領域有關的詞典數據庫。識別單元通過使用所選詞典數據庫中存儲的術語或字符作為候選,對寫在所述區域中的術語或字符進行識別。根據該方面,可以選擇適合于文檔的各個子區的領域特定術語詞典數據庫并將其用于字符識別。
在本發明的該實施例中,確定單元把由文檔圖像數據所表示的文檔的字符區域分成以印刷體字符寫出的印刷體字符區域和以手寫體字符寫出的手寫體字符區域,對寫在印刷體字符區域中的印刷體字符執行字符識別,并將識別結果與存儲在所述多個詞典數據庫中的每一個中的術語或字符進行比較,以確定寫在文檔圖像數據表示的文檔中的內容所屬的領域。某些文檔既包含印刷體字符也包含手寫體字符。對于這些文檔,識別印刷體字符的準確度相對較高。因此,可以通過基于對印刷體字符進行字符識別的結果確定文檔的領域,來執行合適的領域確定。
在本發明的該實施例中,字符識別裝置還包括屬性存儲器,該屬性存儲器包含當生成文檔圖像數據時被指定為該數據的存儲目的地的存儲區與相應詞典數據庫之間的對應關系。確定單元根據存儲在該屬性存儲器中的對應關系,選擇與包含所述文檔圖像數據的存儲區對應的詞典數據庫。在當前流行的復合機器等中,可以把掃描儀讀取的圖像存儲到與從稱為“信箱區”的菜單指定的編號對應的存儲區中。在該“信箱區”中,例如,所指定的編號通常對于公司中的組織單元(部門、科室)或者對于用戶各不相同。因此,被指配了相同編號的多個存儲區通常包含相似領域的文檔圖像數據。因此,把當生成文檔圖像數據時被指定為該數據的存儲目的地的存儲區(例如,信箱區中的各存儲區)與領域特定詞典存儲單元(例如,要由全職使用這些存儲區的用戶或組織使用的領域)相互對應地進行存儲。這使得僅通過指定存儲區就可以確定文檔內容所屬的領域。
在本發明的該實施例中,字符識別裝置還包括關聯度存儲器,該關聯度存儲器存儲用于對領域間的關聯度進行限定的關聯度。選擇單元選擇按關聯度限定為與確定單元確定的領域具有一定關聯度的領域的詞典數據庫。
本發明的實施例提供了一種字符識別方法,其包括以下步驟按領域在多個詞典數據庫中存儲術語或字符;確定文檔圖像數據表示的文檔的內容所屬的領域;從所述多個詞典數據庫中選擇與所確定的領域有關的詞典數據庫;通過使用所選詞典數據庫中存儲的術語或字符作為候選,對寫在文檔圖像數據表示的文檔中的術語或字符進行識別;以及輸出識別結果。
在本發明的該實施例中,所述字符識別方法還包括將文檔的寫有字符的區域劃分成多個子區。確定步驟包括逐子區地確定寫在所劃分出的子區中的內容所屬的領域。選擇步驟包括選擇與各確定領域有關的詞典數據庫。識別步驟包括通過使用所選詞典數據庫中存儲的術語或字符作為候選,對寫在所述區域中的術語或字符進行識別。
在本發明的該實施例中,確定步驟包括將文檔圖像數據表示的文檔的字符區域分成以印刷體字符寫出的印刷體字符區域和以手寫體字符寫出的手寫體字符區域;對寫在印刷體字符區域中的印刷體字符執行字符識別;以及將識別結果與存儲在所述多個詞典數據庫中的每一個中的術語或字符進行比較,以確定寫在文檔圖像數據表示的文檔中的內容所屬的領域。
在本發明的該實施例中,所述字符識別方法還包括以下步驟在屬性存儲器中存儲當生成文檔圖像數據時被指定為該數據的存儲目的地的存儲區與相應詞典數據庫之間的對應關系。確定步驟包括根據存儲在屬性存儲器中的對應關系,選擇與包含所述文檔圖像數據的存儲區對應的詞典數據庫。
在本發明的該實施例中,所述字符識別方法還包括以下步驟在關聯度存儲器中存儲用于對領域間的關聯度進行限定的關聯度。選擇步驟包括選擇按關聯度限定為與確定領域具有一定關聯度的領域的詞典數據庫。
上述對本發明實施例的描述是為進行例示和說明而提供的。其并非窮舉性的或者將本發明限于公開的精確形式。顯然,本領域的技術人員將清楚許多修改例和變型例。所選擇和描述的實施例是為了最佳闡釋本發明的原理及其實際應用,從而使得本領域的技術人員能夠理解可應用于所構想的特定應用的其它實施例或修改例。本發明的范圍由所附權利要求及其等同物來限定。
權利要求
1.一種字符識別裝置,包括多個詞典數據庫,包含歸類到各個領域中的術語或字符;確定單元,確定文檔圖像數據表示的文檔的內容所屬的領域;選擇單元,從所述多個詞典數據庫中選擇與確定單元確定的領域有關的詞典數據庫;識別單元,通過使用所選詞典數據庫中存儲的術語或字符作為候選,對由文檔圖像數據表示的文檔中所寫的術語或字符進行識別;以及輸出單元,輸出識別單元的識別結果。
2.如權利要求1所述的字符識別裝置,還包括用于把文檔的寫有字符的區域劃分成多個子區的區域劃分單元,并且其中確定單元逐子區地確定寫在所劃分的子區中的內容所屬的領域;選擇單元選擇與確定單元確定的各個領域有關的詞典數據庫;識別單元通過使用所選詞典數據庫中存儲的術語或字符作為候選,對寫在所述區域中的術語或字符進行識別。
3.如權利要求1所述的字符識別裝置,其中確定單元把文檔圖像數據表示的文檔的字符區域分成以印刷體字符寫出的印刷體字符區域和以手寫體字符寫出的手寫體字符區域,對寫在印刷體字符區域中的印刷體字符執行字符識別,并將識別結果與存儲在所述多個詞典數據庫中的每一個中的術語或字符進行比較,以確定寫在文檔圖像數據表示的文檔中的內容所屬的領域。
4.如權利要求1所述的字符識別裝置,還包括屬性存儲器,該屬性存儲器包含當生成文檔圖像數據時被指定為該數據的存儲目的地的存儲區與相應詞典數據庫之間的對應關系,并且其中確定單元根據存儲在該屬性存儲器中的對應關系,選擇與包含所述文檔圖像數據的存儲區對應的詞典數據庫。
5.如權利要求1所述的字符識別裝置,還包括關聯度存儲器,該關聯度存儲器存儲用于對領域間的關聯度進行限定的關聯度;并且其中選擇單元選擇按關聯度限定為與確定單元確定的領域具有一定關聯度的領域的詞典數據庫。
6.一種字符識別方法,包括以下步驟存儲步驟,按領域在多個詞典數據庫中存儲術語或字符;確定步驟,確定文檔圖像數據表示的文檔的內容所屬的領域;選擇步驟,從所述多個詞典數據庫中選擇與所確定的領域有關的詞典數據庫;識別步驟,通過使用所選詞典數據庫中存儲的術語或字符作為候選,對寫在文檔圖像數據表示的文檔中的術語或字符進行識別;以及輸出步驟,輸出識別結果。
7.根據權利要求6所述的字符識別方法,還包括以下步驟將文檔的寫有字符的區域劃分成多個子區,并且其中確定步驟包括逐子區地確定寫在所劃分出的子區中的內容所屬的領域;選擇步驟包括選擇與各確定領域有關的詞典數據庫;并且識別步驟包括通過使用所選詞典數據庫中存儲的術語或字符作為候選,對寫在所述區域中的術語或字符進行識別。
8.根據權利要求6所述的字符識別方法,其中確定步驟包括將文檔圖像數據表示的文檔的字符區域分成以印刷體字符寫出的印刷體字符區域和以手寫體字符寫出的手寫體字符區域;對寫在印刷體字符區域中的印刷體字符執行字符識別;以及將識別結果與存儲在所述多個詞典數據庫中的每一個中的術語或字符進行比較,以確定寫在文檔圖像數據表示的文檔中的內容所屬的領域。
9.根據權利要求6所述的字符識別方法,還包括以下步驟在屬性存儲器中存儲當生成文檔圖像數據時被指定為該數據的存儲目的地的存儲區與相應詞典數據庫之間的對應關系,并且其中確定步驟包括根據存儲在屬性存儲器中的對應關系,選擇與包含所述文檔圖像數據的存儲區對應的詞典數據庫。
10.根據權利要求6所述的字符識別方法,還包括以下步驟在關聯度存儲器中存儲用于對領域間的關聯度進行限定的關聯度;并且其中選擇步驟包括選擇按關聯度限定為與確定領域具有一定關聯度的領域的詞典數據庫。
全文摘要
字符識別裝置和字符識別方法。字符識別裝置包括多個詞典數據庫,包含歸類到各個領域中的術語或字符;確定單元,確定文檔圖像數據表示的文檔的內容所屬的領域;選擇單元,從所述多個詞典數據庫中選擇與確定單元確定的領域有關的詞典數據庫;識別單元,通過使用所選詞典數據庫中存儲的術語或字符作為候選,對文檔圖像數據表示的文檔中所寫的術語或字符進行識別;以及輸出單元,輸出識別單元的識別結果。
文檔編號G06K9/00GK1741034SQ20051005519
公開日2006年3月1日 申請日期2005年3月16日 優先權日2004年8月25日
發明者榊原正義, 中村浩太郎, 館野昌一, 田中圭, 齋藤照花, 小山俊哉 申請人:富士施樂株式會社
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 姚安县| 萨嘎县| 兴隆县| 滨州市| 五常市| 灵寿县| 新津县| 儋州市| 嵊泗县| 方正县| 防城港市| 北辰区| 彩票| 铅山县| 石河子市| 肇州县| 高台县| 安顺市| 磴口县| 常宁市| 湾仔区| 阿鲁科尔沁旗| 日照市| 会泽县| 长岭县| 郎溪县| 安陆市| 忻城县| 临高县| 自贡市| 石渠县| 柯坪县| 清苑县| 襄汾县| 兴城市| 新沂市| 桐庐县| 黑山县| 故城县| 长春市| 永昌县|