本發明涉及一種基于ocr模型的表格數據恢復方法。
背景技術:
1、在當今信息化時代,企業和個人面臨著大量的表格數據,如財務報表、調研結果和統計數據等。這些表格數據通常以圖片、pdf或其他非結構化格式存在,如何高效、準確地識別和提取這些數據以供進一步分析和使用,成為一個重要的任務。然而,由于表格數據的多樣性和復雜性,傳統的手動錄入或基于規則的解析方法耗時且容易出錯。
2、光學字符識別(ocr)技術是計算機視覺領域的一項重要研究方向,旨在將掃描或圖片格式的文檔轉化為可編輯和搜索的文本。傳統的ocr技術通常依賴于固定模板和簡單的字符匹配算法,這些方法在處理復雜、格式多變的表格數據時往往力不從心,識別準確率和效率都無法滿足實際需求。
3、近年來,隨著人工智能技術的快速發展,諸如rag(retr?ieva?l-augmentedgenerat?ion:檢索增強生成)和深度學習的ocr模型在信息提取領域取得了顯著進展。rag通過結合文檔檢索與生成模型,實現了信息的精準提取和生成;而現代ocr技術結合了卷積神經網絡(cnn)、循環神經網絡(rnn)等深度學習方法,能夠識別并解析復雜結構的表格數據。通過這些先進技術,系統不僅可以識別表格內的字符,還能夠解析表格的行列結構和語義信息。
4、目前,一些現有的表格識別方法已經在實踐中得到了應用。傳統的方法包括基于規則的表格解析和基于深度學習的表格檢測?;谝巹t的解析方法通過檢測圖像中的直線和邊框,利用預設的規則來識別表格的結構和單元格位置。而基于深度學習的表格檢測方法則使用卷積神經網絡等模型自動檢測表格區域和結構。
5、然而,這些方法在處理多樣化的表格類型,尤其是無線表格和復雜有線表格時面臨挑戰。由于表格結構復雜多變,可能存在線條模糊、缺失或表格格式不規則的情況,傳統方法往往難以準確地捕捉表格的全局結構和細節信息,導致識別結果不夠準確、完整,且缺乏一致性。
6、因此,提出了一種基于ocr模型的表格數據恢復方法。
技術實現思路
1、本發明的目的在于克服現有的缺陷而提供的一種基于ocr模型的表格數據恢復方法,提高了復雜表格數據的自動化識別和解析能力。
2、實現上述目的的技術方案是:
3、一種基于ocr模型的表格數據恢復方法,包括:
4、步驟s1,采用輕量級模型識別表格類型,表格類型包括有線表格和無線表格;
5、步驟s2,分別獲取無線表格的檢測框的邏輯坐標和物理坐標,以及有線表格的單元格物理坐標;
6、步驟s3,根據檢測到的表格坐標,恢復表格的邏輯結構,確定表格的行列關系;
7、步驟s4,使用文本識別模型對圖像進行文字識別,獲取文字框的位置和內容,并通過計算ocr識別文字框和單元格框的坐標重合度進行文字和單元格的準確匹配,確定每個單元格中的文字內容;
8、步驟s5,對于未匹配到文字的單元格,把單元格區域進行裁剪,對這些單元格的圖像區域進行二次ocr識別,補充缺失的文字內容;
9、步驟s6,將匹配到的ocr識別結果與單元格的物理坐標和邏輯坐標結合,轉換為統一的結果格式;
10、步驟s7,根據邏輯單元格位置和文字內容,生成html格式的表格,完整呈現表格的結構和內容。
11、優選的,所述步驟s1中,將表格圖像作為輕量級模型的輸入,輸出則為表格類型概率。
12、優選的,所述步驟s2中,識別表格類型若為無線表格,則:
13、使用detect?ion檢測模型推理出圖片中表格的熱力圖、尺寸、角度和偏移特征;
14、使用一系列算法將模型輸出的特征圖解碼為檢測框的具體信息;
15、再通過nms(非極大值抑制)抑制重復檢測,根據置信度分數選擇top-k最有可能的檢測結果,對檢測結果進行坐標變換、合并、過濾,得到檢測框的邏輯坐標和物理坐標;
16、最后對邏輯坐標進行修正和過濾;
17、識別表格類型若為有線表格,則:
18、使用預訓練的onnx(針對機器學習的開放式的文件格式)模型對圖像進行表格線的檢測,獲取表格的物理結構;
19、并對圖像進行預處理,以及檢測結果的后處理,最終通過坐標轉換和排序獲取單元格物理坐標。
20、優選的,所述步驟s2中,檢測框的具體信息包括但不限于邊界框坐標、置信度分數、類別。
21、優選的,所述步驟s2中,表格的物理結構包括表格單元格的多邊形坐標。
22、優選的,所述步驟s2中,預處理包括:
23、尺寸調整:將圖像縮放到合適的尺寸,保持分辨率的同時減少計算量;
24、顏色空間轉換:將圖像轉換為灰度或二值化,突出線條特征;
25、標準化處理:對圖像進行歸一化,消除光照和對比度的影響。
26、優選的,所述步驟s2中,檢測結果的后處理包括:
27、分離行線列線;
28、圖像尺寸還原
29、形態學操作:使用腐蝕、膨脹等形態學操作增強線條,連接斷裂的線段;
30、線條提?。和ㄟ^霍夫變換或其他算法精確提取直線,并對其進行校正和對齊;
31、線條調整;
32、單元格生成:根據行線和列線的交點生成單元格的多邊形坐標。
33、優選的,所述步驟s3包括:
34、步驟s31,首先根據單元格的物理坐標,即垂直位置,將單元格劃分到對應行里;
35、步驟s32,通過確認基準列,調整所有列分割點使列對其的方法確定表格列結構和總列數;
36、步驟s33,通過確定基準行,確定初始行分割點,計算每一行高度確定表格行結構和總行數;
37、步驟s34,最終根據單元格的物理尺寸,確定其在邏輯表格中的起始行、終止行、起始列、終止列,以及是否為合并單元格。
38、本發明的有益效果是:
39、1)無線表格檢測的精度和可靠性:本發明通過使用detect?ion檢測模型,提取圖片中表格的熱力圖、尺寸、角度和偏移等特征,并采用和top-k篩選等算法,旨在提高無線表格檢測的精度和可靠性,確保檢測框的邏輯坐標和物理坐標的有效性和正確性;
40、2)有線表格線檢測的準確性和完整性:通過對圖像進行預處理和后處理,旨在精確提取表格線條,獲取單元格的多邊形坐標,確保有線表格線檢測的準確性和完整性;
41、3)表格結構恢復的準確性和完整性:本發明通過根據單元格的垂直和水平位置,劃分對應的行和列,確定基準行和基準列,調整行列分割點,旨在準確恢復表格的邏輯結構,確定每個單元格在邏輯表格中的起始行、終止行、起始列和終止列,以及正確識別合并單元格;
42、4)文字識別與單元格匹配的精確性:本發明通過使用文本識別模型進行文字識別,獲取文字框的位置和內容,并計算ocr識別文字框和單元格框的坐標重合度,旨在實現文字和單元格的準確匹配,確保每個單元格中的文字內容正確;
43、綜上,本發明通過表格線檢測、表格結構恢復和ocr識別,實現了從圖像到表格內容的完整提取,此外支持使用外部提供的ocr結果,或在內部進行ocr識別,同時,對于未能匹配到文字的單元格,提供了重新識別的機制,提高了識別的完整性,生成的html表格能夠完整呈現原始表格的結構和內容;能夠準確恢復表格的物理和邏輯結構,精確識別單元格中的文字內容,生成統一的結果格式和高質量的表格呈現,提升表格識別的質量和效率,為表格信息的自動化處理提供可靠的技術支持。