本技術屬于電子文檔處理領域,尤其涉及一種文檔比對方法、裝置和電子設備。
背景技術:
1、文檔間的相似度計算是文檔分析的一種重要手段。
2、相關技術通過分別計算兩個文檔中圖片之間的相似度和文本之間的相似度,來確定兩個文檔之間的相似度,但文檔中的文檔元素(文檔標題、段落文本、表格、表格標題、圖片、圖片標題等)是多樣的,對于復雜文檔文件,文檔元素與文檔元素之間也存在復雜的層級結構關系,僅計算兩個文檔中圖片的相似度和文本的相似度,并不能準確地評估兩個文檔之間的相似度。
技術實現思路
1、本技術旨在至少解決相關技術中存在的技術問題之一。為此,本技術提出了一種文檔比對方法、裝置和電子設備,能夠更加準確地評估兩個文檔之間的相似度。
2、第一方面,本技術提供了一種文檔比對方法,該方法包括:
3、分別構建第一文檔對應的第一圖結構,和第二文檔對應的第二圖結構;第一圖結構和第二圖結構分別用于表征相應的第一文檔和第二文檔中文檔元素的元素位置特征、元素層級關系和位置相似差;
4、確定第一圖結構的第一圖特征,和第二圖結構的第二圖特征;
5、獲取第一文檔對應的第一文本特征和第二文檔對應的第二文本特征;
6、根據第一圖特征、第二圖特征、第一文本特征以及第二文本特征,獲得第一文檔和第二文檔之間的相似度。
7、根據本技術的文檔比對方法,通過分別構建第一文檔對應的第一圖結構,和第二文檔對應的第二圖結構;第一圖結構和第二圖結構分別用于表征相應的第一文檔和第二文檔中文檔元素的元素位置特征、元素層級關系和位置相似差;確定第一圖結構的第一圖特征,和第二圖結構的第二圖特征,實現深度挖掘兩個文檔的結構特征。
8、通過獲取第一文檔對應的第一文本特征和第二文檔對應的第二文本特征;根據第一圖特征、第二圖特征、第一文本特征以及第二文本特征,獲得第一文檔和第二文檔之間的相似度,融合了文檔元素本身的文本特征和結構特征來確定兩個文檔之間的相似度,豐富了相似性評估的維度,實現更加準確、全面地確定兩個文檔之間的相似度。
9、根據本技術的一個實施例,分別構建第一文檔對應的第一圖結構,和第二文檔對應的第二圖結構,包括:
10、基于以下方式確定第一圖結構和第二圖結構中任意相鄰的兩個文檔元素之間的位置相似差,相鄰的兩個文檔元素包括第一元素和第二元素:
11、根據第一元素所屬的第一目標頁的頁數、第二元素所屬第二目標頁的頁數、第一元素在第一目標頁的高度和第二元素在第二目標頁的高度,獲得第一元素和第二元素分別表征的文檔元素之間的距離差異;
12、根據第一元素所屬的最近文檔標題的標題層級和第二元素所屬的最近文檔標題的標題層級,獲得第一元素和第二元素之間的層級差異;
13、根據距離差異和層級差異,獲得第一元素和第二元素之間的位置相似差。
14、根據本技術的一個實施例,確定第一圖結構的第一圖特征,和第二圖結構的第二圖特征,包括:
15、將第一圖結構的第一表達式和第二圖結構的第二表達式輸入至已訓練的第一神經網絡模型,獲得第一神經網絡模型輸出的第一圖結構對應的第一圖特征,以及第二圖結構對應的第二圖特征;
16、第一神經網絡模型以圖結構的表達式為訓練樣本,以圖結構的圖特征為訓練標簽。
17、根據本技術的一個實施例,獲取第一文檔對應的第一文本特征和第二文檔對應的第二文本特征,包括:
18、提取第一文檔和第二文檔中各文檔元素分別對應的文本內容;
19、根據第一文檔中各文檔元素的文本內容和第二文檔中各文檔元素的文本內容,分別獲得第一文檔對應的第一文本特征和第二文檔對應的第二文本特征。
20、根據本技術的一個實施例,提取第一文檔和第二文檔中各文檔元素分別對應的文本內容,包括:
21、在文檔元素為圖片的情況下,識別圖片的高層特征,對高層特征進行自然語言轉化處理,獲得圖片對應的文本內容;
22、在文檔元素為表格的情況下,根據表格中各個單元的類型和目標順序,提取表格中各單元的文本內容,對提取的各單元的文本內容進行拼接,獲得表格對應的文本內容。
23、根據本技術的一個實施例,根據第一文檔中各文檔元素的文本內容和第二文檔中各文檔元素的文本內容,分別獲得第一文檔對應的第一文本特征和第二文檔對應的第二文本特征,包括:
24、對第一文檔中各文檔元素的文本內容進行拼接,得到第一拼接文本內容;
25、對第二文檔中各文檔元素的文本內容進行拼接,得到第二拼接文本內容;
26、將第一拼接文本內容和第二拼接文本內容輸入至已訓練的第二神經網絡模型,獲得第二神經網絡模型輸出的第一文檔對應的第一文本特征,和第二文檔對應的第二文本特征;
27、第二神經網絡模型以文本內容為訓練樣本,以文本內容的文本特征作為訓練標簽。
28、根據本技術的一個實施例,在分別構建第一文檔對應的第一圖結構,和第二文檔對應的第二圖結構之前,方法還包括:
29、將第一文檔和第二文檔分別轉換為第一圖片和第二圖片;
30、識別第一圖片和第二圖片,獲得第一文檔和第二文檔分別對應的多種文檔元素,以及每種文檔元素對應的元素位置特征。
31、根據本技術的一個實施例,根據第一圖特征、第二圖特征、第一文本特征以及第二文本特征,獲得第一文檔和第二文檔之間的相似度,包括:
32、確定第一圖特征和第二圖特征之間的第一相似度,以及第一文本特征和第二文本特征之間的第二相似度;
33、根據第一相似度和第二相似度,獲得第一文檔和第二文檔之間的相似度。
34、第二方面,本技術提供了一種文檔比對裝置,該文檔比對裝置包括:
35、構建模塊,用于分別構建第一文檔對應的第一圖結構,和第二文檔對應的第二圖結構;第一圖結構和第二圖結構分別用于表征相應的第一文檔和第二文檔中文檔元素的元素位置特征、元素層級關系和位置相似差;
36、第一確定模塊,用于確定第一圖結構的第一圖特征,和第二圖結構的第二圖特征;
37、第一獲取模塊,用于獲取第一文檔對應的第一文本特征和第二文檔對應的第二文本特征;
38、第二獲取模塊,用于根據第一圖特征、第二圖特征、第一文本特征以及第二文本特征,獲得第一文檔和第二文檔之間的相似度。
39、根據本技術的文檔比對裝置,通過分別構建第一文檔對應的第一圖結構,和第二文檔對應的第二圖結構;第一圖結構和第二圖結構分別用于表征相應的第一文檔和第二文檔中文檔元素的元素位置特征、元素層級關系和位置相似差;確定第一圖結構的第一圖特征,和第二圖結構的第二圖特征,實現深度挖掘兩個文檔的結構特征。
40、通過獲取第一文檔對應的第一文本特征和第二文檔對應的第二文本特征;根據第一圖特征、第二圖特征、第一文本特征以及第二文本特征,獲得第一文檔和第二文檔之間的相似度,融合了文檔元素本身的文本特征和結構特征來確定兩個文檔之間的相似度,豐富了相似性評估的維度,實現更加準確、全面地確定兩個文檔之間的相似度。
41、第三方面,本技術提供了一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,處理器執行計算機程序時實現如上述第一方面所提供的文檔比對方法。
42、第四方面,本技術提供了一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,計算機程序被處理器執行時實現如上述第一方面所提供的文檔比對方法。
43、第五方面,本技術提供了一種芯片,芯片包括處理器和通信接口,該通信接口和處理器耦合,該處理器用于運行程序或指令,實現如第一方面所提供的文檔比對方法。
44、第六方面,本技術提供了一種計算機程序產品,包括計算機程序,該計算機程序被處理器執行時實現如上述第一方面所提供的文檔比對方法。
45、本技術實施例中的上述一個或多個技術方案,至少具有如下技術效果之一:
46、本技術實施例分別構建第一文檔對應的第一圖結構,和第二文檔對應的第二圖結構;第一圖結構和第二圖結構分別用于表征相應的第一文檔和第二文檔中文檔元素的元素位置特征、元素層級關系和位置相似差;確定第一圖結構的第一圖特征,和第二圖結構的第二圖特征,實現深度挖掘兩個文檔的結構特征。
47、通過獲取第一文檔對應的第一文本特征和第二文檔對應的第二文本特征;根據第一圖特征、第二圖特征、第一文本特征以及第二文本特征,獲得第一文檔和第二文檔之間的相似度,融合了文檔元素本身的文本特征和結構特征來確定兩個文檔之間的相似度,豐富了相似性評估的維度,實現更加準確、全面地確定兩個文檔之間的相似度。
48、本技術的附加方面和優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本技術的實踐了解到。