場景文本信息識別方法、裝置、電子設(shè)備和介質(zhì)

文檔序號：41752363發(fā)布日期：2025-04-29 18:20閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>場景文本信息識別方法、裝置、電子設(shè)備和介質(zhì)

技術(shù)特征：

1.一種場景文本信息識別方法，包括：

2.根據(jù)權(quán)利要求1所述的方法，其中，所述方法還包括：

3.根據(jù)權(quán)利要求1所述的方法，其中，所述視覺特征編碼器包括：視覺特征嵌入網(wǎng)絡(luò)、多頭注意力機制層和第一多層感知機層；以及

4.根據(jù)權(quán)利要求3所述的方法，其中，所述方法還包括：

5.根據(jù)權(quán)利要求3所述的方法，其中，所述視覺特征嵌入網(wǎng)絡(luò)包括：第一視覺特征提取網(wǎng)絡(luò)層和第二視覺特征提取網(wǎng)絡(luò)層；以及

6.根據(jù)權(quán)利要求1所述的方法，其中，所述前景增強網(wǎng)絡(luò)包括：平均池化層和第二多層感知機層；以及

7.根據(jù)權(quán)利要求1所述的方法，其中，所述根據(jù)預(yù)設(shè)位置嵌入向量集，對視覺增強特征向量集進行文本識別，得到文本特征向量集，包括：

8.一種場景文本信息識別裝置，包括：

9.一種電子設(shè)備，包括：

10.一種計算機可讀介質(zhì)，其上存儲有計算機程序，其中，所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-7中任一所述的方法。

技術(shù)總結(jié)
本公開的實施例公開了場景文本信息識別方法、裝置、電子設(shè)備和介質(zhì)。該方法的一具體實施方式包括：對待識別場景圖像進行預(yù)處理，并對預(yù)處理后的場景圖像進行區(qū)域圖像分割，得到場景子圖像集；對場景子圖像集進行視覺編碼，以及對編碼得到的視覺特征向量集進行前景增強處理，得到視覺增強特征向量集；對視覺增強特征向量集進行文本識別，并對識別得到的文本特征向量集進行文本矯正處理，得到矯正后文本特征向量集；將矯正后文本特征向量集與視覺特征向量集進行融合處理，得到融合后特征向量集；將融合后特征向量集輸入至預(yù)測層，得到文本信息。該實施方式可以提高復(fù)雜場景下的文本識別準(zhǔn)確率，以及模型的通用性和魯棒性。

技術(shù)研發(fā)人員：張?zhí)┩?劉慶杰,胡征慧,李偉欣,王蘊紅
受保護的技術(shù)使用者：北京航空航天大學(xué)杭州創(chuàng)新研究院
技術(shù)研發(fā)日：
技術(shù)公布日：2025/4/28

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

^{<blockquote id="vey55"></blockquote>}
<sub id="vey55"></sub>

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

場景文本信息識別方法、裝置、電子設(shè)備和介質(zhì)

場景文本信息識別方法、裝置、電子設(shè)備和介質(zhì)