1.一種場景文本信息識別方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,其中,所述方法還包括:
3.根據(jù)權(quán)利要求1所述的方法,其中,所述視覺特征編碼器包括:視覺特征嵌入網(wǎng)絡(luò)、多頭注意力機制層和第一多層感知機層;以及
4.根據(jù)權(quán)利要求3所述的方法,其中,所述方法還包括:
5.根據(jù)權(quán)利要求3所述的方法,其中,所述視覺特征嵌入網(wǎng)絡(luò)包括:第一視覺特征提取網(wǎng)絡(luò)層和第二視覺特征提取網(wǎng)絡(luò)層;以及
6.根據(jù)權(quán)利要求1所述的方法,其中,所述前景增強網(wǎng)絡(luò)包括:平均池化層和第二多層感知機層;以及
7.根據(jù)權(quán)利要求1所述的方法,其中,所述根據(jù)預(yù)設(shè)位置嵌入向量集,對視覺增強特征向量集進行文本識別,得到文本特征向量集,包括:
8.一種場景文本信息識別裝置,包括:
9.一種電子設(shè)備,包括:
10.一種計算機可讀介質(zhì),其上存儲有計算機程序,其中,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-7中任一所述的方法。