【技術領域】
本發明涉及計算機應用技術領域,尤其涉及一種基于人工智能的跨語種語音轉錄方法、設備及可讀介質。
背景技術:
人工智能(artificialintelligence;ai),是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。人工智能是計算機科學的一個分支,它企圖了解智能的實質,并生產出一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統等。
隨著語音技術的發展,從語音到對應文本的語音轉錄在日常生活中逐步的普及。然而,當前的語音轉錄技術只能識別轉錄當前語種的語音,例如一段普通話的語音,對應的轉錄結果會為其對應的漢字文本,而并不能滿足跨語種語音轉錄的需求,例如無法將輸入的一段普通話語音,直接輸出跨語種語音轉錄的對應的英文翻譯文本。為了實現跨語種的語音轉錄,現有技術中多采用兩步走的方案:首先,通過語音識別工具對輸入的語音進行轉錄生成文本;然后,通過機器翻譯的方法,對前面生成的文本進行翻譯,最后得到跨語種的語音轉錄文本結果。
但是現有的跨語種語音轉錄時,若第一步的語音識別工具識別錯誤,那么機器翻譯得到的最終的語音轉錄文本便無可避免地發生錯誤,即現有技術的跨語種語音轉錄不可避免地會發生錯誤累積的問題,導致現有技術的跨語種語音轉錄準確性較差、轉錄效率較低。
技術實現要素:
本發明提供了一種基于人工智能的跨語種語音轉錄方法、設備及可讀介質,用于提高跨語種語音轉錄準確性和轉錄效率。
本發明提供一種基于人工智能的跨語種語音轉錄方法,所述方法包括:
將待轉錄的語音數據進行預處理,獲取多個聲學特征;所述待轉錄的語音數據采用第一語種表示;
根據多個所述聲學特征以及預先訓練的跨語種轉錄模型,預測所述語音數據對應的轉錄后的翻譯文本;其中,所述翻譯文本采用第二語種表示,所述第二語種不同于所述第一語種。
進一步可選地,如上所述的方法中,將待轉錄的語音數據進行預處理,獲取多個聲學特征,具體包括:
對所述待轉錄的語音數據采用預設的采樣率進行采樣,得到多個語音數據采樣點;
對所述多個語音數據采樣點按照預設的量化位數進行量化處理,得到脈沖編碼調制文件;
從所述脈沖編碼調制文件中提取多個所述聲學特征。
進一步可選地,如上所述的方法中,從所述脈沖編碼調制文件中提取多個所述聲學特征,具體包括:
從所述脈沖編碼調制文件的開頭選取預設幀長的數據幀;并按照從前至后依次調整預設幀移后選取所述預設幀長的數據幀,共得到多個所述數據幀;
分別從多個所述數據幀中提取每個所述數據幀的聲學特征,得到多個所述聲學特征。
進一步可選地,如上所述的方法中,根據多個所述聲學特征以及預先訓練的跨語種轉錄模型,預測所述語音數據對應的轉錄后的翻譯文本之前,所述方法還包括:
采集數條所述第一語種表示的訓練語音數據以及各條所述訓練語音數據轉錄為所述第二語種表示的真實翻譯文本;
采用各條所述訓練語音數據和對應的所述真實翻譯文本,訓練所述跨語種轉錄模型。
進一步可選地,如上所述的方法中,采用各條所述訓練語音數據和對應的所述真實翻譯文本,訓練所述跨語種轉錄模型,具體包括:
將當前的所述訓練語音數據代入所述跨語種轉錄模型,使得所述跨語種轉錄模型預測所述訓練語音數據對應的預測翻譯文本;
判斷所述訓練語音數據的所述預測翻譯文本與所述真實翻譯文本是否一致;
若不一致時,修改所述跨語種轉錄模型的模型參數,使得所述跨語種轉錄模型預測的所述訓練語音數據的所述預測翻譯文本與對應的所述真實翻譯文本趨于一致;并繼續選擇下一條所述訓練語音數據進行訓練;
利用各條所述訓練語音數據,按照執行上述步驟,重復對所述跨語種轉錄模型進行訓練,直至所述跨語種轉錄模型預測的所述訓練語音數據的所述預測翻譯文本與對應的所述真實翻譯文本一致,確定所述跨語種轉錄模型的模型參數,從而確定所述跨語種轉錄模型。
本發明提供一種基于人工智能的跨語種語音轉錄裝置,所述裝置包括:
獲取模塊,用于將待轉錄的語音數據進行預處理,獲取多個聲學特征;所述待轉錄的語音數據采用第一語種表示;
預測模塊,用于根據多個所述聲學特征以及預先訓練的跨語種轉錄模型,預測所述語音數據對應的轉錄后的翻譯文本;其中,所述翻譯文本采用第二語種表示,所述第二語種不同于所述第一語種。
進一步可選地,如上所述的裝置中,所述獲取模塊,具體用于:
對所述待轉錄的語音數據采用預設的采樣率進行采樣,得到多個語音數據采樣點;
對所述多個語音數據采樣點按照預設的量化位數進行量化處理,得到脈沖編碼調制文件;
從所述脈沖編碼調制文件中提取多個所述聲學特征。
進一步可選地,如上所述的裝置中,所述獲取模塊,具體用于:從所述脈沖編碼調制文件的開頭選取預設幀長的數據幀;并按照從前至后依次調整預設幀移后選取所述預設幀長的數據幀,共得到多個所述數據幀;
分別從多個所述數據幀中提取每個所述數據幀的聲學特征,得到多個所述聲學特征。
進一步可選地,如上所述的裝置中,所述裝置還包括:
采集模塊,用于采集數條所述第一語種表示的訓練語音數據以及各條所述訓練語音數據轉錄為所述第二語種表示的真實翻譯文本;
訓練模塊,用于采用各條所述訓練語音數據和對應的所述真實翻譯文本,訓練所述跨語種轉錄模型。
進一步可選地,如上所述的裝置中,所述訓練模塊,具體用于:
將當前的所述訓練語音數據代入所述跨語種轉錄模型,使得所述跨語種轉錄模型預測所述訓練語音數據對應的預測翻譯文本;
判斷所述訓練語音數據的所述預測翻譯文本與所述真實翻譯文本是否一致;
若不一致時,修改所述跨語種轉錄模型的模型參數,使得所述跨語種轉錄模型預測的所述訓練語音數據的所述預測翻譯文本與對應的所述真實翻譯文本趨于一致;并繼續選擇下一條所述訓練語音數據進行訓練;
利用各條所述訓練語音數據,按照執行上述步驟,重復對所述跨語種轉錄模型進行訓練,直至所述跨語種轉錄模型預測的所述訓練語音數據的所述預測翻譯文本與對應的所述真實翻譯文本一致,確定所述跨語種轉錄模型的模型參數,從而確定所述跨語種轉錄模型。
本發明還提供一種計算機設備,所述設備包括:
一個或多個處理器;
存儲器,用于存儲一個或多個程序,
當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如上所述的基于人工智能的跨語種語音轉錄方法。
本發明還提供一種計算機可讀介質,其上存儲有計算機程序,該程序被處理器執行時實現如上所述的基于人工智能的跨語種語音轉錄方法。
本發明的基于人工智能的跨語種語音轉錄方法、設備及可讀介質,通過將待轉錄的語音數據進行預處理,獲取多個聲學特征;待轉錄的語音數據采用第一語種表示;根據多個聲學特征以及預先訓練的跨語種轉錄模型,預測語音數據對應的轉錄后的翻譯文本;其中,翻譯文本采用第二語種表示,第二語種不同于第一語種。采用本發明的技術方案,跨語種語音轉錄時不用先進行語音識別,再進行機器翻譯,而是直接根據預先訓練的跨語種轉錄模型便可以進行跨語種轉錄,能夠克服現有技術中的兩步走的跨語種轉錄方式中的錯誤累積的問題,與現有技術相比,能夠有效地提高跨語種語音轉錄的準確性和轉錄效率。
【附圖說明】
圖1為本發明的基于人工智能的跨語種語音轉錄方法實施例一的流程圖。
圖2為本發明的基于人工智能的跨語種語音轉錄方法實施例二的流程圖。
圖3為本發明的基于人工智能的跨語種語音轉錄方法實施例三的流程圖。
圖4為本發明的基于人工智能的跨語種語音轉錄裝置實施例一的結構圖。
圖5為本發明的基于人工智能的跨語種語音轉錄裝置實施例二的結構圖。
圖6為本發明的計算機設備實施例的結構圖。
圖7為本發明提供的一種計算機設備的示例圖。
【具體實施方式】
為了使本發明的目的、技術方案和優點更加清楚,下面結合附圖和具體實施例對本發明進行詳細描述。
圖1為本發明的基于人工智能的跨語種語音轉錄方法實施例一的流程圖。如圖1所示,本實施例的基于人工智能的跨語種語音轉錄方法,具體可以包括如下步驟:
100、將待轉錄的語音數據進行預處理,獲取多個聲學特征;待轉錄的語音數據采用第一語種表示;
101、根據多個聲學特征以及預先訓練的跨語種轉錄模型,預測語音數據對應的轉錄后的翻譯文本;其中,翻譯文本采用第二語種表示,第二語種不同于第一語種。
本實施例的基于人工智能的跨語種語音轉錄方法的執行主體為一基于人工智能的跨語種語音轉錄裝置,該基于人工智能的跨語種語音轉錄裝置能夠對待轉錄的語音數據直接進行跨語種的轉錄。本實施例的基于人工智能的跨語種語音轉錄方法,主要用于實現將第一語種表示的待轉錄的語音數據,轉錄為第二語種表示的翻譯文本。其中的第一語種可以為中文、英文、日文、韓文、藏文、彝文等等。由于第一語種采用語音形式,因此,本實施例的第一語種可以為任一國家的語種,也可以為任一具有自己民族語言的少數民族的語種。第二語種采用文本形式展現,因此第二語種需要具有其文本形式的語種。而每一個國家對應的國家內的標準語種都具有其文本形式,因此第二語種也可以為任一國家的語種。另外,有些少數民族,如藏族、彝族、傣族、壯族等等少數民族不僅具有自己獨立的語種,還有自己語種對應的文字。因此,第二語種也可以為任一具有自己語種的文字的少數民族的語種。
本實施例的基于人工智能的跨語種語音轉錄方法中,預先訓練的跨語種轉錄模型可以為預先經過深度學習訓練得到的網絡模型。如,本實施例的跨語種轉錄模型可以是基于attention的序列到序列的深度學習模型,例如可以為一種采用encoder-decoder方式的深度學習模型。本實施例的跨語種轉錄模型輸入的是待轉錄的語音數據的多個聲學特征,因此,本實施例中,首先,將第一語種表示的待轉錄的語音數據進行預處理,獲取待轉錄的語音數據多個聲學特征;然后將待轉錄的語音數據多個聲學特征,輸入至預先訓練的跨語種轉錄模型中。由于該跨語種轉錄模型預先訓練中采用深度學習的方式進行訓練,此時該訓練好的跨語種轉錄模型可以根據輸入的待轉錄的語音數據的多個聲學特征,預測該語音數據對應的轉錄后的第二語種表示的翻譯文本。本實施例中,雖然該跨語種轉錄模型預測的翻譯文本為預測的結果,但是由于該跨語種轉錄模型是經過深度學習訓練得到的,此時可以認為該跨語種轉錄模型預測的翻譯文本與真實的翻譯文本一致。
本實施例的基于人工智能的跨語種語音轉錄方法,通過將待轉錄的語音數據進行預處理,獲取多個聲學特征;待轉錄的語音數據采用第一語種表示;根據多個聲學特征以及預先訓練的跨語種轉錄模型,預測語音數據對應的轉錄后的翻譯文本;其中,翻譯文本采用第二語種表示,第二語種不同于第一語種。采用本實施例的技術方案,跨語種語音轉錄時不用先進行語音識別,再進行機器翻譯,而是直接根據預先訓練的跨語種轉錄模型便可以進行跨語種轉錄,能夠克服現有技術中的兩步走的跨語種轉錄方式中的錯誤累積的問題,與現有技術相比,能夠有效地提高跨語種語音轉錄的準確性和轉錄效率。
圖2為本發明的基于人工智能的跨語種語音轉錄方法實施例二的流程圖。本實施例的基于人工智能的跨語種語音轉錄方法,在上述圖1所示實施例的技術方案的基礎上,更加詳細地介紹本發明的技術方案。如圖2所示,本實施例的基于人工智能的跨語種語音轉錄方法,在上述圖1所示實施例的步驟101之前,具體還可以包括如下步驟:
200、采集數條第一語種表示的訓練語音數據以及各條訓練語音數據轉錄為第二語種表示的真實翻譯文本;
本實施例中在對跨語種轉錄模型進行訓練時,需要采集數條第一語種表示的訓練語音數據以及各條訓練語音數據轉錄為第二語種表示的真實翻譯文本。例如,具體可以從網絡上,或者已經成功轉錄的數據庫中采集數條第一語種表示的訓練語音數據以及各條訓練語音數據轉錄為第二語種表示的真實翻譯文本。其中每一條訓練語音數據與對應的真實翻譯文本作為一條訓練數據,本實施例中,為了保證訓練的跨語種轉錄模型的準確性,采集的訓練數據的條數可以達到數以萬條,例如可以包括20萬條或者30萬條甚至更多條數。其中采集的訓練數據的條數越多,訓練得到的跨語種轉錄模型越準確,后續步驟101對第一語種表示的待轉錄的語音數據轉錄的第二語種表示的翻譯文本越準確。
201、采用各條訓練語音數據和對應的真實翻譯文本,訓練跨語種轉錄模型。
本實施例中,采集到數條第一語種表示的訓練語音數據以及各條訓練語音數據轉錄為第二語種表示的真實翻譯文本之后,可以將采集的數條第一語種表示的訓練語音數據以及各條訓練語音數據轉錄為第二語種表示的真實翻譯文本存儲在一個數據庫中,生成訓練數據庫。然后訓練時,采用訓練數據庫中的每一條訓練語音數據和對應的真實翻譯文本,對跨語種轉錄模型進行訓練。
例如,本實施例的步驟201“采用各條訓練語音數據和對應的真實翻譯文本,訓練跨語種轉錄模型”,具體可以包括如下步驟:
(a1)將當前的訓練語音數據代入跨語種轉錄模型,使得跨語種轉錄模型預測訓練語音數據對應的預測翻譯文本;
(a2)判斷訓練語音數據的預測翻譯文本與真實翻譯文本是否一致;若不一致時,執行步驟(a3);否則,執行步驟(a4);
(a3)修改跨語種轉錄模型的模型參數,使得跨語種轉錄模型預測的訓練語音數據的預測翻譯文本與對應的真實翻譯文本趨于一致;執行步驟(a4);
(a4)繼續選擇下一條訓練語音數據作為當前的訓練數據,以準備采用上述步驟(a1-(a3)進行訓練;
利用各條訓練語音數據,按照執行上述步驟(a1)-(a4),重復對跨語種轉錄模型進行訓練,直至跨語種轉錄模型預測的訓練語音數據的預測翻譯文本與對應的真實翻譯文本一致,確定跨語種轉錄模型的模型參數,從而確定跨語種轉錄模型。
例如,訓練時,為了便于采用每條訓練語音數據和對應的真實翻譯文本,對跨語種轉錄模型進行訓練,避免重復采用同一條訓練語音數據和對應的真實翻譯文本,重復對跨語種轉錄模型進行訓練,可以將各條訓練語音數據排序,每次訓練時選取一條訓練語音數據作為當前的訓練語音數據,該條訓練語音數據訓練完畢,可以繼續選擇下一條訓練語音數據作為當前的訓練語音數據,繼續對跨語種轉錄模型進行訓練。
需要說明的時,訓練之前,本實施例的跨語種轉錄模型的模型參數具有初始值。若采用第一條訓練語音數據對跨語種轉錄模型進行訓練時,將第一條訓練語音數據作為當前的訓練語音數據,輸入至跨語種轉錄模型中,此時,跨語種轉錄模型根據當前的模型參數的初始值,輸出一個該訓練語音數據對應的預測翻譯文本。然后判斷訓練語音數據的預測翻譯文本與真實翻譯文本是否一致;若不一致時,修改跨語種轉錄模型的模型參數,使得跨語種轉錄模型預測的訓練語音數據的預測翻譯文本與對應的真實翻譯文本趨于一致;否則若一致,繼續選擇下一條訓練語音數據作為當前的訓練數據,繼續進行訓練。
訓練時,至少要利用訓練數據庫中的各條訓練數據進行一輪訓練,若一輪訓練完畢后,可以確定跨語種轉錄模型預測的訓練語音數據的預測翻譯文本與對應的真實翻譯文本一致,此時確定跨語種轉錄模型的模型參數,從而確定跨語種轉錄模型。
若一輪訓練完畢,跨語種轉錄模型預測的訓練語音數據的預測翻譯文本與對應的真實翻譯文本仍然不一致,此時可以使用訓練數據庫中的各條訓練數據進行再一輪、兩輪或者多輪訓練,直至跨語種轉錄模型預測的訓練語音數據的預測翻譯文本與對應的真實翻譯文本一致,確定跨語種轉錄模型的模型參數,從而確定跨語種轉錄模型。
本實施例訓練得到的跨語種轉錄模型,可以對一種第一語種表示的待轉錄的語音數據,跨語種轉錄為一種第二語種表示的翻譯文本。如果一個跨語種轉錄模型若能夠支持英語到中文的跨語種轉錄,而不能實現意大利語到中文的跨語種轉錄,也就是說本實施例的跨語種轉錄模型為一對一的形式,不支持一對多或者多對一的形式。另外,需要說明的是,本實施例中,若第二語種表示的翻譯文本為中文時,為了便于與其它語種對應,優選地,選擇以文字的漢語拼音來表示翻譯文本。而且本實施例的漢語拼音的表示方式可以為每個漢字的拼音作為最小的建模單元來表示,如“zhongguoren”;也可以使用聲韻母為最小的建模單元,如將“zhongguoren”切分為“zhongguoren”。
本實施例的基于人工智能的跨語種語音轉錄方法,通過采用上述技術方案訓練得到的跨語種轉錄模型,可以準確地對待轉錄的語音數據進行跨語種轉錄,與現有技術相比,跨語種語音轉錄時不用先進行語音識別,再進行機器翻譯,而是直接根據預先訓練的跨語種轉錄模型便可以進行跨語種轉錄,能夠克服現有技術中的兩步走的跨語種轉錄方式中的錯誤累積的問題,與現有技術相比,能夠有效地提高跨語種語音轉錄的準確性和轉錄效率。
圖3為本發明的基于人工智能的跨語種語音轉錄方法實施例三的流程圖。本實施例的基于人工智能的跨語種語音轉錄方法,在上述圖1或者圖2所示實施例的技術方案的基礎上,更加詳細地介紹本發明的技術方案。如圖3所示,本實施例的基于人工智能的跨語種語音轉錄方法,具體可以包括如下步驟:
300、對第一語種表示的待轉錄的語音數據采用預設的采樣率進行采樣,得到多個語音數據采樣點;
例如,本實施例中的預設的采樣率可以為16k,即每1/16000秒選擇一個采樣點,這樣,1秒時長的語音有16000個采樣點。實際應用中預測的采樣率也可以為8k-20k的任意采樣率。
301、對多個語音數據采樣點按照預設的量化位數進行量化處理,得到脈沖編碼調制(pulsecodemodulation;pcm)文件;
本實施例的預設的量化位數優選地可以為16,位,實際應用中也可以選擇16位。其中量化位數越多,表示質量越高。量化處理后可以得到pcm文件。而且該pcm文件為單通道的pcm文件。
302、從pcm文件中提取多個聲學特征;
最后從pcm文件中提取多個聲學特征,例如可以提取fbank40格式的聲學特征,其中fbank40格式的聲學特征采用一個40維的向量表示。實際應用中也可以采用其他格式的其它維度的向量來表示各聲學特征。
例如該步驟302,具體可以包括如下步驟:
(b1)從pcm文件的開頭選取預設幀長的數據幀;并按照從前至后依次調整預設幀移后選取預設幀長的數據幀,共得到多個數據幀;
(b2)分別從多個數據幀中提取每個數據幀的聲學特征,得到多個聲學特征。
本實施例在從pcm文件時,由于pcm文件也采用幀表示,可以先從pcm文件的開頭選取預設幀長的數據幀,例如預設幀長可以為25ms。然后按照從前至后依次調整預設幀移后選取預設幀長的數據幀,例如同一個pcm文件,開頭取了25ms的數據幀之后,幀移10ms,再取25ms的數據幀,然后再幀移10ms,再取25ms的數據幀,直到pcm文件取完,但是pcm文件的長度不一定是預設幀長的整數倍,此時最后剩下不足25ms長的數據幀可以丟棄,或者可以通過填零補位至25ms的幀長。這樣,得到的每個數據幀的長度時一樣,這樣,從待轉錄的語音數據對應的每個數據幀中提取的聲學特征的方式,以及得到的聲學特征的維度也是一樣的。而實際應用中,每段待轉錄的語音的長度可以不相同,但根據待轉錄的語音獲取的每個數據幀的長度是相同的。因此,在根據本實施例的跨語種轉錄模型跨語種轉錄時,可跨語種轉錄的待轉錄的語音數據的長短可以不做限制,理論上,可以對不超過可處理的最大時長的任意時長的待轉錄的語音數據進行跨語種轉錄,當然得到的跨語種轉錄后的翻譯文本的長度也不一。
上述步驟300-302為上述圖1所示實施例的步驟100的一種具體實現方式,實際應用中,也可以采用相關現有技術中的從語音數據中提取聲學特征的方式來實現,在此不再一一舉例贅述。
303、將待轉錄的語音數據對應的多個聲學特征輸入至預先訓練的跨語種轉錄模型中,該跨語種轉錄模型預測并輸出對應的轉錄后的第二語種表示的翻譯文本。
本實施例的預先訓練的跨語種轉錄模型采用上述圖2所示實施例的方式獲取到,詳細可以參考上述圖2所示實施例的記載,在此不再贅述。
本實施例的基于人工智能的跨語種語音轉錄方法,通過采用上述技術方案,跨語種語音轉錄時不用先進行語音識別,再進行機器翻譯,而是直接根據預先訓練的跨語種轉錄模型便可以進行跨語種轉錄,能夠克服現有技術中的兩步走的跨語種轉錄方式中的錯誤累積的問題,與現有技術相比,能夠有效地提高跨語種語音轉錄的準確性和轉錄效率。
圖4為本發明的基于人工智能的跨語種語音轉錄裝置實施例一的結構圖。如圖4所示,本實施例的發明的基于人工智能的跨語種語音轉錄裝置,具體可以包括:獲取模塊10和預測模塊11。
其中,獲取模塊10用于將待轉錄的語音數據進行預處理,獲取多個聲學特征;待轉錄的語音數據采用第一語種表示;
預測模塊11用于根據獲取模塊10獲取的多個聲學特征以及預先訓練的跨語種轉錄模型,預測語音數據對應的轉錄后的翻譯文本;其中,翻譯文本采用第二語種表示,第二語種不同于第一語種。
本實施例的基于人工智能的跨語種語音轉錄裝置,通過采用上述模塊實現基于人工智能的跨語種語音轉錄的實現原理以及技術效果與上述相關方法實施例的實現相同,詳細可以參考上述相關方法實施例的記載,在此不再贅述。
圖5為本發明的基于人工智能的跨語種語音轉錄裝置實施例二的結構圖。如圖5所示,本實施例的基于人工智能的跨語種語音轉錄裝置,在上述圖4所示實施例的技術方案的基礎上,進一步更加詳細地介紹本發明的技術方案。
本實施例的基于人工智能的跨語種語音轉錄裝置中,獲取模塊10具體用于:
對待轉錄的語音數據采用預設的采樣率進行采樣,得到多個語音數據采樣點;
對多個語音數據采樣點按照預設的量化位數進行量化處理,得到脈沖編碼調制文件;
從脈沖編碼調制文件中提取多個聲學特征。
進一步可選地,本實施例的基于人工智能的跨語種語音轉錄裝置中,獲取模塊10具體用于:從脈沖編碼調制文件的開頭選取預設幀長的數據幀;并按照從前至后依次調整預設幀移后選取預設幀長的數據幀,共得到多個數據幀;
分別從多個數據幀中提取每個數據幀的聲學特征,得到多個聲學特征。
進一步可選地,如圖5所示,本實施例的基于人工智能的跨語種語音轉錄裝置,還包括:
采集模塊12用于采集數條第一語種表示的訓練語音數據以及各條訓練語音數據轉錄為第二語種表示的真實翻譯文本;
訓練模塊13用于采用采集模塊12采集的各條訓練語音數據和對應的真實翻譯文本,訓練跨語種轉錄模型。
此時對應地,預測模塊11用于根據獲取模塊10獲取的多個聲學特征以及訓練模塊13預先訓練的跨語種轉錄模型,預測語音數據對應的轉錄后的翻譯文本;
進一步可選地,本實施例的基于人工智能的跨語種語音轉錄裝置中,訓練模塊13具體用于:
將當前的訓練語音數據代入跨語種轉錄模型,使得跨語種轉錄模型預測訓練語音數據對應的預測翻譯文本;
判斷訓練語音數據的預測翻譯文本與真實翻譯文本是否一致;
若不一致時,修改跨語種轉錄模型的模型參數,使得跨語種轉錄模型預測的訓練語音數據的預測翻譯文本與對應的真實翻譯文本趨于一致;并繼續選擇下一條訓練語音數據進行訓練;
利用各條訓練語音數據,按照執行上述步驟,重復對跨語種轉錄模型進行訓練,直至跨語種轉錄模型預測的訓練語音數據的預測翻譯文本與對應的真實翻譯文本一致,確定跨語種轉錄模型的模型參數,從而確定跨語種轉錄模型。
本實施例的基于人工智能的跨語種語音轉錄裝置,通過采用上述模塊實現基于人工智能的跨語種語音轉錄的實現原理以及技術效果與上述相關方法實施例的實現相同,詳細可以參考上述相關方法實施例的記載,在此不再贅述。
圖6為本發明的計算機設備實施例的結構圖。如圖6所示,本實施例的計算機設備,包括:一個或多個處理器30,以及存儲器40,存儲器40用于存儲一個或多個程序,當存儲器40中存儲的一個或多個程序被一個或多個處理器30執行,使得一個或多個處理器30實現如上圖1-圖3所示實施例的基于人工智能的跨語種語音轉錄方法。圖6所示實施例中以包括多個處理器30為例。
例如,圖7為本發明提供的一種計算機設備的示例圖。圖7示出了適于用來實現本發明實施方式的示例性計算機設備12a的框圖。圖7顯示的計算機設備12a僅僅是一個示例,不應對本發明實施例的功能和使用范圍帶來任何限制。
如圖7所示,計算機設備12a以通用計算設備的形式表現。計算機設備12a的組件可以包括但不限于:一個或者多個處理器16a,系統存儲器28a,連接不同系統組件(包括系統存儲器28a和處理器16a)的總線18a。
總線18a表示幾類總線結構中的一種或多種,包括存儲器總線或者存儲器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結構中的任意總線結構的局域總線。舉例來說,這些體系結構包括但不限于工業標準體系結構(isa)總線,微通道體系結構(mac)總線,增強型isa總線、視頻電子標準協會(vesa)局域總線以及外圍組件互連(pci)總線。
計算機設備12a典型地包括多種計算機系統可讀介質。這些介質可以是任何能夠被計算機設備12a訪問的可用介質,包括易失性和非易失性介質,可移動的和不可移動的介質。
系統存儲器28a可以包括易失性存儲器形式的計算機系統可讀介質,例如隨機存取存儲器(ram)30a和/或高速緩存存儲器32a。計算機設備12a可以進一步包括其它可移動/不可移動的、易失性/非易失性計算機系統存儲介質。僅作為舉例,存儲系統34a可以用于讀寫不可移動的、非易失性磁介質(圖7未顯示,通常稱為“硬盤驅動器”)。盡管圖7中未示出,可以提供用于對可移動非易失性磁盤(例如“軟盤”)讀寫的磁盤驅動器,以及對可移動非易失性光盤(例如cd-rom,dvd-rom或者其它光介質)讀寫的光盤驅動器。在這些情況下,每個驅動器可以通過一個或者多個數據介質接口與總線18a相連。系統存儲器28a可以包括至少一個程序產品,該程序產品具有一組(例如至少一個)程序模塊,這些程序模塊被配置以執行本發明上述圖1-圖5各實施例的功能。
具有一組(至少一個)程序模塊42a的程序/實用工具40a,可以存儲在例如系統存儲器28a中,這樣的程序模塊42a包括——但不限于——操作系統、一個或者多個應用程序、其它程序模塊以及程序數據,這些示例中的每一個或某種組合中可能包括網絡環境的實現。程序模塊42a通常執行本發明所描述的上述圖1-圖5各實施例中的功能和/或方法。
計算機設備12a也可以與一個或多個外部設備14a(例如鍵盤、指向設備、顯示器24a等)通信,還可與一個或者多個使得用戶能與該計算機設備12a交互的設備通信,和/或與使得該計算機設備12a能與一個或多個其它計算設備進行通信的任何設備(例如網卡,調制解調器等等)通信。這種通信可以通過輸入/輸出(i/o)接口22a進行。并且,計算機設備12a還可以通過網絡適配器20a與一個或者多個網絡(例如局域網(lan),廣域網(wan)和/或公共網絡,例如因特網)通信。如圖所示,網絡適配器20a通過總線18a與計算機設備12a的其它模塊通信。應當明白,盡管圖中未示出,可以結合計算機設備12a使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設備驅動器、冗余處理器、外部磁盤驅動陣列、raid系統、磁帶驅動器以及數據備份存儲系統等。
處理器16a通過運行存儲在系統存儲器28a中的程序,從而執行各種功能應用以及數據處理,例如實現上述實施例所示的基于人工智能的跨語種語音轉錄方法。
本發明還提供一種計算機可讀介質,其上存儲有計算機程序,該程序被處理器執行時實現如上述實施例所示的基于人工智能的跨語種語音轉錄方法。
本實施例的計算機可讀介質可以包括上述圖7所示實施例中的系統存儲器28a中的ram30a、和/或高速緩存存儲器32a、和/或存儲系統34a。
隨著科技的發展,計算機程序的傳播途徑不再受限于有形介質,還可以直接從網絡下載,或者采用其他方式獲取。因此,本實施例中的計算機可讀介質不僅可以包括有形的介質,還可以包括無形的介質。
本實施例的計算機可讀介質可以采用一個或多個計算機可讀的介質的任意組合。計算機可讀介質可以是計算機可讀信號介質或者計算機可讀存儲介質。計算機可讀存儲介質例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導體的系統、裝置或器件,或者任意以上的組合。計算機可讀存儲介質的更具體的例子(非窮舉的列表)包括:具有一個或多個導線的電連接、便攜式計算機磁盤、硬盤、隨機存取存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計算機可讀存儲介質可以是任何包含或存儲程序的有形介質,該程序可以被指令執行系統、裝置或者器件使用或者與其結合使用。
計算機可讀的信號介質可以包括在基帶中或者作為載波一部分傳播的數據信號,其中承載了計算機可讀的程序代碼。這種傳播的數據信號可以采用多種形式,包括——但不限于——電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質還可以是計算機可讀存儲介質以外的任何計算機可讀介質,該計算機可讀介質可以發送、傳播或者傳輸用于由指令執行系統、裝置或者器件使用或者與其結合使用的程序。
計算機可讀介質上包含的程序代碼可以用任何適當的介質傳輸,包括——但不限于——無線、電線、光纜、rf等等,或者上述的任意合適的組合。
可以以一種或多種程序設計語言或其組合來編寫用于執行本發明操作的計算機程序代碼,所述程序設計語言包括面向對象的程序設計語言—諸如java、smalltalk、c++,還包括常規的過程式程序設計語言—諸如”c”語言或類似的程序設計語言。程序代碼可以完全地在用戶計算機上執行、部分地在用戶計算機上執行、作為一個獨立的軟件包執行、部分在用戶計算機上部分在遠程計算機上執行、或者完全在遠程計算機或服務器上執行。在涉及遠程計算機的情形中,遠程計算機可以通過任意種類的網絡——包括局域網(lan)或廣域網(wan)—連接到用戶計算機,或者,可以連接到外部計算機(例如利用因特網服務提供商來通過因特網連接)。
在本發明所提供的幾個實施例中,應該理解到,所揭露的系統,裝置和方法,可以通過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網絡單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。
另外,在本發明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現,也可以采用硬件加軟件功能單元的形式實現。
上述以軟件功能單元的形式實現的集成的單元,可以存儲在一個計算機可讀取存儲介質中。上述軟件功能單元存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網絡設備等)或處理器(processor)執行本發明各個實施例所述方法的部分步驟。而前述的存儲介質包括:u盤、移動硬盤、只讀存儲器(read-onlymemory,rom)、隨機存取存儲器(randomaccessmemory,ram)、磁碟或者光盤等各種可以存儲程序代碼的介質。
以上所述僅為本發明的較佳實施例而已,并不用以限制本發明,凡在本發明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明保護的范圍之內。