本發(fā)明實施例涉及語音識別技術(shù),尤其涉及一種聲學(xué)模型訓(xùn)練方法和裝置、計算機設(shè)備、存儲介質(zhì)。
背景技術(shù):
語音技術(shù)在近年來開始改變我們的生活和工作方式,其中,語音識別是以語音為研究對象,通過語音信號處理和模式識別讓機器自動識別和理解人類口述的語言,是一種方便的人機交互方式,現(xiàn)廣泛的應(yīng)用于移動互聯(lián)網(wǎng)等領(lǐng)域中,例如信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等等。而語音識別技術(shù)就是讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。
在語音識別技術(shù)中,聲學(xué)模型的準(zhǔn)確率決定了語音識別的正確性和效果,而訓(xùn)練用于語音識別的聲學(xué)模型需要高質(zhì)量的大量語音標(biāo)注數(shù)據(jù),而且數(shù)據(jù)越多訓(xùn)練出來的聲學(xué)模型的準(zhǔn)確率就越高。然而,人工標(biāo)注語音數(shù)據(jù)非常耗時,通過人工標(biāo)注手段來獲取大量的訓(xùn)練數(shù)據(jù)可行性差,而若從第三方購買大量語音標(biāo)注數(shù)據(jù)則價錢昂貴,不易實現(xiàn)。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供一種聲學(xué)模型訓(xùn)練方法和裝置、計算機設(shè)備、存儲介質(zhì),以解決現(xiàn)有技術(shù)中訓(xùn)練聲學(xué)模型耗時且成本高的問題。
第一方面,本發(fā)明實施例提供了一種聲學(xué)模型訓(xùn)練方法,該方法包括:
獲取有監(jiān)督語音數(shù)據(jù)和無監(jiān)督語音數(shù)據(jù),其中,有監(jiān)督語音數(shù)據(jù)為帶有人工標(biāo)注的語音數(shù)據(jù),無監(jiān)督語音數(shù)據(jù)為帶有機器標(biāo)注的語音數(shù)據(jù);
從所述有監(jiān)督語音數(shù)據(jù)和無監(jiān)督語音數(shù)據(jù)中提取語音特征;
利用深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu),對所述有監(jiān)督語音數(shù)據(jù)和無監(jiān)督語音數(shù)據(jù)的語音特征分別進行有監(jiān)督學(xué)習(xí)任務(wù)和無監(jiān)督學(xué)習(xí)任務(wù)的多任務(wù)學(xué)習(xí),以訓(xùn)練并獲得聲學(xué)模型。
第二方面,本發(fā)明實施例還提供了一種聲學(xué)模型訓(xùn)練裝置,該裝置包括:
數(shù)據(jù)獲取模塊,用于獲取有監(jiān)督語音數(shù)據(jù)和無監(jiān)督語音數(shù)據(jù),其中,有監(jiān)督語音數(shù)據(jù)為帶有人工標(biāo)注的語音數(shù)據(jù),無監(jiān)督語音數(shù)據(jù)為帶有機器標(biāo)注的語音數(shù)據(jù);
特征提取模塊,用于從所述有監(jiān)督語音數(shù)據(jù)和無監(jiān)督語音數(shù)據(jù)中提取語音特征;
模型訓(xùn)練模塊,用于利用深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu),對所述有監(jiān)督語音數(shù)據(jù)和無監(jiān)督語音數(shù)據(jù)的語音特征分別進行有監(jiān)督學(xué)習(xí)任務(wù)和無監(jiān)督學(xué)習(xí)任務(wù)的多任務(wù)學(xué)習(xí),以訓(xùn)練并獲得聲學(xué)模型。
第三方面,本發(fā)明實施例還提供了一種計算機設(shè)備,包括:
一個或多個處理器;
存儲裝置,用于存儲一個或多個程序,
當(dāng)所述一個或多個程序被所述一個或多個處理器執(zhí)行,使得所述一個或多個處理器實現(xiàn)如上所述的聲學(xué)模型訓(xùn)練方法。
第四方面,本發(fā)明實施例還提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)如上所述的聲學(xué)模型訓(xùn)練方法。
本發(fā)明實施例利用有監(jiān)督語音數(shù)據(jù)和無監(jiān)督語音數(shù)據(jù)的語音特征,共同作為訓(xùn)練數(shù)據(jù),并利用多任務(wù)學(xué)習(xí)方法,訓(xùn)練并獲得聲學(xué)模型,其中,有監(jiān)督語音數(shù)據(jù)為帶有人工標(biāo)注的語音數(shù)據(jù),而無監(jiān)督語音數(shù)據(jù)為帶有機器標(biāo)注的語音數(shù)據(jù),從而節(jié)省了聲學(xué)模型訓(xùn)練所需的人工標(biāo)注語音數(shù)據(jù)的成本,也無需購買價格昂貴的人工標(biāo)注語音數(shù)據(jù),并且可以持續(xù)提升語音識別的性能。
附圖說明
圖1為本發(fā)明實施例一中的聲學(xué)模型訓(xùn)練方法的流程圖;
圖2是本發(fā)明實施例二中的聲學(xué)模型訓(xùn)練方法的流程圖;
圖3是本發(fā)明實施例三中的聲學(xué)模型訓(xùn)練裝置的結(jié)構(gòu)示意圖;
圖4是本發(fā)明實施例四中的計算機設(shè)備的結(jié)構(gòu)示意圖。
具體實施方式
下面結(jié)合附圖和實施例對本發(fā)明作進一步的詳細說明。可以理解的是,此處所描述的具體實施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。
實施例一
圖1為本發(fā)明實施例一提供的聲學(xué)模型訓(xùn)練方法的流程圖,本實施例可適用于訓(xùn)練獲得聲學(xué)模型的情況,該方法可以由聲學(xué)模型訓(xùn)練裝置來執(zhí)行,該裝置可以采用軟件和/或硬件的方式實現(xiàn)。如圖1所示,該方法具體包括:
s101、獲取有監(jiān)督語音數(shù)據(jù)和無監(jiān)督語音數(shù)據(jù),其中,有監(jiān)督語音數(shù)據(jù)為帶有人工標(biāo)注的語音數(shù)據(jù),無監(jiān)督語音數(shù)據(jù)為帶有機器標(biāo)注的語音數(shù)據(jù)。
具體的,有監(jiān)督語音數(shù)據(jù)可以是預(yù)先人工標(biāo)注好的語音數(shù)據(jù),也可以是預(yù)先購買的人工標(biāo)注語音數(shù)據(jù),或者二者皆有。無監(jiān)督語音數(shù)據(jù)可以從互聯(lián)網(wǎng)的線上產(chǎn)品中獲取,例如從百度搜索或百度輸入法等匿名用戶流量中獲取,這些無監(jiān)督語音數(shù)據(jù)沒有進行過人工標(biāo)注,只帶有機器標(biāo)注,也就是只有線上語音服務(wù)自動識別的結(jié)果作為標(biāo)注。
s102、從所述有監(jiān)督語音數(shù)據(jù)和無監(jiān)督語音數(shù)據(jù)中提取語音特征。
具體的,需要提取有監(jiān)督語音數(shù)據(jù)和無監(jiān)督語音數(shù)據(jù)的語音特征以轉(zhuǎn)換成便于聲學(xué)模型訓(xùn)練的形式,如mfcc(mel-frequencycepstrumcoefficients,梅爾頻率倒譜系數(shù))、fbank(mel-scalefilterbank,梅爾標(biāo)度濾波器組)等,本發(fā)明實施例對語音特征的形式不作任何限定,可采用不同的語音特征形式用于訓(xùn)練聲學(xué)模型。
s103、利用深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu),對所述有監(jiān)督語音數(shù)據(jù)和無監(jiān)督語音數(shù)據(jù)的語音特征分別進行有監(jiān)督學(xué)習(xí)任務(wù)和無監(jiān)督學(xué)習(xí)任務(wù)的多任務(wù)學(xué)習(xí),以訓(xùn)練并獲得聲學(xué)模型。
現(xiàn)有技術(shù)中為了訓(xùn)練出準(zhǔn)確的聲學(xué)模型需要大量的人工標(biāo)注語音數(shù)據(jù)來進行訓(xùn)練,因而存在耗時和成本高的問題。而本發(fā)明實施例同時利用有監(jiān)督語音數(shù)居和無監(jiān)督語音數(shù)據(jù)共同作為訓(xùn)練數(shù)據(jù),分別進行有監(jiān)督學(xué)習(xí)任務(wù)和無監(jiān)督學(xué)習(xí)任務(wù)的多任務(wù)學(xué)習(xí),訓(xùn)練并獲得聲學(xué)模型,從而避免了全部使用大量且昂貴的人工標(biāo)注語音數(shù)據(jù),降低了成本。
這里需要說明的是,傳統(tǒng)的單任務(wù)學(xué)習(xí)方法僅有一個學(xué)習(xí)任務(wù),通常采用有監(jiān)督數(shù)據(jù)進行訓(xùn)練,即利用經(jīng)人工標(biāo)注的語音數(shù)據(jù)訓(xùn)練聲學(xué)模型,使其能夠準(zhǔn)確的預(yù)測語音的內(nèi)容。本發(fā)明實施例同時采用有監(jiān)督語音數(shù)據(jù)和無監(jiān)督語音數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),由于其中的無監(jiān)督語音數(shù)據(jù)的質(zhì)量沒有人工標(biāo)注的有監(jiān)督語音數(shù)據(jù)高,那么如果不對其加以區(qū)分,將它們直接混合以訓(xùn)練聲學(xué)模型,通常會造成模型性能的下降。因此,本發(fā)明實施例采用所述多任務(wù)學(xué)習(xí)的方式,讓深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)同時學(xué)習(xí)兩個任務(wù),分別為有監(jiān)督學(xué)習(xí)任務(wù)和無監(jiān)督學(xué)習(xí)任務(wù),分別通過有監(jiān)督語音數(shù)據(jù)和無監(jiān)督語音數(shù)據(jù)的語音特征來訓(xùn)練,調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù),從而避免了單任務(wù)學(xué)習(xí)的上述問題。
具體的,本發(fā)明實施例中利用的深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)可以是任意一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),例如深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)或者深度循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)等,本發(fā)明實施例對此不作任何限定。
作為一種優(yōu)選的實施方式,所述深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)包括輸入層、至少一層隱含層和輸出層;其中,輸入層為有監(jiān)督學(xué)習(xí)任務(wù)和無監(jiān)督學(xué)習(xí)任務(wù)共享;至少一層隱含層為有監(jiān)督學(xué)習(xí)任務(wù)和無監(jiān)督學(xué)習(xí)任務(wù)共享,由有監(jiān)督語音數(shù)據(jù)和無監(jiān)督語音數(shù)據(jù)共同進行訓(xùn)練;輸出層包括有監(jiān)督學(xué)習(xí)任務(wù)輸出層和無監(jiān)督學(xué)習(xí)任務(wù)輸出層。
此外,作為另一種優(yōu)選的實施方式,所述深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)包括輸入層、至少一層隱含層和輸出層;其中,輸入層為有監(jiān)督學(xué)習(xí)任務(wù)和無監(jiān)督學(xué)習(xí)任務(wù)共享;所述至少一層隱含層中的第一部分隱含層為有監(jiān)督學(xué)習(xí)任務(wù)和無監(jiān)督學(xué)習(xí)任務(wù)共享,第二部分隱含層分別由有監(jiān)督學(xué)習(xí)任務(wù)和無監(jiān)督學(xué)習(xí)任務(wù)單獨進行訓(xùn)練調(diào)整;輸出層包括有監(jiān)督學(xué)習(xí)任務(wù)輸出層和無監(jiān)督學(xué)習(xí)任務(wù)輸出層。
對于上述兩種不同的實施方式,都可以實現(xiàn)多任務(wù)學(xué)習(xí),區(qū)別在于隱含層是否對兩種學(xué)習(xí)任務(wù)共享,實現(xiàn)時,可以根據(jù)需要來設(shè)定,并選取隱含層的層數(shù)。作為一種示例,若隱含層為3層,可以是3層隱含層全部為有監(jiān)督學(xué)習(xí)任務(wù)和無監(jiān)督學(xué)習(xí)任務(wù)共享,也可以是最后一層由有監(jiān)督學(xué)習(xí)任務(wù)和無監(jiān)督學(xué)習(xí)任務(wù)單獨進行訓(xùn)練調(diào)整,前面兩層為有監(jiān)督學(xué)習(xí)任務(wù)和無監(jiān)督學(xué)習(xí)任務(wù)共享。
模型訓(xùn)練完成后,即確定了模型的參數(shù),可以在推理階段利用該模型來識別新的語音數(shù)據(jù)。對于此,優(yōu)選的,可以包括如下兩種確定最終聲學(xué)模型的方式:
方式一:在模型訓(xùn)練完成后,最終獲得的聲學(xué)模型是丟棄由無監(jiān)督學(xué)習(xí)任務(wù)訓(xùn)練調(diào)整的隱含層參數(shù)和/或輸出層參數(shù)后得到的聲學(xué)模型,以便在推理階段只保留聲學(xué)模型中有監(jiān)督學(xué)習(xí)任務(wù)部分的輸出結(jié)果;或者
方式二:在模型訓(xùn)練完成后,最終獲得的聲學(xué)模型是保留全部的模型參數(shù)得到的聲學(xué)模型,以便在推理階段同時保留有監(jiān)督學(xué)習(xí)任務(wù)的輸出結(jié)果和無監(jiān)督學(xué)習(xí)任務(wù)的輸出結(jié)果,并進行融合,作為最終的輸出結(jié)果。其中,可以采用求平均值或求加權(quán)平均等方法進行融合,本發(fā)明實施例對此不作任何限定。
對于上述方式一,若在訓(xùn)練時,至少一層隱含層為有監(jiān)督學(xué)習(xí)任務(wù)和無監(jiān)督學(xué)習(xí)任務(wù)共享,由有監(jiān)督語音數(shù)據(jù)和無監(jiān)督語音數(shù)據(jù)共同進行訓(xùn)練,則丟棄無監(jiān)督學(xué)習(xí)任務(wù)對應(yīng)的輸出層參數(shù)即可;而若至少一層隱含層中的第一部分隱含層為有監(jiān)督學(xué)習(xí)任務(wù)和無監(jiān)督學(xué)習(xí)任務(wù)共享,第二部分隱含層分別由有監(jiān)督學(xué)習(xí)任務(wù)和無監(jiān)督學(xué)習(xí)任務(wù)單獨進行訓(xùn)練調(diào)整,則丟棄由無監(jiān)督學(xué)習(xí)任務(wù)訓(xùn)練調(diào)整的隱含層參數(shù)和對應(yīng)的輸出層參數(shù)。丟棄后得到最終的聲學(xué)模型,用于在推理階段進行語音識別。
本發(fā)明實施例利用有監(jiān)督語音數(shù)據(jù)和無監(jiān)督語音數(shù)據(jù)的語音特征,共同作為訓(xùn)練數(shù)據(jù),并利用多任務(wù)學(xué)習(xí)方法,訓(xùn)練并獲得聲學(xué)模型,其中,有監(jiān)督語音數(shù)據(jù)為帶有人工標(biāo)注的語音數(shù)據(jù),而無監(jiān)督語音數(shù)據(jù)為帶有機器標(biāo)注的語音數(shù)據(jù),從而節(jié)省了聲學(xué)模型訓(xùn)練所需的人工標(biāo)注語音數(shù)據(jù)的成本,也無需購買價格昂貴的人工標(biāo)注語音數(shù)據(jù),并且可以持續(xù)提升語音識別的性能。
實施例二
圖2為本發(fā)明實施例二提供的聲學(xué)模型訓(xùn)練方法的流程圖,本實施例二在實施例一的基礎(chǔ)上進行進一步地優(yōu)化。如圖2所示,所述方法包括:
s201、獲取有監(jiān)督語音數(shù)據(jù)和無監(jiān)督語音數(shù)據(jù),其中,有監(jiān)督語音數(shù)據(jù)為帶有人工標(biāo)注的語音數(shù)據(jù),無監(jiān)督語音數(shù)據(jù)為帶有機器標(biāo)注的語音數(shù)據(jù)。
s202、通過置信度過濾手段對所述無監(jiān)督語音數(shù)據(jù)進行過濾和篩選。
從互聯(lián)網(wǎng)的線上產(chǎn)品中直接獲取到的無監(jiān)督語音數(shù)據(jù)通常會存在質(zhì)量不高的數(shù)據(jù),例如不完整的語音數(shù)據(jù)、存在雜音不清晰的語音數(shù)據(jù)或者是利用價值不高的常用的語音數(shù)據(jù)等。而置信度過濾手段可以包括如用戶畫像、文本特征或聲學(xué)似然等,通過置信度過濾手段,過濾和篩選出質(zhì)量相對較高的語音數(shù)據(jù),以便訓(xùn)練出更加準(zhǔn)確的聲學(xué)模型。
s203、從所述有監(jiān)督語音數(shù)據(jù)和無監(jiān)督語音數(shù)據(jù)中提取語音特征。
s204、利用深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu),對所述有監(jiān)督語音數(shù)據(jù)和無監(jiān)督語音數(shù)據(jù)的語音特征分別進行有監(jiān)督學(xué)習(xí)任務(wù)和無監(jiān)督學(xué)習(xí)任務(wù)的多任務(wù)學(xué)習(xí),以按照預(yù)先對有監(jiān)督學(xué)習(xí)任務(wù)和無監(jiān)督學(xué)習(xí)任務(wù)設(shè)置的各自的權(quán)重來進行訓(xùn)練并獲得聲學(xué)模型。
在本發(fā)明實施例中,可以在訓(xùn)練之前,根據(jù)需要,預(yù)先設(shè)置有監(jiān)督學(xué)習(xí)任務(wù)和無監(jiān)督學(xué)習(xí)任務(wù)各自的權(quán)重,以按照該權(quán)重進行有監(jiān)督學(xué)習(xí)任務(wù)和無監(jiān)督學(xué)習(xí)任務(wù)的多任務(wù)學(xué)習(xí),從而使得訓(xùn)練結(jié)果更加符合實際應(yīng)用的需要,并可以根據(jù)訓(xùn)練數(shù)據(jù)的質(zhì)量進行靈活的調(diào)整。
本發(fā)明實施例通過置信度過濾手段可以篩選出質(zhì)量更高的無監(jiān)督語音數(shù)據(jù),用來訓(xùn)練出更加準(zhǔn)確的聲學(xué)模型,同時,通過權(quán)重的設(shè)置以便更好的進行多任務(wù)學(xué)習(xí),提高應(yīng)用的靈活性和準(zhǔn)確度。
實施例三
圖3是本發(fā)明實施例三中的聲學(xué)模型訓(xùn)練裝置的結(jié)構(gòu)示意圖。如圖3所示,聲學(xué)模型訓(xùn)練裝置3包括:
數(shù)據(jù)獲取模塊310,用于獲取有監(jiān)督語音數(shù)據(jù)和無監(jiān)督語音數(shù)據(jù),其中,有監(jiān)督語音數(shù)據(jù)為帶有人工標(biāo)注的語音數(shù)據(jù),無監(jiān)督語音數(shù)據(jù)為帶有機器標(biāo)注的語音數(shù)據(jù);
特征提取模塊320,用于從所述有監(jiān)督語音數(shù)據(jù)和無監(jiān)督語音數(shù)據(jù)中提取語音特征;
模型訓(xùn)練模塊330,用于利用深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu),對所述有監(jiān)督語音數(shù)據(jù)和無監(jiān)督語音數(shù)據(jù)的語音特征分別進行有監(jiān)督學(xué)習(xí)任務(wù)和無監(jiān)督學(xué)習(xí)任務(wù)的多任務(wù)學(xué)習(xí),以訓(xùn)練并獲得聲學(xué)模型。
在一種優(yōu)選的實施方式中,所述深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)包括輸入層、至少一層隱含層和輸出層;
其中,輸入層為有監(jiān)督學(xué)習(xí)任務(wù)和無監(jiān)督學(xué)習(xí)任務(wù)共享;
至少一層隱含層為有監(jiān)督學(xué)習(xí)任務(wù)和無監(jiān)督學(xué)習(xí)任務(wù)共享,由有監(jiān)督語音數(shù)據(jù)和無監(jiān)督語音數(shù)據(jù)共同進行訓(xùn)練;
輸出層包括有監(jiān)督學(xué)習(xí)任務(wù)輸出層和無監(jiān)督學(xué)習(xí)任務(wù)輸出層。
在另一種優(yōu)選的實施方式中,所述深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)包括輸入層、至少一層隱含層和輸出層;
其中,輸入層為有監(jiān)督學(xué)習(xí)任務(wù)和無監(jiān)督學(xué)習(xí)任務(wù)共享;
所述至少一層隱含層中的第一部分隱含層為有監(jiān)督學(xué)習(xí)任務(wù)和無監(jiān)督學(xué)習(xí)任務(wù)共享,第二部分隱含層分別由有監(jiān)督學(xué)習(xí)任務(wù)和無監(jiān)督學(xué)習(xí)任務(wù)單獨進行訓(xùn)練調(diào)整;
輸出層包括有監(jiān)督學(xué)習(xí)任務(wù)輸出層和無監(jiān)督學(xué)習(xí)任務(wù)輸出層。
模型訓(xùn)練完成后,即確定了模型的參數(shù),可以在推理階段利用該模型來識別新的語音數(shù)據(jù)。對于此,優(yōu)選的,可以包括如下兩種確定最終聲學(xué)模型的方式:
方式一:在模型訓(xùn)練完成后,最終獲得的聲學(xué)模型是丟棄由無監(jiān)督學(xué)習(xí)任務(wù)訓(xùn)練調(diào)整的隱含層參數(shù)和/或輸出層參數(shù)后得到的聲學(xué)模型,以便在推理階段只保留聲學(xué)模型中有監(jiān)督學(xué)習(xí)任務(wù)部分的輸出結(jié)果;或者
方式二:在模型訓(xùn)練完成后,最終獲得的聲學(xué)模型是保留全部的模型參數(shù)得到的聲學(xué)模型,以便在推理階段同時保留有監(jiān)督學(xué)習(xí)任務(wù)的輸出結(jié)果和無監(jiān)督學(xué)習(xí)任務(wù)的輸出結(jié)果,并進行融合,作為最終的輸出結(jié)果。其中,可以采用求平均值或求加權(quán)平均等方法進行融合,本發(fā)明實施例對此不作任何限定。
進一步的,所述模型訓(xùn)練模塊330具體用于:對所述無監(jiān)督語音數(shù)據(jù)和有監(jiān)督語音數(shù)據(jù)的語音特征分別進行有監(jiān)督學(xué)習(xí)任務(wù)和無監(jiān)督學(xué)習(xí)任務(wù)的多任務(wù)學(xué)習(xí),以按照預(yù)先對有監(jiān)督學(xué)習(xí)任務(wù)和無監(jiān)督學(xué)習(xí)任務(wù)設(shè)置的各自的權(quán)重來進行訓(xùn)練并獲得聲學(xué)模型。
進一步的,所述裝置3還包括:
過濾模塊(圖3中未示出),用于在數(shù)據(jù)獲取模塊310獲取有監(jiān)督語音數(shù)據(jù)和無監(jiān)督語音數(shù)據(jù)之后,并在特征提取模塊320提取語音特征之前,通過置信度過濾手段對所述無監(jiān)督語音數(shù)據(jù)進行過濾和篩選。
本發(fā)明實施例所提供的聲學(xué)模型訓(xùn)練裝置可執(zhí)行本發(fā)明任意實施例所提供的聲學(xué)模型訓(xùn)練方法,具備執(zhí)行方法相應(yīng)的功能模塊和有益效果。
實施例四
圖4為本發(fā)明實施例四提供的一種計算機設(shè)備的結(jié)構(gòu)示意圖。圖4示出了適于用來實現(xiàn)本發(fā)明實施方式的示例性計算機設(shè)備12的框圖。圖4顯示的計算機設(shè)備12僅僅是一個示例,不應(yīng)對本發(fā)明實施例的功能和使用范圍帶來任何限制。
如圖4所示,計算機設(shè)備12以通用計算設(shè)備的形式表現(xiàn)。計算機設(shè)備12的組件可以包括但不限于:一個或者多個處理器或者處理單元16,系統(tǒng)存儲器28,連接不同系統(tǒng)組件(包括系統(tǒng)存儲器28和處理單元16)的總線18。
總線18表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲器總線或者存儲器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來說,這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(isa)總線,微通道體系結(jié)構(gòu)(mac)總線,增強型isa總線、視頻電子標(biāo)準(zhǔn)協(xié)會(vesa)局域總線以及外圍組件互連(pci)總線。
計算機設(shè)備12典型地包括多種計算機系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被計算機設(shè)備12訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動的和不可移動的介質(zhì)。
系統(tǒng)存儲器28可以包括易失性存儲器形式的計算機系統(tǒng)可讀介質(zhì),例如隨機存取存儲器(ram)30和/或高速緩存存儲器32。計算機設(shè)備12可以進一步包括其它可移動/不可移動的、易失性/非易失性計算機系統(tǒng)存儲介質(zhì)。僅作為舉例,存儲系統(tǒng)34可以用于讀寫不可移動的、非易失性磁介質(zhì)(圖4未顯示,通常稱為“硬盤驅(qū)動器”)。盡管圖4中未示出,可以提供用于對可移動非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動器,以及對可移動非易失性光盤(例如cd-rom,dvd-rom或者其它光介質(zhì))讀寫的光盤驅(qū)動器。在這些情況下,每個驅(qū)動器可以通過一個或者多個數(shù)據(jù)介質(zhì)接口與總線18相連。存儲器28可以包括至少一個程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個)程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明各實施例的功能。
具有一組(至少一個)程序模塊42的程序/實用工具40,可以存儲在例如存儲器28中,這樣的程序模塊42包括但不限于操作系統(tǒng)、一個或者多個應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實現(xiàn)。程序模塊42通常執(zhí)行本發(fā)明所描述的實施例中的功能和/或方法。
計算機設(shè)備12也可以與一個或多個外部設(shè)備14(例如鍵盤、指向設(shè)備、顯示器24等)通信,還可與一個或者多個使得用戶能與該計算機設(shè)備12交互的設(shè)備通信,和/或與使得該計算機設(shè)備12能與一個或多個其它計算設(shè)備進行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(i/o)接口22進行。并且,計算機設(shè)備12還可以通過網(wǎng)絡(luò)適配器20與一個或者多個網(wǎng)絡(luò)(例如局域網(wǎng)(lan),廣域網(wǎng)(wan)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖所示,網(wǎng)絡(luò)適配器20通過總線18與計算機設(shè)備12的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合計算機設(shè)備12使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動器、冗余處理單元、外部磁盤驅(qū)動陣列、raid系統(tǒng)、磁帶驅(qū)動器以及數(shù)據(jù)備份存儲系統(tǒng)等。
處理單元16通過運行存儲在系統(tǒng)存儲器28中的程序,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,例如實現(xiàn)本發(fā)明實施例所提供的聲學(xué)模型訓(xùn)練方法。
實施例五
本發(fā)明實施例五還提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)如本發(fā)明實施例所提供的聲學(xué)模型訓(xùn)練方法。
本發(fā)明實施例的計算機存儲介質(zhì),可以采用一個或多個計算機可讀的介質(zhì)的任意組合。計算機可讀介質(zhì)可以是計算機可讀信號介質(zhì)或者計算機可讀存儲介質(zhì)。計算機可讀存儲介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計算機可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個或多個導(dǎo)線的電連接、便攜式計算機磁盤、硬盤、隨機存取存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計算機可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。
計算機可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計算機可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括但不限于電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質(zhì)還可以是計算機可讀存儲介質(zhì)以外的任何計算機可讀介質(zhì),該計算機可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。
計算機可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括——但不限于無線、電線、光纜、rf等等,或者上述的任意合適的組合。
可以以一種或多種程序設(shè)計語言或其組合來編寫用于執(zhí)行本發(fā)明操作的計算機程序代碼,所述程序設(shè)計語言包括面向?qū)ο蟮某绦蛟O(shè)計語言—諸如java、smalltalk、c++,還包括常規(guī)的過程式程序設(shè)計語言—諸如”c”語言或類似的程序設(shè)計語言。程序代碼可以完全地在用戶計算機上執(zhí)行、部分地在用戶計算機上執(zhí)行、作為一個獨立的軟件包執(zhí)行、部分在用戶計算機上部分在遠程計算機上執(zhí)行、或者完全在遠程計算機或服務(wù)器上執(zhí)行。在涉及遠程計算機的情形中,遠程計算機可以通過任意種類的網(wǎng)絡(luò)——包括局域網(wǎng)(lan)或廣域網(wǎng)(wan)—連接到用戶計算機,或者,可以連接到外部計算機(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。
注意,上述僅為本發(fā)明的較佳實施例及所運用技術(shù)原理。本領(lǐng)域技術(shù)人員會理解,本發(fā)明不限于這里所述的特定實施例,對本領(lǐng)域技術(shù)人員來說能夠進行各種明顯的變化、重新調(diào)整和替代而不會脫離本發(fā)明的保護范圍。因此,雖然通過以上實施例對本發(fā)明進行了較為詳細的說明,但是本發(fā)明不僅僅限于以上實施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。