本發(fā)明涉及語(yǔ)音降噪處理領(lǐng)域,更具體地說(shuō),本發(fā)明涉及一種基于人工智能的智能通訊設(shè)備語(yǔ)音降噪方法及系統(tǒng)。
背景技術(shù):
1、語(yǔ)音失真與音質(zhì)下降是智能通訊設(shè)備在語(yǔ)音降噪過(guò)程中常見(jiàn)的問(wèn)題,尤其是在結(jié)合方言這一特殊場(chǎng)景時(shí),問(wèn)題可能會(huì)進(jìn)一步放大。在降噪過(guò)程中,尤其在低信噪比環(huán)境下,部分算法可能會(huì)過(guò)度濾除語(yǔ)音信號(hào)中的某些頻率成分,導(dǎo)致語(yǔ)音聽(tīng)起來(lái)不自然(如“機(jī)器人音”或“空洞感”)。當(dāng)用戶(hù)使用方言時(shí),這一問(wèn)題可能更加突出,因?yàn)榉窖缘恼Z(yǔ)音特征(如音調(diào)、音色、諧波結(jié)構(gòu))與普通話(huà)或其他標(biāo)準(zhǔn)語(yǔ)言存在顯著差異。
2、這是因?yàn)榇蠖鄶?shù)降噪算法是基于普通話(huà)、英語(yǔ)或其他標(biāo)準(zhǔn)語(yǔ)言的大規(guī)模數(shù)據(jù)集進(jìn)行訓(xùn)練的。這些數(shù)據(jù)集往往缺乏足夠的方言樣本,導(dǎo)致算法對(duì)非標(biāo)準(zhǔn)語(yǔ)音的特征建模不足。
3、此外,降噪算法通常通過(guò)頻譜分析來(lái)區(qū)分語(yǔ)音和噪聲,但在低信噪比環(huán)境下,語(yǔ)音信號(hào)的諧波或細(xì)節(jié)成分可能與噪聲的頻譜特征重疊。方言中某些獨(dú)特的頻率成分(如高頻聲調(diào)或低頻喉音)更容易被誤判為噪聲并被濾除,可能無(wú)法很好地適應(yīng)這種快速變化的語(yǔ)音模式,導(dǎo)致細(xì)節(jié)丟失。聽(tīng)起來(lái)模糊或不完整。影響語(yǔ)義的準(zhǔn)確傳遞。
4、鑒于此,本發(fā)明提出一種基于人工智能的智能通訊設(shè)備語(yǔ)音降噪系統(tǒng)以解決上述問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、為了克服現(xiàn)有技術(shù)的上述缺陷,為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于人工智能的智能通訊設(shè)備語(yǔ)音降噪系統(tǒng),包括智能通訊設(shè)備,在智能通訊設(shè)備上部署麥克風(fēng)陣列,用于收錄用戶(hù)實(shí)時(shí)的帶噪語(yǔ)音數(shù)據(jù);
2、將收錄的帶噪語(yǔ)音數(shù)據(jù)輸入到邊緣層中,邊緣層中部署有預(yù)訓(xùn)練完成的降噪算法,通過(guò)實(shí)時(shí)處理獲取降噪后的語(yǔ)音數(shù)據(jù),并進(jìn)行輸出;
3、其中,降噪算法的層級(jí)部署具體包括:預(yù)構(gòu)建方言語(yǔ)音數(shù)據(jù)庫(kù),在條件對(duì)抗網(wǎng)絡(luò)cgan中添設(shè)場(chǎng)景演化層、音變層和噪聲混合層來(lái)擴(kuò)充方言語(yǔ)音數(shù)據(jù)庫(kù),形成數(shù)據(jù)樣本,并對(duì)數(shù)據(jù)樣本中每個(gè)語(yǔ)音數(shù)據(jù)進(jìn)行三維度標(biāo)注;
4、基于端到端語(yǔ)音增強(qiáng)模型設(shè)計(jì)輸入、輸出和多任務(wù)學(xué)習(xí)機(jī)制,并使用數(shù)據(jù)樣本進(jìn)行預(yù)訓(xùn)練,多任務(wù)學(xué)習(xí)機(jī)制采用深度學(xué)習(xí)結(jié)構(gòu)與生成對(duì)抗網(wǎng)絡(luò)gan結(jié)合的方式進(jìn)行語(yǔ)音重建,在多任務(wù)學(xué)習(xí)機(jī)制中設(shè)置一個(gè)共享編碼器用于聯(lián)合任務(wù)r1、任務(wù)r2和任務(wù)r3,任務(wù)r1基于u-net設(shè)計(jì)irm估計(jì)器,并使用irm估計(jì)器訓(xùn)練cirm模型用于噪聲抑制,且添設(shè)一個(gè)輕量級(jí)的信噪比估計(jì)器;任務(wù)r2基于特征嵌入層、聲調(diào)保護(hù)模塊、音色保護(hù)模塊和語(yǔ)義輔助降噪模塊聯(lián)合進(jìn)行方言特征的保留監(jiān)督;任務(wù)r3通過(guò)生成對(duì)抗網(wǎng)絡(luò)重建語(yǔ)音。
5、優(yōu)選地,所述在智能通訊設(shè)備上部署麥克風(fēng)陣列,用于收錄用戶(hù)的語(yǔ)音數(shù)據(jù)的方法包括:
6、根據(jù)智能通訊設(shè)備的尺寸和邊緣層的計(jì)算資源選擇合適的陣列以及間距,麥克風(fēng)選擇高采樣率和寬頻率范圍,配備高動(dòng)態(tài)范圍的模數(shù)轉(zhuǎn)換器,并使用接口與智能通訊設(shè)備的邊緣層連接。
7、優(yōu)選地,所述數(shù)據(jù)樣本的收集方法包括;
8、在低信噪比環(huán)境中錄制用戶(hù)的方言語(yǔ)音數(shù)據(jù),構(gòu)建覆蓋低信噪比環(huán)境的方言語(yǔ)音數(shù)據(jù)庫(kù);
9、預(yù)設(shè)條件對(duì)抗網(wǎng)絡(luò)cgan?的架構(gòu)包括生成器和判別器,將方言語(yǔ)音數(shù)據(jù)庫(kù)中的語(yǔ)音數(shù)據(jù)輸入到生成器中,在生成器中添設(shè)場(chǎng)景演化層、音變層和噪聲混合層,采用交替訓(xùn)練的方式,輪流訓(xùn)練生成器和判別器,當(dāng)訓(xùn)練完成后,固定判別器,使用生成器生成新的低信噪比方言語(yǔ)音數(shù)據(jù),生成的數(shù)據(jù)用于擴(kuò)充現(xiàn)有的方言語(yǔ)音數(shù)據(jù)庫(kù),形成數(shù)據(jù)樣本;
10、設(shè)置一個(gè)三維度空白數(shù)集,三維度包括多粒度聲學(xué)特征、噪音特征和語(yǔ)義特征,多粒度聲學(xué)特征包括語(yǔ)音數(shù)據(jù)的音素級(jí)、發(fā)音方式、韻律特征和音色,噪音特征包括噪聲事件、噪聲成分和時(shí)頻分布,語(yǔ)義特征包括詞級(jí)標(biāo)注、句子級(jí)標(biāo)注和篇章級(jí)標(biāo)注;提取數(shù)據(jù)樣本中每個(gè)語(yǔ)音數(shù)據(jù)的三維度數(shù)據(jù),將數(shù)據(jù)填入到空白數(shù)集中,形成每個(gè)語(yǔ)音數(shù)據(jù)的三維度標(biāo)注。
11、優(yōu)選地,所述在生成器中添設(shè)場(chǎng)景演化層、音變層和噪聲混合層的方法包括:
12、場(chǎng)景演化層的輸入為預(yù)設(shè)的場(chǎng)景標(biāo)簽,根據(jù)場(chǎng)景標(biāo)簽,從方言語(yǔ)音數(shù)據(jù)庫(kù)中提取對(duì)應(yīng)的噪聲片段,通過(guò)隨機(jī)混合輸出場(chǎng)景語(yǔ)音,隨機(jī)混合包括單場(chǎng)景隔離和多場(chǎng)景疊加,單場(chǎng)景隔離是直接輸出選擇的噪聲片段,多場(chǎng)景疊加是根據(jù)每個(gè)場(chǎng)景預(yù)設(shè)的權(quán)重分布機(jī)制,將多個(gè)場(chǎng)景的噪聲片段進(jìn)行線(xiàn)性或非線(xiàn)性疊加;
13、概率分布機(jī)制是指對(duì)每個(gè)場(chǎng)景預(yù)設(shè)一個(gè)權(quán)重取值范圍,且多場(chǎng)景疊加時(shí)權(quán)重之和小于等于1;
14、音變層的輸入為語(yǔ)音編碼器的輸出和音變控制參數(shù),?根據(jù)方言的語(yǔ)音學(xué)特征,定義音變規(guī)則,形成基于規(guī)則的音變模型;利用帶有音變標(biāo)注的方言語(yǔ)音數(shù)據(jù),訓(xùn)練一個(gè)序列到序列的模型,用于預(yù)測(cè)和生成音變,形成基于數(shù)據(jù)驅(qū)動(dòng)的音變模型;將基于規(guī)則的音變模型和數(shù)據(jù)驅(qū)動(dòng)的音變模型結(jié)合起來(lái),通過(guò)調(diào)整音變參數(shù)來(lái)控制音變的程度和類(lèi)型,輸出經(jīng)過(guò)音變的語(yǔ)音特征序列,記為音變語(yǔ)音;
15、噪聲混合層的輸入為場(chǎng)景語(yǔ)音和音變語(yǔ)音,按照指定的信噪比進(jìn)行混合,輸出帶有噪聲和音變的語(yǔ)音特征序列,記為新的低信噪比方言語(yǔ)音數(shù)據(jù)。
16、優(yōu)選地,所述降噪算法的設(shè)計(jì)還包括:
17、基于端到端語(yǔ)音增強(qiáng)模型設(shè)計(jì)降噪算法,包括輸入、輸出和多任務(wù)學(xué)習(xí)機(jī)制,設(shè)定輸入為帶噪語(yǔ)音的時(shí)頻譜圖,多任務(wù)學(xué)習(xí)機(jī)制采用深度學(xué)習(xí)結(jié)構(gòu)進(jìn)行時(shí)頻處理,結(jié)合生成對(duì)抗網(wǎng)絡(luò)gan進(jìn)行語(yǔ)音重建,輸出為降噪后的純凈語(yǔ)音時(shí)頻譜圖;
18、輸入的帶噪語(yǔ)音通過(guò)短時(shí)傅里葉變換stft生成時(shí)頻譜圖,輸出的降噪后純凈語(yǔ)音時(shí)頻譜圖通過(guò)逆stft重建時(shí)域信號(hào),形成降噪后的語(yǔ)音數(shù)據(jù);
19、設(shè)計(jì)損失函數(shù)為降噪損失、語(yǔ)音重建損失、方言特征損失和自然度損失的加權(quán)和,降噪損失用于衡量低信噪比環(huán)境下的降噪效果,語(yǔ)音重建損失用于評(píng)估降噪后語(yǔ)音數(shù)據(jù)的感知質(zhì)量,方言特征損失用于衡量模型對(duì)聲調(diào)和音色的破壞,自然度損失用于衡量降噪后語(yǔ)音數(shù)據(jù)的自然度,增設(shè)損失優(yōu)先規(guī)則,即預(yù)設(shè)兩個(gè)閾值,滿(mǎn)足語(yǔ)音重建損失大于閾值且方言特征損失小于閾值;
20、使用數(shù)據(jù)樣本對(duì)降噪算法進(jìn)行預(yù)訓(xùn)練,直到損失函數(shù)值滿(mǎn)足要求或者達(dá)到迭代次數(shù)時(shí)停止,得到預(yù)訓(xùn)練完成的降噪算法,并將其部署在邊緣層,用于對(duì)實(shí)時(shí)的語(yǔ)音數(shù)據(jù)進(jìn)行處理。
21、優(yōu)選地,所述多任務(wù)學(xué)習(xí)機(jī)制采用深度學(xué)習(xí)結(jié)構(gòu)進(jìn)行時(shí)頻處理,結(jié)合生成對(duì)抗網(wǎng)絡(luò)gan進(jìn)行語(yǔ)音重建的方法包括:
22、設(shè)置一個(gè)共享編碼器用于提取時(shí)頻譜圖深層特征表示,使用深度學(xué)習(xí)結(jié)構(gòu),輸出編碼后的特征圖;
23、預(yù)設(shè)任務(wù)特定頭部包括任務(wù)r1、任務(wù)r2和任務(wù)r3,
24、任務(wù)r1用于噪聲抑制,在任務(wù)r1中的共享編碼器之后、irm估計(jì)器之前添設(shè)一個(gè)輕量級(jí)的信噪比估計(jì)器,用于評(píng)估輸入語(yǔ)音的信噪比水平;
25、任務(wù)r2用于方言特征保留,通過(guò)引入方言特征的監(jiān)督信息,保留關(guān)鍵特征不被濾除;
26、任務(wù)r3用于語(yǔ)音重建,通過(guò)生成對(duì)抗網(wǎng)絡(luò)重建語(yǔ)音的細(xì)節(jié),包括利用生成對(duì)抗網(wǎng)絡(luò)的生成器重建語(yǔ)音的諧波、聲調(diào)和快速變化的發(fā)音細(xì)節(jié),判別器增強(qiáng)語(yǔ)音的自然度;引入使用任務(wù)r2輸出的方言特征作為指導(dǎo)。
27、優(yōu)選地,所述任務(wù)r1用于噪聲抑制的方法包括:
28、任務(wù)r1基于u-net設(shè)計(jì)irm估計(jì)器,其輸入為共享編碼器輸出的特征圖,結(jié)構(gòu)包括編碼器、解碼器和輸出層,編碼器與共享編碼器結(jié)構(gòu)類(lèi)似或相同,且包含多個(gè)下采樣模塊,解碼器與編碼器對(duì)稱(chēng),包含多個(gè)上采樣模塊,將編碼器與解碼器進(jìn)行跳躍連接,輸出層設(shè)置為一個(gè)1x1卷積層,使用sigmoid激活函數(shù)將特征圖映射到irm掩碼,其中,輸出的irm掩碼的尺寸與輸入的stft頻譜圖相同;
29、損失函數(shù)為均方誤差或二元交叉熵,使用帶噪語(yǔ)音和干凈的語(yǔ)音數(shù)據(jù)對(duì)irm模型進(jìn)行訓(xùn)練,直到收斂,輸出為訓(xùn)練好的irm模型和預(yù)測(cè)的irm掩碼。
30、將共享編碼器的輸出特征圖和預(yù)測(cè)的irm掩碼作為cirm模型的輸入,基于u-net設(shè)計(jì)cirm估計(jì)器,且結(jié)構(gòu)與irm模型相似,不過(guò)在跳躍連接后增加irm融合,融合方法為將預(yù)測(cè)的irm與編碼器的輸出特征圖拼接在一起,作為cirm編碼器的輸入,在解碼器的每個(gè)上采樣模塊中,將預(yù)測(cè)的irm與上采樣后的特征圖進(jìn)行融合,cirm包含實(shí)部和虛部,設(shè)置損失函數(shù),輸出為預(yù)測(cè)的cirm掩碼;
31、將預(yù)測(cè)的cirm掩碼應(yīng)用于帶噪語(yǔ)音的stft頻譜,得到降噪后語(yǔ)音的stft頻譜。
32、優(yōu)選地,所述任務(wù)r1中的共享編碼器之后、irm估計(jì)器之前添設(shè)一個(gè)輕量級(jí)的信噪比估計(jì)器,用于評(píng)估輸入語(yǔ)音的信噪比水平,包括:
33、設(shè)置信噪比估計(jì)器的輸入為共享編碼器輸出的特征圖,結(jié)構(gòu)包括全局平均池化、全連接層、激活函數(shù)和輸出層,輸出層使用一個(gè)單一輸出的全連接層,且輸出為估計(jì)的snr值;
34、設(shè)定損失函數(shù)為均方誤差,用于計(jì)算估計(jì)的snr值與真實(shí)snr值之間的均方誤差,將帶噪語(yǔ)音的stft頻譜圖輸入共享編碼器,將共享編碼器的輸出特征圖輸入信噪比估計(jì)器,計(jì)算估計(jì)的snr值與真實(shí)snr值之間的mse損失,使用反向傳播算法更新信噪比估計(jì)器的權(quán)重;
35、在irm估計(jì)器中,將估計(jì)的snr值作為額外的輸入,與原定輸入一起輸入irm估計(jì)器中。
36、優(yōu)選地,所述任務(wù)r2用于方言特征保留,通過(guò)引入方言特征的監(jiān)督信息,保留關(guān)鍵特征不被濾除的方法包括:
37、包括特征嵌入層、聲調(diào)保護(hù)模塊、音色保護(hù)模塊和語(yǔ)義輔助降噪模塊;
38、特征嵌入層的輸入為帶噪語(yǔ)音數(shù)據(jù)+方言標(biāo)簽;將方言標(biāo)簽轉(zhuǎn)換為一個(gè)固定維度的向量,記為方言的嵌入向量;將此方言的嵌入向量與語(yǔ)音特征向量拼接或通過(guò)注意力機(jī)制融合,形成新的向量,新的向量將作為后續(xù)降噪算法的輸入;
39、聲調(diào)保護(hù)模塊的輸入為帶噪語(yǔ)音數(shù)據(jù),使用預(yù)訓(xùn)練的方言聲調(diào)分類(lèi)器,輸出為每個(gè)時(shí)間幀的聲調(diào)類(lèi)別概率分布和聲調(diào)輪廓特征;
40、在降噪過(guò)程中,通過(guò)損失函數(shù)約束輸出語(yǔ)音的聲調(diào)輪廓特征,使其與聲調(diào)保護(hù)模塊的聲調(diào)輪廓特征相似度達(dá)到要求;
41、音色保護(hù)模塊的輸入為帶噪語(yǔ)音數(shù)據(jù),使用預(yù)訓(xùn)練的音色特征提取器,輸出為一個(gè)固定維度的音色特征向量,在降噪過(guò)程的損失函數(shù)中加入一項(xiàng)用于懲罰降噪前后音色特征向量的差異;
42、語(yǔ)義輔助降噪的輸入為帶噪語(yǔ)音數(shù)據(jù),使用預(yù)訓(xùn)練的方言語(yǔ)音識(shí)別模型,輸出為語(yǔ)音的文本轉(zhuǎn)錄、音素/音節(jié)級(jí)別的信息,根據(jù)語(yǔ)音識(shí)別結(jié)果,提取聲調(diào)變化、音節(jié)邊界和關(guān)鍵音素;根據(jù)識(shí)別的結(jié)果,分別進(jìn)行保護(hù)。
43、一種基于人工智能的智能通訊設(shè)備語(yǔ)音降噪方法,包括:
44、步驟s1:在智能通訊設(shè)備上部署麥克風(fēng)陣列,用于收錄用戶(hù)實(shí)時(shí)的帶噪語(yǔ)音數(shù)據(jù);
45、步驟s2:基于端到端語(yǔ)音增強(qiáng)模型設(shè)計(jì)降噪算法的輸入、輸出和多任務(wù)學(xué)習(xí)機(jī)制;
46、步驟s3:使用數(shù)據(jù)樣本進(jìn)行預(yù)訓(xùn)練,獲取訓(xùn)練完成的降噪算法,部署到邊緣層;
47、步驟s4:將收錄的帶噪語(yǔ)音數(shù)據(jù)輸入到邊緣層中,通過(guò)實(shí)時(shí)處理輸出降噪后的語(yǔ)音數(shù)據(jù)。
48、本發(fā)明一種基于人工智能的智能通訊設(shè)備語(yǔ)音降噪系統(tǒng)的技術(shù)效果和優(yōu)點(diǎn):
49、1.通過(guò)預(yù)構(gòu)建方言語(yǔ)音數(shù)據(jù)庫(kù)并使用條件對(duì)抗網(wǎng)絡(luò)(cgan)擴(kuò)充數(shù)據(jù),系統(tǒng)能夠有效處理各種方言,保留方言特征,通過(guò)場(chǎng)景演化層能夠適應(yīng)單場(chǎng)景和多場(chǎng)景疊加的復(fù)雜噪聲環(huán)境,更符合實(shí)際使用場(chǎng)景。
50、2.專(zhuān)門(mén)針對(duì)低信噪比環(huán)境設(shè)計(jì)的數(shù)據(jù)收集和算法訓(xùn)練,使系統(tǒng)在嘈雜環(huán)境中依然能保持較好的降噪效果。通過(guò)三維標(biāo)注(聲學(xué)特征、噪音特征和語(yǔ)義特征)和多任務(wù)學(xué)習(xí)機(jī)制,系統(tǒng)能同時(shí)實(shí)現(xiàn)降噪、保留方言特征和重建高質(zhì)量語(yǔ)音。將預(yù)訓(xùn)練完成的降噪算法部署在邊緣層,實(shí)現(xiàn)實(shí)時(shí)處理,減少延遲,提高用戶(hù)體驗(yàn)。
51、3.音變層和方言特征保留機(jī)制確保降噪過(guò)程不會(huì)破壞語(yǔ)音的關(guān)鍵特征,特別是聲調(diào)、音色和語(yǔ)義信息。通過(guò)信噪比估計(jì)器,能夠根據(jù)不同的信噪比水平自動(dòng)調(diào)整降噪策略,避免過(guò)度降噪導(dǎo)致的語(yǔ)音失真。通過(guò)cirm模型(復(fù)數(shù)理想比率掩碼)處理,能夠同時(shí)處理幅度和相位信息,優(yōu)于傳統(tǒng)的僅處理幅度的方法,三個(gè)任務(wù)(r1噪聲抑制、r2方言特征保留、r3語(yǔ)音重建)協(xié)同工作,通過(guò)共享編碼器和特定任務(wù)頭部設(shè)計(jì),實(shí)現(xiàn)了降噪與特征保留的平衡。利用語(yǔ)義信息指導(dǎo)降噪過(guò)程,能夠更準(zhǔn)確地保護(hù)重要語(yǔ)音成分,減少語(yǔ)義信息丟失。
52、綜上,在保留方言特色的同時(shí)有效降噪,解決了傳統(tǒng)降噪系統(tǒng)在處理方言時(shí)容易過(guò)濾掉關(guān)鍵方言特征的問(wèn)題,同時(shí)通過(guò)多任務(wù)學(xué)習(xí)和邊緣計(jì)算實(shí)現(xiàn)了實(shí)時(shí)、高質(zhì)量的語(yǔ)音增強(qiáng),提升了智能通訊設(shè)備在復(fù)雜噪聲環(huán)境下的使用體驗(yàn)。