語音識別方法、電子設(shè)備及計算機(jī)可讀存儲介質(zhì)與流程

文檔序號：41756317發(fā)布日期：2025-04-29 18:24閱讀：5來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本技術(shù)涉及終端領(lǐng)域，尤其涉及語音識別方法、電子設(shè)備及計算機(jī)可讀存儲介質(zhì)。

背景技術(shù)：

1、在一些說話場景中，用戶通常需要以文本等可視化的形式在電子設(shè)備上記錄一個或多個說話人的說話內(nèi)容。用戶有時會通過電子設(shè)備錄制音頻并存儲音頻文件，這樣用戶可以通過電子設(shè)備打開音頻文件聽取音頻，進(jìn)而基于音頻對自己記錄的說話內(nèi)容進(jìn)行校正。為了保證自己記錄的說話內(nèi)容的完整性和準(zhǔn)確性，用戶可能需要逐句、反復(fù)聽取音頻，這使得用戶在電子設(shè)備上記錄說話內(nèi)容時需要花費(fèi)大量的時間。

技術(shù)實現(xiàn)思路

1、本技術(shù)提供了語音識別方法、電子設(shè)備及計算機(jī)可讀存儲介質(zhì)。其中電子設(shè)備可以在錄制音頻的同時識別并顯示音頻中的說話內(nèi)容。并且，電子設(shè)備還可以對每個說話內(nèi)容的說話人進(jìn)行區(qū)分，這樣用戶無需手動記錄就可以通過電子設(shè)備獲得音頻中包含的說話內(nèi)容及其說話人標(biāo)識的文本記錄。

2、第一方面，本技術(shù)提供了一種語音識別方法，該方法應(yīng)用于電子設(shè)備，電子設(shè)備存儲有第一說話人的第一標(biāo)識和第一聲紋特征，該方法包括：電子設(shè)備接收用戶選擇語音識別方式的第一操作，語音識別方式包括第一識別方式和第二識別方式；電子設(shè)備獲取第一音頻片段，第一音頻片段包含第一說話內(nèi)容對應(yīng)的第一子片段；在第一操作選擇第一識別方式的情況下，電子設(shè)備確定第一子片段的聲紋特征與第一聲紋特征匹配，電子設(shè)備顯示第一說話內(nèi)容和第一標(biāo)識，第一標(biāo)識指示第一說話內(nèi)容是第一說話人說出的；在第一操作選擇第二識別方式的情況下，電子設(shè)備確定第一說話內(nèi)容是由一個說話人說出的，電子設(shè)備顯示第一說話內(nèi)容和第二標(biāo)識，第二標(biāo)識用于標(biāo)識第一說話內(nèi)容的說話人。

3、電子設(shè)備可以對音頻中的說話內(nèi)容進(jìn)行識別，并將說話內(nèi)容顯示出來。并且電子設(shè)備還可以基于用戶選擇的語音識別方式識別說話人。其中，電子設(shè)備既可以基于聲紋特征對音頻中已注冊的說話人進(jìn)行識別，也可以基于聚類方法對未注冊的說話人進(jìn)行識別。其中對說話人進(jìn)行注冊是指電子設(shè)備存儲了該說話人的標(biāo)識和聲紋特征。這樣當(dāng)用戶選中聲紋識別方法時，電子設(shè)備可以基于已注冊的說話人的聲紋識別音頻中包含的說話人，當(dāng)用戶選中免注冊的說話人識別方法時，電子設(shè)備可以對音頻片段進(jìn)行聚類以對音頻片段中的說話人進(jìn)行區(qū)分。這樣無論用戶是否預(yù)先對說話人進(jìn)行了注冊，電子設(shè)備都可以為用戶提供包含說話內(nèi)容及其對應(yīng)說話人的語音識別結(jié)果。

4、結(jié)合第一方面，在一些實施例中，電子設(shè)備獲取第一音頻片段之后，該方法還包括：電子設(shè)備將第一音頻片段切分為多個子片段，多個子片段中包括第一子片段，多個子片段的語義各不相同。

5、其中，第一音頻片段可以是一段有效音頻片段。電子設(shè)備可以基于語義對有效音頻片段進(jìn)行切分得到多個子片段，每個子片段的說話內(nèi)容的語義不同。這樣電子設(shè)備可以提高每個子片段中僅包含唯一一個說話人的概率，從而提高后續(xù)識別子片段中的說話人的準(zhǔn)確性。

6、結(jié)合第一方面，在一些實施例中，第一音頻片段中包括第二子片段，第二子片段中包括第二說話人的第二說話內(nèi)容，電子設(shè)備中未存儲第二說話人的第二聲紋特征，該方法還包括：在第一操作選擇第一識別方式的情況下，電子設(shè)備確定第二說話內(nèi)容是由一個說話人說出的，電子設(shè)備顯示第二說話內(nèi)容和第三標(biāo)識，第三標(biāo)識用于標(biāo)識第二說話內(nèi)容的說話人。

7、其中，第一識別方式可以是聲紋識別的方式。電子設(shè)備在通過聲紋識別說話人時，可能出現(xiàn)一些子片段中的聲紋特征無法與電子設(shè)備存儲的聲紋特征匹配的情況，這可能是因為電子設(shè)備沒有存儲該子片段中的說話人的聲紋特征。電子設(shè)備可以使用聚類識別的方法確定對該子片段進(jìn)行聚類，進(jìn)而區(qū)分該說話內(nèi)容的說話人。其中，第三標(biāo)識可以與第一標(biāo)識的類型不同，例如，第三標(biāo)識可以是“發(fā)言人a”、“發(fā)言人b”等等，第一標(biāo)識可以是“張三”、“李四”等等。

8、結(jié)合第一方面，在一些實施例中，第一音頻片段中包括第二子片段，第二子片段中包括第二說話人的第二說話內(nèi)容，電子設(shè)備中存儲有第二說話人的第二聲紋特征和第四標(biāo)識，該方法還包括：在第一操作選擇第一識別方式的情況下，電子設(shè)備確定第二子片段的聲紋特征與第二聲紋特征匹配，電子設(shè)備顯示第二說話內(nèi)容和第四標(biāo)識，第四標(biāo)識指示第二說話內(nèi)容是第二說話人說出的。

9、其中，第一識別方式可以是聲紋識別的方式。電子設(shè)備可以從第二子片段中提取聲紋特征，進(jìn)而將該聲紋特征與其已存儲的聲紋特征匹配。最后電子設(shè)備可以確定第二子片段的聲紋特征與第二聲紋特征匹配，進(jìn)而顯示第二聲紋特征對應(yīng)的第四標(biāo)識。也即是說，電子設(shè)備可以基于已存儲的聲紋特征和其對應(yīng)的標(biāo)識對說話內(nèi)容的說話人進(jìn)行標(biāo)注，其中，電子設(shè)備存儲的每個說話人的聲紋特征的說話人標(biāo)識可以是由用戶輸入的，這樣用戶通過說話人標(biāo)識可以清楚地了解到每個說話內(nèi)容是由哪個說話人說出的。

10、結(jié)合第一方面，在一些實施例中，電子設(shè)備顯示第二說話內(nèi)容和第四標(biāo)識之后，該方法還包括：電子設(shè)備接收第二操作，第二操作用于篩選第一說話人；響應(yīng)于第二操作，電子設(shè)備隱藏顯示第二說話內(nèi)容和第四標(biāo)識。

11、也即是說，電子設(shè)備可以響應(yīng)于用戶操作篩選一個或多個說話人的說話內(nèi)容，電子設(shè)備可以隱藏顯示未被篩選的說話人的說話內(nèi)容，只顯示被篩選的說話人的說話內(nèi)容。這樣用戶可以從很多說話人的說話內(nèi)容中篩選自己感興趣的說話人的說話內(nèi)容進(jìn)行查看，從而提高用戶的使用體驗。

12、結(jié)合第一方面，在一些實施例中，第一音頻片段里還包括第三子片段，第三子片段包括第三說話內(nèi)容，第三說話內(nèi)容的說話人與第一說話內(nèi)容的說話人不同，該方法還包括：在第一操作選擇第二識別方式的情況下，電子設(shè)備確定第三說話內(nèi)容是由一個說話人說出的，電子設(shè)備顯示第三說話內(nèi)容和第五標(biāo)識，第五標(biāo)識用于指示第三說話內(nèi)容的說話人區(qū)別于第一說話內(nèi)容的說話人。

13、其中，第二識別方式可以是聚類識別的方式，電子設(shè)備可以通過聚類識別模塊確定第三說話內(nèi)容中的說話人與第一說話內(nèi)容的說話人不同，進(jìn)而電子設(shè)備可以為第三說話內(nèi)容分配不同于第二標(biāo)識的說話人標(biāo)識，從而與第一說話內(nèi)容的說話人進(jìn)行區(qū)分。也即是說，在語音識別方法為聚類識別方法時，電子設(shè)備可以為不同的說話人分配不同的標(biāo)識，便于用戶理解。

14、結(jié)合第一方面，在一些實施例中，第一音頻片段里還包括第四子片段，第四子片段包括第四說話內(nèi)容，該方法還包括：在第一操作選擇第二識別方式的情況下，電子設(shè)備確定第四說話內(nèi)容是由一個說話人說出的，且第四說話內(nèi)容的說話人與第一說話內(nèi)容的說話人相同，電子設(shè)備顯示第四說話內(nèi)容，并在第四說話內(nèi)容關(guān)聯(lián)的第一位置再次顯示第二標(biāo)識，在第一位置顯示的第二標(biāo)識用于指示第四說話內(nèi)容的說話人。

15、電子設(shè)備可以通過聚類識別模塊確定第四說話內(nèi)容中的說話人與第一說話內(nèi)容的說話人相同，進(jìn)而電子設(shè)備可以為第四說話內(nèi)容分配第二標(biāo)識，用于指示第一說話內(nèi)容和第四說話內(nèi)容的說話人是同一個。也即是說，在語音識別方法為聚類識別方法時，電子設(shè)備可以為相同的說話人分配相同的標(biāo)識，便于用戶理解。

16、結(jié)合第一方面，在一些實施例中，電子設(shè)備接收用戶選擇語音識別方式的第一操作之前，該方法還包括：電子設(shè)備接收用戶輸入的第二音頻片段和所述第一標(biāo)識，第二音頻片段的說話人為第一說話人；電子設(shè)備從第二音頻片段中提取第一說話人的第一聲紋特征；電子設(shè)備存儲第一聲紋特征和第一標(biāo)識，其中第一聲紋特征與第一標(biāo)識是關(guān)聯(lián)存儲的。

17、電子設(shè)備可以接收用戶輸入的音頻片段和說話人標(biāo)識對說話人進(jìn)行注冊，其中用戶輸入的音頻片段可以是僅包含一個說話人的音頻片段。進(jìn)而電子設(shè)備可以從音頻片段中提取說話人的聲紋特征，并將聲紋特征與說話人關(guān)聯(lián)存儲。這樣電子設(shè)備在語音識別過程中就可以基于存儲的聲紋特征和用戶提供的說話人標(biāo)識對待識別音頻片段的說話人進(jìn)行識別，并且電子設(shè)備可以使用預(yù)先存儲的用戶提供的說話人標(biāo)識對待識別音頻片段的說話內(nèi)容進(jìn)行標(biāo)注，這樣用戶可以準(zhǔn)確清晰地了解該說話內(nèi)容的說話人。

18、結(jié)合第一方面，在一些實施例中，該方法還包括：電子設(shè)備在顯示第一說話內(nèi)容的過程中通過麥克風(fēng)采集到第二音頻片段；電子設(shè)備基于第一操作選擇的語音識別方式對第二音頻片段的說話內(nèi)容和說話人進(jìn)行識別。

19、也即是說，電子設(shè)備可以在采集音頻的同時實時進(jìn)行語音識別。電子設(shè)備在顯示說話內(nèi)容的同時還可以繼續(xù)采集音頻。然后電子設(shè)備可以繼續(xù)對新采集到的音頻中的說話內(nèi)容和說話人進(jìn)行識別。這樣用戶可以在說話場景中通過電子設(shè)備獲取說話內(nèi)容及其對應(yīng)說話人的實時記錄，從而提高用戶的使用體驗。

20、第二方面，本技術(shù)提供了一種電子設(shè)備，該電子設(shè)備包括存儲模塊，用于存儲第一說話人的第一標(biāo)識和第一聲紋特征；用戶交互模塊，用于接收用戶選擇語音識別方式的第一操作，語音識別方式包括第一識別方式和第二識別方式；音頻采集模塊，音頻采集模塊用于獲取第一音頻片段，第一音頻片段包含第一說話內(nèi)容對應(yīng)的第一子片段；聲紋識別模塊，用于在第一操作選擇第一識別方式的情況下，確定第一子片段的聲紋特征與第一聲紋特征匹配；顯示模塊，用于在第一操作選擇第一識別方式的情況下顯示第一說話內(nèi)容和第一標(biāo)識，第一標(biāo)識指示第一說話內(nèi)容是第一說話人說出的；聚類識別模塊，用于在第一操作選擇第二識別方式的情況下，基于第一音頻片段的聲學(xué)特征確定第一說話內(nèi)容是由一個說話人說出的；顯示模塊，還用于在第一操作選擇第二識別方式的情況下，顯示第一說話內(nèi)容和第二標(biāo)識，第二標(biāo)識用于標(biāo)識第一說話內(nèi)容的說話人。

21、結(jié)合第二方面，在一些實施例中，電子設(shè)備還包括語音識別模塊和語音分割模塊；內(nèi)容識別模塊用于識別第一音頻片段包含的說話內(nèi)容；語音分割模塊用于基于第一音頻片段包含的說話內(nèi)容將第一音頻片段切分為多個子片段，多個子片段中包括第一子片段，多個子片段的語義各不相同。

22、結(jié)合第二方面，在一些實施例中，第一音頻片段中包括第二子片段，第二子片段中包括第二說話人的第二說話內(nèi)容，存儲模塊中未存儲第二說話人的第二聲紋特征；在第一操作選擇第二識別方式的情況下，聚類識別模塊還用于確定第二說話內(nèi)容是由一個說話人說出的；顯示模塊，還用于顯示第二說話內(nèi)容和第三標(biāo)識，第三標(biāo)識用于標(biāo)識第二說話內(nèi)容的說話人。

23、結(jié)合第二方面，在一些實施例中，第一音頻片段中包括第二子片段，第二子片段中包括第二說話人的第二說話內(nèi)容，存儲模塊中存儲有第二說話人的第二聲紋特征和第四標(biāo)識；在第一操作選擇第一識別方式的情況下，聲紋識別模塊還用于確定第二子片段的聲紋特征與第二聲紋特征匹配；顯示模塊，還用于顯示第二說話內(nèi)容和第四標(biāo)識，第四標(biāo)識指示第二說話內(nèi)容是第二說話人說出的。

24、結(jié)合第二方面，在一些實施例中，第一音頻片段里還包括第三子片段，第三子片段包括第三說話內(nèi)容，第三說話內(nèi)容的說話人與第一說話內(nèi)容的說話人不同；在第一操作選擇第二識別方式的情況下，聚類識別模塊還用于確定第三說話內(nèi)容是由一個說話人說出的；顯示模塊，還用于顯示第三說話內(nèi)容和第五標(biāo)識，第五標(biāo)識用于指示第三說話內(nèi)容的說話人區(qū)別于第一說話內(nèi)容的說話人。

25、結(jié)合第二方面，在一些實施例中，第一音頻片段里還包括第四子片段，第四子片段包括第四說話內(nèi)容；在第一操作選擇第二識別方式的情況下，聚類識別模塊還用于確定第四說話內(nèi)容是由一個說話人說出的，且第四說話內(nèi)容的說話人與第一說話內(nèi)容的說話人相同；顯示模塊，還用于顯示第四說話內(nèi)容，并在第四說話內(nèi)容關(guān)聯(lián)的第一位置再次顯示第二標(biāo)識，在第一位置顯示的第二標(biāo)識用于指示第四說話內(nèi)容的說話人。

26、結(jié)合第二方面，在一些實施例中，電子設(shè)備還包括聲紋注冊模塊，聲紋識別模塊用于接收用戶輸入的第二音頻片段和第一標(biāo)識，第二音頻片段的說話人為第一說話人；聲紋注冊模塊還用于將第二音頻片段發(fā)送到聲紋識別模塊；聲紋識別模塊還用于從第二音頻片段中提取第一說話人的第一聲紋特征，并向聲紋注冊模塊發(fā)送第一聲紋特征；聲紋注冊模塊還用于接收第一聲紋特征，并將第一聲紋特征與第一標(biāo)識發(fā)送到存儲模塊；存儲模塊還用于存儲第一聲紋特征和第一標(biāo)識，其中第一聲紋特征與第一標(biāo)識是關(guān)聯(lián)存儲的。

27、第三方面，本技術(shù)提供一種電子設(shè)備，該電子設(shè)備包括顯示屏、存儲器以及耦合于存儲器的處理器；該顯示屏用于顯示界面，存儲器存儲有計算機(jī)程序，處理器執(zhí)行上述計算機(jī)程序時使得電子設(shè)備實現(xiàn)上述第一方面任意一項所述的方法。

28、第四方面，本技術(shù)提供一種計算機(jī)可讀存儲介質(zhì)，該計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序或計算機(jī)指令，前述計算機(jī)程序或計算機(jī)指令被處理器執(zhí)行以實現(xiàn)上述第一方面任意一項所述的方法。

29、第五方面，本技術(shù)實施例提供一種計算機(jī)程序產(chǎn)品，該計算機(jī)程序產(chǎn)品被處理器執(zhí)行時，上述第一方面任意一項所述的方法將被實現(xiàn)。

30、第六方面，本技術(shù)實施例提供一種芯片，該芯片包括處理器和存儲器，其中，該存儲器用于存儲計算機(jī)程序或計算機(jī)指令，該處理器用于執(zhí)行所述存儲器中存儲的計算機(jī)程序或計算機(jī)指令，使得該芯片執(zhí)行上述第一方面任一項所述的方法。

31、上述第二方面至第六方面提供的方案，用于實現(xiàn)或配合實現(xiàn)上述第一方面中對應(yīng)提供的方法，因此可以與第一方面中對應(yīng)的方法達(dá)到相同或相應(yīng)的有益效果，此處不再進(jìn)行贅述。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王滿洪,孫玉濤
技術(shù)所有人：榮耀終端股份有限公司
我是此專利的發(fā)明人

上一篇：一種車門窗框裝飾板的制作方法
上一篇：一種匹克球網(wǎng)的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

語音識別方法、電子設(shè)備及計算機(jī)可讀存儲介質(zhì)與流程