基于語音識別的字幕同步裝置和方法
【專利摘要】提供了一種基于語音識別的字幕同步裝置和方法,所述字幕同步裝置包括:語音識別模塊,從音頻流提取前景聲音中的語音,并對提取的語音進(jìn)行采樣和識別,從而生成與對應(yīng)的文字信息;動態(tài)采樣調(diào)整模塊,對生成的文字信息進(jìn)行語義識別度的評價,并根據(jù)評價的結(jié)果來控制語音識別模塊調(diào)整采樣頻率以獲得具有高語義識別度的文字信息;字幕語義對比模塊,將具有高語義識別度的文字信息與播放視頻的附加多國語言字幕的文字進(jìn)行語義匹配;字幕同步模塊,如果字幕語義對比模塊在字幕文件中找到與識別的語音的文字信息對應(yīng)的句子,則根據(jù)語音的時間信息來調(diào)整字幕文件的時間信息;字幕顯示模塊,根據(jù)調(diào)整后的字幕文件的時間信息來顯示字幕。
【專利說明】音視頻保持同步。
電視節(jié)目中存在插播廣告時同步顯示附加采樣,合理獲得有效音頻信息,對附加字幕文能對數(shù)字電視節(jié)目中存在插播等現(xiàn)象進(jìn)
語音識別的字幕同步裝置,包括:語音識別5中的語音,并對提取的語音進(jìn)行采樣和識每采樣調(diào)整模塊,對語音識別模塊生成的文結(jié)果來控制語音識別模塊調(diào)整采樣頻率以代匕模塊,將具有高語義識別度的文字信息義匹配;字幕同步模塊,如果字幕語義對比I對應(yīng)的句子,則根據(jù)語音的時間信息來調(diào)幕同步模塊調(diào)整后的字幕文件的時間信息語音單詞的語義意義來評價文字信息的語義識別度。
[0009]根據(jù)本發(fā)明的一方面,字幕語義對比模塊采用模糊算法采用模糊算法對播放視頻的附加多國語言字幕的文字進(jìn)行字符評分,從而找出字幕文件中得分最高的句子作為與文字信息匹配的句子。
[0010]根據(jù)本發(fā)明的一方面,如果字幕語義匹配模塊沒有在字幕文件中找到與識別的語音的文字信息對應(yīng)的句子,則通知動態(tài)采樣調(diào)整模塊提高語音識別模塊的采樣頻率。
[0011]根據(jù)本發(fā)明的另一方面,提供了一種基于語音識別的字幕同步方法,包括:(a)從與播放視頻對應(yīng)的音頻流提取前景聲音中的語音,并對提取的語音進(jìn)行采樣和識別,從而生成與識別的語音對應(yīng)的文字信息;(b)對生成的文字信息進(jìn)行語義識別度的評價,并且根據(jù)評價的結(jié)果來控制語音識別模塊調(diào)整采樣頻率以獲得具有高語義識別度的文字信息;(C)將具有高語義識別度的文字信息與播放視頻的附加多國語言字幕的文字進(jìn)行語義匹配,以在字幕文件中找到與識別的語音的文字信息對應(yīng)的句子;(d)根據(jù)語音的時間信息來調(diào)整字幕文件的時間信息;(e)根據(jù)調(diào)整后的字幕文件的時間信息來顯示字幕。
[0012]根據(jù)本發(fā)明的另一方面,所述字幕同步方法還包括:根據(jù)用戶的選擇來確定將要顯示的字幕的語言。
[0013]根據(jù)本發(fā)明的另一方面,在步驟(b),當(dāng)確定步驟(a)生成的文字信息中的語音單詞的個數(shù)在預(yù)定范圍[m,n]內(nèi)時,確定文字信息具有高語義識別度,其中m、n是自然數(shù)。
[0014]根據(jù)本發(fā)明的另一方面,在步驟(b),如果確定步驟(a)生成的文字信息中的語音單詞的數(shù)量低于最小數(shù)量m,則返回步驟(a)并提高采樣頻率來對語音進(jìn)行采樣;如果確定步驟(a)生成的文字信息中的語音單詞的數(shù)量高于最大數(shù)量n,則返回步驟(a)降低采樣頻率來對語音進(jìn)行采樣。
[0015]根據(jù)本發(fā)明的另一方面,在步驟(b),考慮步驟(a)生成的文字信息中的語音單詞的語義意義來評價文字信息的語義識別度。
[0016]根據(jù)本發(fā)明的另一方面,在步驟(C),采用模糊算法采用模糊算法對播放視頻的附加多國語言字幕的文字進(jìn)行字符評分,從而找出字幕文件中得分最高的句子作為與文字信息匹配的句子。
[0017]根據(jù)本發(fā)明的另一方面,如果在步驟(C)沒有在字幕文件中找到與識別的語音的文字信息對應(yīng)的句子,則返回步驟(a)提高語音識別的采樣頻率。
【專利附圖】
【附圖說明】
[0018]通過下面結(jié)合附圖進(jìn)行的描述,本發(fā)明的上述和其他目的和特點(diǎn)將會變得更加清楚,其中:
[0019]圖1是示出根據(jù)本發(fā)明實(shí)施例的基于語音識別的字幕同步裝置的框圖;
[0020]圖2是示出根據(jù)本發(fā)明實(shí)施例的基于語音識別的字幕同步方法的流程圖。
【具體實(shí)施方式】
[0021]下面提供參照附圖進(jìn)行的描述以有助于全面理解如權(quán)利要求及其等同物所限定的本發(fā)明的示例性實(shí)施例。所述描述包括各種詳細(xì)的細(xì)節(jié)以有助于理解,而這些描述將被認(rèn)為僅為示例性的。因此,本領(lǐng)域的普通技術(shù)人員將意識到在不脫離本發(fā)明的范圍和精神的情況下可做出在此描述的各種改變和變型。另外,為了清晰和簡潔,可省略對公知功能和構(gòu)造的描述。
[0022]在下面的描述和權(quán)利要求中使用的術(shù)語和詞語不限于書面意思,而是僅被發(fā)明人所使用以能夠清楚且一致地理解本發(fā)明。因此,本領(lǐng)域技術(shù)人員應(yīng)該清楚的是,下面提供的對本發(fā)明的示例性實(shí)施例的描述僅出于示出的目的,而不是出于限制如由權(quán)利要求及其等同物限定的本發(fā)明的目的。
[0023]圖1是示出根據(jù)本發(fā)明實(shí)施例的基于語音識別的字幕同步裝置100的框圖。
[0024]如圖1所示,根據(jù)本發(fā)明實(shí)施例的基于語音識別的字幕同步裝置100包括語言選擇模塊110、語音識別模塊120、動態(tài)采樣調(diào)整模塊130、字幕語義對比模塊140、字幕同步模塊150和字幕顯示模塊160。根據(jù)本發(fā)明實(shí)施例的字幕同步裝置100可集成到數(shù)字廣播接收裝置或視頻播放裝置之中。
[0025]語音選擇模塊110可根據(jù)用戶的選擇來確定將要顯示的字幕語言。例如,當(dāng)用戶通過遙控器等控制裝置向字幕同步裝置100發(fā)送信號,從而選擇想要使用的字幕語言。
[0026]語音識別模塊120從與正在播放的電視節(jié)目或其它播放內(nèi)容的視頻流對應(yīng)的音頻流提取前景聲音中的語音,并對提取的語音進(jìn)行采樣和識別,從而生成與識別的語音對應(yīng)的文字信息。通過提取前景主聲音,可以去除播放的視頻中的背景聲音,例如,電影或電視節(jié)目中的汽車、背景音樂等聲音,這樣可以提高語音識別的準(zhǔn)確度。可采用任何現(xiàn)有技術(shù)中的前景主聲音提取方法以及語音識別引擎來實(shí)現(xiàn)語音識別模塊120。
[0027]動態(tài)采樣調(diào)整模塊130對語音識別模塊120生成的文字信息進(jìn)行語義可識別度評價,并根據(jù)評價的結(jié)果確定是否需要調(diào)整語音識別模塊120的采樣頻率。根據(jù)本發(fā)明的一實(shí)施例,動態(tài)采樣調(diào)整模塊130可確定語音識別模塊120生成的文字信息中的語音單詞的個數(shù)是否在預(yù)定范圍[m,n]內(nèi)。如果確定文字信息中的語音單詞的數(shù)量低于最小數(shù)量m或者多于最大數(shù)量n,則動態(tài)采樣調(diào)整模塊130確定語義識別度較低,需要調(diào)整采樣頻率。當(dāng)動態(tài)采樣調(diào)整模塊130確定語音識別模塊120生成的文字信息中的語音單詞的數(shù)量低于最小數(shù)量m時,動態(tài)采樣調(diào)整模塊130確定需要提高采樣頻率,從而控制語音識別模塊120以提高的采樣頻率來對語音進(jìn)行采樣。當(dāng)動態(tài)采樣調(diào)整模塊130確定語音識別模塊120生成的文字信息中的語音單詞的數(shù)量高于最大數(shù)量η時,動態(tài)采樣調(diào)整模塊130確定可以降低采樣頻率,從而控制語音識別模塊120根據(jù)降低后的采樣頻率對語音進(jìn)行采樣。也就是說,當(dāng)音頻中的人物說話語速很快時,在單位時間內(nèi)獲取的語句字符數(shù)就會增加,這導(dǎo)致字幕匹配的錯誤率增加,此時,可確定當(dāng)前音頻的語義識別度低。反之,當(dāng)音頻中人物說話語速很慢時,在單位時間內(nèi)獲取的語句字符數(shù)就會減少,同樣也會增加字幕匹配的錯誤率,此時,同樣可確定當(dāng)前的音頻語義識別度低。因此,只有控制采樣頻率并獲得合理數(shù)量的字符數(shù)才能判定語義識別度高。
[0028]另外,根據(jù)本發(fā)明的實(shí)施例,在評價語義識別度時,動態(tài)采樣調(diào)整模塊130還可考慮語音識別模塊120生成的文字信息中的語音單詞的語義意義,從而確定是否需要調(diào)整采樣頻率。例如,當(dāng)語音識別模塊120生成的文字信息中的語音單詞中包括多個低語義單詞(例如,諸如連續(xù)多個“啊”的象聲詞)時,動態(tài)采樣調(diào)整模塊130可確定語音識別模塊120生成的文字信息的語義識別度較低,并控制語音識別模塊120提高采樣頻率。
[0029]接下來,在經(jīng)過動態(tài)采樣調(diào)整模塊130的評估得到較高的語義識別度的文字信息之后,字幕語義對比模塊140將文字信息與播放視頻的附加多國語言字幕的文字進(jìn)行語義匹配。這里,字幕語義對比模塊140可采用模糊算法,來對附加多國語言字幕的文字進(jìn)行字符評分,從而找出字幕文件中得分最高的句子。也就是說,字幕語義對比模塊140將字幕文件中評分高于預(yù)定值的句子中的評分最高的句子確定為與識別的文字信息對應(yīng)的句子。
[0030]下面將舉例說明采用模糊算法對句子評分的方式。當(dāng)然,本領(lǐng)域的技術(shù)人員可采用其它方式來查找與字幕文件中的句子的語義匹配的句子。
[0031]給出兩個字符串ACAATCC和AGCATGC,則對兩者進(jìn)行匹配時進(jìn)行修改、刪除和添加等操作才可以完全匹配。為了更方便近似度的計算,將編輯距離調(diào)整為近似度得分,即若匹配則得2分,修改、刪除、添加則得-1分。為了得到完全匹配時的近似度得分,可以通過以下遞推公式得到一個得分矩陣,其近似度得分即該η階矩陣S中的S(n,η)值,η為待匹配字符串長度加I。V代表Value (即得分值),D代表Difference Value (即差值),S代表String(即待匹配字符串),T代表Template即模板,1、j分別代表矩陣的行和列,取值從O開始)。
[0032]初始值可直接得到:
[0033]V (O, O) = O ;
[0034]V(0, j) = V(0, j_l)+D(_,T[j]);插入 j 次
[0035]V(i,0) = V(1-l,0)+D(S[i],_);刪除 i 次
[0036]其他值可以通過下面遞推式來獲得:
[0037]
【權(quán)利要求】
1.一種基于語音識別的字幕同步裝置,包括: 語音識別模塊,從與播放視頻對應(yīng)的音頻流提取前景聲音中的語音,并對提取的語音進(jìn)行采樣和識別,從而生成與識別的語音對應(yīng)的文字信息; 動態(tài)采樣調(diào)整模塊,對語音識別模塊生成的文字信息進(jìn)行語義識別度的評價,并且根據(jù)評價的結(jié)果來控制語音識別模塊調(diào)整采樣頻率以獲得具有高語義識別度的文字信息; 字幕語義對比模塊,將具有高語義識別度的文字信息與播放視頻的附加多國語言字幕的文字進(jìn)行語義匹配; 字幕同步模塊,如果字幕語義對比模塊在字幕文件中找到與識別的語音的文字信息對應(yīng)的句子,則根據(jù)語音的時間信息來調(diào)整字幕文件的時間信息; 字幕顯示模塊,根據(jù)字幕同步模塊調(diào)整后的字幕文件的時間信息來顯示字幕。
2.如權(quán)利要求1所述的字幕同步裝置,還包括: 語言選擇模塊,根據(jù)用戶的選擇來確定將要顯示的字幕的語言。
3.如權(quán)利要求1所述的字幕同步裝置,其中,當(dāng)動態(tài)采樣調(diào)整模塊確定語音識別模塊生成的文字信息中的語音單詞的個數(shù)在預(yù)定范圍[m,η]內(nèi)時,動態(tài)采樣調(diào)整模塊確定文字信息具有高語義識別度,其中m、η是自然數(shù)。
4.如權(quán)利要求3所述的字幕同步裝置,其中: 如果動態(tài)采樣調(diào)整模塊確定語音識別模塊生成的文字信息中的語音單詞的數(shù)量低于最小數(shù)量m,則動態(tài)采樣調(diào)整模塊控制語音識別模塊提高采樣頻率來對語音進(jìn)行采樣; 如果動態(tài)采樣調(diào)整模塊確定語音識別模塊生成的文字信息中的語音單詞的數(shù)量高于最大數(shù)量n,則動態(tài)采樣調(diào)整模塊控制語音識別模塊降低采樣頻率來對語音進(jìn)行采樣。
5.如權(quán)利要求3或4所述的字幕同步裝置,其中,動態(tài)采樣調(diào)整模塊考慮語音識別模塊生成的文字信息中的語音單詞的語義意義來評價文字信息的語義識別度。
6.如權(quán)利要求1所述的字幕同步裝置,其中,字幕語義對比模塊采用模糊算法采用模糊算法對播放視頻的附加多國語言字幕的文字進(jìn)行字符評分,從而找出字幕文件中得分最高的句子作為與文字信息匹配的句子。
7.如權(quán)利要求1所述的字幕同步裝置,其中,如果字幕語義匹配模塊沒有在字幕文件中找到與識別的語音的文字信息對應(yīng)的句子,則通知動態(tài)采樣調(diào)整模塊提高語音識別模塊的采樣頻率。
8.一種基于語音識別的字幕同步方法,包括: (a)從與播放視頻對應(yīng)的音頻流提取前景聲音中的語音,并對提取的語音進(jìn)行采樣和識別,從而生成與識別的語音對應(yīng)的文字信息; (b)對生成的文字信息進(jìn)行語義識別度的評價,并且根據(jù)評價的結(jié)果來控制語音識別模塊調(diào)整采樣頻率以獲得具有高語義識別度的文字信息; (c)將具有高語義識別度的文字信息與播放視頻的附加多國語言字幕的文字進(jìn)行語義匹配,以在字幕文件中找到與識別的語音的文字信息對應(yīng)的句子; (d)根據(jù)語音的時間信息來調(diào)整字幕文件的時間信息; (e)根據(jù)調(diào)整后的字幕文件的時間信息來顯示字幕。
9.如權(quán)利要求8所述的字幕同步方法,還包括: 根據(jù)用戶的選擇來確定將要顯示的字幕的語言。
10.如權(quán)利要求8所述的字幕同步方法,其中,在步驟(b),當(dāng)確定步驟(a)生成的文字信息中的語音單詞的個數(shù)在預(yù)定范圍[m,η]內(nèi)時,確定文字信息具有高語義識別度,其中m、n是自然數(shù)。
11.如權(quán)利要求3所述的字幕同步方法,其中,在步驟(b), 如果確定步驟(a)生成的文字信息中的語音單詞的數(shù)量低于最小數(shù)量m,則返回步驟(a)并提高采樣頻率來對語音進(jìn)行采樣; 如果確定步驟(a)生成的文字信息中的語音單詞的數(shù)量高于最大數(shù)量n,則返回步驟(a)降低采樣頻率來對語音進(jìn)行采樣。
12.如權(quán)利要求10或11所述的字幕同步方法,其中,在步驟(b),考慮步驟(a)生成的文字信息中的語音單詞的語義意義來評價文字信息的語義識別度。
13.如權(quán)利要求8所述的字幕同步方法,其中,在步驟(C),采用模糊算法采用模糊算法對播放視頻的附加多國語言字幕的文字進(jìn)行字符評分,從而找出字幕文件中得分最高的句子作為與文字信息匹配的句子。
14.如權(quán)利要求8所述的字幕同步方法,其中,如果在步驟(c)沒有在字幕文件中找到與識別的語音的文字信息對應(yīng)的句子,則返回步驟(a)提高語音識別的采樣頻率。
【文檔編號】G10L15/01GK104038804SQ201310069142
【公開日】2014年9月10日 申請日期:2013年3月5日 優(yōu)先權(quán)日:2013年3月5日
【發(fā)明者】徐 明, 范煒, 譚皓 申請人:三星電子(中國)研發(fā)中心, 三星電子株式會社