本發(fā)明涉及多媒體技術(shù)領(lǐng)域,特別涉及一種基于視覺設(shè)備的語言學(xué)習(xí)方法及系統(tǒng)。
背景技術(shù):
隨著多媒體技術(shù)的不斷發(fā)展進(jìn)步,教學(xué)的方式不再局限于實際中的學(xué)校和課堂,在虛擬的世界中,人們通過互聯(lián)網(wǎng)利用視頻或者文字的方式交流、傳授思想的方式越來越常見。針對語言學(xué)習(xí),語言本身的特點要求學(xué)習(xí)者不斷地進(jìn)行發(fā)音練習(xí)且對發(fā)音的準(zhǔn)確性和時效性要求較高,傳統(tǒng)的教學(xué)方式已然不能滿足用戶的需求;因此,越來越多的學(xué)習(xí)者選擇利用互聯(lián)網(wǎng)進(jìn)行學(xué)習(xí)。而在實際的語言學(xué)習(xí)中,教學(xué)視頻也因其便捷性,成為語言學(xué)習(xí)中必不可少的用于傳遞信息的媒介,且教學(xué)視頻也因其直觀性和高效性,受到了越來越多語言學(xué)習(xí)者的青睞。但目前尚未出現(xiàn)通過便捷的視覺設(shè)備播放教學(xué)視頻,來進(jìn)行語言學(xué)習(xí)的技術(shù)。
技術(shù)實現(xiàn)要素:
本發(fā)明提供一種基于視覺設(shè)備的語言學(xué)習(xí)方法及系統(tǒng),用以通過智能的視覺設(shè)備來進(jìn)行語言類交互操作。
本發(fā)明提供一種基于視覺設(shè)備的語言學(xué)習(xí)方法,其特征在于,所述語言學(xué)習(xí)方法包括:
基于教材內(nèi)容和對應(yīng)的視頻素材,制作所述教材內(nèi)容對應(yīng)的教材視頻;
將所述教材視頻集成在具備語音交互功能的視覺設(shè)備上,供用戶通過觀看所述視覺設(shè)備播放的所述教材視頻進(jìn)行語言學(xué)習(xí);
接收用戶發(fā)出的語音內(nèi)容,對所述語音內(nèi)容進(jìn)行語音識別;根據(jù)識別結(jié)果,進(jìn)入語音識別糾錯模式,或者進(jìn)入智能交互式對話模式。
優(yōu)選地,所述根據(jù)識別結(jié)果,進(jìn)入語音識別糾錯模式包括:
識別出用戶發(fā)音錯誤時,提示用戶發(fā)音錯誤并提示用戶重新錄入正確的發(fā)音;或者,播放錯誤發(fā)音所對應(yīng)的正確發(fā)音,供用戶學(xué)習(xí);或者,提供多種回應(yīng)方式供用戶選擇;
識別出用戶發(fā)音正確時,回應(yīng)用戶發(fā)出的所述語音內(nèi)容,并進(jìn)入下一學(xué)習(xí)內(nèi)容。
優(yōu)選地,所述根據(jù)識別結(jié)果,進(jìn)入智能交互式對話模式包括:
識別出用戶的語音內(nèi)容為基于預(yù)設(shè)場景的內(nèi)容,則檢索語音對話數(shù)據(jù)庫,回應(yīng)用戶發(fā)出的所述語音內(nèi)容;
識別出用戶發(fā)音錯誤時,提供多種回應(yīng)方式供用戶選擇,直至用戶發(fā)音正確并進(jìn)入下一對話。
優(yōu)選地,所述基于教材內(nèi)容和對應(yīng)的視頻素材,制作所述教材內(nèi)容對應(yīng)的教材視頻,包括:
對視頻素材中的場景性片段進(jìn)行標(biāo)注,根據(jù)標(biāo)注信息得到場景視頻對應(yīng)的數(shù)據(jù)庫;其中,所述標(biāo)注信息包括:場景性片段在所述視頻素材中的位置以及所述場景性片段對應(yīng)的場景特征;
確定語言教材中的一段對話內(nèi)容所對應(yīng)的應(yīng)用場景,根據(jù)確定的所述應(yīng)用場景,從所述數(shù)據(jù)庫中查找所述應(yīng)用場景對應(yīng)的視頻片段;
按照所述對話內(nèi)容的內(nèi)容特征信息,將查找到的所述視頻片段制作成與所述對話內(nèi)容相一致的教學(xué)視頻。
優(yōu)選地,所述基于教材內(nèi)容和對應(yīng)的視頻素材,制作所述教材內(nèi)容對應(yīng)的教材視頻,包括:
對視頻素材中對應(yīng)一個場景的視頻幀進(jìn)行標(biāo)注,根據(jù)標(biāo)注信息得到視頻幀對應(yīng)的數(shù)據(jù)庫;
確定語言教材中的一段對話內(nèi)容所對應(yīng)的應(yīng)用場景,根據(jù)確定的所述應(yīng)用場景,從所述場景視頻數(shù)據(jù)庫中查找所述應(yīng)用場景對應(yīng)的視頻幀;
按照所述對話內(nèi)容的發(fā)音特征信息,將查找到的所述視頻幀改編為與所述對話內(nèi)容相一致的教學(xué)視頻。
本發(fā)明還提供了一種基于視覺設(shè)備的語言學(xué)習(xí)系統(tǒng),所述語言學(xué)習(xí)系統(tǒng)包括:
視頻制作模塊,用于基于教材內(nèi)容和對應(yīng)的視頻素材,制作所述教材內(nèi)容對應(yīng)的教材視頻;
視頻集成模塊,用于將所述教材視頻集成在具備語音交互功能的視覺設(shè)備上,供用戶通過觀看所述視覺設(shè)備播放的所述教材視頻進(jìn)行語言學(xué)習(xí);
視頻交互模塊,用于接收用戶發(fā)出的語音內(nèi)容,對所述語音內(nèi)容進(jìn)行語音識別;根據(jù)識別結(jié)果,進(jìn)入語音識別糾錯模式,或者進(jìn)入智能交互式對話模式。
優(yōu)選地,所述視頻交互模塊還用于:
識別出用戶發(fā)音錯誤時,提示用戶發(fā)音錯誤并提示用戶重新錄入正確的發(fā)音;或者,播放錯誤發(fā)音所對應(yīng)的正確發(fā)音,供用戶學(xué)習(xí);或者,提供多種回應(yīng)方式供用戶選擇;
識別出用戶發(fā)音正確時,回應(yīng)用戶發(fā)出的所述語音內(nèi)容,并進(jìn)入下一學(xué)習(xí)內(nèi)容。
優(yōu)選地,所述視頻交互模塊還用于:
識別出用戶的語音內(nèi)容為基于預(yù)設(shè)場景的內(nèi)容,則檢索語音對話數(shù)據(jù)庫,回應(yīng)用戶發(fā)出的所述語音內(nèi)容;
識別出用戶發(fā)音錯誤時,提供多種回應(yīng)方式供用戶選擇,直至用戶發(fā)音正確并進(jìn)入下一對話。
優(yōu)選地,所述視頻制作模塊包括:
場景標(biāo)注單元,用于對視頻素材中的場景性片段進(jìn)行標(biāo)注,根據(jù)標(biāo)注信息得到場景視頻對應(yīng)的數(shù)據(jù)庫;其中,所述標(biāo)注信息包括:場景性片段在所述視頻素材中的位置以及所述場景性片段對應(yīng)的場景特征;
片段查找單元,用于確定語言教材中的一段對話內(nèi)容所對應(yīng)的應(yīng)用場景,根據(jù)確定的所述應(yīng)用場景,從所述數(shù)據(jù)庫中查找所述應(yīng)用場景對應(yīng)的視頻片段;
片段制作單元,用于按照所述對話內(nèi)容的內(nèi)容特征信息,將查找到的所述視頻片段制作成與所述對話內(nèi)容相一致的教學(xué)視頻。
優(yōu)選地,所述視頻制作模塊包括:
幀標(biāo)注單元,用于對視頻素材中對應(yīng)一個場景的視頻幀進(jìn)行標(biāo)注,根據(jù)標(biāo)注信息得到視頻幀對應(yīng)的數(shù)據(jù)庫;
幀查找單元,用于確定語言教材中的一段對話內(nèi)容所對應(yīng)的應(yīng)用場景,根據(jù)確定的所述應(yīng)用場景,從所述場景視頻數(shù)據(jù)庫中查找所述應(yīng)用場景對應(yīng)的視頻幀;
幀制作單元,用于按照所述對話內(nèi)容的發(fā)音特征信息,將查找到的所述視頻幀制作成與所述對話內(nèi)容相一致的教學(xué)視頻。
本發(fā)明基于視覺設(shè)備的語言學(xué)習(xí)方法及系統(tǒng)可以達(dá)到如下有益效果:
通過基于教材內(nèi)容和對應(yīng)的視頻素材,制作所述教材內(nèi)容對應(yīng)的教材視頻;將所述教材視頻集成在具備語音交互功能的視覺設(shè)備上,供用戶通過觀看所述視覺設(shè)備播放的所述教材視頻進(jìn)行語言學(xué)習(xí);接收用戶發(fā)出的語音內(nèi)容,對所述語音內(nèi)容進(jìn)行語音識別;根據(jù)識別結(jié)果,進(jìn)入語音識別糾錯模式,或者進(jìn)入智能交互式對話模式;達(dá)到了通過智能的視覺設(shè)備來進(jìn)行語言類交互操作的目的,用戶可以采用視覺設(shè)備來進(jìn)行自由、自主的語言學(xué)習(xí),解決了傳統(tǒng)語言學(xué)習(xí)中啞巴學(xué)習(xí)的短板,提高了語言學(xué)習(xí)的靈活性和便捷性,在一定程度上,也提高了用戶體驗。另外,本發(fā)明基于視覺設(shè)備的語言學(xué)習(xí)系統(tǒng)中采用視頻片段或者視頻幀來制作教材視頻的方法,達(dá)到了教材視頻制作多樣性和靈活性的目的,豐富了教材視頻的內(nèi)容,提高了教材視頻學(xué)習(xí)的趣味性,擴大了教材視頻的應(yīng)用范圍。
本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明書、權(quán)利要求書、以及附圖中所指出的內(nèi)容來實現(xiàn)和獲得。
下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進(jìn)一步描述。
附圖說明
附圖用來提供對本發(fā)明的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明的實施例一起用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。在附圖中:
圖1為本發(fā)明基于視覺設(shè)備的語言學(xué)習(xí)方法的一種實施方式的流程示意圖;
圖2為圖1所述實施例中步驟s10的一種實施方式的流程示意圖;
圖3為圖1所述實施例中步驟s10的另一種實施方式的流程示意圖;
圖4為本發(fā)明基于視覺設(shè)備的語言學(xué)習(xí)系統(tǒng)的一種實施方式的結(jié)構(gòu)框圖;
圖5為圖4所述實施例中視頻制作模塊60的一種實施例方式的結(jié)構(gòu)框圖;
圖6為圖4所述實施例中視頻制作模塊60的另一種實施例方式的結(jié)構(gòu)框圖。
具體實施方式
以下結(jié)合附圖對本發(fā)明的優(yōu)選實施例進(jìn)行說明,應(yīng)當(dāng)理解,此處所描述的優(yōu)選實施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。
本發(fā)明提供了一種基于視覺設(shè)備的語言學(xué)習(xí)方法及系統(tǒng),用以通過智能的視覺設(shè)備來進(jìn)行語言類交互操作。如圖1所示,本發(fā)明基于視覺設(shè)備的語言學(xué)習(xí)方法可以實施為如下描述的步驟s10-s30:
步驟s10、基于教材內(nèi)容和對應(yīng)的視頻素材,制作所述教材內(nèi)容對應(yīng)的教材視頻;
本發(fā)明實施例中,系統(tǒng)根據(jù)教材內(nèi)容和對應(yīng)的視頻素材進(jìn)行教材視頻的制作時,可以根據(jù)現(xiàn)有的教材進(jìn)行教材視頻制作,也可以根據(jù)該教材視頻的具體使用對象和應(yīng)用場景針對性地編撰教材。在本發(fā)明一優(yōu)選的實施例中,為了增強vr(virtualreality,虛擬現(xiàn)實)教學(xué)效果,教材內(nèi)容主要以對話和口語練習(xí)為主,尤其是針對性改變目前語言教學(xué)中的短板:啞巴語言,能讀不能說。
根據(jù)上述教材內(nèi)容和對應(yīng)的視頻素材,可以設(shè)計不同的應(yīng)用場景,設(shè)計的應(yīng)用場景可以是真實的場景,例如餐館點餐;也可以采用動畫的形式進(jìn)行趣味性展示。在教材視頻制作時,可以根據(jù)教材內(nèi)容,邀請真實的人物進(jìn)行拍攝,例如邀請老師或者演員出演教材內(nèi)容角色,進(jìn)行實景拍攝或者虛擬背景拍攝;也可以根據(jù)教材內(nèi)容,利用動畫的形式作為場景進(jìn)行拍攝,并采用真實的人物進(jìn)行配音;動畫虛擬拍攝的這種制作方式,由于動畫形式的場景比較豐富,卡通、現(xiàn)實、幻想均能滿足拍攝需求,因此,這種動畫虛擬拍攝的方式可以根據(jù)不同年齡段的用戶的興趣愛好為依據(jù),來選取對應(yīng)的動畫素材及卡通素材。
步驟s20、將所述教材視頻集成在具備語音交互功能的視覺設(shè)備上,供用戶通過觀看所述視覺設(shè)備播放的所述教材視頻進(jìn)行語言學(xué)習(xí);
制作完成對應(yīng)的教材視頻后,將該教材視頻集成在對應(yīng)的視覺設(shè)備上,該視覺設(shè)備包括但不限于:vr眼鏡、多媒體眼鏡等。本發(fā)明實施例中,上述制作的教材視頻可以是獨立系統(tǒng),作為軟件形式與視覺設(shè)備集成;該教材視頻也可以作為模塊化系統(tǒng)與視覺設(shè)備集成為視覺語言教學(xué)系統(tǒng),例如,該教材視頻作為模塊化系統(tǒng)與vr眼鏡集成為vr語言教學(xué)系統(tǒng),并采用中央處理器拖帶多套vr硬件,進(jìn)行一對多教學(xué)模式,當(dāng)然上述模式也可以是一對一教學(xué),即一個用戶使用一個vr設(shè)備進(jìn)行單獨學(xué)習(xí)。在實際的應(yīng)用中,上述教材視頻集成在視覺設(shè)備上的同時,由于需要與用戶進(jìn)行互動式教學(xué),因此,該視覺設(shè)備同樣需要集成語音系統(tǒng),例如,集成麥克風(fēng)等語音錄入系統(tǒng)。用戶通過觀看自身所選擇的上述視覺設(shè)備上播放的教材視頻即可進(jìn)行對應(yīng)的語言學(xué)習(xí)。
步驟s30、接收用戶發(fā)出的語音內(nèi)容,對所述語音內(nèi)容進(jìn)行語音識別;根據(jù)識別結(jié)果,進(jìn)入語音識別糾錯模式,或者進(jìn)入智能交互式對話模式。
本發(fā)明實施例中,系統(tǒng)支持兩種學(xué)習(xí)模式,一種是語音識別糾錯模式,比如,用戶利用集成教材視頻的視覺設(shè)備進(jìn)行語音學(xué)習(xí);另一種是智能交互式對話模式,比如,用戶與集成教材視頻的視覺設(shè)備進(jìn)行智能性互動對話;當(dāng)系統(tǒng)接收用戶發(fā)出的語音內(nèi)容,對用戶輸入的語音內(nèi)容進(jìn)行語音識別;根據(jù)識別結(jié)果,系統(tǒng)選擇進(jìn)行語音識別糾錯模式,還是進(jìn)行智能交互式對話模式。
在本發(fā)明一優(yōu)選的實施例中,系統(tǒng)根據(jù)識別結(jié)果,進(jìn)入智能交互式對話模式包括:
若系統(tǒng)識別出用戶發(fā)音錯誤時,提示用戶發(fā)音錯誤并提示用戶重新錄入正確的發(fā)音;或者,播放錯誤發(fā)音所對應(yīng)的正確發(fā)音,供用戶學(xué)習(xí);或者,提供多種回應(yīng)方式供用戶選擇,比如,系統(tǒng)回應(yīng)“您說的什么意思”、“您說什么”、“您是不是想說~~”等等;識別出用戶發(fā)音正確時,回應(yīng)用戶發(fā)出的所述語音內(nèi)容,并進(jìn)入下一學(xué)習(xí)內(nèi)容。系統(tǒng)回應(yīng)用戶時,自動選擇預(yù)先錄入的多種對話語音,并隨機抽取其中的對話語句,直至用戶發(fā)音正確并系統(tǒng)接受。
例如,系統(tǒng)選擇進(jìn)入語音識別糾錯模式,依托教材視頻但不偏離教材視頻,當(dāng)用戶出現(xiàn)發(fā)音錯誤時,系統(tǒng)能夠迅速識別并提出相應(yīng)的問題,主動讓用戶糾正發(fā)音錯誤,或者引導(dǎo)用戶發(fā)出正確讀音,然后進(jìn)行下一段對話場景。
在本發(fā)明一優(yōu)選的實施例中,系統(tǒng)根據(jù)識別結(jié)果,進(jìn)入智能交互式對話模式包括:
若系統(tǒng)識別出用戶的語音內(nèi)容為基于預(yù)設(shè)場景的內(nèi)容,則檢索語音對話數(shù)據(jù)庫,回應(yīng)用戶發(fā)出的所述語音內(nèi)容;識別出用戶發(fā)音錯誤時,提供多種回應(yīng)方式供用戶選擇,直至用戶發(fā)音正確并進(jìn)入下一對話。
例如,系統(tǒng)選擇進(jìn)入智能交互式對話模式,相對主要依托某一具體的應(yīng)用場景,比如問路、點餐等;例如,用戶就場景內(nèi)容提出問題或者對話內(nèi)容,系統(tǒng)接收用戶錄入的音頻信息,解析出用戶錄入的對話內(nèi)容并給出相應(yīng)答案,供用戶參考。本發(fā)明實施例中,系統(tǒng)預(yù)先錄入標(biāo)準(zhǔn)發(fā)音的對話庫,系統(tǒng)回應(yīng)用戶錄入的音頻信息時,可以利用上述音頻信息對應(yīng)的關(guān)鍵字在對話庫中檢索最接近的對話內(nèi)容并給予回應(yīng),直至用戶結(jié)束本次對話。
在一具體的應(yīng)用場景中,用戶相對依托某一場景例如餐館,參照對話庫中的語句,用戶隨機開始與系統(tǒng)的對話。系統(tǒng)對話庫分為多個單元模塊,每個單元模塊對應(yīng)一個具體的應(yīng)用場景,例如餐廳、車站、機場等;上述各個單元模塊相對獨立又互相關(guān)聯(lián)。比如,在具體的使用過程中,張三去了泰國旅游,不懂泰文,在泰國飯店中點餐時,張三可以佩戴vr設(shè)備,在vr系統(tǒng)中選擇泰國、飯店這一應(yīng)用場景,邊切身體驗泰國飯店、邊根據(jù)vr設(shè)備的提示完成用泰文點餐的過程。從而完成在實際發(fā)生的場景下,完成語言的應(yīng)用和學(xué)習(xí),使得用戶的學(xué)習(xí)能力更快速,并且及時解決用戶的語言障礙問題。又比如,在餐館用餐時,使用與餐館點餐相關(guān)的語句,系統(tǒng)默認(rèn)場景為餐館,但當(dāng)用戶在餐館問路并提出問路的語句時,系統(tǒng)可以選擇繼續(xù)使用餐館場景,也可以隨機進(jìn)入街景背景;在條件允許的情況下(比如,系統(tǒng)有權(quán)限獲取當(dāng)前位置信息并訪問關(guān)聯(lián)的地圖軟件),系統(tǒng)可以關(guān)聯(lián)地圖軟件,并直接顯示用戶所問地點的地圖和街景,甚至可以直接規(guī)劃由用戶當(dāng)前位置達(dá)到目的位置的路徑導(dǎo)航。
在智能交互式對話模式中,若系統(tǒng)識別出用戶發(fā)音錯誤時,提供多種回應(yīng)方式供用戶選擇,直至用戶發(fā)音正確并進(jìn)入下一對話。比如,系統(tǒng)回應(yīng)“您說的什么意思”、“您說什么”、“您是不是想說~~”等等;識別出用戶發(fā)音正確時,回應(yīng)用戶發(fā)出的所述語音內(nèi)容,并進(jìn)入下一句對話。系統(tǒng)回應(yīng)用戶時,自動選擇預(yù)先錄入的多種對話模式,并隨機抽取其中的對話語句,直至用戶發(fā)音正確并系統(tǒng)接受。
本發(fā)明基于視覺設(shè)備的語言學(xué)習(xí)方法可以達(dá)到如下有益效果:通過基于教材內(nèi)容和對應(yīng)的視頻素材,制作所述教材內(nèi)容對應(yīng)的教材視頻;將所述教材視頻集成在具備語音交互功能的視覺設(shè)備上,供用戶通過觀看所述視覺設(shè)備播放的所述教材視頻進(jìn)行語言學(xué)習(xí);接收用戶發(fā)出的語音內(nèi)容,對所述語音內(nèi)容進(jìn)行語音識別;根據(jù)識別結(jié)果,進(jìn)入語音識別糾錯模式,或者進(jìn)入智能交互式對話模式;達(dá)到了通過智能的視覺設(shè)備來進(jìn)行語言類交互操作的目的,用戶可以采用視覺設(shè)備來進(jìn)行自由、自主的語言學(xué)習(xí),解決了傳統(tǒng)語言學(xué)習(xí)中啞巴學(xué)習(xí)的短板,提高了語言學(xué)習(xí)的靈活性和便捷性,在一定程度上,也提高了用戶體驗。
在本發(fā)明一優(yōu)選的實施例中,如圖2所示,本發(fā)明基于視覺設(shè)備的語言學(xué)習(xí)方法圖1所述實施例中,“步驟s10、基于教材內(nèi)容和對應(yīng)的視頻素材,制作所述教材內(nèi)容對應(yīng)的教材視頻”可以實施為如下描述的步驟s11-s13:
步驟s11、對視頻素材中的場景性片段進(jìn)行標(biāo)注,根據(jù)標(biāo)注信息得到場景視頻對應(yīng)的數(shù)據(jù)庫;其中,所述標(biāo)注信息包括:場景性片段在所述視頻素材中的位置以及所述場景性片段對應(yīng)的場景特征;
步驟s12、確定語言教材中的一段對話內(nèi)容所對應(yīng)的應(yīng)用場景,根據(jù)確定的所述應(yīng)用場景,從所述數(shù)據(jù)庫中查找所述應(yīng)用場景對應(yīng)的視頻片段;
步驟s13、按照所述對話內(nèi)容的內(nèi)容特征信息,將查找到的所述視頻片段制作成與所述對話內(nèi)容相一致的教學(xué)視頻。
在本發(fā)明一優(yōu)選的實施例中,系統(tǒng)按照所述對話內(nèi)容的內(nèi)容特征信息,將查找到的所述視頻片段制作成與所述對話內(nèi)容相一致的教學(xué)視頻,可以實施為:
根據(jù)所述對話內(nèi)容的內(nèi)容特征信息,獲取所述對話內(nèi)容中一個特定對象所對應(yīng)的對話條數(shù)、以及每條對話所分別對應(yīng)的對話時長;
從查找到的所述視頻片段中找出與所述對話內(nèi)容相同的所述特定對象,并獲取所述視頻片段中所述特定對象對應(yīng)的說話時長;
根據(jù)所述對話內(nèi)容中特定對象的說話條數(shù)及說話時長,對所述視頻片段中特定對象的說話內(nèi)容進(jìn)行截取和/或拼接,得到與所述對話內(nèi)容中每條對話對應(yīng)的視頻子片段,且每個視頻子片段的時長與其相對應(yīng)的每條對話的對話時長相等。
在一具體的應(yīng)用場景中,系統(tǒng)預(yù)先為每部電影、電視劇、mv等視頻中的場景性片段(比如,在飯店中點餐的場景、在商場中買東西的場景、在酒店前臺訂房間的場景)進(jìn)行標(biāo)注,例如某個電影從第1000幀到10000幀都是飯店中點餐的場景,該段視頻段中只顯示出一個飯店服務(wù)員為顧客點餐提供服務(wù)的一段畫面(這個片段中只有服務(wù)員,沒有顧客,這個片段中服務(wù)員只說了一句話);則可為該片段進(jìn)行標(biāo)注,標(biāo)注信息包括該片段在電影中的位置(從第幾幀到第幾幀)、該片段對應(yīng)的場景(飯店點餐)。對多部視頻進(jìn)行上述標(biāo)注操作,形成場景視頻片段的數(shù)據(jù)庫。編撰教材視頻時,先確定出教材中一段對話x的應(yīng)用場景,然后在上述數(shù)據(jù)庫中查找該段對話x的應(yīng)用場景所對應(yīng)的視頻片段y。將視頻片段y按照該段對話x的特點進(jìn)行制作。還是以飯店點餐為例,制作方式例如為:分析對話x中由服務(wù)員說的話的句數(shù),例如有m句,每句記為i(i=1,2,,,m);分析每句話的時長,分別記為ti;分析視頻片段中服務(wù)員說話的時長t;截取或者拼接該段視頻中服務(wù)員說話的部分幀,使得最后能根據(jù)該段視頻,得到對話x中每句話對應(yīng)的視頻子段,每段視頻子段的時長與對話x中相應(yīng)的那句話的時長是相等的。也可以理解為,例如對話x中有一句“請問您點什么餐?”,時長為2秒,則相應(yīng)的視頻子段中服務(wù)員的嘴處于說話狀態(tài)的時長也為2秒。
在本發(fā)明一優(yōu)選的實施例中,如圖3所示,本發(fā)明基于視覺設(shè)備的語言學(xué)習(xí)方法圖1所述實施例中,“步驟s10、基于教材內(nèi)容和對應(yīng)的視頻素材,制作所述教材內(nèi)容對應(yīng)的教材視頻”可以實施為如下描述的步驟s14-s16:
步驟s14、對視頻素材中對應(yīng)一個場景的視頻幀進(jìn)行標(biāo)注,根據(jù)標(biāo)注信息得到視頻幀對應(yīng)的數(shù)據(jù)庫;
步驟s15、確定語言教材中的一段對話內(nèi)容所對應(yīng)的應(yīng)用場景,根據(jù)確定的所述應(yīng)用場景,從所述場景視頻數(shù)據(jù)庫中查找所述應(yīng)用場景對應(yīng)的視頻幀;
步驟s16、按照所述對話內(nèi)容的發(fā)音特征信息,將查找到的所述視頻幀改編為與所述對話內(nèi)容相一致的教學(xué)視頻。
在本發(fā)明一優(yōu)選的實施例中,系統(tǒng)按照所述對話內(nèi)容的發(fā)音特征信息,將查找到的所述視頻幀改編為與所述對話內(nèi)容相一致的教學(xué)視頻,可以實施為:
根據(jù)所述對話內(nèi)容的發(fā)音特征信息,獲取所述對話內(nèi)容中一個特定對象所對應(yīng)的每個詞語的發(fā)音特征;
從查找到的所述視頻幀中找出與所述對話內(nèi)容相同的所述特定對象,并識別所述視頻幀中所述特定對象的嘴型特征;
根據(jù)所述對話內(nèi)容中特定對象對應(yīng)的每個詞語的發(fā)音特征,對所述視頻幀中特定對象的嘴型特征進(jìn)行模擬制作,得到與所述對話內(nèi)容中每個特定對象對應(yīng)的視頻子片段,且每個視頻子片段中特定對象的嘴型特征與其相對應(yīng)的所述對話內(nèi)容中每個詞語的發(fā)音特征映射的嘴型特征相一致。
在一具體的應(yīng)用場景中,系統(tǒng)預(yù)先從每部電影、電視劇、mv等視頻中調(diào)取一個幀,該個幀對應(yīng)一個場景,例如對于飯店點餐場景來說,這一幀里顯示了飯店的場面、和一個服務(wù)員。同樣為這樣的每個幀進(jìn)行標(biāo)注,例如某個電影從第1000幀到10000幀都是飯店中點餐的場景,該段視頻段中只顯示出一個飯店服務(wù)員為顧客點餐提供服務(wù)的一段畫面(這個片段中只有服務(wù)員,沒有顧客,這個片段中服務(wù)員只說了一句話);則可為該片段進(jìn)行標(biāo)注,標(biāo)注信息包括該片段在電影中的位置(從第幾幀到第幾幀)、該片段對應(yīng)的場景(飯店點餐)。對多部視頻進(jìn)行上述標(biāo)注操作,形成場景視頻片段的數(shù)據(jù)庫。編撰教材視頻時,先確定出教材中一段對話x的應(yīng)用場景,然后在上述數(shù)據(jù)庫中查找該段對話x的應(yīng)用場景所對應(yīng)的視頻幀z。將視頻幀z按照該段對話x的特點進(jìn)行制作。還是以飯店點餐為例,制作方式例如為:識別視頻幀z中的服務(wù)員的嘴部形象;按照對話x中每個詞語的發(fā)音,對嘴部形象的張合狀態(tài)進(jìn)行改變,最終拼接成與對話x中服務(wù)員所說的話的嘴部張合狀態(tài)一致的視頻片段,作為對話x的教學(xué)視頻。
本發(fā)明基于視覺設(shè)備的語言學(xué)習(xí)方法中采用視頻片段或者視頻幀來制作教材視頻的方法,達(dá)到了教材視頻制作多樣性和靈活性的目的,豐富了教材視頻的內(nèi)容,提高了教材視頻學(xué)習(xí)的趣味性,擴大了教材視頻的應(yīng)用范圍。
基于圖1、圖2和圖3所述實施例描述的一種基于視覺設(shè)備的語言學(xué)習(xí)方法,本發(fā)明還提供了一種基于視覺設(shè)備的語言學(xué)習(xí)系統(tǒng),對應(yīng)于圖1、圖2和圖3所述實施例的描述,如圖4所示,本發(fā)明一種基于視覺設(shè)備的語言學(xué)習(xí)系統(tǒng)包括:
視頻制作模塊60,用于基于教材內(nèi)容和對應(yīng)的視頻素材,制作所述教材內(nèi)容對應(yīng)的教材視頻;
視頻集成模塊70,用于將所述教材視頻集成在具備語音交互功能的視覺設(shè)備上,供用戶通過觀看所述視覺設(shè)備播放的所述教材視頻進(jìn)行語言學(xué)習(xí);
視頻交互模塊80,用于接收用戶發(fā)出的語音內(nèi)容,對所述語音內(nèi)容進(jìn)行語音識別;根據(jù)識別結(jié)果,進(jìn)入語音識別糾錯模式,或者進(jìn)入智能交互式對話模式。
在本發(fā)明一優(yōu)選的實施例中,所述視頻交互模塊80還用于:
識別出用戶發(fā)音錯誤時,提示用戶發(fā)音錯誤并提示用戶重新錄入正確的發(fā)音;或者,播放錯誤發(fā)音所對應(yīng)的正確發(fā)音,供用戶學(xué)習(xí);或者,提供多種回應(yīng)方式供用戶選擇;
識別出用戶發(fā)音正確時,回應(yīng)用戶發(fā)出的所述語音內(nèi)容,并進(jìn)入下一學(xué)習(xí)內(nèi)容。
在本發(fā)明一優(yōu)選的實施例中,所述視頻交互模塊80還用于:
識別出用戶的語音內(nèi)容為基于預(yù)設(shè)場景的內(nèi)容,則檢索語音對話數(shù)據(jù)庫,回應(yīng)用戶發(fā)出的所述語音內(nèi)容;
識別出用戶發(fā)音錯誤時,提供多種回應(yīng)方式供用戶選擇,直至用戶發(fā)音正確并進(jìn)入下一對話。
在本發(fā)明一優(yōu)選的實施例中,如圖5所示,本發(fā)明基于視覺設(shè)備的語言學(xué)習(xí)系統(tǒng)中,圖4所述實施例中的所述視頻制作模塊60包括:
場景標(biāo)注單元610,用于對視頻素材中的場景性片段進(jìn)行標(biāo)注,根據(jù)標(biāo)注信息得到場景視頻對應(yīng)的數(shù)據(jù)庫;其中,所述標(biāo)注信息包括:場景性片段在所述視頻素材中的位置以及所述場景性片段對應(yīng)的場景特征;
片段查找單元620,用于確定語言教材中的一段對話內(nèi)容所對應(yīng)的應(yīng)用場景,根據(jù)確定的所述應(yīng)用場景,從所述數(shù)據(jù)庫中查找所述應(yīng)用場景對應(yīng)的視頻片段;
片段制作單元630,用于按照所述對話內(nèi)容的內(nèi)容特征信息,將查找到的所述視頻片段制作成與所述對話內(nèi)容相一致的教學(xué)視頻。
在本發(fā)明一優(yōu)選的實施例中,如圖6所示,本發(fā)明基于視覺設(shè)備的語言學(xué)習(xí)系統(tǒng)中,圖4所述實施例中的所述視頻制作模塊60包括:
幀標(biāo)注單元640,用于對視頻素材中對應(yīng)一個場景的視頻幀進(jìn)行標(biāo)注,根據(jù)標(biāo)注信息得到視頻幀對應(yīng)的數(shù)據(jù)庫;
幀查找單元650,用于確定語言教材中的一段對話內(nèi)容所對應(yīng)的應(yīng)用場景,根據(jù)確定的所述應(yīng)用場景,從所述場景視頻數(shù)據(jù)庫中查找所述應(yīng)用場景對應(yīng)的視頻幀;
幀制作單元660,用于按照所述對話內(nèi)容的發(fā)音特征信息,將查找到的所述視頻幀制作成與所述對話內(nèi)容相一致的教學(xué)視頻。
本發(fā)明基于視覺設(shè)備的語言學(xué)習(xí)系統(tǒng)通過基于教材內(nèi)容和對應(yīng)的視頻素材,制作所述教材內(nèi)容對應(yīng)的教材視頻;將所述教材視頻集成在具備語音交互功能的視覺設(shè)備上,供用戶通過觀看所述視覺設(shè)備播放的所述教材視頻進(jìn)行語言學(xué)習(xí);接收用戶發(fā)出的語音內(nèi)容,對所述語音內(nèi)容進(jìn)行語音識別;根據(jù)識別結(jié)果,進(jìn)入語音識別糾錯模式,或者進(jìn)入智能交互式對話模式;達(dá)到了通過智能的視覺設(shè)備來進(jìn)行語言類交互操作的目的,用戶可以采用視覺設(shè)備來進(jìn)行自由、自主的語言學(xué)習(xí),解決了傳統(tǒng)語言學(xué)習(xí)中啞巴學(xué)習(xí)的短板,提高了語言學(xué)習(xí)的靈活性和便捷性,在一定程度上,也提高了用戶體驗。另外,本發(fā)明基于視覺設(shè)備的語言學(xué)習(xí)系統(tǒng)中采用視頻片段或者視頻幀來制作教材視頻的方法,達(dá)到了教材視頻制作多樣性和靈活性的目的,豐富了教材視頻的內(nèi)容,提高了教材視頻學(xué)習(xí)的趣味性,擴大了教材視頻的應(yīng)用范圍。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器和光學(xué)存儲器等)上實施的計算機程序產(chǎn)品的形式。
本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可存儲在能引導(dǎo)計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。