一種多媒體轉寫方法和系統的制作方法

文檔序號：10536386閱讀：615來源：國知局

一種多媒體轉寫方法和系統的制作方法
【專利摘要】本發明提供一種多媒體轉寫方法，應用于多媒體轉寫系統中，包括以下步驟：S1、接收演示文稿，并構建所述演示文稿的關鍵信息樹；S2、接收語音數據，并對所述語音數據進行語音識別，得到所述語音數據的轉寫文本；S3、通過所述關鍵信息樹將所述語音數據和所述轉寫文本與所述演示文稿進行同步；S4、將同步后帶有所述語音數據和所述轉寫文本的演示文稿顯示給用戶。用戶在看演示文稿時可以同時聽到演講人的聲音，看到演講人聲音轉寫的文本；進一步地，根據每頁演示文稿包含的子主題對轉寫文本分段，同一個子主題的轉寫文本作為一段，不同子主題的轉寫文本作為不同的段，可以方便用戶理解轉寫文本，進一步提高了用戶體驗。
【專利說明】
一種多媒體轉寫方法和系統
技術領域
[0001]本發明涉及語音信號處理領域，特別是涉及一種多媒體轉寫方法和系統。
【背景技術】
[0002]近年來，隨著語音識別技術的快速發展，自動語音識別相關產品已廣泛應用于各行各業，將語音轉成文本，大大方便了人們的生活需求，如將會議錄音轉成相應文本，方便會議秘書后續查詢會議信息或輔助其撰寫會議紀要;或者將采訪錄音轉成相應文本，在此基礎上編輯成稿等。然而，上述應用都僅僅是將錄音轉成文本，并不能同步看到語音數據對應的演示文稿，尤其是演示文稿中存在重要信息，而所述重要信息不存在轉寫結果中時，用戶必須根據語音數據或轉寫文本查找相應的演示文稿，如果演示文稿量較多時，很難快速查找到與轉寫文本對應的演示文稿，從而降低了用戶體驗;如錄制的語音數據是老師的課堂教學錄音，老師在課堂上經常會給出各種參考資料或其相應鏈接，或知識點講解時的演示操作，這些內容在語音數據或轉寫文本數據中經常無法找到，學生必須要到轉寫文本對應的演示文稿中才可查看。
[0003]現有的轉寫系統一般將錄制的語音數據直接轉寫成文本數據顯示給用戶，當用戶在查看轉寫文本時，看不到相應的演示文稿，當有些重要的信息只存在演示文稿時，如圖片中包含的重要鏈接；用戶必須要根據錄制的語音數據或轉寫文本自己查找相應的演示文稿，用戶體驗較差，同時也不能做到，隨時查看轉寫文本的同時查看相應演示文稿，尤其是當演示文稿較多時，很難快速找到與轉寫文本對應的演示文稿。

【發明內容】

[0004]鑒于以上所述現有技術的缺點，本發明的目的在于提供一種多媒體轉寫方法，應用于多媒體轉寫系統中，包括以下步驟:S1、接收演示文稿，并構建所述演示文稿的關鍵信息樹;S2、接收語音數據，并對所述語音數據進行語音識別，得到所述語音數據的轉寫文本；
S3、通過所述關鍵信息樹將所述語音數據和所述轉寫文本與所述演示文稿進行同步;S4、將同步后帶有所述語音數據和所述轉寫文本的演示文稿顯示給用戶。
[0005]于本發明的一實施例中，所述步驟S2還包括步驟:S21、對所述語音數據進行端點檢測，得到所述語音數據有效語音段的起始點和結束點；S22、對所述語音段的特征進行提取;S23、根據所述特征和預先訓練的聲學模型及語言模型進行解碼操作；S24、根據解碼結果獲取所述語音數據對應的所述轉寫文本和所述轉寫文本置信度。
[0006]于本發明的一實施例中，所述步驟SI包括步驟:S11、提取每一頁所述演示文稿中包含的關鍵信息;S12、根據所述關鍵信息構建所述演示文稿關鍵信息樹。
[0007]于本發明的一實施例中，所述步驟S12中還包括步驟:S121、獲取所述演示文稿的提綱信息，得到整個所述演示文稿之間的鏈接關系;S122、將每頁所述演示文稿作為所述關鍵信息樹的一個節點，所述演示文稿之間的鏈接關系作為所述節點之間的邊，形成所述演示文稿的樹結構;S123、將所述關鍵信息分別添加到相應的所述節點上，得到所述演示文稿的關鍵信息樹。
[0008]于本發明的一實施例中，所述步驟S3還包括步驟:S31、獲取所述演示文稿的翻頁時間點；S32、將所述關鍵信息樹轉換成關鍵信息圖；S33、根據所述翻頁時間點和所述關鍵信息圖對所述轉寫文本進行分頁調整和分段顯示。
[0009]于本發明的一實施例中，所述步驟S32還包括步驟:S321、構建所述節點中的父節點與子節點之間的翻頁出?。籗322、構建相同所述父節點的所有所述子節點之間的翻頁出?。籗323、構建相鄰所述父節點之間的翻頁出??；S324、構建終止節點以及所述終止節點與開始節點之間的翻頁出弧。
[0010]于本發明的一實施例中，所述步驟S33還包括步驟:S331、將所述關鍵信息圖中的根節點激活，并將所述激活節點保存為當前活動節點；S332、接收當前頁的所述演示文稿的翻頁時間點和對應的每個所述有效語音段的所述轉寫文本;S333、遍歷當前活動節點對應的出弧，并將接收的所述轉寫文本與所述出弧上的關鍵信息進行匹配，并判斷匹配是否成功;若成功，則將對應的節點激活并記錄為當前活動節點，并進入步驟S334;若失敗，則進入步驟S335;S334、根據匹配結果，對所述轉寫文本進行分段顯示，與同一關鍵信息相匹配的轉寫文本放入同一段中，與不同關鍵信息相匹配的轉寫文本放入不同段中中，并進入步驟S335;S335、判斷當前所述轉寫文本的對應時間點是否到達當前頁的所述演示文稿的翻頁時間點；若是，則進入步驟S336;若否，則返回步驟S332; S336、判斷當前活動節點是否包含翻頁出弧;若不包含，則進入步驟S337 ；若包含，則進入步驟S338 ； S337、判斷當前活動節點的出弧是否指向終止節點；若是，則所有所述演示文稿與所述轉寫文本的同步完成;若否，則進入步驟S338; S338、判斷當前接收的所述轉寫文本的語義是否完整;若是，則將當前的所述轉寫文本作為當前頁最后一個所述有效語音段的轉寫文本，當前頁演示文稿與轉寫文本的同步完成，進入S339;若否，則對所述轉寫文本進行調整，調整后當前頁演示文稿與轉寫文本的同步完成，進入S339;S339、將下一頁演示文稿作為當前頁，返回步驟S332。
[0011]本發明還提供了一種多媒體轉寫系統，包括:構建模塊，用于接收演示文稿，并構建所述演示文稿的關鍵信息樹;轉寫模塊，用于接收語音數據，并對所述語音數據進行語音識別，得到所述語音數據的轉寫文本；同步模塊，用于通過所述關鍵信息樹將所述語音數據和所述轉寫文本與所述演示文稿進行同步；顯示模塊，用于將所述同步模塊同步后帶有所述語音數據和所述轉寫文本的演示文稿顯示給用戶。
[0012]于本發明的一實施例中，所述轉寫模塊還包括:檢測單元，用于對所述語音數據進行端點檢測，得到所述語音數據有效語音段的起始點和結束點;特征提取單元，用于對所述語音段的特征進行提取;解碼單元，用于根據所述特征和預先訓練的聲學模型及語言模型進行解碼操作;轉寫結果獲取單元，用于根據解碼結果獲取所述語音數據對應的所述轉寫文本和所述轉寫文本置信度。
[0013]于本發明的一實施例中，所述構建模塊還包括:提取單元，用于提取每一頁所述演示文稿中包含的關鍵信息；構建單元，用于根據所述關鍵信息構建所述演示文稿關鍵信息樹。
[0014]于本發明的一實施例中，所述構建單元還包括:獲取子單元，用于獲取所述演示文稿的提綱信息，得到整個所述演示文稿之間的鏈接關系;構建子單元，用于將每頁所述演示文稿作為所述關鍵信息樹的一個節點，所述演示文稿之間的鏈接關系作為所述節點之間的邊，形成所述演示文稿的樹結構;還用于將所述關鍵信息分別添加到相應的所述節點上，得到所述演示文稿的關鍵信息樹。
[0015]于本發明的一實施例中，所述同步模塊還包括:時間點獲取單元，用于獲取所述演示文稿的翻頁時間點；轉換單元，用于將所述關鍵信息樹轉換成關鍵信息圖；同步單元，用于根據所述翻頁時間點和所述關鍵信息圖對所述轉寫文本進行分頁調整和分段顯示。
[0016]于本發明的一實施例中，所述轉換單元還用于構建所述節點中的父節點與子節點之間的翻頁出弧、相同所述父節點的所有所述子節點之間的翻頁出弧、相鄰所述父節點之間的翻頁出弧，還用于構建終止節點以及所述終止節點與開始節點之間的翻頁出弧。
[0017]于本發明的一實施例中，所述同步單元包括:節點激活子單元，用于將所述關鍵信息圖中的根節點激活，并將所述激活節點保存為當前活動節點;接收子單元，用于接收當前頁的所述演示文稿的翻頁時間點和對應的每個所述有效語音段的所述轉寫文本;匹配子單元，用于遍歷當前活動節點對應的出弧，并將接收的所述轉寫文本與所述出弧上的關鍵信息進行匹配，并判斷匹配是否成功;若成功，則將對應的節點激活并記錄為當前活動節點；分段顯示子單元，用于根據匹配結果，對所述轉寫文本進行分段顯示，與同一關鍵信息相匹配的轉寫文本放入同一段中，與不同關鍵信息相匹配的轉寫文本放入不同段中；時間點判斷子單元，用于判斷當前所述轉寫文本的對應時間點是否到達當前頁的所述演示文稿的翻頁時間點；翻頁出弧判斷子單元，用于判斷當前活動節點是否包含翻頁出弧;終止節點判斷子單元，用于判斷當前活動節點的出弧是否指向終止節點;若是，則所有所述演示文稿與所述轉寫文本的同步完成;語義判斷子單元，用于判斷當前接收的所述轉寫文本的語義是否完整;若是，則將當前的所述轉寫文本作為當前頁最后一個所述有效語音段的轉寫文本，當前頁演示文稿與轉寫文本的同步完成;若否，則對所述轉寫文本的語義進行調整，調整后當前頁演示文稿與轉寫文本的同步完成；同步子單元，用于將下一頁演示文稿作為當前頁，并開始下一頁演示文稿的同步。
[0018]如上所述，本發明的一種多媒體轉寫方法和系統，具有以下有益效果:
[0019]用戶在看演示文稿時可以同時聽到演講人的聲音，看到演講人聲音轉寫的文本；進一步地，根據每頁演示文稿包含的子主題對轉寫文本分段，同一個子主題的轉寫文本作為一段，不同子主題的轉寫文本作為不同的段，可以方便用戶理解轉寫文本，進一步提高了用戶體驗。
【附圖說明】
[0020]圖1顯示為本發明多媒體轉寫方法一實施例的系統流程示意圖。
[0021]圖2顯示為本發明多媒體轉寫系統一實施例的系統框架示意圖。
[0022]圖3顯示為本發明中關鍵信息樹的一實施例的示意圖。
[0023]圖4顯示為本發明中關鍵信息圖的一實施例的示意圖。
【具體實施方式】
[0024]以下通過特定的具體實例說明本發明的實施方式，本領域技術人員可由本說明書所揭露的內容輕易地了解本發明的其他優點與功效。本發明還可以通過另外不同的【具體實施方式】加以實施或應用，本說明書中的各項細節也可以基于不同觀點與應用，在沒有背離本發明的精神下進行各種修飾或改變。需說明的是，在不沖突的情況下，以下實施例及實施例中的特征可以相互組合。
[0025]需要說明的是，以下實施例中所提供的圖示僅以示意方式說明本發明的基本構想，遂圖式中僅顯示與本發明中有關的組件而非按照實際實施時的組件數目、形狀及尺寸繪制，其實際實施時各組件的型態、數量及比例可為一種隨意的改變，且其組件布局型態也可能更為復雜。
[0026]參見圖1，圖1顯示為本發明多媒體轉寫方法一實施例的系統流程示意圖。本發明提供了一種多媒體轉寫方法，應用于多媒體轉寫系統中，多媒體轉寫系統指包含演示文稿、演講人的語音數據及語音數據轉寫文本的系統，多媒體轉寫系統可以將演講人的語音數據、演講人語音數據的轉寫文本及演示文稿進行同步，方便用戶在查看轉寫文本的同時，查看相應演示文稿。演示文稿指用于各種演示的文稿，可以為紙質文稿，也可以為電子文稿，紙質文稿一般可以通過拍照顯示到屏幕上，如老師上課時的演示課本，電子文稿如PPT、各種演示圖片等；當然，系統不僅可以用于演講結束后，用戶對演講內容的查詢，也可以用于允許短時延時的演講直播中，用戶可以現場或遠程以接近直播的形式看到演講內容、聽到演講語音數據，看到演講語音數據的轉寫結果。
[0027]本發明提供的多媒體轉寫方法包括以下步驟:
[0028]S1、接收演示文稿，并構建演示文稿的關鍵信息樹；具體地在開始時接收演示文稿，構建演示文稿的關鍵信息樹，關鍵信息樹包含了演示文稿的關鍵信息，關鍵信息可以是每頁演示文稿的子主題和相應子主題的關鍵詞。在本發明的一實施例中，步驟SI包括步驟:
511、提取每一頁演示文稿中包含的關鍵信息。具體提取時，可以根據演示文稿包含的文本信息進行語義理解，提取關鍵信息，關鍵信息包含每頁演示文稿的子主題及子主題對應的關鍵詞，每個子主題可以提取一到多個關鍵詞。例如一頁演示文稿的文本內容包括的主題為“‘十二五’先進制造領域整體布局”；子主題為“3+2個專項”和“5個主題”；子主題“3+2個專項”包括項目“智能制造”、“綠色制造”、“服務機器人”和“+數控一代”、“制造業信息化”；子主題“5個主題”包括項目“重大裝備與工藝”、“系統控制”、“制造服務”、“微機電系統”和“智能機器人”。例如對每個子主題提取的關鍵詞信息如下:子主題“3+2個專項”的關鍵詞:3+2，服務機器人，制造業信息化;子主題“5個主題”的關鍵詞:重大裝備與工藝，智能機器人。
512、根據關鍵信息構建演示文稿關鍵信息樹。優選地，步驟S12中還包括步驟:S121、獲取演示文稿的提綱信息，得到整個演示文稿之間的鏈接關系；提綱信息一般根據演示文稿的結構得到，如演示文稿為PPT時，則可以直接根據PPT的結構得到，演示文稿為書本時，可以根據目錄得到。S122、將每頁演示文稿作為關鍵信息樹的一個節點，演示文稿之間的鏈接關系作為節點之間的邊，形成演示文稿的樹結構；S123、將關鍵信息分別添加到相應的節點上，得到演示文稿的關鍵信息樹。例如，圖3顯示為本發明中關鍵信息樹的一實施例的示意圖。圖中顯示了主題為“機器人”的演示文稿形成的關鍵信息樹。如圖3所示，根據上例機器人演示文稿得到的關鍵信息樹，每個節點均設置有對應的關鍵信息節點。
[0029]S2、接收語音數據，并對語音數據進行語音識別，得到語音數據的轉寫文本;在本發明的一實施例中，步驟S2還包括步驟:S21、對語音數據進行端點檢測，得到語音數據有效語音段的起始點和結束點；S22、對語音段的特征進行提??；如MFCC(Mel FrequencyCepstrum Coefficient，MFCC)特征。S23、根據特征和預先訓練的聲學模型及語言模型進行解碼操作;S24、根據解碼結果獲取語音數據對應的轉寫文本和轉寫文本置信度。
[0030]S3、通過關鍵信息樹將語音數據和轉寫文本與演示文稿進行同步;演講語音數據、轉寫文本與演示文稿的同步過程即將演講人演講的語音數據、轉寫文本與每頁演示文稿進行對齊，當演講人對演示文稿翻頁時，演講語音數據和轉寫文本進行相應的分頁。具體同步時，先采用介入式或非介入式的方法獲取演講人的翻頁時間點信息，根據時間點信息及構建的演示文稿關鍵信息樹，對語音數據、轉寫文本及演示文稿進行同步，同時將轉寫文本根據每頁演示文稿的子主題進行分段。在本發明的一實施例中，步驟S3還包括步驟:
[0031]S31、獲取演示文稿的翻頁時間點；翻頁時間點即當前演示文稿講解結束后，翻到下一頁的時間點，利用時間點信息對演示文稿和演講語音數據及相應轉寫文本進行同步后，需要根據關鍵信息樹及翻頁時間點對演示文稿與轉寫文本的同步結果進行調整，利用調整后的時間點對演示文稿與演講語音數據進行再次同步。翻頁時間點的獲取可以采用介入式或非介入式兩種方法，由于翻頁時間點直接影響同步的結果，所以也可以采用兩種方法的結合來獲取翻頁時間點，具體如下:介入式獲取方法需要在演講人演講時使用的計算機上安裝系統事件捕捉程序，用于捕捉演示文稿的翻頁事件，每次觸發翻頁事件時，保存當前的翻頁時間點;非介入式獲取方法指無法在演講人演講時使用的計算機上安裝系統事件捕捉程序時使用的方法，具體可以通過在演示文稿前面設置相應的攝像機來捕捉翻頁事件，當演示文稿翻頁時，保存當前的翻頁時間點。獲取到演示文稿的翻頁時間點后，將時間點對應到演講語音數據上，從而得到每頁演示文稿對應的演講語音數據及相應語音數據的轉寫文本。
[0032]S32、將關鍵信息樹轉換成關鍵信息圖；關鍵信息圖主要用于演示文稿與轉寫文本的同步調整，及每頁演示文稿對應轉寫文本的分段顯示，關鍵信息圖包含了演示文稿的關鍵信息，即演示文稿的子主題及子主題相應的關鍵詞；在同步時，根據演示文稿的子主題分段顯示轉寫文本。如圖4所示，圖4顯示為本發明中關鍵信息圖的一實施例的示意圖。圖中顯示了主題為“機器人”的演示文稿中的關鍵信息樹轉換后形成的關鍵信息圖，其中“[翻頁]”表示翻頁出弧。具體地，步驟S32還包括步驟:S321、構建節點中的父節點與子節點之間的翻頁出弧;將關鍵信息樹中每個節點的關鍵信息節點包含的關鍵詞信息放到每個節點的入弧上；同時，將每個父節點到其第一個子節點的邊標識為翻頁出弧，如圖4中“機器人介紹”節點到其第一個子節點“機器人的發展史”的邊被標識為翻頁出弧。S322、構建相同父節點的所有子節點之間的翻頁出??；即將關鍵信息樹中相同的父節點的子節點之間增加一翻頁出弧，并將子節點的關鍵詞信息放到翻頁出弧上。S323、構建相鄰父節點之間的翻頁出弧;在對應同一個父節點的所有子節點中最后一個子節點與下一個父節點之間設置一個翻頁出弧，并將對應兩個父節點的關鍵詞信息放在此翻頁出弧上。具體地，找到關鍵信息樹中所有的葉子節點，在屬于同一個父節點的葉子節點中的最后一個葉子節點上分別增加該葉子節點到其父節點的下一個兄弟節點的出弧，如圖4中，增加“第三代機器人”節點到“現代機器人的發展”節點的出弧，并將父節點兄弟節點的關鍵詞信息放到新增加的弧上，同時標識該弧為翻頁出弧。如果父節點后面沒有兄弟節點，則不需要增加出弧，如圖4中“機器人的發展方向”節點后面沒有兄弟節點了，則該節點下的最后一個葉子節點不需要增加出弧。S324、構建終止節點以及終止節點與開始節點之間的翻頁出弧。首先增加終止節點，終止節點可以使用end節點標示，在所有子節點增加一條出弧指向終止節點，并在終止節點增加一條翻頁出弧指向開始節點。即，所有葉子節點增加一條出弧，指向end節點，end節點增加一條弧指向start節點，start節點為關鍵信息樹的根節點，標識end節點增加一條弧指向start節點的弧為翻頁出弧。
[0033]S33、根據翻頁時間點和關鍵信息圖對轉寫文本進行分頁調整和分段顯示。為了保持每頁轉寫文本語義的完整性，需要對根據演示文稿翻頁時間點得到的轉寫文本進行分頁調整，同時為了方便用戶理解，需要對對調整后的轉寫文本進行分段顯示。具體地，步驟S33還包括步驟:S331、將關鍵信息圖中的根節點激活，即將圖4中的start節點激活，并將激活節點保存為當前活動節點。S332、接收當前頁的演示文稿的翻頁時間點和對應的每個有效語音段的轉寫文本;通常以有效語音段為單位，依次接收當前頁演示文稿對應的每個有效語音的轉寫文本，及當前頁演示文稿翻頁時間點。S333、遍歷當前活動節點對應的出弧，并將接收的轉寫文本與出弧上的關鍵信息進行匹配，并判斷匹配是否成功;若成功，則將對應的節點激活并記錄為當前活動節點，并進入步驟S334;若失敗，則進入步驟S335; S334、根據匹配結果，對轉寫文本進行分段顯示，與同一關鍵信息相匹配的轉寫文本放入同一段中，與不同關鍵信息相匹配的轉寫文本放入不同段中，并進入步驟S335;S335、判斷當前轉寫文本的對應時間點是否到達當前頁的演示文稿的翻頁時間點；若是，則進入步驟S336;若否，則返回步驟S332;S336、判斷當前活動節點是否包含翻頁出弧;若不包含，則進入步驟S337;若包含，則進入步驟S338; S337、判斷當前活動節點的出弧是否指向終止節點;若是，則所有演示文稿與轉寫文本的同步完成；同時，將關鍵信息圖保存的記錄清空，將所有轉寫文本分頁分段與演示文稿同步顯示出來;若否，則進入步驟S338;S338、判斷當前接收的轉寫文本的語義是否完整;若是，則將當前的轉寫文本作為當前頁最后一個有效語音段的轉寫文本，當前頁演示文稿與轉寫文本的同步完成，進入步驟S339;若否，則對轉寫文本的語義進行調整，調整后即當前頁的演示文稿與轉寫文本的同步完成，進入步驟S339;S339、將下一頁演示文稿作為當前頁，返回步驟S332，開始下一頁演示文稿的同步。判斷轉寫文本語義是否完整主要判斷當前演示文稿翻頁時間點位置是否是轉寫文本整句結束位置，即當前轉寫文本是否是在句子中間被切斷。在本發明的一優選實施例中，具體判斷時，可以根據當前轉寫文本的置信度得分判斷，分別計算當前轉寫文本的置信度得分，及將翻頁時間點后一個有效語音段的轉寫文本與當前轉寫文本一起的置信度得分，如果后者置信度得分較低，則認為當前轉寫文本語義完整;如果后者得分較高，并且得分超過閾值，則認為當前轉寫文本語義不完整，需要調整，具體調整時，可以根據翻頁時間點后一有效語音段轉寫文本與當前轉寫文本的置信度，將當前頁的翻頁時間點調整為當前轉寫文本后一有效語音段的轉寫文本結束位置，同時調整轉寫文本對應語音數據的翻頁時間點。當然，也可以采用其它方法進行判斷，如根據當前轉寫文本對應的語音數據上判斷，判斷語音數據翻頁時間點前后的聲學變化，或連續性，再結合轉寫文本的置信度來判斷語義的完整性。
[0034]S4、將同步后帶有語音數據和轉寫文本的演示文稿顯示給用戶。同步顯示后，使用戶在看演示文稿時可以同時聽到演講人的聲音，看到演講人聲音轉寫的文本，大大提高了用戶體驗;進一步地，為了方便用戶理解轉寫文本，本發明的多媒體轉寫方法根據每頁演示文稿包含的子主題對轉寫文本分段，同一個子主題的轉寫文本作為一段，不同子主題的轉寫文本作為不同的段，進一步提高了用戶體驗。
[0035]如圖2所示，圖2顯示為本發明多媒體轉寫系統一實施例的系統框架示意圖。本發明還提供了一種多媒體轉寫系統，包括:
[0036]構建模塊，用于接收演示文稿，并構建演示文稿的關鍵信息樹;具體地在開始時構建模塊接收演示文稿，構建演示文稿的關鍵信息樹，關鍵信息樹包含了演示文稿的關鍵信息，關鍵信息可以是每頁演示文稿的子主題和相應子主題的關鍵詞。在本發明的一實施例中，構建模塊還包括:提取單元，用于提取每一頁演示文稿中包含的關鍵信息;構建單元，用于根據關鍵信息構建演示文稿關鍵信息樹。具體提取時，提取單元可以根據演示文稿包含的文本信息進行語義理解，提取關鍵信息，關鍵信息包含每頁演示文稿的子主題及子主題對應的關鍵詞，每個子主題可以提取一到多個關鍵詞。例如一頁演示文稿的文本內容包括的主題為“‘十二五’先進制造領域整體布局”；子主題為“3+2個專項”和“5個主題”；子主題“3+2個專項”包括項目“智能制造”、“綠色制造”、“服務機器人”和“+數控一代”、“制造業信息化”；子主題“5個主題”包括項目“重大裝備與工藝”、“系統控制”、“制造服務”、“微機電系統”和“智能機器人”。例如對每個子主題提取的關鍵詞信息如下:子主題“3+2個專項”的關鍵詞:3+2，服務機器人，制造業信息化;子主題“5個主題”的關鍵詞:重大裝備與工藝，智能機器人。優選地，構建單元還包括:獲取子單元，用于獲取演示文稿的提綱信息，得到整個演示文稿之間的鏈接關系;構建子單元，用于將每頁演示文稿作為關鍵信息樹的一個節點，演示文稿之間的鏈接關系作為節點之間的邊，形成演示文稿的樹結構;還用于將關鍵信息分別添加到相應的節點上，得到演示文稿的關鍵信息樹。例如，圖3顯示為本發明中關鍵信息樹的一實施例的示意圖。圖中顯示了主題為“機器人”的演示文稿形成的關鍵信息樹。如圖3所示，根據上例機器人演示文稿得到的關鍵信息樹，每個節點均設置有對應的關鍵信息節點。
[0037]轉寫模塊，用于接收語音數據，并對語音數據進行語音識別，得到語音數據的轉寫文本;在本發明的一實施例中，轉寫模塊還包括:檢測單元，用于對語音數據進行端點檢測，得到語音數據有效語音段的起始點和結束點；特征提取單元，用于對語音段的特征進行提?。蝗鏜FCC(Mel Frequency Cepstrum Coefficient，MFCC)特征。解碼單元，用于根據特征和預先訓練的聲學模型及語言模型進行解碼操作;轉寫結果獲取單元，用于根據解碼結果獲取語音數據對應的轉寫文本和轉寫文本置信度。
[0038]同步模塊，用于通過關鍵信息樹將語音數據和轉寫文本與演示文稿進行同步;演講語音數據、轉寫文本與演示文稿的同步過程即將演講人演講的語音數據、轉寫文本與每頁演示文稿進行對齊，當演講人對演示文稿翻頁時，演講語音數據和轉寫文本進行相應的分頁。具體同步時，先采用介入式或非介入式的方法獲取演講人的翻頁時間點信息，根據時間點信息及構建的演示文稿關鍵信息樹，對語音數據、轉寫文本及演示文稿進行同步，同時將轉寫文本根據每頁演示文稿的子主題進行分段。在本發明的一實施例中，同步模塊還包括:時間點獲取單元，用于獲取演示文稿的翻頁時間點；轉換單元，用于將關鍵信息樹轉換成關鍵信息圖；同步單元，用于根據翻頁時間點和關鍵信息圖對轉寫文本進行分頁調整和分段顯示。翻頁時間點即當前演示文稿講解結束后，翻到下一頁的時間點，利用時間點信息對演示文稿和演講語音數據及相應轉寫文本進行同步后，需要根據關鍵信息樹及翻頁時間點對演示文稿與轉寫文本的同步結果進行調整，利用調整后的時間點對演示文稿與演講語音數據進行再次同步。翻頁時間點的獲取可以采用介入式或非介入式兩種方法，由于翻頁時間點直接影響同步的結果，所以也可以采用兩種方法的結合來獲取翻頁時間點，具體如下:介入式獲取方法需要在演講人演講時使用的計算機上安裝系統事件捕捉程序，用于捕捉演示文稿的翻頁事件，每次觸發翻頁事件時，保存當前的翻頁時間點;非介入式獲取方法指無法在演講人演講時使用的計算機上安裝系統事件捕捉程序時使用的方法，具體可以通過在演示文稿前面設置相應的攝像機來捕捉翻頁事件，當演示文稿翻頁時，保存當前的翻頁時間點。獲取到演示文稿的翻頁時間點后，將時間點對應到演講語音數據上，從而得到每頁演示文稿對應的演講語音數據及相應語音數據的轉寫文本。關鍵信息圖主要用于演示文稿與轉寫文本的同步調整，及每頁演示文稿對應轉寫文本的分段顯示，關鍵信息圖包含了演示文稿的關鍵信息，即演示文稿的子主題及子主題相應的關鍵詞;在同步時，根據演示文稿的子主題分段顯示轉寫文本。如圖4所示，圖4顯示為本發明中關鍵信息圖的一實施例的示意圖。圖中顯示了主題為“機器人”的演示文稿中的關鍵信息樹轉換后形成的關鍵信息圖，其中“[翻頁]”表示翻頁出弧。具體地，轉換單元還用于構建節點中的父節點與子節點之間的翻頁出弧，如圖4中“機器人介紹”節點到其第一個子節點“機器人的發展史”的邊被標識為翻頁出弧。轉換單元還用于構建相同父節點的所有子節點之間的翻頁出弧，即將關鍵信息樹中相同的父節點的子節點之間增加一翻頁出弧，并將子節點的關鍵詞信息放到翻頁出弧上。轉換單元還用于構建相鄰父節點之間的翻頁出弧，在對應同一個父節點的所有子節點中最后一個子節點與下一個父節點之間設置一個翻頁出弧，并將對應兩個父節點的關鍵詞信息放在此翻頁出弧上。具體地，找到關鍵信息樹中所有的葉子節點，在屬于同一個父節點的葉子節點中的最后一個葉子節點上分別增加該葉子節點到其父節點的下一個兄弟節點的出弧，如圖4中，增加“第三代機器人”節點到“現代機器人的發展”節點的出弧，并將父節點兄弟節點的關鍵詞信息放到新增加的弧上，同時標識該弧為翻頁出弧。如果父節點后面沒有兄弟節點，則不需要增加出弧，如圖4中“機器人的發展方向”節點后面沒有兄弟節點了，則該節點下的最后一個葉子節點不需要增加出弧。轉換單元還用于構建終止節點以及終止節點與開始節點之間的翻頁出弧。首先增加終止節點，終止節點可以使用end節點標示，在所有子節點增加一條出弧指向終止節點，并在終止節點增加一條翻頁出弧指向開始節點。即，所有葉子節點增加一條出弧，指向end節點，end節點增加一條弧指向start節點，start節點為關鍵信息樹的根節點，標識end節點增加一條弧指向start節點的弧為翻頁出弧。同步單元在進行同步時，為了保持每頁轉寫文本語義的完整性，需要對根據演示文稿翻頁時間點得到的轉寫文本進行分頁調整，同時為了方便用戶理解，需要對調整后的轉寫文本進行分段顯示。具體地，同步單元包括:節點激活子單元，用于將關鍵信息圖中的根節點激活，并將激活節點保存為當前活動節點；即將圖4中的節點激活，并將激活節點保存為當前活動節點。接收子單元，用于接收當前頁的演示文稿的翻頁時間點和對應的每個有效語音段的轉寫文本;通常以有效語音段為單位，依次接收當前頁演示文稿對應的每個有效語音的轉寫文本，及當前頁演示文稿翻頁時間點。匹配子單元，用于遍歷當前活動節點對應的出弧，并將接收的轉寫文本與出弧上的關鍵信息進行匹配，并判斷匹配是否成功;若成功，則將對應的節點激活并記錄為當前活動節點；分段顯示子單元，用于根據匹配結果，對轉寫文本進行分段顯示，與同一關鍵信息相匹配的轉寫文本放入同一段中，與不同關鍵信息相匹配的轉寫文本放入不同段中；時間點判斷子單元，用于判斷當前轉寫文本的對應時間點是否到達當前頁的演示文稿的翻頁時間點；翻頁出弧判斷子單元，用于判斷當前活動節點是否包含翻頁出弧;終止節點判斷子單元，用于判斷當前活動節點的出弧是否指向終止節點;若是，則所有演示文稿與轉寫文本的同步完成；同時，將關鍵信息圖保存的記錄清空，將所有轉寫文本分頁分段與演示文稿同步顯示出來。語義判斷子單元，用于判斷當前接收的所述轉寫文本的語義是否完整;若是，則將當前的所述轉寫文本作為當前頁最后一個所述有效語音段的轉寫文本，當前頁演示文稿與轉寫文本的同步完成;若否，則對所述轉寫文本的語義進行調整，調整后當前頁演示文稿與轉寫文本的同步完成；同步子單元，用于將下一頁演示文稿作為當前頁，并開始下一頁演示文稿的同步。判斷轉寫文本語義是否完整主要判斷當前演示文稿翻頁時間點位置是否是轉寫文本整句結束位置，即當前轉寫文本是否是在句子中間被切斷。在本發明的一優選實施例中，具體判斷時，可以根據當前轉寫文本的置信度得分判斷，分別計算當前轉寫文本的置信度得分，及將翻頁時間點后一個有效語音段的轉寫文本與當前轉寫文本一起的置信度得分，如果后者置信度得分較低，則認為當前轉寫文本語義完整；如果后者得分較高，并且得分超過閾值，則認為當前轉寫文本語義不完整，需要調整，具體調整時，可以根據翻頁時間點后一有效語音段轉寫文本與當前轉寫文本的置信度，將當前頁的翻頁時間點調整為當前轉寫文本后一有效語音段的轉寫文本結束位置，同時調整轉寫文本對應語音數據的翻頁時間點。當然，也可以采用其它方法進行判斷，如根據當前轉寫文本對應的語音數據上判斷，判斷語音數據翻頁時間點前后的聲學變化，或連續性，再結合轉寫文本的置信度來判斷語義的完整性。
[0039]顯示模塊，用于將同步模塊同步后帶有語音數據和轉寫文本的演示文稿顯示給用戶。同步顯示后，使用戶在看演示文稿時可以同時聽到演講人的聲音，看到演講人聲音轉寫的文本，大大提高了用戶體驗;進一步地，為了方便用戶理解轉寫文本，本發明的多媒體轉寫方法根據每頁演示文稿包含的子主題對轉寫文本分段，同一個子主題的轉寫文本作為一段，不同子主題的轉寫文本作為不同的段，進一步提高了用戶體驗。
[0040]綜上所述，本發明的一種多媒體轉寫方法和系統，使用戶在看演示文稿時可以同時聽到演講人的聲音，看到演講人聲音轉寫的文本，大大提高了用戶體驗;進一步地，為了方便用戶理解轉寫文本，本發明的多媒體轉寫方法根據每頁演示文稿包含的子主題對轉寫文本分段，同一個子主題的轉寫文本作為一段，不同子主題的轉寫文本作為不同的段，進一步提高了用戶體驗。所以，本發明有效克服了現有技術中的種種缺點而具高度產業利用價值。
[0041]上述實施例僅例示性說明本發明的原理及其功效，而非用于限制本發明。任何熟悉此技術的人士皆可在不違背本發明的精神及范疇下，對上述實施例進行修飾或改變。因此，舉凡所屬技術領域中具有通常知識者在未脫離本發明所揭示的精神與技術思想下所完成的一切等效修飾或改變，仍應由本發明的權利要求所涵蓋。
【主權項】
1.一種多媒體轉寫方法，應用于多媒體轉寫系統中，其特征在于，包括以下步驟: 51、接收演示文稿，并構建所述演示文稿的關鍵信息樹； 52、接收語音數據，并對所述語音數據進行語音識別，得到所述語音數據的轉寫文本； 53、通過所述關鍵信息樹將所述語音數據和所述轉寫文本與所述演示文稿進行同步； 54、將同步后帶有所述語音數據和所述轉寫文本的演示文稿顯示給用戶。2.根據權利要求1所述的多媒體轉寫方法，其特征在于，所述步驟S2還包括步驟: 521、對所述語音數據進行端點檢測，得到所述語音數據有效語音段的起始點和結束占.V ， 522、對所述語音段的特征進行提??； 523、根據所述特征和預先訓練的聲學模型及語言模型進行解碼操作； 524、根據解碼結果獲取所述語音數據對應的所述轉寫文本和所述轉寫文本置信度。3.根據權利要求2所述的多媒體轉寫方法，其特征在于，所述步驟SI包括步驟: 511、提取每一頁所述演示文稿中包含的關鍵信息； 512、根據所述關鍵信息構建所述演示文稿關鍵信息樹。4.根據權利要求3所述的多媒體轉寫方法，其特征在于，所述步驟S12中還包括步驟: 5121、獲取所述演示文稿的提綱信息，得到整個所述演示文稿之間的鏈接關系； 5122、將每頁所述演示文稿作為所述關鍵信息樹的一個節點，所述演示文稿之間的鏈接關系作為所述節點之間的邊，形成所述演示文稿的樹結構； 5123、將所述關鍵信息分別添加到相應的所述節點上，得到所述演示文稿的關鍵信息樹。5.根據權利要求4所述的多媒體轉寫方法，其特征在于，所述步驟S3還包括步驟: 531、獲取所述演示文稿的翻頁時間點； 532、將所述關鍵信息樹轉換成關鍵信息圖； 533、根據所述翻頁時間點和所述關鍵信息圖對所述轉寫文本進行分頁調整和分段顯不O6.根據權利要求5所述的多媒體轉寫方法，其特征在于，所述步驟S32還包括步驟: 5321、構建所述節點中的父節點與子節點之間的翻頁出??； 5322、構建相同所述父節點的所有所述子節點之間的翻頁出??； 5323、構建相鄰所述父節點之間的翻頁出?。? 5324、構建終止節點以及所述終止節點與開始節點之間的翻頁出弧。7.根據權利要求6所述的多媒體轉寫方法，其特征在于，所述步驟S33還包括步驟: 5331、將所述關鍵信息圖中的根節點激活，并將所述激活節點保存為當前活動節點； 5332、接收當前頁的所述演示文稿的翻頁時間點和對應的每個所述有效語音段的所述轉寫文本； 5333、遍歷當前活動節點對應的出弧，并將接收的所述轉寫文本與所述出弧上的關鍵信息進行匹配，并判斷匹配是否成功；若成功，則將對應的節點激活并記錄為當前活動節點，并進入步驟S334 ；若失敗，則進入步驟S335 ； 5334、根據匹配結果，對所述轉寫文本進行分段顯示，與同一關鍵信息相匹配的轉寫文本放入同一段中，與不同關鍵信息相匹配的轉寫文本放入不同段中，并進入步驟S335; 5335、判斷當前所述轉寫文本的對應時間點是否到達當前頁的所述演示文稿的翻頁時間點;若是，則進入步驟S336 ；若否，則返回步驟S332 ； 5336、判斷當前活動節點是否包含翻頁出弧;若不包含，則進入步驟S337;若包含，則進入步驟S338; 5337、判斷當前活動節點的出弧是否指向終止節點;若是，則所有所述演示文稿與所述轉寫文本的同步完成;若否，則進入步驟S338; 5338、判斷當前接收的所述轉寫文本的語義是否完整;若是，則將當前的所述轉寫文本作為當前頁最后一個所述有效語音段的轉寫文本，當前頁演示文稿與轉寫文本的同步完成，進入S339;若否，則對所述轉寫文本進行調整，調整后當前頁演示文稿與轉寫文本的同步完成，進入S339; 5339、將下一頁演示文稿作為當前頁，返回步驟S332。8.一種多媒體轉寫系統，其特征在于，包括: 構建模塊，用于接收演示文稿，并構建所述演示文稿的關鍵信息樹；轉寫模塊，用于接收語音數據，并對所述語音數據進行語音識別，得到所述語音數據的轉寫文本；同步模塊，用于通過所述關鍵信息樹將所述語音數據和所述轉寫文本與所述演示文稿進行同步；顯示模塊，用于將所述同步模塊同步后帶有所述語音數據和所述轉寫文本的演示文稿顯示給用戶。9.根據權利要求8所述的多媒體轉寫系統，其特征在于，所述轉寫模塊還包括: 檢測單元，用于對所述語音數據進行端點檢測，得到所述語音數據有效語音段的起始點和結束點；特征提取單元，用于對所述語音段的特征進行提??；解碼單元，用于根據所述特征和預先訓練的聲學模型及語言模型進行解碼操作；轉寫結果獲取單元，用于根據解碼結果獲取所述語音數據對應的所述轉寫文本和所述轉寫文本置信度。10.根據權利要求9所述的多媒體轉寫系統，其特征在于，所述構建模塊還包括: 提取單元，用于提取每一頁所述演示文稿中包含的關鍵信息；構建單元，用于根據所述關鍵信息構建所述演示文稿關鍵信息樹。11.根據權利要求10所述的多媒體轉寫系統，其特征在于，所述構建單元還包括: 獲取子單元，用于獲取所述演示文稿的提綱信息，得到整個所述演示文稿之間的鏈接關系; 構建子單元，用于將每頁所述演示文稿作為所述關鍵信息樹的一個節點，所述演示文稿之間的鏈接關系作為所述節點之間的邊，形成所述演示文稿的樹結構;還用于將所述關鍵信息分別添加到相應的所述節點上，得到所述演示文稿的關鍵信息樹。12.根據權利要求11所述的多媒體轉寫系統，其特征在于，所述同步模塊還包括: 時間點獲取單元，用于獲取所述演示文稿的翻頁時間點；轉換單元，用于將所述關鍵信息樹轉換成關鍵信息圖；同步單元，用于根據所述翻頁時間點和所述關鍵信息圖對所述轉寫文本進行分頁調整和分段顯示。13.根據權利要求12所述的多媒體轉寫系統，其特征在于，所述轉換單元還用于構建所述節點中的父節點與子節點之間的翻頁出弧、相同所述父節點的所有所述子節點之間的翻頁出弧、相鄰所述父節點之間的翻頁出弧，還用于構建終止節點以及所述終止節點與開始節點之間的翻頁出弧。14.根據權利要求13所述的多媒體轉寫系統，其特征在于，所述同步單元包括: 節點激活子單元，用于將所述關鍵信息圖中的根節點激活，并將所述激活節點保存為當前活動節點；接收子單元，用于接收當前頁的所述演示文稿的翻頁時間點和對應的每個所述有效語音段的所述轉寫文本；匹配子單元，用于遍歷當前活動節點對應的出弧，并將接收的所述轉寫文本與所述出弧上的關鍵信息進行匹配，并判斷匹配是否成功;若成功，則將對應的節點激活并記錄為當前活動節點；分段顯示子單元，用于根據匹配結果，對所述轉寫文本進行分段顯示，與同一關鍵信息相匹配的轉寫文本放入同一段中，與不同關鍵信息相匹配的轉寫文本放入不同段中；時間點判斷子單元，用于判斷當前所述轉寫文本的對應時間點是否到達當前頁的所述演示文稿的翻頁時間點；翻頁出弧判斷子單元，用于判斷當前活動節點是否包含翻頁出?。?終止節點判斷子單元，用于判斷當前活動節點的出弧是否指向終止節點；若是，則所有所述演示文稿與所述轉寫文本的同步完成；語義判斷子單元，用于判斷當前接收的所述轉寫文本的語義是否完整;若是，則將當前的所述轉寫文本作為當前頁最后一個所述有效語音段的轉寫文本，當前頁演示文稿與轉寫文本的同步完成;若否，則對所述轉寫文本的語義進行調整，調整后當前頁演示文稿與轉寫文本的同步完成；同步子單元，用于將下一頁演示文稿作為當前頁，并開始下一頁演示文稿的同步。
【文檔編號】G10L15/26GK105895085SQ201610200600
【公開日】2016年8月24日
【申請日】2016年3月30日
【發明人】王金钖, 胡尹, 潘青華, 胡國平, 胡郁, 劉慶峰
【申請人】科大訊飛股份有限公司

完整全部詳細技術資料下載