本發明涉及語音識別技術領域,尤其涉及一種標點添加方法及裝置。
背景技術:
在當前的語音識別過程中,大多是當語音識別時,中間有停頓的地方識別為逗號,結束時自動添加句號,整個句子都被視為陳述語氣,這種方式在某些情形下并不能正確傳達出講話者語義和情感。
技術實現要素:
本發明實施例提供一種標點添加方法及裝置,用以實現簡單方便地實現標點符號的自動添加,并提高標點符號添加的準確性和靈活性。
根據本發明實施例的第一方面,提供一種標點添加方法,包括:
獲取包含標點的預設訓練語料信息;
利用所述預設訓練語料信息和預設的網絡模型結構進行訓練,得到標點添加模型,其中,所述預設的網絡模型結構包括編碼器結構和解碼器結構;
接收用戶輸入的語音數據信息;
對所述語音數據信息進行識別,得到所述語音數據信息對應的文本信息和停頓信息;
根據所述文本信息、所述停頓信息和所述標點添加模型,確定所述文本信息對應的標點信息。
在該實施例中,根據預設訓練語料和預設的網絡模型結構進行訓練,得到包含編碼器結構和解碼器結構的標點添加模型,通過該標點添加模型為接收到的語音數據信息添加標點。這樣,可以實現簡單方便地實現標點符號的自動添加,并提高標點符號添加的準確性和靈活性。
在一個實施例中,所述編碼器結構包括第一LSTM隱藏層,所述解碼器結構包括第二LSTM隱藏層。
在一個實施例中,所述利用所述預設訓練語料信息和預設的網絡模型結構進行訓練,得到標點添加模型,包括:
確定所述預設訓練語料信息對應的語料文本信息、語料停頓信息和語料標點信息;
將所述語料文本信息和所述語料停頓信息確定為所述預設的網絡模型結構的輸入向量,將所述語料標點信息確定為所述預設的網絡模型結構的輸出向量,計算所述預設網絡模型結構對應的目標模型參數;
根據所述目標模型參數和所述預設的網絡模型結構確定所述標點添加模型。
在一個實施例中,所述將所述語料文本信息和所述語料停頓信息確定為所述預設的網絡模型結構的輸入向量,將所述語料標點信息確定為所述預設的網絡模型結構的輸出向量,計算所述預設網絡模型結構對應的目標模型參數,包括:
利用所述語料文本信息、所述語料停頓信息、所述語料標點信息和所述預設的網絡模型結構進行前向計算,確定所述預設網絡模型結構對應的模型參數;
利用所述語料文本信息、所述語料停頓信息、所述語料標點信息和所述預設的網絡模型結構進行后向計算,對所述模型參數進行修正,得到所述目標模型參數。
在該實施例中,分別利用語料文本信息、所述語料停頓信息、所述語料標點信息和所述預設的網絡模型結構進行前向計算和后向計算,這樣,可以保證得到的目標模型參數的準確性。
在一個實施例中,所述根據所述文本信息、所述停頓信息和所述標點添加模型,確定所述文本信息對應的標點信息,包括:
將所述文本信息和所述停頓信息作為所述標點添加模型的輸入向量,得到所述標點添加模型的輸出向量;
根據所述標點添加模型的輸出向量確定所述文本信息對應的標點信息。
在該實施例中,標點添加模型的輸出向量表示各標點可能的概率,這樣,取輸出向量中值最大的維度作為最終結果。
根據本發明實施例的第二方面,提供一種標點添加裝置,包括:
獲取模塊,用于獲取包含標點的預設訓練語料信息;
訓練模塊,用于利用所述預設訓練語料信息和預設的網絡模型結構進行訓練,得到標點添加模型,其中,所述預設的網絡模型結構包括編碼器結構和解碼器結構;
接收模塊,用于接收用戶輸入的語音數據信息;
識別模塊,用于對所述語音數據信息進行識別,得到所述語音數據信息對應的文本信息和停頓信息;
確定模塊,用于根據所述文本信息、所述停頓信息和所述標點添加模型,確定所述文本信息對應的標點信息。
在一個實施例中,所述編碼器結構包括第一LSTM隱藏層,所述解碼器結構包括第二LSTM隱藏層。
在一個實施例中,所述訓練模塊包括:
第一確定子模塊,用于確定所述預設訓練語料信息對應的語料文本信息、語料停頓信息和語料標點信息;
計算子模塊,用于將所述語料文本信息和所述語料停頓信息確定為所述預設的網絡模型結構的輸入向量,將所述語料標點信息確定為所述預設的網絡模型結構的輸出向量,計算所述預設網絡模型結構對應的目標模型參數;
第二確定子模塊,用于根據所述目標模型參數和所述預設的網絡模型結構確定所述標點添加模型。
在一個實施例中,所述計算子模塊用于:
利用所述語料文本信息、所述語料停頓信息、所述語料標點信息和所述預設的網絡模型結構進行前向計算,確定所述預設網絡模型結構對應的模型參數;
利用所述語料文本信息、所述語料停頓信息、所述語料標點信息和所述預設的網絡模型結構進行后向計算,對所述模型參數進行修正,得到所述目標模型參數。
在一個實施例中,所述確定模塊包括:
處理子模塊,用于將所述文本信息和所述停頓信息作為所述標點添加模型的輸入向量,得到所述標點添加模型的輸出向量;
第三確定子模塊,用于根據所述標點添加模型的輸出向量確定所述文本信息對應的標點信息。
應當理解的是,以上的一般描述和后文的細節描述僅是示例性和解釋性的,并不能限制本發明。
本發明的其它特征和優點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發明而了解。本發明的目的和其他優點可通過在所寫的說明書、權利要求書、以及附圖中所特別指出的結構來實現和獲得。
下面通過附圖和實施例,對本發明的技術方案做進一步的詳細描述。
附圖說明
此處的附圖被并入說明書中并構成本說明書的一部分,示出了符合本發明的實施例,并與說明書一起用于解釋本發明的原理。
圖1是根據一示例性實施例示出的一種標點添加方法的流程圖。
圖2是根據一示例性實施例示出的一種標點添加模型的示意圖。
圖3是根據一示例性實施例示出的一種標點添加方法中步驟S102的流程圖。
圖4是根據一示例性實施例示出的一種標點添加方法中步驟S105的流程圖。
圖5是根據一示例性實施例示出的一種標點添加裝置的框圖。
圖6是根據一示例性實施例示出的一種標點添加裝置中訓練模塊的框圖。
圖7是根據一示例性實施例示出的一種標點添加裝置中確定模塊的框圖。
具體實施方式
這里將詳細地對示例性實施例進行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數字表示相同或相似的要素。以下示例性實施例中所描述的實施方式并不代表與本發明相一致的所有實施方式。相反,它們僅是與如所附權利要求書中所詳述的、本發明的一些方面相一致的裝置和方法的例子。
圖1是根據一示例性實施例示出的一種標點添加方法的流程圖。該標點添加方法應用于終端設備中,該終端設備可以是移動電話,計算機,數字廣播終端,消息收發設備,游戲控制臺,平板設備,醫療設備,健身設備,個人數字助理等任一具有語音識別功能的設備。如圖1所示,該方法包括步驟S101-S105:
在步驟S101中,獲取包含標點的預設訓練語料信息;
在步驟S102中,利用預設訓練語料信息和預設的網絡模型結構進行訓練,得到標點添加模型,其中,預設的網絡模型結構包括編碼器結構和解碼器結構;
在步驟S103中,接收用戶輸入的語音數據信息;
在步驟S104中,對語音數據信息進行識別,得到語音數據信息對應的文本信息和停頓信息;
在步驟S105中,根據文本信息、停頓信息和標點添加模型,確定文本信息對應的標點信息。
在該實施例中,根據預設訓練語料和預設的網絡模型結構進行訓練,得到包含編碼器結構和解碼器結構的標點添加模型,通過該標點添加模型為接收到的語音數據信息添加標點。這樣,可以實現簡單方便地實現標點符號的自動添加,并提高標點符號添加的準確性和靈活性。
在一個實施例中,編碼器結構包括第一LSTM隱藏層,解碼器結構包括第二LSTM隱藏層。
下面以一個具體實施例詳細說明本發明的技術方案。
如圖2所示,本發明的標點添加模型包括編碼器encoder結構和解碼器decoder結構,其中,輸入序列為X1,X2……XN,其中,每個輸入包括文字信息和停頓信息,輸出序列為標點符號ID或者為空。其中,輸入序列中,文字信息可以為200維的特征向量,停頓信息可以為1維的特征向量,將兩個特征向量做拼接,則得到201維的特征向量,而輸出序列的維度可以為5維,分別為無標點、逗號、句號、分號、頓號。編碼器結構對應一個隱藏層,解碼器結構對應一個隱藏層,即本發明中有兩個隱藏層,每一層的計算方式可以相同。
圖3是根據一示例性實施例示出的一種標點添加方法中步驟S102的流程圖。
如圖3所示,在一個實施例中,上述步驟S102包括步驟S301-S303:
在步驟S301中,確定預設訓練語料信息對應的語料文本信息、語料停頓信息和語料標點信息;
在步驟S302中,將語料文本信息和語料停頓信息確定為預設的網絡模型結構的輸入向量,將語料標點信息確定為預設的網絡模型結構的輸出向量,計算預設網絡模型結構對應的目標模型參數;
在步驟S303中,根據目標模型參數和預設的網絡模型結構確定標點添加模型。
在一個實施例中,上述步驟S302包括:
利用語料文本信息、語料停頓信息、語料標點信息和預設的網絡模型結構進行前向計算,確定預設網絡模型結構對應的模型參數;
利用語料文本信息、語料停頓信息、語料標點信息和預設的網絡模型結構進行后向計算,對模型參數進行修正,得到目標模型參數。
在該實施例中,分別利用語料文本信息、語料停頓信息、語料標點信息和預設的網絡模型結構進行前向計算和后向計算,這樣,可以保證得到的目標模型參數的準確性。
圖4是根據一示例性實施例示出的一種標點添加方法中步驟S105的流程圖。
如圖4所示,在一個實施例中,上述步驟S105包括步驟S401-S402:
在步驟S401中,將文本信息和停頓信息作為標點添加模型的輸入向量,得到標點添加模型的輸出向量;
在步驟S402中,根據標點添加模型的輸出向量確定文本信息對應的標點信息。
在該實施例中,標點添加模型的輸出向量表示各標點可能的概率,這樣,取輸出向量中值最大的維度作為最終結果。
下述為本發明裝置實施例,可以用于執行本發明方法實施例。
圖5是根據一示例性實施例示出的一種標點添加裝置的框圖,該裝置可以通過軟件、硬件或者兩者的結合實現成為終端設備的部分或者全部。如圖5所示,該標點添加裝置包括:
獲取模塊51,用于獲取包含標點的預設訓練語料信息;
訓練模塊52,用于利用所述預設訓練語料信息和預設的網絡模型結構進行訓練,得到標點添加模型,其中,所述預設的網絡模型結構包括編碼器結構和解碼器結構;
接收模塊53,用于接收用戶輸入的語音數據信息;
識別模塊54,用于對所述語音數據信息進行識別,得到所述語音數據信息對應的文本信息和停頓信息;
確定模塊55,用于根據所述文本信息、所述停頓信息和所述標點添加模型,確定所述文本信息對應的標點信息。
在該實施例中,根據預設訓練語料和預設的網絡模型結構進行訓練,得到包含編碼器結構和解碼器結構的標點添加模型,通過該標點添加模型為接收到的語音數據信息添加標點。這樣,可以實現簡單方便地實現標點符號的自動添加,并提高標點符號添加的準確性和靈活性。
在一個實施例中,所述編碼器結構包括第一LSTM隱藏層,所述解碼器結構包括第二LSTM隱藏層。
圖6是根據一示例性實施例示出的一種標點添加裝置中訓練模塊的框圖。
如圖6所示,在一個實施例中,所述訓練模塊52包括:
第一確定子模塊61,用于確定所述預設訓練語料信息對應的語料文本信息、語料停頓信息和語料標點信息;
計算子模塊62,用于將所述語料文本信息和所述語料停頓信息確定為所述預設的網絡模型結構的輸入向量,將所述語料標點信息確定為所述預設的網絡模型結構的輸出向量,計算所述預設網絡模型結構對應的目標模型參數;
第二確定子模塊63,用于根據所述目標模型參數和所述預設的網絡模型結構確定所述標點添加模型。
在一個實施例中,所述計算子模塊62用于:
利用所述語料文本信息、所述語料停頓信息、所述語料標點信息和所述預設的網絡模型結構進行前向計算,確定所述預設網絡模型結構對應的模型參數;
利用所述語料文本信息、所述語料停頓信息、所述語料標點信息和所述預設的網絡模型結構進行后向計算,對所述模型參數進行修正,得到所述目標模型參數。
在該實施例中,分別利用語料文本信息、所述語料停頓信息、所述語料標點信息和所述預設的網絡模型結構進行前向計算和后向計算,這樣,可以保證得到的目標模型參數的準確性。
圖7是根據一示例性實施例示出的一種標點添加裝置中確定模塊的框圖。
如圖7所示,在一個實施例中,所述確定模塊55包括:
處理子模塊71,用于將所述文本信息和所述停頓信息作為所述標點添加模型的輸入向量,得到所述標點添加模型的輸出向量;
第三確定子模塊72,用于根據所述標點添加模型的輸出向量確定所述文本信息對應的標點信息。
在該實施例中,標點添加模型的輸出向量表示各標點可能的概率,這樣,取輸出向量中值最大的維度作為最終結果。
本領域內的技術人員應明白,本發明的實施例可提供為方法、系統、或計算機程序產品。因此,本發明可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本發明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器和光學存儲器等)上實施的計算機程序產品的形式。
本發明是參照根據本發明實施例的方法、設備(系統)、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理設備的處理器執行的指令產生用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程數據處理設備上,使得在計算機或其他可編程設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程設備上執行的指令提供用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
顯然,本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發明的精神和范圍。這樣,倘若本發明的這些修改和變型屬于本發明權利要求及其等同技術的范圍之內,則本發明也意圖包含這些改動和變型在內。