本發明涉及數據分類技術領域,尤其涉及一種信息分類方法及裝置。
背景技術:
相關技術中,當終端等設備接收到用戶輸入的語音查詢請求時,會根據該查詢請求從預設數據庫中查找與該請求對應的答案或者回復,但在整個預設數據庫中進行查找,不但不能保證查找到的答案或者回復的準確性,而且查找時間也相對較長。
技術實現要素:
本發明實施例提供一種信息分類方法及裝置,用以實現在保證查找的答案或者回復的準確率的基礎上,提高查找效率,從而提升用戶的使用體驗。
根據本發明實施例的第一方面,提供一種信息分類方法,包括:
獲取用戶輸入的歷史語音數據信息對應的文本數據信息的意圖分類日志記錄;
從所述意圖分類日志記錄的每個意圖分類中獲取多個相似的查詢請求對應的文本數據信息;
根據所述每個意圖分類中多個相似的查詢請求對應的文本數據信息、預設的卷積神經網絡模型和預設的轉移概率矩陣,確定用戶意圖分類模型和目標轉移概率矩陣;
使用所述用戶意圖分類模型和目標轉移概率矩陣確定接收到的當前語音數據信息對應的當前文本數據信息所屬的目標意圖類別;
在所述目標意圖類別對應的數據庫中查找與所述語音數據信息對應的應答信息。
在該實施例中,在對歷史語音數據信息進行分類后,可以獲取意圖分類日志記錄,并從該記錄中獲取每個意圖類別中多個相似的查詢請求對應的文本數據信息,進而根據多個相似的查詢請求對應的文本數據信息和預設的卷積神經網絡模型和預設的轉移概率矩陣,確定用戶意圖分類模型和目標轉移概率矩陣,并使用所述用戶意圖分類模型和目標轉移概率矩陣確定接收到的當前語音數據信息對應的當前文本數據信息所屬的目標意圖類別,在所述目標意圖類別對應的數據庫中查找與所述語音數據信息對應的應答信息。這樣,不但可以為用戶提供更準確的應答信息,還可以減少查找時間,提高查找效率,提升用戶的使用體驗。
其中,歷史語音數據信息,可以采用歷史用戶意圖分類模型和歷史目標轉移概率矩陣進行分類,這樣,在分類的過程中,不斷根據歷史分類記錄完善用戶意圖分類模型和目標轉移概率矩陣,從而使得分類準確率不斷提高。
在一個實施例中,根據所述多個相似的查詢請求對應的文本數據信息、預設的卷積神經網絡模型和預設的轉移概率矩陣,確定用戶意圖分類模型和目標轉移概率矩陣,包括:
將所述多個相似的查詢請求對應的文本數據信息作為意圖分類訓練語料,利用預設的卷積神經網絡模型進行訓練,得到用戶意圖分類模型;
獲取所述多個相似的查詢請求對應的文本數據信息中任意兩個相似的查詢請求對應的文本數據信息之間的上下文關系;
利用所述相似的查詢請求對應的文本數據信息之間的上下文關系和所述預設的轉移概率矩陣進行訓練,得到所述目標轉移概率矩陣。
在該實施例中,利用所述意圖分類訓練語料和所述預設的卷積神經網絡模型進行訓練,得到所述用戶意圖分類模型,利用相似的查詢請求對應的文本數據信息之間的上下文關系和預設的轉移概率矩陣進行訓練,得到目標轉移概率矩陣這樣,根據用戶意圖分類模型和目標轉移概率矩陣進行意圖分類,可以保證分類結果的準確性。
在一個實施例中,所述文本數據信息包括以下至少一項:文本信息和拼音信息;
所述意圖分類訓練語料包括以下至少一種形式:
文本語料和拼音預料。
在該實施例中,在進行卷積神經網絡訓練時,不但可以采用訓練語料的文本形式進行訓練,還可以采用訓練語料的拼音形式進行訓練,這樣,可以有效的過濾噪音,避免錯誤累積。
在一個實施例中,所述使用所述用戶意圖分類模型和目標轉移概率矩陣確定接收到的當前語音數據信息對應的當前文本數據信息所屬的目標意圖類別,包括:
將所述當前文本數據信息作為所述用戶意圖分類模型的輸入,得到所述當前文本數據信息對應的第一分類結果;
獲取所述當前文本數據信息對應的上一句文本數據信息所屬的意圖類別;
根據所述上一句文本數據信息所屬的意圖類別和所述目標轉移概率矩陣,確定所述當前文本數據信息對應的第二分類結果;
根據所述第一分類結果和所述第二分類結果確定所述當前文本數據信息所屬的目標意圖分類。
在一個實施例中,所述根據所述第一分類結果和所述第二分類結果確定所述當前文本數據信息所屬的目標意圖分類,包括:
根據所述第一分類結果和所述第二分類結果的乘積,確定所述當前文本數據信息所屬的目標意圖分類。
在該實施例中,將當前文本數據信息作為用戶意圖分類模型的輸入,得到文本數據信息對應的第一分類結果,該第一分類結果表明當前文本數據信息屬于各個意圖分類的概率,其是一個1*N維的特征向量,并根據上一句文本數據信息和目標轉移概率矩陣計算出當前文本數據信息屬于每個意圖類別的概率矩陣,該矩陣可以是N*N維的,進而根據兩者的乘積得到文本數據信息屬于每個意圖類別的總概率,進而將總概率值最高對應的意圖類別確定為目標意圖類別。
根據本發明實施例的第二方面,提供一種信息分類裝置,包括:
第一獲取模塊,用于獲取用戶輸入的歷史語音數據信息對應的文本數據信息的意圖分類日志記錄;
第二獲取模塊,用于從所述意圖分類日志記錄中獲取多個相似的查詢請求對應的文本數據信息;
第一確定模塊,用于根據所述多個相似的查詢請求對應的文本數據信息、預設的卷積神經網絡模型和預設的轉移概率矩陣,確定用戶意圖分類模型和目標轉移概率矩陣;
第二確定模塊,用于使用所述用戶意圖分類模型和目標轉移概率矩陣確定接收到的當前語音數據信息對應的當前文本數據信息所屬的目標意圖類別;
查找模塊,用于在所述目標意圖類別對應的數據庫中查找與所述語音數據信息對應的應答信息。
在一個實施例中,所述第一確定模塊包括:
第一訓練子模塊,用于將所述多個相似的查詢請求對應的文本數據信息作為意圖分類訓練語料,利用預設的卷積神經網絡模型進行訓練,得到用戶意圖分類模型;
第一獲取子模塊,用于獲取所述多個相似的查詢請求對應的文本數據信息中任意兩個相似的查詢請求對應的文本數據信息之間的上下文關系;
第二訓練子模塊,用于利用所述相似的查詢請求對應的文本數據信息之間的上下文關系和所述預設的轉移概率矩陣進行訓練,得到所述目標轉移概率矩陣。
在一個實施例中,所述意圖分類訓練語料包括以下至少一種形式:
文本語料和拼音預料。
在一個實施例中,所述第二確定模塊包括:
處理子模塊,用于將所述當前文本數據信息作為所述用戶意圖分類模型的輸入,得到所述當前文本數據信息對應的第一分類結果;
第二獲取子模塊,用于獲取所述當前文本數據信息對應的上一句文本數據信息所屬的意圖類別;
第一確定子模塊,用于根據所述上一句文本數據信息所屬的意圖類別和所述目標轉移概率矩陣,確定所述當前文本數據信息對應的第二分類結果;
第二確定子模塊,用于根據所述第一分類結果和所述第二分類結果確定所述當前文本數據信息所屬的目標意圖分類。
在一個實施例中,所述第二確定子模塊用于:
根據所述第一分類結果和所述第二分類結果的乘積,確定所述當前文本數據信息所屬的目標意圖分類。
應當理解的是,以上的一般描述和后文的細節描述僅是示例性和解釋性的,并不能限制本發明。
本發明的其它特征和優點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發明而了解。本發明的目的和其他優點可通過在所寫的說明書、權利要求書、以及附圖中所特別指出的結構來實現和獲得。
下面通過附圖和實施例,對本發明的技術方案做進一步的詳細描述。
附圖說明
此處的附圖被并入說明書中并構成本說明書的一部分,示出了符合本發明的實施例,并與說明書一起用于解釋本發明的原理。
圖1是根據一示例性實施例示出的一種信息分類方法的流程圖。
圖2是根據一示例性實施例示出的一種信息分類方法中步驟S103的流程圖。
圖3是根據一示例性實施例示出的一種信息分類方法中步驟S104的流程圖。
圖4是根據一示例性實施例示出的一種信息分類裝置的框圖。
圖5是根據一示例性實施例示出的一種信息分類裝置中第一確定模塊的框圖。
圖6是根據一示例性實施例示出的一種信息分類裝置中第二確定模塊的框圖。
具體實施方式
這里將詳細地對示例性實施例進行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數字表示相同或相似的要素。以下示例性實施例中所描述的實施方式并不代表與本發明相一致的所有實施方式。相反,它們僅是與如所附權利要求書中所詳述的、本發明的一些方面相一致的裝置和方法的例子。
圖1是根據一示例性實施例示出的一種信息分類方法的流程圖。該信息分類方法應用于終端設備中,該終端設備可以是移動電話,計算機,數字廣播終端,消息收發設備,游戲控制臺,平板設備,醫療設備,健身設備,個人數字助理等任一具有語音識別功能的設備。如圖1所示,該方法包括步驟S101-S105:
在步驟S101中,獲取用戶已輸入的歷史語音數據信息對應的文本數據信息的意圖分類日志記錄;
在步驟S102中,從意圖分類日志記錄中獲取多個相似的查詢請求對應的文本數據信息;
在步驟S103中,根據每個意圖分類中多個相似的查詢請求對應的文本數據信息、預設的卷積神經網絡模型和預設的轉移概率矩陣,確定用戶意圖分類模型和目標轉移概率矩陣;
其中,意圖分類日志記錄可以是之前對語音數據信息進行意圖分類的歷史記錄。而目標轉移概率矩陣是根據語音數據信息的上文確定該語音數據信息屬于某個意圖類別的概率。即目標轉移概率矩陣不關心當前的語音數據信息屬于哪個意圖類別,只獲取上一個語音數據信息屬于哪個意圖類別。根據上一個語音數據信息的意圖類別,預測當前的語音數據信息屬于各個意圖類別的概率。
在步驟S104中,使用用戶意圖分類模型和目標轉移概率矩陣確定接收到的當前語音數據信息對應的當前文本數據信息所屬的目標意圖類別;
在步驟S105中,在目標意圖類別對應的數據庫中查找與當前語音數據信息對應的應答信息。
在該實施例中,在對歷史語音數據信息進行分類后,可以獲取意圖分類日志記錄,并從該記錄中獲取每個意圖類別中多個相似的查詢請求對應的文本數據信息,進而根據多個相似的查詢請求對應的文本數據信息和預設的卷積神經網絡模型和預設的轉移概率矩陣,確定用戶意圖分類模型和目標轉移概率矩陣,并使用用戶意圖分類模型和目標轉移概率矩陣確定接收到的當前語音數據信息對應的當前文本數據信息所屬的目標意圖類別,在目標意圖類別對應的數據庫中查找與語音數據信息對應的應答信息。這樣,不但可以為用戶提供更準確的應答信息,還可以減少查找時間,提高查找效率,提升用戶的使用體驗。
其中,歷史語音數據信息,可以采用歷史用戶意圖分類模型和歷史目標轉移概率矩陣進行分類,這樣,在分類的過程中,不斷根據歷史分類記錄完善用戶意圖分類模型和目標轉移概率矩陣,從而使得分類準確率不斷提高。
圖2是根據一示例性實施例示出的一種信息分類方法中步驟S103的流程圖。
如圖2所示,在一個實施例中,上述步驟S103包括步驟S201-S203:
在步驟S201中,將每個意圖分類中多個相似的查詢請求對應的文本數據信息作為意圖分類訓練語料,利用預設的卷積神經網絡模型進行訓練,得到用戶意圖分類模型;
意圖可以分層級的,如歌曲的意圖,下面分搜歌曲、搜歌手、播放等意圖,因此,意圖分類訓練語料是有層級的,訓練出的用戶意圖分類模型也是有層級的。先訓練出最下層的分類,逐層向上抽取,得到上層分類。每層訓練時輸入的語料是相同的,但是訓練的目標是不同的,訓練的參數和不變的參數是不同的。
在步驟S202中,獲取每個意圖分類中多個相似的查詢請求對應的文本數據信息中任意兩個相似的查詢請求對應的文本數據信息之間的上下文關系;
在步驟S203中,利用相似的查詢請求對應的文本數據信息之間的上下文關系和預設的轉移概率矩陣進行訓練,得到目標轉移概率矩陣。
例如,日志中兩個同意圖的文本數據信息為query1與query3,兩者之間的文本書數據信息為query2,查看query1與query3之間的關系,可能query1與query3屬于同一分類,那么,根據query1,query2和query 3的分類對預設的轉移概率矩陣進行訓練得到目標轉移概率矩陣,這樣,得到的目標概率矩陣可以根據上下文確定當前文本數據信息對應的目標意圖類別。
在該實施例中,利用意圖分類訓練語料和預設的卷積神經網絡模型進行訓練,得到用戶意圖分類模型,利用相似的查詢請求對應的文本數據信息之間的上下文關系和預設的轉移概率矩陣進行訓練,得到目標轉移概率矩陣這樣,根據用戶意圖分類模型和目標轉移概率矩陣進行意圖分類,可以保證分類結果的準確性。
在一個實施例中,所述文本數據信息包括以下至少一項:文本信息和拼音信息;
意圖分類訓練語料包括以下至少一種形式:
文本語料和拼音預料。
在該實施例中,在進行卷積神經網絡訓練時,不但可以采用訓練語料的文本形式進行訓練,還可以采用訓練語料的拼音形式進行訓練,這樣,可以有效的過濾噪音,避免錯誤累積。
圖3是根據一示例性實施例示出的一種信息分類方法中步驟S104的流程圖。
如圖3所示,在一個實施例中,上述步驟S104包括步驟S301-S304:
在步驟S301中,將當前文本數據信息作為用戶意圖分類模型的輸入,得到當前文本數據信息對應的第一分類結果;
在步驟S302中,獲取當前文本數據信息對應的上一句文本數據信息所屬的意圖類別;
在步驟S303中,根據上一句文本數據信息所屬的意圖類別和目標轉移概率矩陣,確定當前文本數據信息對應的第二分類結果;
在步驟S304中,根據第一分類結果和第二分類結果確定當前文本數據信息所屬的目標意圖分類。
在一個實施例中,所述根據所述第一分類結果和所述第二分類結果確定所述當前文本數據信息所屬的目標意圖分類,包括:
根據所述第一分類結果和所述第二分類結果的乘積,確定所述當前文本數據信息所屬的目標意圖分類。
在該實施例中,將當前文本數據信息作為用戶意圖分類模型的輸入,得到文本數據信息對應的第一分類結果,該第一分類結果表明當前文本數據信息屬于各個意圖分類的概率,其是一個1*N維的特征向量,并根據上一句文本數據信息和目標轉移概率矩陣計算出當前文本數據信息屬于每個意圖類別的概率矩陣,該矩陣可以是N*N維的,進而根據兩者的乘積得到文本數據信息屬于每個意圖類別的總概率,進而將總概率值最高對應的意圖類別確定為目標意圖類別。
下述為本發明裝置實施例,可以用于執行本發明方法實施例。
圖4是根據一示例性實施例示出的一種信息分類裝置的框圖,該裝置可以通過軟件、硬件或者兩者的結合實現成為終端設備的部分或者全部。如圖4所示,該信息分類裝置包括:
第一獲取模塊41,用于獲取用戶已輸入的歷史語音數據信息對應的文本數據信息的意圖分類日志記錄;
第二獲取模塊42,用于從所述意圖分類日志記錄中獲取多個相似的查詢請求對應的文本數據信息;
第一確定模塊43,用于根據所述多個相似的查詢請求對應的文本數據信息、預設的卷積神經網絡模型和預設的轉移概率矩陣,確定用戶意圖分類模型和目標轉移概率矩陣;
第二確定模塊44,用于使用所述用戶意圖分類模型和目標轉移概率矩陣確定接收到的當前語音數據信息對應的當前文本數據信息所屬的目標意圖類別;
查找模塊45,用于在所述目標意圖類別對應的數據庫中查找與所述當前語音數據信息對應的應答信息。
在該實施例中,在對歷史語音數據信息進行分類后,可以獲取意圖分類日志記錄,并從該記錄中獲取每個意圖類別中的多個相似的查詢請求對應的文本數據信息,進而根據多個相似的查詢請求對應的文本數據信息和預設的卷積神經網絡模型和預設的轉移概率矩陣,確定用戶意圖分類模型和目標轉移概率矩陣,并使用所述用戶意圖分類模型和目標轉移概率矩陣確定接收到的當前語音數據信息對應的當前文本數據信息所屬的目標意圖類別,在所述目標意圖類別對應的數據庫中查找與所述語音數據信息對應的應答信息。這樣,不但可以為用戶提供更準確的應答信息,還可以減少查找時間,提高查找效率,提升用戶的使用體驗。
其中,歷史語音數據信息,可以采用歷史用戶意圖分類模型和歷史目標轉移概率矩陣進行分類,這樣,在分類的過程中,不斷根據歷史分類記錄完善用戶意圖分類模型和目標轉移概率矩陣,從而使得分類準確率不斷提高。
圖5是根據一示例性實施例示出的一種信息分類裝置中第一確定模塊的框圖。
如圖5所示,在一個實施例中,所述第一確定模塊43包括:
第一訓練子模塊51,用于將所述多個相似的查詢請求對應的文本數據信息作為意圖分類訓練語料,利用預設的卷積神經網絡模型進行訓練,得到用戶意圖分類模型;
第一獲取子模塊52,用于獲取所述多個相似的查詢請求對應的文本數據信息中任意兩個相似的查詢請求對應的文本數據信息之間的上下文關系;
第二訓練子模塊53,用于利用所述相似的查詢請求對應的文本數據信息之間的上下文關系和所述預設的轉移概率矩陣進行訓練,得到所述目標轉移概率矩陣。
例如,日志中兩個同意圖的文本數據信息為query1與query3,兩者之間的文本書數據信息為query2,查看query1與query3之間的關系,可能query1與query3屬于同一分類,那么,根據query1,query2和query 3的分類對預設的轉移概率矩陣進行訓練。
在該實施例中,利用所述意圖分類訓練語料和所述預設的卷積神經網絡模型進行訓練,得到所述用戶意圖分類模型,利用相似的查詢請求對應的文本數據信息之間的上下文關系和預設的轉移概率矩陣進行訓練,得到目標轉移概率矩陣這樣,根據用戶意圖分類模型和目標轉移概率矩陣進行意圖分類,可以保證分類結果的準確性。
在一個實施例中,所述文本數據信息包括以下至少一項:文本信息和拼音信息;
所述意圖分類訓練語料包括以下至少一種形式:
文本語料和拼音預料。
在該實施例中,在進行卷積神經網絡訓練時,不但可以采用訓練語料的文本形式進行訓練,還可以采用訓練語料的拼音形式進行訓練,這樣,可以有效的過濾噪音,避免錯誤累積。
圖6是根據一示例性實施例示出的一種信息分類裝置中第二確定模塊的框圖。
如圖6所示,在一個實施例中,所述第二確定模塊44包括:
處理子模塊61,用于將所述當前文本數據信息作為所述用戶意圖分類模型的輸入,得到所述當前文本數據信息對應的第一分類結果;
第二獲取子模塊62,用于獲取所述當前文本數據信息對應的上一句文本數據信息所屬的意圖類別;
第一確定子模塊63,用于根據所述上一句文本數據信息所屬的意圖類別和所述目標轉移概率矩陣,確定所述當前文本數據信息對應的第二分類結果;
第二確定子模塊64,用于根據所述第一分類結果和所述第二分類結果確定所述當前文本數據信息所屬的目標意圖分類。
在一個實施例中,所述第二確定子模塊64用于:
根據所述第一分類結果和所述第二分類結果的乘積,確定所述當前文本數據信息所屬的目標意圖分類。
在該實施例中,將當前文本數據信息作為用戶意圖分類模型的輸入,得到文本數據信息對應的第一分類結果,該第一分類結果表明當前文本數據信息屬于各個意圖分類的概率,其是一個1*N維的特征向量,并根據上一句文本數據信息和目標轉移概率矩陣計算出當前文本數據信息屬于每個意圖類別的概率矩陣,該矩陣可以是N*N維的,進而根據兩者的乘積得到文本數據信息屬于每個意圖類別的總概率,進而將總概率值最高對應的意圖類別確定為目標意圖類別。
本領域內的技術人員應明白,本發明的實施例可提供為方法、系統、或計算機程序產品。因此,本發明可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本發明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器和光學存儲器等)上實施的計算機程序產品的形式。
本發明是參照根據本發明實施例的方法、設備(系統)、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理設備的處理器執行的指令產生用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程數據處理設備上,使得在計算機或其他可編程設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程設備上執行的指令提供用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
顯然,本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發明的精神和范圍。這樣,倘若本發明的這些修改和變型屬于本發明權利要求及其等同技術的范圍之內,則本發明也意圖包含這些改動和變型在內。