本發(fā)明涉及語音交互,特別是涉及語音響應(yīng)處理的方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品。
背景技術(shù):
1、隨著語音交互技術(shù)的發(fā)展,在如智能家居等場景中,用戶通過語音的方式與設(shè)備進行交互,為用戶帶來便捷的、智能的體驗。
2、在現(xiàn)有的語音交互技術(shù)中,設(shè)備通常僅能夠簡單地對采集到的語音進行識別,進而根據(jù)語音識別結(jié)果進行交互響應(yīng),而無法滿足用戶的個性化響應(yīng)需求。
技術(shù)實現(xiàn)思路
1、鑒于上述問題,提出了以便提供克服上述問題或者至少部分地解決上述問題的語音響應(yīng)處理的方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品,包括:
2、一種語音響應(yīng)處理的方法,所述方法包括:
3、獲取當(dāng)前用戶的語音數(shù)據(jù)及與所述語音數(shù)據(jù)對應(yīng)的視覺數(shù)據(jù);
4、根據(jù)所述語音數(shù)據(jù)和所述視覺數(shù)據(jù),生成聯(lián)合特征向量;
5、根據(jù)所述聯(lián)合特征向量,對所述當(dāng)前用戶進行用戶身份識別;
6、結(jié)合用戶身份識別的結(jié)果和所述語音數(shù)據(jù),生成針對所述當(dāng)前用戶的個性化響應(yīng)策略,以控制設(shè)備按照所述個性化響應(yīng)策略進行響應(yīng)。
7、可選地,所述結(jié)合用戶身份識別的結(jié)果和所述語音數(shù)據(jù),生成針對所述當(dāng)前用戶的個性化響應(yīng)策略,以控制設(shè)備按照所述個性化響應(yīng)策略進行響應(yīng),包括:
8、獲取所述語音數(shù)據(jù)對應(yīng)的語境信息,并結(jié)合用戶身份識別的結(jié)果、所述語音數(shù)據(jù),以及所述語境信息,生成針對所述當(dāng)前用戶的個性化響應(yīng)策略,以控制設(shè)備按照所述個性化響應(yīng)策略進行響應(yīng)。
9、可選地,所述結(jié)合用戶身份識別的結(jié)果、所述語音數(shù)據(jù),以及所述語境信息,生成針對所述當(dāng)前用戶的個性化響應(yīng)策略,以控制設(shè)備按照所述個性化響應(yīng)策略進行響應(yīng),包括:
10、根據(jù)用戶身份識別的結(jié)果,確定所述當(dāng)前用戶的用戶偏好信息;
11、對所述語音數(shù)據(jù)進行語義分析;
12、結(jié)合所述用戶偏好信息、語義分析的結(jié)果,以及所述語境信息,生成針對所述當(dāng)前用戶的個性化響應(yīng)策略,以控制設(shè)備按照所述個性化響應(yīng)策略進行響應(yīng)。
13、可選地,所述結(jié)合所述用戶偏好信息、語義分析的結(jié)果,以及所述語境信息,生成針對所述當(dāng)前用戶的個性化響應(yīng)策略,以控制設(shè)備按照所述個性化響應(yīng)策略進行響應(yīng),包括:
14、結(jié)合所述用戶偏好信息、語義分析的結(jié)果,以及所述語境信息,生成針對所述當(dāng)前用戶的個性化響應(yīng)語音,并控制設(shè)備播放所述個性化響應(yīng)語音;
15、或者,結(jié)合所述用戶偏好信息、語義分析的結(jié)果,以及所述語境信息,生成針對所述當(dāng)前用戶的個性化響應(yīng)操作,并控制設(shè)備執(zhí)行所述個性化響應(yīng)操作。
16、可選地,還包括:
17、獲取所述當(dāng)前用戶對所述個性化響應(yīng)策略的反饋信息;
18、根據(jù)所述反饋信息,對所述用戶偏好信息進行調(diào)整。
19、可選地,所述根據(jù)所述語音數(shù)據(jù)和所述視覺數(shù)據(jù),生成聯(lián)合特征向量,包括:
20、根據(jù)所述語音數(shù)據(jù)生成語音特征;
21、根據(jù)所述視覺數(shù)據(jù)生成視覺特征;
22、對所述語音特征和所述視覺特征進行融合,得到融合特征;
23、根據(jù)所述語音特征、視覺特征,以及融合特征,生成聯(lián)合特征向量。
24、可選地,所述根據(jù)所述聯(lián)合特征向量,對所述當(dāng)前用戶進行用戶身份識別,包括:
25、將所述聯(lián)合特征向量輸入預(yù)先訓(xùn)練的數(shù)據(jù)模型,以通過所述數(shù)據(jù)模型對所述聯(lián)合特征向量進行聲紋匹配和視覺匹配,得到用戶身份識別的結(jié)果;
26、獲取所述數(shù)據(jù)模型輸出的用戶身份識別的結(jié)果。
27、可選地,還包括:
28、獲取針對語音或視覺的單模態(tài)樣本數(shù)據(jù);
29、采用所述單模態(tài)樣本數(shù)據(jù),對預(yù)置的數(shù)據(jù)模型進行訓(xùn)練,以使所述數(shù)據(jù)模型采用自監(jiān)督機制學(xué)習(xí)單模態(tài)特征提取能力。
30、可選地,還包括:
31、獲取針對語音的單模態(tài)特征和針對視覺的單模態(tài)特征;
32、采用針對語音的單模態(tài)特征和針對視覺的單模態(tài)特征,對所述數(shù)據(jù)模型進行訓(xùn)練,以使所述數(shù)據(jù)模型采用自監(jiān)督機制學(xué)習(xí)跨模態(tài)特征融合能力。
33、可選地,所述設(shè)備為智能家居設(shè)備。
34、一種語音響應(yīng)處理的裝置,所述裝置包括:
35、數(shù)據(jù)獲取模塊,用于獲取當(dāng)前用戶的語音數(shù)據(jù)及與所述語音數(shù)據(jù)對應(yīng)的視覺數(shù)據(jù);
36、聯(lián)合特征向量生成模塊,用于根據(jù)所述語音數(shù)據(jù)和所述視覺數(shù)據(jù),生成聯(lián)合特征向量;
37、用戶身份識別模塊,用于根據(jù)所述聯(lián)合特征向量,對所述當(dāng)前用戶進行用戶身份識別;
38、個性化響應(yīng)模塊,用于結(jié)合用戶身份識別的結(jié)果和所述語音數(shù)據(jù),生成針對所述當(dāng)前用戶的個性化響應(yīng)策略,以控制設(shè)備按照所述個性化響應(yīng)策略進行響應(yīng)。
39、一種電子設(shè)備,包括處理器、存儲器及存儲在所述存儲器上并能夠在所述處理器上運行的計算機程序,所述計算機程序被所述處理器執(zhí)行時實現(xiàn)如上所述的方法。
40、一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上存儲計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上所述的方法。
41、一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)如上所述的方法。
42、本發(fā)明實施例具有以下優(yōu)點:
43、在本發(fā)明實施例中,通過獲取當(dāng)前用戶的語音數(shù)據(jù)及與所述語音數(shù)據(jù)對應(yīng)的視覺數(shù)據(jù),根據(jù)所述語音數(shù)據(jù)和所述視覺數(shù)據(jù),生成聯(lián)合特征向量,根據(jù)所述聯(lián)合特征向量,對所述當(dāng)前用戶進行用戶身份識別,結(jié)合用戶身份識別的結(jié)果和所述語音數(shù)據(jù),生成針對所述當(dāng)前用戶的個性化響應(yīng)策略,以控制設(shè)備按照所述個性化響應(yīng)策略進行響應(yīng),實現(xiàn)了根據(jù)采集到的語音和視覺來識別用戶身份,進而根據(jù)用戶身份來進行個性化的響應(yīng),滿足用戶的個性化響應(yīng)需求。
1.一種語音響應(yīng)處理的方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述結(jié)合用戶身份識別的結(jié)果和所述語音數(shù)據(jù),生成針對所述當(dāng)前用戶的個性化響應(yīng)策略,以控制設(shè)備按照所述個性化響應(yīng)策略進行響應(yīng),包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述結(jié)合用戶身份識別的結(jié)果、所述語音數(shù)據(jù),以及所述語境信息,生成針對所述當(dāng)前用戶的個性化響應(yīng)策略,以控制設(shè)備按照所述個性化響應(yīng)策略進行響應(yīng),包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述結(jié)合所述用戶偏好信息、語義分析的結(jié)果,以及所述語境信息,生成針對所述當(dāng)前用戶的個性化響應(yīng)策略,以控制設(shè)備按照所述個性化響應(yīng)策略進行響應(yīng),包括:
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,還包括:
6.根據(jù)權(quán)利要求1至5任一項所述的方法,其特征在于,所述根據(jù)所述語音數(shù)據(jù)和所述視覺數(shù)據(jù),生成聯(lián)合特征向量,包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述根據(jù)所述聯(lián)合特征向量,對所述當(dāng)前用戶進行用戶身份識別,包括:
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,還包括:
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,還包括:
10.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述設(shè)備為智能家居設(shè)備。
11.一種語音響應(yīng)處理的裝置,其特征在于,所述裝置包括:
12.一種電子設(shè)備,其特征在于,包括處理器、存儲器及存儲在所述存儲器上并能夠在所述處理器上運行的計算機程序,所述計算機程序被所述處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至10中任一項所述的方法。
13.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)上存儲計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至10中任一項所述的方法。
14.一種計算機程序產(chǎn)品,其特征在于,包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至10中任一項所述的方法。