1.一種聾啞人與正常人的輔助對話系統(tǒng),其特征在于,該輔助對話系統(tǒng)基于智能手機(jī)且包括對話交互模塊、場景感知模塊、數(shù)據(jù)采集及預(yù)處理模塊、語音識別模塊、語音合成模塊,其中:
場景感知模塊,用于感知并確定聾啞人與正常人的對話場景;
數(shù)據(jù)采集及預(yù)處理模塊,用于采集正常人話音,生成聲音數(shù)據(jù),對該聲音數(shù)據(jù)進(jìn)行預(yù)處理,生成語音數(shù)據(jù);
語音識別模塊,用于接收識別該語音數(shù)據(jù),并加載對應(yīng)該對話場景的語音識別模型,根據(jù)該語音識別模型將該語音數(shù)據(jù)識別并轉(zhuǎn)換成文字信息;
語音合成模塊,用于將聾啞人輸入對話的文本內(nèi)容轉(zhuǎn)換成語音信息,并發(fā)給正常人;
對話交互模塊,用于控制整個交互流程以及聾啞人與系統(tǒng)之間的交互。
2.如權(quán)利要求1所述的聾啞人與正常人的輔助對話系統(tǒng),其特征在于,該對話交互模塊,包括:
流程控制模塊,用于控制整個系統(tǒng)按照交互流程運(yùn)行;
對話文本輸入模塊,用于聾啞人在觸摸屏上輸入對話的文本內(nèi)容;
對話信息顯示模塊,用于將該文字信息發(fā)送到智能終端觸摸屏,顯示給聾啞人看。
3.如權(quán)利要求1所述的聾啞人與正常人的輔助對話系統(tǒng),其特征在于,該數(shù)據(jù)采集及預(yù)處理模塊,包括根據(jù)該對話場景進(jìn)行對該聲音數(shù)據(jù)的起始點和結(jié)束點檢測、去除噪音。
4.如權(quán)利要求1所述的聾啞人與正常人的輔助對話系統(tǒng),其特征在于,該場景感知模塊,包括:
位置分析模塊,根據(jù)GPS,獲取聾啞人所處的位置數(shù)據(jù),并根據(jù)該位置數(shù)據(jù),通過調(diào)用地圖軟件確定聾啞人位置屬性;
運(yùn)動分析模塊,根據(jù)調(diào)用運(yùn)動傳感器,獲取聾啞人的運(yùn)動屬性;
語義分析模塊,根據(jù)分析聾啞人首次輸入的該文本內(nèi)容,獲取該文本內(nèi)容的語義屬性;
場景確定模塊,根據(jù)該位置屬性、該運(yùn)動屬性以及該語義屬性,通過加權(quán)融合的算法確定對話場景。
5.如權(quán)利要求1所述的聾啞人與正常人的輔助對話系統(tǒng),其特征在于,該數(shù)據(jù)采集及預(yù)處理模塊,包括:
數(shù)據(jù)采集子模塊,用于持續(xù)實時采集該聲音數(shù)據(jù)并存入緩沖池;
數(shù)據(jù)預(yù)處理子模塊,用于從該緩沖池中取出該聲音數(shù)據(jù),并從該聲音數(shù)據(jù)中提取語音數(shù)據(jù),對該語音數(shù)據(jù)進(jìn)行語音增強(qiáng)處理后發(fā)送給該語音識別模塊。
6.一種聾啞人與正常人的輔助對話方法,其特征在于,包括以下步驟:
場景感知步驟,感知并確定聾啞人與正常人的對話場景;
數(shù)據(jù)采集及預(yù)處理步驟,采集正常人話音,生成聲音數(shù)據(jù),對該聲音數(shù)據(jù)進(jìn)行預(yù)處理,生成語音數(shù)據(jù);
語音識別步驟,接收識別該語音數(shù)據(jù),并加載對應(yīng)該對話場景的語音識別模型,根據(jù)該語音識別模型將該語音數(shù)據(jù)識別并轉(zhuǎn)換成文字信息;
語音合成步驟,將聾啞人輸入對話的文本內(nèi)容,轉(zhuǎn)換成語音信息,并發(fā)給正常人聽;
對話交互步驟,控制整個交互流程。
7.如權(quán)利要求6所述的聾啞人與正常人的輔助對話方法,其特征在于,該對話交互步驟,包括:
流程控制步驟,控制整個交互流程;
對話文本輸入步驟,通過觸摸屏,輸入聾啞人對話的文本內(nèi)容;
對話信息顯示步驟,發(fā)送該文字信息到智能終端觸摸屏,顯示給聾啞人看。
8.如權(quán)利要求6所述的聾啞人與正常人的輔助對話方法,其特征在于,該數(shù)據(jù)采集及預(yù)處理步驟,包括:
數(shù)據(jù)采集步驟,持續(xù)實時采集該聲音數(shù)據(jù)并存入緩沖池;
數(shù)據(jù)預(yù)處理步驟,從該緩沖池中取出該聲音數(shù)據(jù),并從該聲音數(shù)據(jù)中提取語音數(shù)據(jù),對該語音數(shù)據(jù)進(jìn)行語音增強(qiáng)處理后發(fā)送給該語音識別步驟。
9.如權(quán)利要求8所述的聾啞人與正常人的輔助對話方法,其特征在于,該數(shù)據(jù)預(yù)處理步驟,
每次從緩沖池中取一段固定時長的該聲音數(shù)據(jù);
判斷該聲音數(shù)據(jù)中是否包含有語音,采用的判斷方法為基于預(yù)先訓(xùn)練的分類器的方法:預(yù)先為每種場景訓(xùn)練一個語音分類器,該分類器為混合高斯模型、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)模型中的一種;
若判斷包含有語音,則進(jìn)行記錄后,繼續(xù)取后續(xù)該聲音數(shù)據(jù)進(jìn)行處理;
若判斷未包含有語音,則查詢是否有語音記錄,若沒有,則繼續(xù)取后續(xù)聲音處理,若有,則計算累計間隔時間,若該累計間隔時間小于預(yù)先規(guī)定的閾值,則繼續(xù)取后續(xù)該聲音數(shù)據(jù)進(jìn)行處理,若該累計間隔時間大于預(yù)先規(guī)定的該閾值,則根據(jù)語音記錄,截取從第一次記錄到最后一次記錄時間內(nèi)所包含的全部該聲音數(shù)據(jù)作為該語音數(shù)據(jù),對該語音數(shù)據(jù)進(jìn)行語音增強(qiáng)處理后發(fā)送給該語音識別步驟。
10.一種如權(quán)利要求1所述的智能手機(jī),其特征在于,包括外置遠(yuǎn)講拾音器,采用直接插入或者無線方式與智能手機(jī)連接。