本發明屬于互聯網技術領域,尤其涉及一種機器人的語音處理方法。
背景技術:
隨著社會的發展,通訊工具變得越來越多樣化,各種即時通訊應用程序大大豐富了人們之間的相互流通與交流的方式,在各種電子終端上就可以發送文字、語音、視頻消息,更具有各種群組功能。然而,現有的各種即時通訊應用程序一般都是按照一個客戶端一個用戶的方式設計的,也就是說輸出消息的對象就是當前的用戶,而且播放、輸出消息的操作也依賴于當前用戶的交互操作。
用戶在聊天時的一個顯著特點是所提出的話題一般都是比較短小的,而不是長篇大論,不具有段落篇章結構,絕大多數就是少數幾句話。基于統計的分詞方法適用于有段落、篇章結構以及上下文關系的文段。基于理解的分詞方法目前并不成熟,且時間復雜度高,速度慢。
因此,需要一種新的機器人的語音處理方法來克服上述技術中的缺陷。
技術實現要素:
針對現有技術的不足,本發明的目的是提供一種新的機器人的語音處理方法,使得機器人能夠在短時間以內識別更多語言,簡單方便快速的進行溝通。
一種機器人的語音處理方法,所述語音處理方法包括以下步驟:
S1:預處理階段,按照特殊字符將待分析文本進行斷句,將待切分的文本切分為只有中文的短句,所述短句是下一步分詞處理的基本單位;其中,所述特殊字符包括英文字母、數字和標點符號。
S2:對短句出來的句子進行雙向最大匹配分詞,按照雙向匹配、長詞優先的原則進行,分詞后的結果作為S3的輸入;
S3:對上一步分詞得到的結果進行比較,判斷是否存在歧義,如果存在歧義,就進行一定的歧義消解;
S4:重復S2、S3,直到處理完步驟一中斷句所切分出的所有句子單元。
本發明的技術方案具有以下有益效果:
本發明提供的一種機器人的語音處理方法,使得機器人對語言的詞句完整度理解非常精準,并且處理速度很快,是科技的一大進步,也解決了現有技術中存在的缺陷。
具體實施方式
為了清楚了解本發明的技術方案,將在下面的描述中提出其詳細的結構。顯然,本發明實施例的具體施行并不足限于本領域的技術人員所熟習的特殊細節。本發明的優選實施例詳細描述如下,除詳細描述的這些實施例外,還可以具有其他實施方式。
下面結合實施例對本發明做進一步詳細說明。
本實施例提供的一種機器人的語音處理方法,包括以下步驟:
S1:預處理階段,按照特殊字符(英文字母、數字、標點符號等)將待分析文本進行斷句,將待切分的文本切分為只有中文的短句子,這些句子是下一步分詞處理的基本單位;(舉個例子:輸入“asdfadf東北師范大學哈哈哈dfadflakfl(*^__^*)嘻嘻,, ,,”,simi只會對其中的中文“東北師范大學哈哈哈嘻嘻”做出響應;輸入“(*^__^*)”時,輸出“Ihavenoresponse.”);
S2:對斷句出來的句子進行雙向最大匹配(雙向匹配,長詞優先)分詞,分詞后的結果作為S3的輸入;(舉個例子:輸入“東京古巴比倫”,正向與反向切詞結果均為《東京,古巴比倫》,長詞優先,所以simi只對“古巴比倫”做出響應;輸入“古巴比倫埃菲爾鐵塔”,正向與反向切詞結果均為《古巴比倫,埃菲爾鐵塔》,此時Simi對“埃菲爾鐵塔”做出響應);
S3:對上一步分詞得到的結果進行比較,判斷是否存在歧義,如果存在歧義,就進行一定的歧義消解;
S4:重復S2、S3,直到處理完步驟一中斷句所切分出的所有句子單元。這里給出與機器人對話的例子:我問機器人:“埃菲爾鐵塔上45度角仰望星空”。
S1:雙向最大匹配分詞:正向反向均為《埃菲爾鐵塔上,45度角,仰望星空》,沒有歧義。長詞優先,系統選擇了“埃菲爾鐵塔上”作為關鍵詞;
S2:系統在知識庫中用剛才說的哈希函數f(埃菲爾鐵塔上),找到比如[埃,11,P]的表項,順著指針找到6字詞的索引,順著索引找到6字詞表,遍歷詞表,找到<埃菲爾鐵塔上,,,>結構體;
S3:系統隨機選擇該結構體Ans域中的一個回答(也有可能是根據頻率高低來選擇),比如“兩年之后等著你”。
S4:輸出回答,匹配結束。功時重新切取的策略,機械分詞法可以分為增字法和減字法。
基于詞典的“雙向最大匹配”法是目前中文信息處理中最簡單有效的方法,有這樣的統計:漢語文本中90%左右的句子,其與雙向最大匹配的結果相吻合,而且是正確的分詞結果,當正、反向最大匹配算法得出來的切分結果不一樣時,就必須對其進行歧義處理,在此不再贅述。
本發明提供的一種機器人的語音處理方法,使得機器人對語言的詞句完整度理解非常精準,并且處理速度很快,是科技的一大進步,也解決了現有技術中存在的缺陷。
最后應當說明的是:以上實施例僅用以說明本發明的技術方案而非對其限制,盡管參照上述實施例對本發明進行了詳細的說明,所屬領域的普通技術人員依然可以對本發明的具體實施方式進行修改或者等同替換,這些未脫離本發明精神和范圍的任何修改或者等同替換,均在申請待批的權利要求保護范圍之內。