專利名稱:用于機(jī)器人和用戶交互的多狀態(tài)模型的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于機(jī)器人和用戶交互的多狀態(tài)模型。
背景技術(shù):
被設(shè)計(jì)為供人類使用的諸如儀器、汽車、計(jì)算機(jī)、電話、手持式設(shè)備等之類的設(shè)備依靠用戶的一個(gè)或多個(gè)顯式的物理動(dòng)作來發(fā)起交互,主要是觸摸或其他基于手的接觸。例如,微波爐等待某人按下其小鍵盤;計(jì)算機(jī)等待某人移動(dòng)鼠標(biāo)或按下按鍵;移動(dòng)電話等待某人觸摸其屏幕或按鈕,等等。這樣的設(shè)備在被顯式地物理操作(直接地、或間接地通過遙控器)時(shí)參與用戶,并且由用戶的物理動(dòng)作來支配交互。與之相比,消費(fèi)者機(jī)器人(包括具有傳感感知力、計(jì)算智能、以及移動(dòng)性的部件) 展示出與人類交互的完全不同的范疇。其一,顯式的物理接觸通常不是發(fā)起機(jī)器人參與的最佳方式。相反,例如任一方(人類或機(jī)器人)可以發(fā)起或解除另一方的參與,包括通過口頭或姿勢(shì)通信。例如,機(jī)器人可以搜索、識(shí)別、物理接近特定的人以及使特定的人參與以遞送消息、詢問問題或提供信息。注意,為了參與的直接交互不是必需的,例如用戶可能需要來自機(jī)器人的幫助并且將其從另一房間召喚來。與常規(guī)電子設(shè)備的另一顯著差異是,機(jī)器人常常不在固定位置等待,而是在某個(gè)空間(例如房屋)四周移動(dòng),代表用戶、所有者、家庭成員、訪客或來賓執(zhí)行任務(wù),或者自主地探索某個(gè)空間,記錄和報(bào)告不尋常的現(xiàn)象或者甚至自我“娛樂”。機(jī)器人與人類之間僅僅接近不一定對(duì)應(yīng)于參與,因?yàn)殡p方(機(jī)器人和人類)都可能在任何時(shí)間忙于獨(dú)立的任務(wù)。例如,二者可以在走廊經(jīng)過彼此,其中每個(gè)都專注于單獨(dú)的不相關(guān)的任務(wù)。即使二者都有空參與,參與也是不需要的。然而,當(dāng)偶然經(jīng)過(例如在走廊)時(shí),一方可能希望對(duì)另一方作出請(qǐng)求。另外,當(dāng)人和機(jī)器人參與時(shí),任一方可以出于各種原因基于情況上下文解除參與。 例如,機(jī)器人可能請(qǐng)求從事之前所排定(scheduled)的任務(wù)的許可,或者人可能被單獨(dú)的談話打斷。
發(fā)明內(nèi)容
提供本發(fā)明內(nèi)容以便以簡(jiǎn)化形式介紹將在以下的具體實(shí)施方式
中進(jìn)一步描述的一些代表性概念。本發(fā)明內(nèi)容不旨在標(biāo)識(shí)出所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨在以限制所要求保護(hù)的主題的范圍的任何方式來使用。簡(jiǎn)言之,在此所述的主題的各方面針對(duì)一種使機(jī)器人包括交互模型的技術(shù),所述交互模型包括多個(gè)狀態(tài)(例如參與(engaged)、用戶引導(dǎo)、自身引導(dǎo)、休息),所述交互模型控制機(jī)器人的與任務(wù)相關(guān)的操作、以及與機(jī)器人交互的用戶參與操作。該模型控制機(jī)器人設(shè)備相對(duì)于操作狀態(tài)的操作,包括從機(jī)器人執(zhí)行任務(wù)的自主任務(wù)狀態(tài)轉(zhuǎn)變到機(jī)器人與用戶交互的參與狀態(tài),并且反之亦然。該模型基于包括通過機(jī)器人的傳感器接收到的信息在內(nèi)的當(dāng)前上下文來確定何時(shí)轉(zhuǎn)變。機(jī)器人可以尋求使用戶參與,該用戶可以尋求使機(jī)器人參與,或者用戶和機(jī)器人可能偶然相遇,其中任一方都可能嘗試發(fā)起參與。在一方面,通過該模型,機(jī)器人在自主任務(wù)狀態(tài)下操作,該自主任務(wù)狀態(tài)包括用戶引導(dǎo)模式,其中機(jī)器人基于用戶輸入執(zhí)行用戶任務(wù);以及自身引導(dǎo)模式,其中機(jī)器人執(zhí)行不基于用戶輸入的任務(wù)。機(jī)器人還可以處于休息狀態(tài),其中機(jī)器人可以在與任務(wù)相關(guān)的觸發(fā)事件以后或者在檢測(cè)到用戶參與的需要以后離開該休息狀態(tài)。優(yōu)先級(jí)排序使機(jī)器人處于參與狀態(tài),該參與狀態(tài)高于自主狀態(tài)(用戶引導(dǎo)模式),該自主狀態(tài)又高于自主狀態(tài)(自身弓I導(dǎo)模式),該自主狀態(tài)又高于休息狀態(tài)。在另一方面,機(jī)器人進(jìn)入?yún)⑴c狀態(tài),并且在其中基于多個(gè)刺激中的哪個(gè)刺激導(dǎo)致了到參與狀態(tài)的轉(zhuǎn)變來不同地操作。示例性刺激包括遠(yuǎn)程代理通信、音頻數(shù)據(jù)(例如對(duì)應(yīng)于機(jī)器人名稱的語(yǔ)音)、或者檢測(cè)到對(duì)應(yīng)于用戶的運(yùn)動(dòng)。機(jī)器人可以通過向用戶移動(dòng)或輸出針對(duì)用戶的聽覺和/或可視通信數(shù)據(jù)來發(fā)起參與。可以基于用戶之前的參與歷史來調(diào)整參與用戶的嘗試,例如通過等待直到達(dá)到針對(duì)參與嘗試的由頻率確定的時(shí)間來不過于頻繁地嘗試參與。結(jié)合附圖閱讀以下具體實(shí)施方式
,本發(fā)明的其他優(yōu)點(diǎn)會(huì)變得顯而易見。
作為示例而非限制,在附圖中示出了本發(fā)明,附圖中相同的附圖標(biāo)記指示相同或相似的元素,附圖中圖I是表示機(jī)器人設(shè)備的示例性實(shí)施例的框圖,其中機(jī)器人設(shè)備的計(jì)算智能系統(tǒng)包括確定機(jī)器人設(shè)備的操作狀態(tài)的模型。圖2是示例性機(jī)器人設(shè)備的輸入模態(tài)、輸出模態(tài)和操作狀態(tài)的表示。圖3是表示機(jī)器人設(shè)備的狀態(tài)和這些狀態(tài)間轉(zhuǎn)變的狀態(tài)圖。圖4是表示其中可實(shí)現(xiàn)此處所描述各種實(shí)施例的一個(gè)或多個(gè)方面的示例性非限制計(jì)算系統(tǒng)或操作環(huán)境的框圖。
具體實(shí)施例方式在此所述的技術(shù)的各方面通常針對(duì)包括人(或“用戶”)和機(jī)器人交互模型的機(jī)器人設(shè)備,所述模型包括多個(gè)狀態(tài)(例如參與、用戶引導(dǎo)、自身引導(dǎo)、休息),所述模型以促進(jìn)自然、合適、有幫助和令人愉快的交互的方式控制機(jī)器人的交互行為。在一方面,該模型支配非參與與參與狀態(tài)之間的轉(zhuǎn)變、機(jī)器人或人類進(jìn)行發(fā)起的方法、以及上下文感知力的使用和管理這些轉(zhuǎn)變的傳感能力。該模型可以定義其他機(jī)器人行為,比如機(jī)器人如何使用傳感感知力來仲裁其參與可用性。應(yīng)當(dāng)理解,此處的任何示例均是非限制性的。例如,各種模型等等在此都是作為示例來使用的,但是可以使用所例示的模型以外的模型。因此,本發(fā)明不限于在此描述的任何具體的實(shí)施例、方面、概念、結(jié)構(gòu)、功能或示例。相反,此處所描述的任何實(shí)施例、方面、概念、 結(jié)構(gòu)、功能或示例都是非限制性的,并且本發(fā)明一般能夠以在機(jī)器人技術(shù)方面提供好處和優(yōu)點(diǎn)的各種方式來使用。圖I是表示機(jī)器人設(shè)備102的示例性實(shí)施方式的框圖,該機(jī)器人設(shè)備102被配置為通過移動(dòng)性(驅(qū)動(dòng))機(jī)構(gòu)104用于移動(dòng)性。計(jì)算智能系統(tǒng)106通過合適的指令來驅(qū)動(dòng)移動(dòng)性機(jī)構(gòu)104。這向機(jī)器人設(shè)備102提供了移動(dòng)性,使得計(jì)算智能系統(tǒng)106能夠基于來自計(jì)算智能系統(tǒng)106的指令被運(yùn)輸。一般而言,機(jī)器人102包括傳感器組108,該傳感器組108包括一個(gè)或多個(gè)傳感器, 所述傳感器向計(jì)算智能系統(tǒng)106提供一個(gè)或多個(gè)信號(hào)以指示當(dāng)前狀態(tài)數(shù)據(jù)等等,比如環(huán)境數(shù)據(jù)、一天中的時(shí)間、星期幾、當(dāng)前位置、剩余的電池電量、所識(shí)別的附近的人等等。該狀態(tài)數(shù)據(jù)、與諸如機(jī)器人的時(shí)間表、歷史數(shù)據(jù)(例如經(jīng)調(diào)整的和所學(xué)習(xí)到的知識(shí))等之類的所維護(hù)的其他數(shù)據(jù)一起包括了當(dāng)前的上下文。傳感器組108可以包括任何機(jī)械、電氣、光學(xué)和/或磁傳感器,并且每個(gè)都可以定位在機(jī)器人102上的合適位置處以用于傳感,例如被安裝在高處以獲得特定的視角。傳感器組108可以包括一個(gè)或多個(gè)相機(jī),所述相機(jī)能夠被計(jì)算智能系統(tǒng)106用來檢測(cè)特定人的物理存在注視方向、手姿勢(shì)等等。機(jī)器人102還包括設(shè)備電池109 (或者其他合適的便攜式電源)。計(jì)算智能系統(tǒng)106包括處理器110、存儲(chǔ)器112和接口 114。如下面所述那樣,接口 114可以被配置為供機(jī)器人102通過各種類型的輸入和輸出進(jìn)行通信。如下面還將描述的那樣,計(jì)算智能系統(tǒng)106包括用戶(人類)交互模型120。圖2不出了用于與機(jī)器人通信的一些不例性機(jī)構(gòu),包括一個(gè)或多個(gè)機(jī)器人輸入機(jī)構(gòu)220和機(jī)器人輸出機(jī)構(gòu)222。如圖2中所表示的那樣,機(jī)器人可以包括遙控接收機(jī)224,其比如用于尤其是從諸如另一房間之類的遠(yuǎn)程位置接收遙控代理用戶命令。注意,一種類型的遙控輸入被稱為“懸吊(pendant) ”輸入,因?yàn)橛脩艨赡茉谶b控器的一個(gè)實(shí)施例中佩戴有該遙控器。機(jī)器人也可以從任何有線(如果物理上耦合的話)或者無線源接收遙控命令, 例如用戶可以通過因特網(wǎng)連接、通過個(gè)人計(jì)算機(jī)等等與機(jī)器人通信。另一類型的輸入是由機(jī)器人通過語(yǔ)音識(shí)別器225來處理的語(yǔ)音。諸如由攝像機(jī)或深度傳感器所捕捉的圖像輸入是其他類型的輸入,并且可以如圖2中所表示的那樣由圖像識(shí)別器(框226)利用面部識(shí)別技術(shù)、位置檢測(cè)、注視檢測(cè)、眼睛跟蹤、姿勢(shì)檢測(cè)/識(shí)別技術(shù)、 骨架跟蹤等等加以處理。注意,一圖像/所捕捉的圖像序列僅僅是示例,并且不必是例如紅外、運(yùn)動(dòng)、深度傳感器等全部都能捕捉并由合適相機(jī)或類似傳感器來檢測(cè)的常規(guī)圖像或視頻。在圖2中還表示了通過框227所檢測(cè)到的圖像和語(yǔ)音輸入。這是指語(yǔ)音與姿勢(shì)組合,這可以組合成不同的含義(例如所講出的單詞“移動(dòng)”伴隨著合適的手姿勢(shì)可以用于指示機(jī)器人移動(dòng)以及向哪個(gè)方向移動(dòng),比如向左或向右)。可以將其他類型的輸入相組合,例如用戶在與機(jī)器人交談時(shí)看著機(jī)器人可以與在該用戶將目光從機(jī)器人上移開(例如用戶甚至可能根本未與機(jī)器人交談)的情況下不同地來解釋。可以接收由合適傳感器感測(cè)到的其他類型的輸入,例如觸摸、氣味、溫度、濕度、用戶生物數(shù)據(jù)等等。框228表示任何這樣的其他輸入機(jī)構(gòu)和/或傳感器。機(jī)器人能夠通過包括圖2所描述的輸出機(jī)構(gòu)222中的一些或全部在內(nèi)的各個(gè)輸出機(jī)構(gòu)222中的一個(gè)或多個(gè)、包括通過下列項(xiàng)目來輸出信息身體運(yùn)動(dòng)、姿態(tài)/注視231、視覺表達(dá)232(例如動(dòng)畫化的動(dòng)作,比如眨“眼睛”)、音頻233和顯示234(比如可通過諸如屏幕或投影儀之類的顯示設(shè)備來呈遞的圖形用戶界面、圖像等等)。諸如震動(dòng)或氣味之類的其他輸出通過框235來表不。機(jī)器人可以在處于任何狀態(tài)下使用其輸出機(jī)構(gòu)222中的一個(gè)或多個(gè)來指示其心情、總體狀態(tài)、任務(wù)狀態(tài)等等。注意,所描述的輸出結(jié)構(gòu)222通常針對(duì)與人類用戶的通信。然而,其他類型的輸出可以針對(duì)電子設(shè)備,比如另一機(jī)器人、計(jì)算機(jī)、電話、儀器等等。這些設(shè)備例如可以通過有線或無線無線電信號(hào)或音頻采樣來通信。另外,機(jī)器人可以與其他機(jī)器人、以及諸如寵物、無生命物體(例如游戲控制臺(tái))等之類的其他實(shí)體進(jìn)行交互。因此,人類以及這樣的其他實(shí)體在此被稱為“用戶”(但是“人類”在此與“用戶”可互換地使用,因?yàn)槿祟愂亲畹湫偷挠脩?。圖2還示出了機(jī)器人可以在任何時(shí)候處于的一些示例性操作狀態(tài)240-244,包括參與狀態(tài)242,其中在參與狀態(tài)242下,輸入和輸出機(jī)構(gòu)220和222被用于機(jī)器人_用戶交互。盡管下面描述了所表示出的狀態(tài)240-244,但是應(yīng)當(dāng)理解,一個(gè)或多個(gè)其他狀態(tài)是可行的,并且狀態(tài)可以相組合(例如在另一實(shí)施方式中,機(jī)器人可以運(yùn)行用戶引導(dǎo)的任務(wù)的某部分,而在其他情況下處于休息狀態(tài))。下面的表概述了示例性狀態(tài)
權(quán)利要求
1.一種在計(jì)算環(huán)境中的機(jī)器人設(shè)備,包括傳感器組(108),所述傳感器組(108)將信息輸入到所述機(jī)器人設(shè)備中;輸出機(jī)構(gòu)(222),所述輸出機(jī)構(gòu)(222)包括用于與用戶通信的一個(gè)或多個(gè)輸出模態(tài);以及模型(120),所述模型(120)被配置為控制所述機(jī)器人設(shè)備相對(duì)于操作狀態(tài)的操作,所述狀態(tài)包括自主任務(wù)狀態(tài)(360),其中所述機(jī)器人執(zhí)行與直接用戶輸入無關(guān)的任務(wù);以及參與狀態(tài)(364),其中所述機(jī)器人通過所述傳感器組和所述輸出機(jī)構(gòu)與用戶交互,所述模型被配置為基于包括通過所述傳感器組接收的信息在內(nèi)的當(dāng)前上下文來確定何時(shí)從自主任務(wù)狀態(tài)轉(zhuǎn)變到參與狀態(tài)以及從參與狀態(tài)轉(zhuǎn)變到自主任務(wù)狀態(tài)。
2.如權(quán)利要求I所述的機(jī)器人設(shè)備,其特征在于,自主任務(wù)狀態(tài)包括用戶引導(dǎo)模式, 其中所述機(jī)器人基于用戶輸入執(zhí)行包括一個(gè)或多個(gè)用戶任務(wù)的任務(wù)組;以及自身引導(dǎo)模式,其中所述機(jī)器人執(zhí)行不基于用戶輸入的一個(gè)或多個(gè)任務(wù)。
3.如權(quán)利要求2所述的機(jī)器人設(shè)備,其特征在于,還包括休息狀態(tài),并且其中所述模型根據(jù)優(yōu)先級(jí)排序來控制所述機(jī)器人設(shè)備的操作,在所述優(yōu)先級(jí)排序中,參與狀態(tài)具有比自主任務(wù)狀態(tài)中的用戶引導(dǎo)模式更高的優(yōu)先級(jí),用戶引導(dǎo)模式具有比自主任務(wù)狀態(tài)中的自身弓I導(dǎo)模式更高的優(yōu)先級(jí),并且自主任務(wù)狀態(tài)中的自身引導(dǎo)模式具有比休息狀態(tài)更高的優(yōu)先級(jí)。
4.如權(quán)利要求I所述的機(jī)器人設(shè)備,其特征在于,當(dāng)所述機(jī)器人發(fā)起用戶的參與嘗試并且該嘗試成功時(shí),所述模型將所述機(jī)器人從自主任務(wù)狀態(tài)轉(zhuǎn)變到參與狀態(tài)。
5.如權(quán)利要求I所述的機(jī)器人設(shè)備,其特征在于,當(dāng)所述機(jī)器人檢測(cè)到偶然相遇的用戶并且所述機(jī)器人還檢測(cè)到該用戶可能對(duì)與所述機(jī)器人交互感興趣時(shí),所述模型將所述機(jī)器人從自主任務(wù)狀態(tài)轉(zhuǎn)變到參與狀態(tài)。
6.如權(quán)利要求I所述的機(jī)器人設(shè)備,其特征在于,當(dāng)用戶在所述機(jī)器人執(zhí)行任務(wù)時(shí)發(fā)起機(jī)器人的參與嘗試時(shí),所述模型將所述機(jī)器人從自主任務(wù)狀態(tài)轉(zhuǎn)變到參與狀態(tài),并且在參與狀態(tài)下,所述機(jī)器人與用戶通信以確定是恢復(fù)該任務(wù)還是保持在參與狀態(tài)。
7.一種在計(jì)算環(huán)境中至少部分地在至少一個(gè)處理器上執(zhí)行的方法,包括在機(jī)器人(102)中運(yùn)行一個(gè)或多個(gè)程序,所述程序致使所述機(jī)器人自主地操作,包括在自主任務(wù)狀態(tài) (360)下執(zhí)行任務(wù)組;檢測(cè)用戶;嘗試參與所述用戶;以及如果該參與嘗試成功,則進(jìn)入?yún)⑴c狀態(tài)(364)以與所述用戶交互。
8.如權(quán)利要求7所述的方法,其特征在于,還包括進(jìn)入?yún)⑴c狀態(tài);與所述用戶交互; 以及基于當(dāng)前狀態(tài)數(shù)據(jù)的改變從參與狀態(tài)解除參與。
9.一個(gè)或多個(gè)具有計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì),所述計(jì)算機(jī)可執(zhí)行指令在被執(zhí)行時(shí)執(zhí)行以下步驟,包括在機(jī)器人(102)中運(yùn)行一個(gè)或多個(gè)程序,所述程序致使所述機(jī)器人自主地操作,包括在自主任務(wù)狀態(tài)的自身引導(dǎo)模式下操作,在所述自身引導(dǎo)模式下,所述機(jī)器人獨(dú)立地執(zhí)行任務(wù);在自主任務(wù)狀態(tài)(360)的用戶引導(dǎo)模式下操作,在所述用戶引導(dǎo)模式下,所述機(jī)器人基于來自用戶的之前輸入以及對(duì)觸發(fā)事件的檢測(cè)來執(zhí)行用戶任務(wù);完成所述用戶任務(wù);以及在用戶引導(dǎo)模式的另一實(shí)例中操作,在所述另一實(shí)例中,所述機(jī)器人執(zhí)行另一用戶任務(wù),包括從自主任務(wù)狀態(tài)轉(zhuǎn)變到參與狀態(tài)(364);在參與狀態(tài)下接收對(duì)應(yīng)于所述另一用戶任務(wù)的信息;以及轉(zhuǎn)變到自主任務(wù)狀態(tài)以執(zhí)行所述另一用戶任務(wù)。
10.如權(quán)利要求9所述的一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì),其特征在于,具有另外的計(jì)算機(jī)可執(zhí)行指令,所述指令包括感測(cè)輸入數(shù)據(jù)以確定當(dāng)前上下文,并且其中所述觸發(fā)事件基于對(duì)應(yīng)于當(dāng)前上下文的信息。
全文摘要
本發(fā)明涉及用于機(jī)器人和用戶交互的多狀態(tài)模型。公開主題針對(duì)一種包括模型的機(jī)器人設(shè)備,該模型控制機(jī)器人的與任務(wù)相關(guān)的操作以執(zhí)行任務(wù)并控制用戶參與操作以與機(jī)器人交互。該模型控制操作狀態(tài),包括基于從各種刺激確定的當(dāng)前上下文(例如通過機(jī)器人的傳感器接收的信息和/或?qū)W習(xí)到的數(shù)據(jù))從自主任務(wù)狀態(tài)轉(zhuǎn)變到參與狀態(tài)。機(jī)器人可以尋求使用戶參與,該用戶可以尋求使機(jī)器人參與,或者用戶和機(jī)器人可能偶然相遇,其中任一方都可能嘗試發(fā)起參與。
文檔編號(hào)G06F3/01GK102609089SQ20121000823
公開日2012年7月25日 申請(qǐng)日期2012年1月12日 優(yōu)先權(quán)日2011年1月13日
發(fā)明者K·B·克勞斯科普夫, M·M·查拉必, R·I·桑切斯 申請(qǐng)人:微軟公司