麻豆精品无码国产在线播放,国产亚洲精品成人AA片新蒲金,国模无码大尺度一区二区三区,神马免费午夜福利剧场

信息處理設備、信息處理方法和程序的制作方法

文檔序號:6377883閱讀:221來源:國知局
專利名稱:信息處理設備、信息處理方法和程序的制作方法
技術領域
本公開涉及信息處理設備、信息處理方法和程序。
背景技術
近年來,人們已經關注從難以定量地確定特征的任意的數據集機械地提取特征量的方法。例如,已知有一種方法用于自動地構建這樣一種算法,該算法用于輸入任意的音樂數據并機械地提取這樣的音樂數據所屬于的音樂流派(genre)。諸如爵士樂、古典樂和流行樂的音樂流派不是通過樂器的類型或演奏的風格來定量地決定的。出于這一原因,傳統上認為當提供任意的音樂數據時,難以機械地提取音樂數據的流派。但是,實際上,決定一首音樂作品的流派的特征被潛在地包含在各種信息的組合中,諸如,包含在音樂數據中的間隔、這些間隔組合的方式、樂器類型的組合、以及旋律線和/或低音線的結構的組合。出于這一原因,在假定自動地構建用于通過機器學習提取這樣的特征的算法(或“特征量提取裝置”)是可能的情況下,已經對特征量提取裝置進行了研究。這樣的研究的一個成果是在日本特開公報N0.2009-48266中公開的基于遺傳算法的用于特征量提取裝置的自動構建方法。“遺傳算法”的表述是指一種算法,該算法以與生物進化過程中的方式相同的方式考慮在機器學習的過程中的元素的選擇、交叉和突變。通過使用在引用的出版物中公開的用于特征量提取裝置的自動構建算法,可以自動地構建從任意音樂數據提取該音樂數據所屬于的音樂流派的特征量提取裝置。在引用的出版物中公開的用于特征量提取裝置的自動構建算法還具有極其廣泛的應用性,并且可以構建從不限于音樂數據的任意數據集提取該數據集的特征量的特征量提取裝置。出于這一原因,期待在引用的出版物中公開的用于特征量提取裝置的自動構建算法可以被應用于諸如音樂數據和/或視頻數據的人工數據的特征量分析,以及在自然世界中呈現的各種觀測值的特征量分析。

發明內容
通過進一步擴展引用的出版物的技術,本發明人研究是否可以開發一種自動地構建用于使代理智能地行動的算法的技術。在這樣的研究期間,本發明人專注于一種技術,該技術自動地構建用于決定從特定狀態下代理可以采取的行動中選擇的行動的思考過程(thought routine)。本公開涉及這樣的技術并致力于提供一種新型的、改進的信息處理設備、信息處理方法和程序,該信息處理設備、信息處理方法和程序能夠有效地并自動地構建當選擇要被代理采取的行動時輸出起決定性的信息的估計器。根據本公開的實施例,提供一種信息處理設備,其包括:報酬估計器生成單元,該報酬估計器生成單元使用行動歷史數據作為學習數據來通過機器學習生成根據輸入的狀態數據和行動數據估計報酬值的報酬估計器,該行動歷史數據包含表示代理的狀態的狀態數據、表示在該狀態中由代理采取的行動的行動數據、以及表示作為該行動的結果的由代理獲得的報酬的報酬值;行動選擇單元,該行動選擇單元從代理能夠采取的行動中優先選擇具有使用報酬估計器估計的高報酬值并且不包含在行動歷史數據中的行動;以及行動歷史添加單元,該行動歷史添加單元使代理根據行動選擇單元的選擇結果進行行動,并將在行動的過程中獲得的狀態數據和行動數據與作為行動的結果獲得的報酬值彼此相關聯地添加到行動歷史數據。當已經將一組狀態數據、行動數據和報酬值添加到行動歷史數據時,報酬估計器生成單元用于重新生成報酬估計器。此外,根據本公開的實施例,提供一種信息處理設備,其包括:報酬估計器生成單元,該報酬估計器生成單元使用行動歷史數據作為學習數據來通過機器學習生成根據輸入的狀態數據和行動數據估計報酬值的報酬估計器,該行動歷史數據包含表示代理的狀態的狀態數據、表示在該狀態中由代理采取的行動的行動數據、以及表示作為該行動的結果的由代理獲得的報酬的報酬值;行動選擇單元,該行動選擇單元從代理能夠采取的行動中優先選擇具有使用報酬估計器估計的高報酬值并且其報酬值具有大估計誤差的行動;以及行動歷史添加單元,該行動歷史添加單元使代理根據行動選擇單元的選擇結果進行行動,并將在行動的過程中獲得的狀態數據和行動數據與作為行動的結果獲得的報酬值彼此相關聯地添加到行動歷史數據。當已經將一組狀態數據、行動數據和報酬值添加到行動歷史數據時,報酬估計器生成單元用于重新生成報酬估計器。此外,根據本公開的另一個實施例,提供一種信息處理方法,其包括:使用行動歷史數據作為學習數據來通過機器學習生成根據輸入的狀態數據和行動數據估計報酬值的報酬估計器,該行動歷史數據包含表示代理的狀態的狀態數據、表示在該狀態中由代理采取的行動的行動數據、以及表示作為該行動的結果的由代理獲得的報酬的報酬值;從代理能夠采取的行動中優先選擇具有使用報酬估計器估計的高報酬值并且不包含在行動歷史數據中的行動;以及使代理根據選擇結果進行行動,并將在行動的過程中獲得的狀態數據和行動數據與作為行動的結果獲得的報酬值彼此相關聯地添加到行動歷史數據;以及當一組狀態數據、行動數據和報酬值已經被添加到行動歷史數據時,重新生成報酬估計器。此外,根據本公開的另一個實施例,提供一種信息處理方法,包括:使用行動歷史數據作為學習數據來通過機器學習生成根據輸入的狀態數據和行動數據估計報酬值的報酬估計器,該行動歷史數據包含表示代理的狀態的狀態數據、表示在該狀態中由代理采取的行動的行動數據、以及表示作為該行動的結果的由代理獲得的報酬的報酬值;從代理能夠采取的行動中優先選擇具有使用報酬估計器估計的高報酬值并且其報酬值具有大估計誤差的行動;使代理根據選擇結果進行行動,并將在行動的過程中獲得的狀態數據和行動數據與作為行動的結果獲得的報酬值彼此相關聯地添加到行動歷史數據;以及當一組狀態數據、行動數據和報酬值已經被添加到行動歷史數據時,重新生成報酬估計器。此外,根據本公開的另一個實施例,提供一種程序,使計算機實現:報酬估計器生成功能,該報酬估計器生成功能使用行動歷史數據作為學習數據來通過機器學習生成根據輸入的狀態數據和行動數據估計報酬值的報酬估計器,該行動歷史數據包含表示代理的狀態的狀態數據、表示在該狀態中由代理采取的行動的行動數據、以及表示作為該行動的結果的由代理獲得的報酬的報酬值;行動選擇功能,該行動選擇功能從代理能夠采取的行動中優先選擇具有使用報酬估計器估計的高報酬值并且不包含在行動歷史數據中的行動;以及行動歷史添加功能,該行動歷史添加功能使代理根據行動選擇功能的選擇結果進行行動,并將在行動的過程中獲得的狀態數據和行動數據與作為行動的結果獲得的報酬值彼此相關聯地添加到行動歷史數據。當已經將一組狀態數據、行動數據和報酬值添加到行動歷史數據時,報酬估計器生成功能用于重新生成報酬估計器。此外,根據本公開的另一個實施例,提供一種程序,使計算機實現:報酬估計器生成功能,該報酬估計器生成功能使用行動歷史數據作為學習數據來通過機器學習生成根據輸入的狀態數據和行動數據估計報酬值的報酬估計器,該行動歷史數據包含表示代理的狀態的狀態數據、表示在該狀態中由代理采取的行動的行動數據、以及表示作為該行動的結果的由代理獲得的報酬的報酬值;行動選擇功能,該行動選擇功能從代理能夠采取的行動中優先選擇具有使用報酬估計器估計的高報酬值并且其報酬值具有大估計誤差的行動;以及行動歷史添加功能,該行動歷史添加功能使代理根據行動選擇功能的選擇結果進行行動,并將在行動的過程中獲得的狀態數據和行動數據與作為行動的結果獲得的報酬值彼此相關聯地添加到行動歷史數據。當已經將一組狀態數據、行動數據和報酬值添加到行動歷史數據時,報酬估計器生成功能用于重新生成報酬估計器。根據本公開的另一個實施例,提供一種在其上已經記錄了上述程序的計算機可讀記錄介質。根據上述的本公開的實施例,可以有效地、自動地構建當選擇要被代理采取的行動時輸出決定性的信息的估計器。


圖1是用于解釋估計器的自動構建方法的說明圖;圖2是用于解釋估計器的自動構建方法的說明圖;圖3是用于解釋估計器的自動構建方法的說明圖;圖4是用于解釋估計器的自動構建方法的說明圖;圖5是用于解釋估計器的自動構建方法的說明圖;圖6是用于解釋估計器的自動構建方法的說明圖;圖7是用于解釋估計器的自動構建方法的說明圖;圖8是用于解釋估計器的自動構建方法的說明圖;圖9是用于解釋估計器的自動構建方法的說明圖;圖10是用于解釋估計器的自動構建方法的說明圖;圖11是用于解釋估計器的自動構建方法的說明圖;圖12是用于解釋估計器的自動構建方法的說明圖;圖13是用于解釋基于在線學習的估計器的自動構建方法的說明圖;圖14是用于解釋對數據集進行綜合的方法的說明圖;圖15是用于解釋對數據集進行綜合的方法的說明圖;圖16是用于解釋對數據集進行綜合的方法的說明圖;圖17是用于解釋對數據集進行綜合的方法的說明圖;圖18是用于解釋對數據集進行綜合的方法的說明圖;圖19是用于解釋對數據集進行綜合的方法的說明圖;圖20是用于解釋對數據集進行綜合的方法的說明圖21是用于解釋對數據集進行綜合的方法的說明圖;圖22是用于解釋對數據集進行綜合的方法的說明圖;圖23是用于解釋對數據集進行綜合的方法的說明圖;圖24是用于解釋對數據集進行綜合的方法的說明圖;圖25是用于解釋對數據集進行綜合的方法的說明圖;圖26是用于解釋對數據集進行綜合的方法的說明圖;圖27是用于解釋對數據集進行綜合的方法的說明圖;圖28是用于解釋對數據集進行綜合的方法的說明圖;圖29是用于解釋對數據集進行綜合的方法的說明圖;圖30是用于解釋對數據集進行綜合的方法的說明圖;圖31是用于解釋對數據集進行綜合的方法的說明圖;圖32是用于解釋對數據集進行綜合的方法的說明圖;圖33是用于解釋對數據集進行綜合的方法的說明圖;圖34是用于解釋思考過程的配置的說明圖;圖35是用于解釋思考過程的配置的說明圖;圖36是用于解釋思考過程的配置的說明圖;圖37是用于解釋思考過程的配置的說明圖;圖38是用于解釋構建思考過程的方法的說明圖;圖39是用于解釋信息處理設備10的示例功能配置的說明圖;圖40是用于解釋信息處理設備10的示例功能配置的說明圖;圖41是用于解釋構建報酬估計器的有效方法的說明圖;圖42是用于解釋構建報酬估計器的有效方法的說明圖;圖43是用于解釋使用動作得分估計器的思考過程的配置的說明圖;圖44是用于解釋使用動作得分估計器的思考過程的配置的說明圖;圖45是用于解釋使用預測器估計報酬的方法的說明圖;圖46是用于解釋使用預測器估計報酬的方法的說明圖;圖47是用于解釋使用預測器估計報酬的方法的說明圖;圖48是用于解釋井字游戲(tic-tac-toe)的應用的說明圖;圖49是用于解釋井字游戲的應用的說明圖;圖50是用于解釋井字游戲的應用的說明圖;圖51是用于解釋井字游戲的應用的說明圖;圖52是用于解釋井字游戲的應用的說明圖;圖53是用于解釋井字游戲的應用的說明圖;圖54是用于解釋井字游戲的應用的說明圖;圖55是用于解釋戰斗游戲的應用的說明圖;圖56是用于解釋戰斗游戲的應用的說明圖;圖57是用于解釋戰斗游戲的應用的說明圖;圖58是用于解釋戰斗游戲的應用的說明圖;圖59是用于解釋戰斗游戲的應用的說明圖60是用于解釋戰斗游戲的應用的說明圖;圖61是用于解釋戰斗游戲的應用的說明圖;圖62是用于解釋戰斗游戲的應用的說明圖;圖63是用于解釋“五子棋”游戲的應用的說明圖;圖64是用于解釋“五子棋”游戲的應用的說明圖;圖65是用于解釋撲克游戲的應用的說明圖;圖66是用于解釋撲克游戲的應用的說明圖;圖67是用于解釋撲克游戲的應用的說明圖;圖68是用于解釋角色扮演游戲的應用的說明圖;圖69是用于解釋角色扮演游戲的應用的說明圖;圖70是用于解釋角色扮演游戲的應用的說明圖;圖71是用于解釋角色扮演游戲的應用的說明圖;圖72是用于解釋角色扮演游戲的應用的說明圖;圖73是用于解釋角色扮演游戲的應用的說明圖;圖74是用于解釋角色扮演游戲的應用的說明圖;圖75是用于解釋角色扮演游戲的應用的說明圖;圖76是用于解釋角色扮演游戲的應用的說明圖;圖77是用于解釋角色扮演游戲的應用的說明圖;圖78是用于解釋角色扮演游戲的應用的說明圖;圖79是用于解釋角色扮演游戲的應用的說明圖;以及圖80是用于解釋能夠實現信息處理設備的功能的示例硬件配置的說明圖。
具體實施例方式在下文中,將參照附圖詳細地描述本公開的優選實施例。請注意,在本說明書和附圖中,基本上具有相同的功能和結構的結構元件用相同的附圖標記表示,并且省略對這些結構元件的重復解釋。解釋的順序將首先簡單地描述下面的解釋的順序。首先將描述根據本公開的實施例的基本技術。更具體地說,將首先參考圖1到12描述估計器的自動構建方法。其后,將參考圖13描述基于在線學習的估計器的自動構建方法。接下來,將參考圖14到圖16描述對數據集進行綜合的方法。其后,將參考圖17到圖23描述對數據集進行采樣的有效方法。接下來,將參考圖24到圖27描述加權的有效方法。然后,將參考圖28描述組合對數據集進行采樣和加權的有效方法。其后,將參考圖29到圖33描述對數據集進行采樣和加權的其它方法。然后,將參考圖34到圖38描述思考過程的配置和構建思考過程的方法。其后,將參考圖39到圖40描述根據本公開實施例的信息處理設備10的功能配置。接下來,將參考圖41到圖42描述構建報酬估計器的有效方法。然后,將參考圖43和圖44描述使用動作得分估計器的思考過程的配置。其后,將參考圖45到圖47描述使用預測器估計報酬的方法。將參考圖48到圖54描述將本公開實施例的技術應用到井字游戲的方法。其后,將參考圖55到圖62描述將本公開實施例的技術應用到戰斗游戲的方法。將參考圖63到圖64描述將本公開實施例的技術應用到“五子棋”游戲的方法。接下來,將參考圖65到圖67描述將本公開實施例的技術應用到撲克游戲的方法。其后,將參考圖68到圖79描述將本公開實施例的技術應用到角色扮演游戲的方法。將參考圖80描述能夠實現根據本公開實施例的信息處理設備10的功能的示例硬件配置。最后,將總結本公開實施例的技術概念,并簡單地描述通過這些技術概念獲得的操作效果。索引1.基本技術1-1:估計器的自動構建方法1-1-1:估計器的配置1-1-2:構建處理的流程1-2:在線學習1-3:對學習數據進行綜合的方法1-3-1:特征量空間中的學習數據的分布和估計器的精度1-3-2:在數據綜合期間使用的采樣配置1-3-3:在數據綜合期間使用的加權配置1-3-4:在數據綜合期間使用的采樣和加權配置1-4:有效的采樣/加權方法1-4-1:采樣方法1-4-2:加權方法1-4-3:組合方法1-5:采樣處理和加權處理的變型例1-5-1:變型例I (基于距離的處理)1-5-2:變型例2 (基于群集的處理)1-5-3:變型例3 (基于密度估計方法的處理)2:實施例2-1:思考過程的自動構建方法2-1-1:思考過程2-1-2:思考過程的配置2-1-3:構建報酬估計器的方法2-2:信息處理設備10的配置2-3:有效地構建報酬估計器的方法2-4:變型例1.使用動作得分估計器的思考過程2-5:變型例2.使用預測器的報酬的估計2-5-1:構建預測器的方法2-5-2:估計報酬的方法
2-6:變型例3.多個代理的同時學習31:應用3-1:對井字游戲的應用3-2:戰斗斗游戲的應用3-3:對“五子棋”游戲的應用3-4:對撲克游戲的應用3-5:對角色扮演游戲的應用4:示例硬件配置5:總結1:基本技術稍后描述的實施例涉及估計器的自動構建方法。此外,這樣的實施例涉及一種構架(在下文中的“在線學習”),該構架使得添加在構建估計器中要被使用的學習數據成為可能。出于這一原因,在詳細描述根據實施例的技術之前,將描述估計器的自動構建方法和在線學習方法(在下文中的“基本技術”)。請注意,盡管在下面作為一個例子,將對基于遺傳算法的估計器的自動構建方法進行解釋,但是本公開實施例的應用的技術范疇并不限于此。1-1:估計器的自動構建方法現在將描述估計器的自動構建方法。1-1-1:估計器的配置首先,將參考圖1到圖3描述估計器的配置。圖1是用于解釋使用估計器的系統的示例系統配置的說明圖。圖2是用于解釋在估計器的構建中要被使用的學習數據的示例配置的說明圖。圖3是用于示出估計器的結構和構建方法的概要的說明圖。首先,將描述圖1。如圖1所示,例如,通過信息處理設備10來實現估計器的構建
和估計值的計算。信息處理設備10使用學習數據(X1, ti)........(XN, tN)來構建估計器。
信息處理設備10還使用構建的估計器根據輸入數據X來計算估計值y。估計值y被用于識別輸入數據X。例如,如果估計值y等于或大于指定閾值Th,那么獲得“是”的識別結果;如果估計值I小于指定閾值Th,那么獲得“否”的識別結果。現在讓我們參考圖2來考慮估計器的具體配置。在圖2中示出的學習數據的集合被用于構建識別海的圖像的圖像識別裝置。在這種情況中,由信息處理設備10構建的估計器輸出表示輸入圖像的與海的相似性的估計值y。如圖2所示,學習數據由成對的數據Xk和目標變量tk (其中,k為I到N)構成。數據Xk是第k個圖像數據(image#k)。目標變量tk是這樣的變量:當image#k是海的圖像時其取“I”的值,當image#k不是海的圖像時其取“O”的值。在圖2的例子中,image#I是海的圖像,image#2是海的圖像,......,image#I不
是海的圖像。在這種情況中,t1=l、t2=l........tN=0。當該學習數據被輸入時,信息處理
設備10根據基于輸入的學習數據的機器學習來構建輸出表不輸入圖像的與海的相似性的估計值y的估計器。輸入圖像的與海的相似性越近,則估計值y越接近“1”,與海的相似性越弱,則估計值y越接近“O”。當新的輸入數據X (圖像X)被輸入時,信息處理設備10將圖像X輸入到使用學習數據的集合構建的估計器中,以計算表示輸入數據X的與海的相似性的估計值y。通過使用估計值y,可以識別圖像X是否是海的圖像。作為一個例子,如果估計值I >指定閾值Th,那么輸入圖像X被識別為海的圖像。同時,如果估計值y〈指定閾值Th,那么輸入圖像X被識別為不是海的圖像。本實施例涉及自動構建估計器(諸如上述估計器)的技術。請注意,盡管這里描述了要用于構建圖像識別裝置的估計器,但是根據本實施例的技術也可以被應用于各種估計器的自動構建方法。作為例子,可以使用該技術來構建語言分析儀以及使用該技術來構建分析歌曲的旋律線和/或和弦進行的音樂分析儀。另外,可以使用該技術來構建運動預測裝置,該運動預測裝置再現自然現象和/或預測自然行為,諸如蝴蝶的運動或云的運動。例如,可以將本技術應用到在日本特開公報N0.2009-48266、2010-159598、2010-159597、2009-277083、2009-277084等的說明書中公開的算法。該技術還可以被應用于諸如AdaBoost的集成學習方法(ensemble learning method)或使用諸如SVM或SVR的內核(kerne I)的學習方法。當應用于諸如AdaBoo s t的集成學習方法時,弱學習機對應于稍后描述的基本函數Φ。當該技術被應用于諸如SVM或SVR的學習方法時,內核對應于稍后描述的基本函數Φ。請注意,“SVM”是“支持向量機(Support Vector Machine)”的簡稱,“SVR”是“支持向量回歸(Support Vector Regression)”的簡稱,“RVM”是“相關向量機”的簡稱。現在將參考圖3描述估計器的結構。如圖3所示,估計器由基本函數列表
(fi>.......φΜ)和估計函數f構成。基本函數列表(φι、......、φΜ)包含M個基本函
數fk,(其中k=l到M)。每一個基本函 數Cpk都是響應于輸入數據X的輸入而輸出特征量Zk的函數。另外,估計函數f是響應于包含M個作為元素的特征量Zk (其中k為I到M)的特
征量向量Z=(Zl,......,zM)的輸入而輸出估計值y的函數。基本函數Cpk是通過將事先提
供的一個或多個處理函數組合來生成的。作為處理函數,例如,可以使用三角函數、指數函數、四則運算、數字濾波、微分運算、中值濾波、歸一化運算、白噪聲添加處理和圖像處理濾波。作為一個例子,當輸入數據X是圖像時,可以使用基本函數φ』(Χ}= AddWhitelSoise(Median(Blur(X))),其是
添加白噪聲的處理“AddWhiteNoise O ”、中值濾波“Median O ”和模糊處理“Blur O ”的組合。該基本函數連續地執行對輸入數據X進行模糊處理、中值濾波處理和附加白噪聲的處理。1-1-2:構建處理的流程基本函數fk(其中k為I到M)的配置、基本函數列表的配置和估計函數f的配置是通過基于學習數據的機器學習決定的。現在將更詳細地描述通過機器學習構建估計器的處理。整體配置現在,首先將參考圖4描述處理的整體流程。圖4是用于解釋處理的整體流程的說明圖。請注意,下面描述的處理由信息處理設備10執行。如圖4所示,首先,學習數據被輸入到信息處理設備10中(S101)。請注意,一對數據X和目標變量t作為學習數據被輸入。當學習數據已經被輸入時,信息處理設備10通過組合處理函數生成基本函數(S102)。接下來,信息處理設備10將數據X輸入到基本函數以計算特征量向量z(S103)。其后,信息處理設備10執行基本函數的評估和估計函數的生成(S104)。
然后,信息處理設備10確定是否滿足特定的結束條件(S105)。如果滿足特定的結束條件,那么信息處理設備10前進到步驟S106。同時,如果不滿足特定的結束條件,那么信息處理設備10返回到步驟S102,并再次執行步驟S102到S104中的處理。如果處理已經前進到了步驟S106,那么信息處理設備10輸出估計函數(S106)。如上所述,在步驟S102到步驟S104中的處理被重復地執行。出于這一原因,在下面描述的處理中,在處理的第τ次迭代中的步驟S102中生成的基本函數被稱為第τ代基本函數。基本函數的生成(S102)現在將參考圖5到圖10更詳細地描述在步驟S102中的處理(基本函數的生成)。首先將描述圖5。如圖5所示,信息處理設備10確定當前的這一代是否是第二代或后面的代(S111)。也就是說,信息處理設備10確定當前即將執行的步驟S102中的處理是否是該處理的第二或后面的迭代。如果該處理是第二代或后面的代,那么信息處理設備10前進到步驟S113。同時,如果該處理不是第二代或后面的代(即,處理是第一代),那么信息處理設備10前進到步驟S112。如果處理已經前進到了步驟S112,那么信息處理設備10隨機地生成估計函數(S112)。同時,如果處理已經前進到了步驟S113,那么信息處理設備10進化地生成估計函數(S113)。其后,在完成步驟S112或步驟S113中的處理時,信息處理設備10結束步驟S102中的處理。S112:基本函數的隨機生成

接下來,將參考圖6和圖7更詳細地描述步驟S112中的處理。步驟S112中的處理涉及生成第一代基本函數的處理。首先將描述圖6。如圖6所示,信息處理設備10開始基本函數的與指數m (其中m=0到M-1)有關的處理循環(S121)。接下來,信息處理設備10隨機地生成基本函(S122)。接下來,信息處理設備10確定基本函數的指數m是否已經達到M-1,并且如果基本函數的指數m還沒有達到M-1,那么信息處理設備10將基本函數的指數m加I并且處理返回到步驟S121 (S124)。同時,如果基本函數的指數m為m=M_l,那么信息處理設備10結束處理循環(S124)。在步驟S124中結束處理循環時,信息處理設備10完成在步驟S112中的處理。步驟S122的細節接下來,將參考圖7更詳細地描述步驟S122中的處理。當在步驟S122中的處理開始時,如圖7所示,信息處理設備10隨機地決定基本函數的原型(prototype)(S131)。作為該原型,除了作為例子已經被列出的處理函數以外,還可以使用諸如線性項、高斯內核(Gaussian kernel)或S型內核(sigmoid kernel)的處理函數。接下來,信息處理設備10隨機地確定決定的原型的參數來生成基本函數(S132)。S113:基本函數的進化的生成接下來,將參考圖8到圖10更詳細地描述步驟SI 13中的處理。步驟SI 13中的處理涉及生成第τ (其中τ >2)代基本函數的處理。因此,當執行步驟S113時,獲得第(τ -1)代的基本函數(其中m=l到M)和基本函數<Pm,T-l的評估值vm,τ_10首先將描述圖8。如圖8所示,信息處理設備10更新基本函數的數量M (SHl)0也就是說,信息處理設備10決定第τ代基本函數的數量Μτ。接下來,信息處理設備10基于第(τ-l)代基本函數<pnmvl(其中m=l到Μ)的評估值V^1=Iv1,......,νΜ,τ-ι}從第(τ-1)代基本函數中選擇e個有用的基本函數并將所選的基本函數設置為第τ代基本函數
權利要求
1.一種信息處理設備,包括: 報酬估計器生成單元,該報酬估計器生成單元使用行動歷史數據作為學習數據來通過機器學習生成根據輸入的狀態數據和行動數據估計報酬值的報酬估計器,該行動歷史數據包含表示代理的狀態的狀態數據、表示在該狀態中由代理采取的行動的行動數據、以及表示作為該行動的結果的由代理獲得的報酬的報酬值; 行動選擇單元,該行動選擇單元從代理能夠采取的行動中優先選擇具有使用報酬估計器估計的高報酬值并且不包含在行動歷史數據中的行動;以及 行動歷史添加單元,該行動歷史添加單元使代理根據行動選擇單元的選擇結果進行行動,并將在行動的過程中獲得的狀態數據和行動數據與作為行動的結果獲得的報酬值彼此相關聯地添加到行動歷史數據, 其中,當已經將一組狀態數據、行動數據和報酬值添加到行動歷史數據時,報酬估計器生成單元用于重新生成報酬估計器。
2.根據權利要求1所述的信息處理設備, 其中,行動選擇單元優先選擇具有使用報酬估計器估計的高報酬值、對于報酬值具有高估計誤差并且不包含在行動歷史數據中的行動。
3.根據權利要求1所述的信息處理設備, 其中,報酬估計器生成單元包括: 基本函數生成 單元,該基本函數生成單元通過組合多個處理函數來生成多個基本函數; 特征量向量計算單元,該特征量向量計算單元通過將包含在行動歷史數據中的狀態數據和行動數據輸入到所述多個基本函數中來計算特征量向量;以及 估計函數計算單元,該估計函數計算單元根據回歸/判別學習來計算估計函數,該估計函數從特征量向量估計包含在行動歷史數據中的報酬值, 其中,報酬值估計器包括多個基本函數和估計函數。
4.根據權利要求3所述的信息處理設備, 其中,當一組狀態數據、行動數據和報酬值已經被添加到行動歷史數據時,特征量向量計算單元用于針對包含在行動歷史數據中的所有狀態數據和行動數據計算特征量向量,并且 信息處理設備還包括分布調整單元,該分布調整單元對包含在行動歷史數據中的各組狀態數據、行動數據和報酬值進行采樣,從而使得在特征量空間中由特征量向量指示的坐標點的分布接近特定分布。
5.根據權利要求3所述的信息處理設備, 其中,當一組狀態數據、行動數據和報酬值已經被添加到行動歷史數據時,特征量向量計算單元用于針對包含在行動歷史數據中的所有狀態數據和行動數據計算特征量向量,并且 信息處理設備還包括分布調整單元,該分布調整單元針對包含在行動歷史數據中的各組狀態數據、行動數據和報酬值設置權重,從而使得在特征量空間中由特征量向量指示的坐標點的分布接近特定分布。
6.根據權利要求4所述的信息處理設備,其中,分布調整單元針對包含在行動歷史數據中的各組狀態數據、行動數據和報酬值設置權重,從而使得在采樣后剩余的針對各組狀態數據、行動數據和報酬值的在特征量空間中由特征量向量指示的坐標點的分布接近特定分布。
7.根據權利要求3所述的信息處理設備, 其中,基本函數生成單元基于遺傳算法更新基本函數, 當基本函數已經被更新時,特征量向量計算單元用于將狀態數據和行動數據輸入到更新的基本函數中,以計算特征量向量,并且 響應于使用更新的基本函數計算的特征量向量的輸入,估計函數計算單元計算估計報酬值的估計函數。
8.—種信息處理設備,包括: 報酬估計器生成單元,該報酬估計器生成單元使用行動歷史數據作為學習數據來通過機器學習生成根據輸入的狀態數據和行動數據估計報酬值的報酬估計器,該行動歷史數據包含表示代理的狀態的狀態數據、表示在該狀態中由代理采取的行動的行動數據、以及表示作為該行動的結果的由代理獲得的報酬的報酬值; 行動選擇單元,該行動選擇單元從代理能夠采取的行動中優先選擇具有使用報酬估計器估計的高報酬值并且其報酬值具有大估計誤差的行動;以及 行動歷史添加單元,該行動歷史添加單元使代理根據行動選擇單元的選擇結果進行行動,并將在行動的過程中獲得的狀態數據和行動數據與作為行動的結果獲得的報酬值彼此相關聯地添加到行動歷史數據, 其中,當已經將一組狀態數據、行動數據和報酬值添加到行動歷史數據時,報酬估計器生成單元用于重新生成報酬估計器。
9.一種信息處理方法,包括: 使用行動歷史數據作為學習數據來通過機器學習生成根據輸入的狀態數據和行動數據估計報酬值的報酬估計器,該行動歷史數據包含表示代理的狀態的狀態數據、表示在該狀態中由代理采取的行動的行動數據、以及表示作為該行動的結果的由代理獲得的報酬的報酬值; 從代理能夠采取的行動中優先選擇具有使用報酬估計器估計的高報酬值并且不包含在行動歷史數據中的行動;以及 使代理根據選擇結果進行行動,并將在行動的過程中獲得的狀態數據和行動數據與作為行動的結果獲得的報酬值彼此相關聯地添加到行動歷史數據;以及 當一組狀態數據、行動數據和報酬值已經被添加到行動歷史數據時,重新生成報酬估計器。
10.一種信息處理方法,包括: 使用行動歷史數據作為學習數據來通過機器學習生成根據輸入的狀態數據和行動數據估計報酬值的報酬估計器,該行動歷史數據包含表示代理的狀態的狀態數據、表示在該狀態中由代理采取的 行動的行動數據、以及表示作為該行動的結果的由代理獲得的報酬的報酬值; 從代理能夠采取的行動中優先選擇具有使用報酬估計器估計的高報酬值并且其報酬值具有大估計誤差的行動;使代理根據選擇結果進行行動,并將在行動的過程中獲得的狀態數據和行動數據與作為行動的結果獲得的報酬值彼此相關聯地添加到行動歷史數據;以及 當一組狀態數據、行動數據和報酬值已經被添加到行動歷史數據時,重新生成報酬估計器。
11.一種程序,使計算機實現: 報酬估計器生成功能,該報酬估計器生成功能使用行動歷史數據作為學習數據來通過機器學習生成根據輸入的狀態數據和行動數據估計報酬值的報酬估計器,該行動歷史數據包含表示代理的狀態的狀態數據、表示在該狀態中由代理采取的行動的行動數據、以及表示作為該行動的結果的由代理獲得的報酬的報酬值; 行動選擇功能,該行動選擇功能從代理能夠采取的行動中優先選擇具有使用報酬估計器估計的高報酬值并且不包含在行動歷史數據中的行動;以及 行動歷史添加功能,該行動歷史添加功能使代理根據行動選擇功能的選擇結果進行行動,并將在行動的過程中獲得的狀態數據和行動數據與作為行動的結果獲得的報酬值彼此相關聯地添加到行動歷史數據, 其中,當已經將一組狀態數據、行動數據和報酬值添加到行動歷史數據時,報酬估計器生成功能用于重新生成報酬估計器。
12.—種程序,使計算機實現: 報酬估計器生成功能,該報酬估計器生成功能使用行動歷史數據作為學習數據來通過機器學習生成根據輸入的狀態數據和行動數據估計報酬值的報酬估計器,該行動歷史數據包含表示代理的狀態的狀態數據、表示在該狀態中由代理采取的行動的行動數據、以及表示作為該行動的結果的由代理獲得的報酬的報酬值; 行動選擇功能,該行動選擇功能從代理能夠采取的行動中優先選擇具有使用報酬估計器估計的高報酬值并且其報酬值具有大估計誤差的行動;以及 行動歷史添加功能,該行動歷史添加功能使代理根據行動選擇功能的選擇結果進行行動,并將在行動的過程中獲得的狀態數據和行動數據與作為行動的結果獲得的報酬值彼此相關聯地添加到行動歷史數據, 其中,當已經將一組狀 態數據、行動數據和報酬值添加到行動歷史數據時,報酬估計器生成功能用于重新生成報酬估計器。
全文摘要
本公開涉及信息處理設備、信息處理方法和程序。提供一種信息處理設備,其包括報酬估計器生成單元,其使用行動歷史數據作為學習數據來通過機器學習生成根據輸入的狀態數據和行動數據來估計報酬值的報酬估計器,該歷史數據包含表示代理的狀態的狀態數據、表示代理的行動的行動數據,以及表示該行動的報酬的報酬值;行動選擇單元,其優選地選擇不包含在行動歷史數據中但具有高估計報酬值的行動;以及行動歷史添加單元,其使代理執行選擇的行動,并將針對該行動的狀態數據和行動數據與該行動的報酬值相互關聯地添加到行動歷史數據。當一組狀態數據、行動數據和報酬值被添加到該行動歷史數據時,重新生成該報酬估計器。
文檔編號G06N3/12GK103198358SQ20121036635
公開日2013年7月10日 申請日期2012年9月28日 優先權日2011年10月12日
發明者小林由幸 申請人:索尼公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
主站蜘蛛池模板: 富源县| 荥阳市| 陈巴尔虎旗| 尼勒克县| 垣曲县| 黔江区| 黑河市| 杂多县| 新化县| 城口县| 霍邱县| 岳西县| 罗城| 宜都市| 亚东县| 永仁县| 巫溪县| 德令哈市| 饶河县| 三门县| 邯郸市| 墨脱县| 新绛县| 五常市| 德保县| 永州市| 乌拉特中旗| 安庆市| 黄浦区| 绥化市| 吉安县| 故城县| 和田市| 高阳县| 余干县| 漳州市| 南川市| 西峡县| 隆尧县| 金坛市| 中牟县|