本申請(qǐng)總體上涉及技術(shù)上有創(chuàng)造性的非常規(guī)解決方案,這些解決方案必須植根于計(jì)算機(jī)技術(shù)并產(chǎn)生具體的技術(shù)改進(jìn)。具體地,本申請(qǐng)涉及提供個(gè)性化游戲玩家預(yù)測(cè)的端到端基于云的機(jī)器學(xué)習(xí)平臺(tái)。
背景技術(shù):
1、機(jī)器學(xué)習(xí)能夠分為不同的任務(wù),諸如監(jiān)督式學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和推薦系統(tǒng),所述不同的任務(wù)能夠用于多種計(jì)算機(jī)應(yīng)用程序,諸如在線個(gè)性化推薦、計(jì)算機(jī)視覺(jué)、語(yǔ)音辨識(shí)、互聯(lián)網(wǎng)搜索引擎、個(gè)人助理和自動(dòng)駕駛汽車。
2、如本文所理解的,機(jī)器學(xué)習(xí)系統(tǒng)抵制來(lái)自形式方法的分析。由于機(jī)器學(xué)習(xí)系統(tǒng)的復(fù)雜性,驗(yàn)證技術(shù)(諸如模型檢驗(yàn)或定理證明)無(wú)法應(yīng)用于機(jī)器學(xué)習(xí)系統(tǒng)。因此,必須通過(guò)受控實(shí)驗(yàn)憑經(jīng)驗(yàn)確定機(jī)器學(xué)習(xí)模型的行為,以支持、反駁或驗(yàn)證市場(chǎng)假說(shuō)。
3、驗(yàn)證市場(chǎng)假說(shuō)在諸如計(jì)算機(jī)游戲之類的計(jì)算機(jī)模擬領(lǐng)域的重要性因以下事實(shí)而變得復(fù)雜:游戲開(kāi)發(fā)者通過(guò)重新想象人們?nèi)绾瓮嬗螒蚨粩鄤?chuàng)新,而游戲玩家在他們交互、消費(fèi)和購(gòu)買游戲方面的行為卻不斷變化。這意味著必須在相對(duì)短的生命周期內(nèi)開(kāi)發(fā)和驗(yàn)證許多機(jī)器學(xué)習(xí)個(gè)性化模型。
技術(shù)實(shí)現(xiàn)思路
1、如本文所理解的,機(jī)器學(xué)習(xí)是一個(gè)序列化過(guò)程,其涉及識(shí)別、獲得和準(zhǔn)備原始數(shù)據(jù)集,將原始數(shù)據(jù)轉(zhuǎn)換為機(jī)器學(xué)習(xí)模型的特征的特征工程和生成提取、轉(zhuǎn)換和加載(etl)服務(wù),以及自行設(shè)計(jì)和開(kāi)發(fā)機(jī)器學(xué)習(xí)模型。必須在計(jì)算密集型任務(wù)中“訓(xùn)練”模型,因此計(jì)算密集型任務(wù)涉及在大量中央處理單元(cpu)、圖形處理單元(gpu)上運(yùn)行的分布式計(jì)算架構(gòu)以及用于運(yùn)行諸如深度學(xué)習(xí)之類的特定算法的新興的優(yōu)化芯片。然后,必須評(píng)估模型的性能和延遲。在訓(xùn)練模型之后,需要評(píng)估其預(yù)測(cè)質(zhì)量以及該模型提供該預(yù)測(cè)所花費(fèi)的時(shí)間。然后,可將“良好”模型部署在生產(chǎn)環(huán)境中以在在線服務(wù)(諸如網(wǎng)絡(luò)商店,用戶新聞源、游戲內(nèi)的活動(dòng)或技巧系統(tǒng))中提供推斷,以幫助游戲用戶更好地玩游戲。
2、如本文中還理解的,為了使數(shù)據(jù)科學(xué)家免于構(gòu)建他們自己的建模工具來(lái)使這些工作流自動(dòng)化,可使用機(jī)器學(xué)習(xí)管道來(lái)使上述工作流從頭到尾自動(dòng)化。這種端到端管道將原始數(shù)據(jù)轉(zhuǎn)換為特征,然后將特征轉(zhuǎn)換為經(jīng)過(guò)訓(xùn)練的模型,并部署到生產(chǎn)中以生成推斷。機(jī)器學(xué)習(xí)管道確保可靠、統(tǒng)一和可重復(fù)的數(shù)據(jù)轉(zhuǎn)換,以用于生成特征etl,訓(xùn)練模型并提供生產(chǎn)模型推斷。
3、本原理進(jìn)一步理解機(jī)器學(xué)習(xí)管道可具有兩種不同類型的數(shù)據(jù)處理基礎(chǔ)架構(gòu)。第一種是支持高數(shù)據(jù)吞吐量的基礎(chǔ)架構(gòu)。必須使用計(jì)算極度密集型算法,諸如具體地說(shuō)批量梯度下降來(lái)訓(xùn)練機(jī)器學(xué)習(xí)模型。梯度下降的目的是使訓(xùn)練集的標(biāo)簽數(shù)據(jù)與模型預(yù)測(cè)之間的成本或損失函數(shù)最小化。找到成本函數(shù)的最小值需要進(jìn)行大量的計(jì)算迭代,尤其是對(duì)于訓(xùn)練深度學(xué)習(xí)系統(tǒng)。因此,管道的訓(xùn)練服務(wù)通常在大量cpu、gpu和用于運(yùn)行諸如深度學(xué)習(xí)之類的特定算法的新興的優(yōu)化芯片上運(yùn)行,并且該訓(xùn)練能夠均勻地分布在大量集群上。盡管對(duì)于某些使用情況必須在線訓(xùn)練某些模型,但是該訓(xùn)練服務(wù)主要是離線管道。
4、第二種類型的數(shù)據(jù)處理基礎(chǔ)架構(gòu)必須支持低數(shù)據(jù)延遲。當(dāng)訓(xùn)練模型時(shí),模型會(huì)針對(duì)大量請(qǐng)求以在幾毫秒的范圍內(nèi)的非常低的延遲提供其預(yù)測(cè)。推斷服務(wù)通常是在線的,因?yàn)槟P皖A(yù)測(cè)是按需要提供給應(yīng)用程序的,但也可以是離線的,因?yàn)槟P皖A(yù)測(cè)被安排為每周、每天或每小時(shí)運(yùn)行。
5、本原理解決了本文認(rèn)識(shí)到的從最初的模型創(chuàng)建中去除人為決策的技術(shù)需要,該人為決策是要訓(xùn)練哪個(gè)模型和何時(shí)訓(xùn)練它,哪個(gè)模型可部署在生產(chǎn)中和模型可部署在生產(chǎn)中的原因,以及哪個(gè)模型在實(shí)驗(yàn)中成功以及模型在實(shí)驗(yàn)中成功的原因的決策。進(jìn)一步地,本原理允許非數(shù)據(jù)科學(xué)家通過(guò)具體地自動(dòng)化模型超參數(shù)的搜索以及選擇已知與開(kāi)源數(shù)據(jù)集一起工作的算法來(lái)訓(xùn)練模型。
6、因此,本原理涉及機(jī)器學(xué)習(xí)管道如何轉(zhuǎn)換數(shù)據(jù)。原始用戶交互數(shù)據(jù)和原始項(xiàng)目數(shù)據(jù)被轉(zhuǎn)換為生成特征。模型利用這些特征學(xué)習(xí)如何提供個(gè)性化軟件體驗(yàn),諸如向給定用戶推薦計(jì)算機(jī)游戲,向用戶推薦更好地玩游戲的技巧,向用戶推薦游戲活動(dòng)等。模型預(yù)測(cè)用于評(píng)估有關(guān)這些推薦的各種實(shí)驗(yàn)。每個(gè)實(shí)驗(yàn)具有多個(gè)變量。
7、因此,一種設(shè)備包括至少一個(gè)處理器和至少一個(gè)計(jì)算機(jī)存儲(chǔ)器,所述至少一個(gè)計(jì)算機(jī)存儲(chǔ)器不是瞬時(shí)信號(hào)并且包括能夠由所述處理器執(zhí)行以接收表示由多個(gè)模擬玩家對(duì)計(jì)算機(jī)模擬進(jìn)行的輸入的數(shù)據(jù)的指令。所述指令可執(zhí)行以將所述數(shù)據(jù)輸入到模型生成計(jì)算機(jī)化服務(wù)的第一管道的訓(xùn)練服務(wù)以訓(xùn)練多個(gè)個(gè)性化的用戶體驗(yàn)?zāi)P停⑹褂盟龅谝还艿赖耐茢喾?wù)來(lái)生成對(duì)那些個(gè)性化的用戶體驗(yàn)的預(yù)測(cè)。所述指令還可執(zhí)行以將來(lái)自所述推斷服務(wù)的那些模型預(yù)測(cè)提供到所述第一管道的實(shí)驗(yàn)服務(wù)以測(cè)試所述推薦的個(gè)性化的用戶體驗(yàn)。更進(jìn)一步地,所述指令可執(zhí)行以提供通過(guò)使用所述實(shí)驗(yàn)服務(wù)生成的輸出來(lái)使用模型生成計(jì)算機(jī)化服務(wù)的第二管道的訓(xùn)練服務(wù)來(lái)訓(xùn)練新模型以使用至少一個(gè)關(guān)鍵績(jī)效指標(biāo)(kpi)從所述第一管道中選擇所述個(gè)性化的用戶體驗(yàn)?zāi)P偷淖蛹K鲋噶羁蓤?zhí)行以將在所述第二管道的所述訓(xùn)練服務(wù)中訓(xùn)練的這個(gè)新模型提供到所述第二管道的推斷服務(wù),以遞送對(duì)將在所述第一管道的所述訓(xùn)練服務(wù)中訓(xùn)練的新的個(gè)性化的用戶體驗(yàn)?zāi)P偷耐扑]。
8、在示例中,所述指令可以是可執(zhí)行的,以學(xué)習(xí)如何使用所述第二管道的所述訓(xùn)練服務(wù)來(lái)對(duì)從所述第一管道中選擇的所述模型進(jìn)行分類,并且將那些分類提供給所述第二管道。在這樣的示例中,所述指令可以是可執(zhí)行的以執(zhí)行所述第二管道的強(qiáng)化學(xué)習(xí)模型(rl),以至少部分地通過(guò)最大化針對(duì)來(lái)自所述第一管道的第一模型預(yù)測(cè)的獎(jiǎng)勵(lì)來(lái)將至少所述第一模型識(shí)別為“良好”模型。所述最大化可至少部分通過(guò)以下操作來(lái)執(zhí)行:使與時(shí)間“t”相關(guān)聯(lián)的推薦等同于與所述時(shí)間“t”相關(guān)聯(lián)的獎(jiǎng)勵(lì)加上折扣因子和與時(shí)間t+1相關(guān)聯(lián)的推薦的乘積。
9、在某些實(shí)現(xiàn)方式中,所述指令可以是可執(zhí)行的以執(zhí)行演化策略模型(es),所述演化策略模型可使用在所述第二管道中分類的所述所選擇的模型來(lái)識(shí)別將由所述第一管道訓(xùn)練的未來(lái)模型。所述指令可以是可執(zhí)行的以執(zhí)行所述es以基于所述分類來(lái)學(xué)習(xí)模型元數(shù)據(jù),并至少部分地基于它們的元數(shù)據(jù)來(lái)生成所述未來(lái)模型。
10、在另一方面,一種系統(tǒng)包括:第一多個(gè)計(jì)算機(jī),所述第一多個(gè)計(jì)算機(jī)實(shí)現(xiàn)用于訓(xùn)練模型和推斷那些模型的第一管道;第二多個(gè)計(jì)算機(jī),所述第二多個(gè)計(jì)算機(jī)實(shí)現(xiàn)第二管道,所述第二管道用于從所述第一管道接收所述模型、將來(lái)自所述第一管道的所述模型中的至少第一模型識(shí)別為良好模型,并且將新模型反饋給所述第一管道以使得所述第一管道能夠生成新模型。
11、在另一方面,一種方法包括:使用第一計(jì)算機(jī)化管道進(jìn)行模型訓(xùn)練和模型推斷;使用第二計(jì)算機(jī)化管道從部署在所述第一管道的推斷服務(wù)中的模型中識(shí)別至少一個(gè)最佳模型;以及將與所述最佳模型相關(guān)聯(lián)的信息反饋給所述第一管道。所述方法包括使用來(lái)自提供計(jì)算機(jī)模擬推薦的所述第一管道的模型中的至少最佳模型來(lái)輸出模型推薦。
12、本申請(qǐng)的關(guān)于其結(jié)構(gòu)和操作兩者的細(xì)節(jié)可參考附圖得到最好的理解,在附圖中相同的附圖標(biāo)記指代相同的部分,并且在附圖中:
1.一種設(shè)備,所述設(shè)備包括:
2.如權(quán)利要求1所述的設(shè)備,其中所述指令能夠執(zhí)行以:
3.如權(quán)利要求2所述的設(shè)備,其中所述指令能夠執(zhí)行以:
4.如權(quán)利要求3所述的設(shè)備,其中所述最大化是至少部分通過(guò)以下操作來(lái)執(zhí)行:使與時(shí)間“t”相關(guān)聯(lián)的推薦等同于與所述時(shí)間“t”相關(guān)聯(lián)的獎(jiǎng)勵(lì)加上折扣因子和與時(shí)間t+1相關(guān)聯(lián)的推薦的乘積。
5.如權(quán)利要求3所述的設(shè)備,其中所述指令能夠執(zhí)行以:
6.如權(quán)利要求5所述的設(shè)備,其中所述指令是能夠執(zhí)行的以執(zhí)行所述es以基于所述分類來(lái)學(xué)習(xí)模型元數(shù)據(jù);并且
7.如權(quán)利要求1所述的設(shè)備,其中所述指令是能夠執(zhí)行的以執(zhí)行所述模型中的至少一個(gè)模型,以提供對(duì)新的計(jì)算機(jī)模擬的推薦以便提供給模擬玩家。
8.一種系統(tǒng),所述系統(tǒng)包括:
9.如權(quán)利要求8所述的系統(tǒng),其中所述第一多個(gè)計(jì)算機(jī)訪問(wèn)指令以:
10.如權(quán)利要求9所述的系統(tǒng),其中所述第二多個(gè)計(jì)算機(jī)訪問(wèn)指令以:
11.如權(quán)利要求10所述的系統(tǒng),其中所述指令能夠由所述第二多個(gè)計(jì)算機(jī)執(zhí)行以:
12.如權(quán)利要求11所述的系統(tǒng),其中所述指令能夠由所述第二多個(gè)計(jì)算機(jī)執(zhí)行以:
13.如權(quán)利要求12所述的系統(tǒng),其中所述最大化是至少部分通過(guò)以下操作來(lái)執(zhí)行:使與時(shí)間“t”相關(guān)聯(lián)的推薦等同于與所述時(shí)間“t”相關(guān)聯(lián)的獎(jiǎng)勵(lì)加上折扣因子和與時(shí)間t+1相關(guān)聯(lián)的推薦的乘積。
14.如權(quán)利要求12所述的系統(tǒng),其中所述指令能夠由所述第二多個(gè)計(jì)算機(jī)執(zhí)行以:
15.如權(quán)利要求14所述的系統(tǒng),其中所述指令能夠由所述第二多個(gè)計(jì)算機(jī)執(zhí)行以執(zhí)行所述es以基于所述分類來(lái)學(xué)習(xí)模型元數(shù)據(jù);并且
16.如權(quán)利要求10所述的系統(tǒng),其中所述指令能夠由所述第二多個(gè)計(jì)算機(jī)執(zhí)行以執(zhí)行所述模型中的至少一個(gè)模型,以提供對(duì)新的計(jì)算機(jī)模擬的推薦以便提供給模擬玩家。
17.一種方法,所述方法包括:
18.如權(quán)利要求17所述的方法,所述方法包括在所述第二管道中執(zhí)行強(qiáng)化學(xué)習(xí)模型(rl)以至少部分地通過(guò)最大化針對(duì)第一模型預(yù)測(cè)的獎(jiǎng)勵(lì)來(lái)識(shí)別至少所述最佳模型。
19.如權(quán)利要求18所述的方法,其中所述最大化是至少部分通過(guò)以下操作來(lái)執(zhí)行:使與時(shí)間“t”相關(guān)聯(lián)的推薦等同于與所述時(shí)間“t”相關(guān)聯(lián)的獎(jiǎng)勵(lì)加上折扣因子和與時(shí)間t+1相關(guān)聯(lián)的推薦的乘積。
20.如權(quán)利要求18所述的方法,所述方法包括在所述第二管道中執(zhí)行演化策略模型(es)以使用至少所述最佳模型來(lái)識(shí)別將由所述第一管道訓(xùn)練的未來(lái)模型。