国产一区二区精品在线_午夜精品视频_亚洲国产高清高潮精品美女_久久久91_午夜精品视频_久久久久亚洲一区二区三区

Google AI 與 DeepMind 聯(lián)合推出可大規(guī)模強(qiáng)化學(xué)習(xí)方法Dreamer

來(lái)源:智匯工業(yè)

點(diǎn)擊:2820

A+ A-

所屬頻道:新聞中心

關(guān)鍵詞:谷歌 Dreamer

    曾經(jīng),基于模型的強(qiáng)化學(xué)習(xí)(MBRL)提出了SOTA-PLANET,目前Google AI 與 DeepMind 聯(lián)合推出了 Dreamer,這是一種從圖像中學(xué)習(xí)模型并用它來(lái)學(xué)習(xí)遠(yuǎn)見(jiàn)性(long-sighted)行為的 RL 智能體。通過(guò)模型預(yù)測(cè)的反向傳播,Dreamer 能夠利用它學(xué)得的模型高效地展開(kāi)行為學(xué)習(xí)。通過(guò)從原始圖像中學(xué)習(xí)計(jì)算緊湊模型狀態(tài),Dreamer 僅使用一塊 GPU 即可以高效地從預(yù)測(cè)到的并行序列中學(xué)習(xí)。

    Dreamer的基本架構(gòu)


    Dreamer和典型的基于模型方法一樣包含三個(gè)過(guò)程:學(xué)習(xí)世界模型、基于世界模型的預(yù)測(cè)學(xué)習(xí)行為、在環(huán)境中執(zhí)行學(xué)習(xí)到的行為來(lái)收集新的經(jīng)驗(yàn)。為了學(xué)習(xí)行為,Dreamer中利用價(jià)值網(wǎng)絡(luò)(value network)將規(guī)劃視野外的獎(jiǎng)勵(lì)納入考量,同時(shí)利用行為網(wǎng)絡(luò)(actor network)來(lái)高效的計(jì)算行為。這三部分可以并行地執(zhí)行,一直重復(fù)運(yùn)行直到達(dá)成目標(biāo):

    Dreamer主體的三個(gè)過(guò)程,世界模型基于過(guò)去經(jīng)驗(yàn)學(xué)習(xí),隨后基于這一模型預(yù)測(cè),主體通過(guò)價(jià)值網(wǎng)絡(luò)來(lái)預(yù)測(cè)未來(lái)獎(jiǎng)勵(lì)、行為網(wǎng)絡(luò)來(lái)選擇行為。行為網(wǎng)絡(luò)用于與環(huán)境交互。


    學(xué)習(xí)世界模型


    Dreamer采用了PlaNet的世界模型,通過(guò)一系列緊致的模型狀態(tài)來(lái)預(yù)測(cè)輸出,而這些模型狀態(tài)則通過(guò)輸入圖像計(jì)算得到,而不是直接利用圖像來(lái)進(jìn)行處理。它將自動(dòng)學(xué)習(xí)得出代表有益于預(yù)測(cè)未來(lái)輸出概念的模型狀態(tài),例如目標(biāo)類(lèi)型、位置以及目標(biāo)與周?chē)h(huán)境的交互等等。給定數(shù)據(jù)集中一個(gè)過(guò)去的圖像、行為和獎(jiǎng)勵(lì)序列,Dreamer按照下圖的方式進(jìn)行世界模型的學(xué)習(xí):


    Dreamer 從經(jīng)驗(yàn)中學(xué)習(xí)世界模型,利用過(guò)去的圖像(o1–o3)、行為(a1–a2),它將計(jì)算出緊致的模型狀態(tài)(綠色圓),并可以基于這些狀態(tài)重建出圖像并預(yù)測(cè)出獎(jiǎng)勵(lì)。


    利用PlaNet世界模型的優(yōu)勢(shì)在于利用緊致的模型狀態(tài)代替了圖像來(lái)進(jìn)行預(yù)測(cè),極大地提高了計(jì)算效率。這使得模型可以在單個(gè)GPU上預(yù)并行的預(yù)測(cè)上千個(gè)序列。這種方式同時(shí)可以提高模型的泛化性,進(jìn)行精確的長(zhǎng)時(shí)視頻預(yù)測(cè)。為了更好地理解模型的工作原理,下圖展示了將預(yù)測(cè)序列模型狀態(tài)解碼回圖像的結(jié)果:



    復(fù)雜環(huán)境下的長(zhǎng)程預(yù)測(cè)結(jié)果,上圖顯示了兩個(gè)主體未曾遇到過(guò)的序列,給定五張輸入圖像,模型對(duì)其進(jìn)行重建并預(yù)測(cè)出了后續(xù)到50步的圖像結(jié)果。


    高效行為學(xué)習(xí)


    先前基于模型的主體選擇行為的方法分為兩種,要么通過(guò)多個(gè)模型預(yù)測(cè)來(lái)進(jìn)行規(guī)劃,要么通過(guò)將世界模型代替模擬器來(lái)復(fù)用無(wú)模型方法的技術(shù)。但兩種方法都需要龐大的計(jì)算需求,同時(shí)也未充分利用學(xué)習(xí)到的世界模型。此外及時(shí)強(qiáng)大的世界模型也會(huì)受制于精確預(yù)測(cè)的長(zhǎng)度,很多先前基于模型的主體表現(xiàn)出短視的缺點(diǎn)。Dreamer通過(guò)世界模型的預(yù)測(cè)進(jìn)行反向傳播學(xué)習(xí)價(jià)值網(wǎng)絡(luò)和行為網(wǎng)絡(luò)來(lái)克服上述局限。


    Dreamer通過(guò)預(yù)測(cè)的狀態(tài)序列反向傳播獎(jiǎng)勵(lì)來(lái)高效地學(xué)習(xí)行為網(wǎng)絡(luò)用于預(yù)測(cè)正確的行為,這在無(wú)模型方法中是無(wú)法實(shí)現(xiàn)的。這將告訴Dreamer其多小的行為變化將會(huì)影響未來(lái)預(yù)測(cè)的獎(jiǎng)勵(lì),使得它可以向最大化獎(jiǎng)勵(lì)的方向上優(yōu)化行為網(wǎng)絡(luò)。為了考慮預(yù)測(cè)范圍外的獎(jiǎng)勵(lì),價(jià)值網(wǎng)絡(luò)將估計(jì)每一個(gè)模型狀態(tài)未來(lái)的獎(jiǎng)勵(lì)和,獎(jiǎng)勵(lì)和價(jià)值將反向傳播來(lái)優(yōu)化行為網(wǎng)絡(luò)去改善行為。


    Dreamer通過(guò)模型狀態(tài)預(yù)測(cè)序列來(lái)學(xué)習(xí)長(zhǎng)程行為,首先學(xué)習(xí)每個(gè)狀態(tài)的長(zhǎng)程價(jià)值,而后通過(guò)反向傳播到行為網(wǎng)絡(luò)來(lái)預(yù)測(cè)能夠得到高價(jià)值和獎(jiǎng)勵(lì)的行為。


    Dreamer與PlaNet有諸多不同,在環(huán)境中的給定狀態(tài)下,PlaNet在不同行為序列的多個(gè)預(yù)測(cè)中搜索最佳行為,而Dreamer則避開(kāi)了這種計(jì)算消耗巨大的搜索方式,利用規(guī)劃和行為解耦的方式來(lái)提高計(jì)算效率。一旦在預(yù)測(cè)序列上訓(xùn)練好了行為網(wǎng)絡(luò),它將計(jì)算與環(huán)境交互的行為而無(wú)需額外的搜索。此外Dreamer利用價(jià)值函數(shù)考慮到了規(guī)劃以外的獎(jiǎng)勵(lì)并通過(guò)反向傳播提高了規(guī)劃的效率。


    控制任務(wù)上的表現(xiàn)


    為了測(cè)試Dreamer的性能,研究人員在20個(gè)不同的任務(wù)上對(duì)其進(jìn)行了測(cè)評(píng),包括平衡、控制、運(yùn)動(dòng)等多種復(fù)雜的強(qiáng)化學(xué)習(xí)任務(wù)。

    多種復(fù)雜的任務(wù),其輸入為圖像。包括了碰撞、稀疏獎(jiǎng)勵(lì)、混沌動(dòng)力學(xué)和高自由度甚至三維視角等復(fù)雜情況。


    研究人員將Dreamer與多個(gè)先進(jìn)的模型進(jìn)行了比較,包括先前最先進(jìn)的基于模型的方法PlaNet、無(wú)模型方法A3C、結(jié)合多種先進(jìn)手段的無(wú)模型方法D4PG。實(shí)驗(yàn)表明,基于模型的主體可以在五百萬(wàn)幀內(nèi)完成高效學(xué)習(xí),大概對(duì)應(yīng)28小時(shí)的仿真,而無(wú)模型的方法則需要近100萬(wàn)幀的學(xué)習(xí),大概對(duì)應(yīng)23天的仿真訓(xùn)練。在20個(gè)任務(wù)的測(cè)評(píng)基準(zhǔn)上,Dreamer領(lǐng)先于目前最先進(jìn)的無(wú)模型方法D4PG(平均分823>786),同時(shí)其與環(huán)境的交互大概要少二十倍。此外它最終的結(jié)果在所有任務(wù)上也超過(guò)了先前最好的基于模型方法PlaNet,最終的結(jié)果如下圖所示:



    Dreamer的性能與其他方法的比較,其得分、數(shù)據(jù)效率和計(jì)算時(shí)間都比先前方法要好。


    此外研究人員還在連續(xù)任務(wù)上進(jìn)行了實(shí)驗(yàn),以驗(yàn)證Dreamer面對(duì)復(fù)雜環(huán)境的能力。下面的任務(wù)需要不僅需要長(zhǎng)程行為預(yù)測(cè),同時(shí)還需要模型具有空間感知能力。實(shí)驗(yàn)表明Dreamer對(duì)于這些更具挑戰(zhàn)的任務(wù)依然能夠很好地進(jìn)行處理:

    Dreamer成功地在雅達(dá)利游戲和DeepMind環(huán)境中運(yùn)行,這些離散的任務(wù)更具挑戰(zhàn)性。


    Dreamer不僅在性能上超越了原有基于模型的方法,同時(shí)在計(jì)算效率上也大幅提升。研究人員認(rèn)為Dreamer將為強(qiáng)化學(xué)習(xí)提供更為堅(jiān)實(shí)的發(fā)展根基,同時(shí)也將促進(jìn)更好地表示學(xué)習(xí)、基于不確定性的方向探索、時(shí)域抽象和多任務(wù)學(xué)習(xí)的發(fā)展。


    (審核編輯: 智匯小新)

    聲明:除特別說(shuō)明之外,新聞內(nèi)容及圖片均來(lái)自網(wǎng)絡(luò)及各大主流媒體。版權(quán)歸原作者所有。如認(rèn)為內(nèi)容侵權(quán),請(qǐng)聯(lián)系我們刪除。

    国产一区二区精品在线_午夜精品视频_亚洲国产高清高潮精品美女_久久久91_午夜精品视频_久久久久亚洲一区二区三区
    <cite id="gqusq"><tbody id="gqusq"></tbody></cite>
    <strike id="gqusq"><tbody id="gqusq"></tbody></strike>
    <abbr id="gqusq"><rt id="gqusq"></rt></abbr>
  • <strike id="gqusq"><tbody id="gqusq"></tbody></strike>
    <ul id="gqusq"></ul>
    <center id="gqusq"><noscript id="gqusq"></noscript></center>
  • 九九99久久| 最新国产拍偷乱拍精品| 欧美日韩一区二区视频在线观看| 欧美日韩三级| 午夜综合激情| 欧美日韩亚洲一区二区三区四区| 欧美在线高清| 亚洲女同同性videoxma| 久草精品电影| 欧美午夜视频在线| 99视频国产精品免费观看| 日韩成人av网站| 日韩午夜av在线| 免费在线观看一区二区| 激情久久久久久久| 国产精品亚洲综合| 午夜视频久久久| 国产99在线免费| 国产综合自拍| 国产精品免费一区二区三区| 欧美一区免费视频| 久久综合五月| 欧美日韩在线精品| 精品国产乱码久久久久久郑州公司| 牛夜精品久久久久久久99黑人| 久久99伊人| 欧美暴力喷水在线| 国产伦精品一区二区三区| 欧美精品尤物在线| 国产精品入口免费| 亚洲三级影院| 四虎一区二区| 国产91色在线|亚洲| 亚洲图色在线| 日韩av高清在线播放| 久久精品中文| 亚洲午夜激情| 亚洲精品二区| 国产一区二区中文字幕免费看| 亚洲激情一区二区| 一本一本a久久| 国产传媒一区| 国产亚洲精品久久飘花| 相泽南亚洲一区二区在线播放| 奶水喷射视频一区| 国产专区一区| 亚洲精品第一区二区三区| 成人免费在线看片| 亚洲欧美日本视频在线观看| 伊人久久大香线蕉午夜av| 精品国产一区二区三| 亚洲一区二区四区| 亚洲国产精品第一区二区三区| 亚洲高清视频在线观看| 国内精品一区二区| 玖玖精品视频| 亚洲欧美日韩精品久久久| 国产精品国产精品| 最近看过的日韩成人| 欧洲精品亚洲精品| 久久综合一区二区三区| 444亚洲人体| 欧美亚洲免费在线| 狠狠色狠狠色综合人人| 在线看视频不卡| 亚洲午夜久久久影院伊人| 欧美日韩一区在线观看视频| 国产精品日韩一区二区免费视频| 久久婷婷久久| 麻豆成人小视频| 乱码第一页成人| 六月婷婷一区| 91日韩久久| av色综合网| 国产乱码精品一区二区三区日韩精品| 欧美亚洲免费在线| 久久精品中文| 99爱精品视频| 好看的日韩精品| 九九九九精品| 日韩精品国内| 欧美/亚洲一区| 国内一区二区三区在线视频| 国内精品久久久久国产盗摄免费观看完整版 | 中文字幕在线观看一区二区三区| 五月婷婷一区| 欧美日韩免费高清| 激情文学一区| 一本色道久久| 91青青草免费在线看| 国产精品视频免费一区二区三区| 九色综合婷婷综合| 亚洲免费久久| 极品尤物久久久av免费看| 亚洲精品一区二区三| 性xx色xx综合久久久xx| 国产伦精品一区二区| 日本在线高清视频一区| 欧美啪啪一区| 久久av一区二区| 国产伦精品一区二区三区视频黑人 | 成人女人免费毛片| 久久人人97超碰人人澡爱香蕉| 水蜜桃一区二区| 激情久久久久久| 97久久天天综合色天天综合色hd| 久草精品电影| 国产精品豆花视频| 2019国产精品视频| 日韩高清国产精品| 亚洲高清自拍| 国产精品久久九九| 中文字幕在线观看一区二区三区| 亚洲经典三级| 久久综合狠狠综合久久综青草| 欧美高清不卡| 久久综合图片| 亚洲一区二区三区免费观看| 国产亚洲欧洲| 日韩欧美精品一区二区| av不卡在线看| 蜜桃视频日韩| 日韩一级精品| 日本不卡高清视频一区| 99精品福利视频| 蜜桃久久精品乱码一区二区| 在线观看成人av| 久久96国产精品久久99软件| 国模大胆一区二区三区| 国产另类自拍| 亚洲国产91| 神马影院一区二区| 免费精品视频| 欧美成人69| 精品视频高清无人区区二区三区| 今天的高清视频免费播放成人| 精品亚洲欧美日韩| 国产精品手机视频| 在线观看一区二区三区三州| 国产精品二区在线| 国内精品久久久久久久影视麻豆| 精品婷婷色一区二区三区蜜桃| 日韩视频免费| 一区二区免费在线视频| 99精品国产一区二区| 黄色亚洲大片免费在线观看| 欧美日韩免费高清| 久久精品人人做人人爽电影蜜月| 欧美影视一区| 欧美婷婷久久| 高清视频一区| 麻豆久久久9性大片| 国自产拍偷拍福利精品免费一| 久久av一区二区三区| 国产综合欧美| 亚洲欧美影院| 欧美精品123| 国产一区二区在线观看免费播放| 日韩午夜免费| 影音先锋中文字幕一区| 樱花www成人免费视频| 九色综合日本| 国产区一区二区三区| 久久精品国产第一区二区三区最新章节 | 欧美高清性xxxxhd| 91免费看网站| 老鸭窝91久久精品色噜噜导演| 在线高清一区| 国产精品激情电影| 在线观看一区二区三区三州| 欧美亚洲国产免费| 久久综合入口| 精品亚洲一区二区三区四区五区高| 老鸭窝毛片一区二区三区| 日韩视频在线观看国产| 国内成人在线| 欧美亚州在线观看| 欧美激情国产日韩| 欧美成人日本| 国产综合第一页| 精品999在线观看| 伊人成年综合电影网| 国产精品观看| 精品999成人| 91久久精品www人人做人人爽| 国产精品国产三级国产专区53| 午夜久久资源| 国产综合网站| 亚洲国产精品久久久久久女王| 欧美日韩一区二区视频在线 | 国产精品大全| 亚洲精品欧美精品| 国产日韩欧美一区在线 | 99这里有精品| 午夜亚洲精品| 懂色一区二区三区av片| 不卡视频一区| 欧美lavv| 亚洲色图自拍| 亚洲视频碰碰|