《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 可編程邏輯 > 業(yè)界動(dòng)態(tài) > 「AlphaGo 之父」David Silver最新演講,傳授強(qiáng)化學(xué)習(xí)的十大原則

「AlphaGo 之父」David Silver最新演講,傳授強(qiáng)化學(xué)習(xí)的十大原則

2018-09-17

9 月 9 日-14 日,Deep Learning Indaba 2018 大會(huì)在南非斯泰倫博斯舉行。會(huì)上,DeepMind 強(qiáng)化學(xué)習(xí)研究小組負(fù)責(zé)人、首席研究員、AlphaGo 項(xiàng)目負(fù)責(zé)人 David Silver 發(fā)表演講,介紹了強(qiáng)化學(xué)習(xí)的十大原則。機(jī)器之心對(duì)該演講進(jìn)行了介紹。


演講課件地址:http://www.deeplearningindaba.com/uploads/1/0/2/6/102657286/principles_of_deep_rl.pdf

微信圖片_20180917215347.jpg


原則一:評(píng)估方法驅(qū)動(dòng)研究進(jìn)展


David Silver 指出,客觀、量化的評(píng)估方法是強(qiáng)化學(xué)習(xí)進(jìn)展的重要驅(qū)動(dòng)力:


評(píng)估指標(biāo)的選擇決定了研究進(jìn)展的方向;

這可以說(shuō)是強(qiáng)化學(xué)習(xí)項(xiàng)目中最重要的一個(gè)決定。


David Silver 介紹了兩種評(píng)估方法:


排行榜驅(qū)動(dòng)的研究

  確保評(píng)估指標(biāo)緊密對(duì)應(yīng)最終目標(biāo);

  避免主觀評(píng)估(如人類(lèi)評(píng)估)。


假設(shè)驅(qū)動(dòng)的研究

  形成一個(gè)假設(shè):Double-Q 學(xué)習(xí)優(yōu)于 Q 學(xué)習(xí),因?yàn)榍罢邷p少了向上偏誤(upward bias);

  在寬泛的條件下驗(yàn)證該假設(shè);

  對(duì)比同類(lèi)方法,而不是只與當(dāng)前最優(yōu)方法進(jìn)行對(duì)比;

  尋求理解,而不是排行榜表現(xiàn)。

微信圖片_20180917215411.jpg


原則二:可擴(kuò)展性是成功的關(guān)鍵


David Silver 認(rèn)為可擴(kuò)展性是強(qiáng)化學(xué)習(xí)研究成功的關(guān)鍵。


算法的可擴(kuò)展性指與資源相關(guān)的算法的性能變化;

資源包括計(jì)算量、內(nèi)存或數(shù)據(jù);

算法的可擴(kuò)展性最終決定算法成功與否;

可擴(kuò)展性比研究的起點(diǎn)更加重要;

優(yōu)秀的算法在給定有限資源的條件下是最優(yōu)的。

微信圖片_20180917215439.jpg


原則三:通用性(Generality)支持算法的長(zhǎng)遠(yuǎn)有效性


算法的通用性指它在不同強(qiáng)化學(xué)習(xí)環(huán)境中的性能。研究者在訓(xùn)練時(shí)要避免在當(dāng)前任務(wù)上的過(guò)擬合,并尋求可以泛化至未來(lái)未知環(huán)境的算法。


我們無(wú)法預(yù)測(cè)未來(lái),但是未來(lái)任務(wù)的復(fù)雜度可能至少和當(dāng)前任務(wù)持平;在當(dāng)前任務(wù)上遇到的困難在未來(lái)則很有可能增加。


因此,要想使算法可以泛化至未來(lái)的不同強(qiáng)化學(xué)習(xí)環(huán)境,研究者必須在多樣化且真實(shí)的強(qiáng)化學(xué)習(xí)環(huán)境集合上測(cè)試算法。

微信圖片_20180917215508.jpg


原則四:信任智能體的經(jīng)驗(yàn)


David Silver 指出經(jīng)驗(yàn)(觀察、動(dòng)作和獎(jiǎng)勵(lì))是強(qiáng)化學(xué)習(xí)的數(shù)據(jù),公式可以寫(xiě)作:


h_t=o_1,r_1,a_2,o_2,r_2,...,a_t,o_t,r_t


經(jīng)驗(yàn)流隨智能體在環(huán)境中學(xué)習(xí)時(shí)間的延長(zhǎng)而累積。


他告誡我們,要把智能體的經(jīng)驗(yàn)作為知識(shí)的唯一來(lái)源。人們?cè)谥悄荏w學(xué)習(xí)遇到問(wèn)題時(shí)傾向于添加人類(lèi)的專(zhuān)業(yè)知識(shí)(人類(lèi)數(shù)據(jù)、特征、啟發(fā)式方法、約束、抽象、域操控)。


他認(rèn)為,完全從經(jīng)驗(yàn)中學(xué)習(xí)看起來(lái)似乎不可能。也就是說(shuō),強(qiáng)化學(xué)習(xí)的核心問(wèn)題非常棘手。但這是 AI 的核心問(wèn)題,也值得我們付出努力。從長(zhǎng)遠(yuǎn)來(lái)看,從經(jīng)驗(yàn)中學(xué)習(xí)一直是正確的選擇。

微信圖片_20180917215530.jpg


原則五:狀態(tài)是主觀的


David Silver 指出:


智能體應(yīng)該從它們的經(jīng)驗(yàn)中構(gòu)建屬于自己的狀態(tài),即:s_t=f(h_t)

智能體狀態(tài)是前一個(gè)狀態(tài)和新觀察的函數(shù):s_t=f(s_t-1,a_t-1,o_t,r_t) 


如下圖所示:

微信圖片_20180917215557.jpg

它是循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏狀態(tài)。

永遠(yuǎn)不要根據(jù)環(huán)境的「真實(shí)」?fàn)顟B(tài)來(lái)定義狀態(tài)(智能體應(yīng)該是一個(gè)部分可觀察馬爾可夫鏈模型)。

微信圖片_20180917215712.jpg


原則六:控制數(shù)據(jù)流


智能體存在于豐富的感覺(jué)運(yùn)動(dòng)(sensorimotor)數(shù)據(jù)流中:

  觀測(cè)結(jié)果的數(shù)據(jù)流輸入到智能體中;

  智能體輸出動(dòng)作流。

智能體的動(dòng)作會(huì)影響數(shù)據(jù)流:

微信圖片_20180917215733.jpg

特征控制 => 數(shù)據(jù)流控制

數(shù)據(jù)流控制 => 控制未來(lái)

控制未來(lái) => 可以最大化任意獎(jiǎng)勵(lì)

微信圖片_20180917215807.jpg


原則七:用價(jià)值函數(shù)對(duì)環(huán)境建模


David Silver 首先給出了使用價(jià)值函數(shù)的三個(gè)原因:


高效地對(duì)未來(lái)進(jìn)行總結(jié)/緩存;

將規(guī)劃過(guò)程簡(jiǎn)化為固定時(shí)間的查找,而不是進(jìn)行指數(shù)時(shí)間量級(jí)的預(yù)測(cè);

獨(dú)立于時(shí)間步跨度進(jìn)行計(jì)算和學(xué)習(xí)。


他指出,學(xué)習(xí)多個(gè)價(jià)值函數(shù)可以高效地建模環(huán)境的多個(gè)方面(控制狀態(tài)流),包括隨后的狀態(tài)變量;還能在多個(gè)時(shí)間尺度上學(xué)習(xí)。他還提醒我們避免在過(guò)于簡(jiǎn)化的時(shí)間步上建模環(huán)境。

微信圖片_20180917215831.jpg


原則八:規(guī)劃:從想象的經(jīng)驗(yàn)中學(xué)習(xí)


David Silver 提出了一種有效的規(guī)劃方法,并將其分為兩步。首先想象下一步會(huì)發(fā)生什么,從模型中采樣狀態(tài)的軌跡;然后利用我們?cè)谡鎸?shí)經(jīng)驗(yàn)中用過(guò)的 RL 算法從想象的經(jīng)驗(yàn)中學(xué)習(xí)。他提醒我們從現(xiàn)在開(kāi)始關(guān)注價(jià)值函數(shù)逼近。

微信圖片_20180917215904.jpg


原則九:使用函數(shù)近似器


David Silver 認(rèn)為,可微網(wǎng)絡(luò)架構(gòu)是一種強(qiáng)大的工具,可以豐富狀態(tài)表示,同時(shí)使可微記憶、可微規(guī)劃以及分層控制更加便利。他提出將算法復(fù)雜度引入網(wǎng)絡(luò)架構(gòu),以減少算法復(fù)雜度(指參數(shù)的更新方式),增加架構(gòu)的表達(dá)性(指參數(shù)的作用)。

微信圖片_20180917215925.jpg


原則十:學(xué)會(huì)學(xué)習(xí)


AI 史是一個(gè)進(jìn)步史:


第一代:舊式的 AI

  手動(dòng)預(yù)測(cè):此時(shí)的人工智能只能執(zhí)行手動(dòng)預(yù)測(cè)

  什么也學(xué)不會(huì)

第二代:淺層學(xué)習(xí)

  手動(dòng)構(gòu)建特征:研究人員需要耗費(fèi)大量時(shí)間、精力手動(dòng)構(gòu)建特征

  學(xué)習(xí)預(yù)測(cè)

第三代:深度學(xué)習(xí)

  手動(dòng)構(gòu)建的算法(優(yōu)化器、目標(biāo)、架構(gòu)……)

  端到端學(xué)習(xí)特征和預(yù)測(cè)

第四代:元學(xué)習(xí)

  無(wú)需手工

  端到端學(xué)習(xí)算法和特征以及預(yù)測(cè)


微信圖片_20180917215950.jpg


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
亚洲人成人一区二区在线观看| 欧美亚洲免费高清在线观看| 欧美日本三区| 欧美一级午夜免费电影| 在线午夜精品| 亚洲欧洲日产国产网站| 欧美在线电影| 午夜老司机精品| 亚洲一区三区视频在线观看| 亚洲精品一区在线观看| 亚洲激情一区二区| 亚洲少妇最新在线视频| 久久天天躁夜夜躁狠狠躁2022 | 亚洲一区二区视频在线| 一区二区日韩欧美| 一本色道久久综合狠狠躁篇的优点| 欧美色视频一区| 欧美三级电影一区| 在线亚洲美日韩| 欧美亚洲免费电影| 亚洲自拍偷拍麻豆| 亚洲欧美精品| 午夜欧美大片免费观看| 亚洲欧美另类久久久精品2019| 亚洲制服av| 校园春色国产精品| 欧美区国产区| 欧美专区在线播放| 久久午夜视频| 免费在线成人av| 欧美精品在线免费| 欧美成人黑人xx视频免费观看| 欧美激情综合网| 欧美午夜影院| 99精品视频免费观看| 国产日韩欧美一区二区| 国产亚洲欧美色| 樱桃视频在线观看一区| 亚洲激情国产精品| 一本久久知道综合久久| 亚洲欧美美女| 久久精品国产久精国产爱| 久久综合伊人77777麻豆| 亚洲午夜av| 欧美一区二区三区四区在线观看| 久久国产一区二区| 免费视频一区二区三区在线观看| 欧美国产视频日韩| 国产精品白丝av嫩草影院| 国产精品婷婷午夜在线观看| 亚洲精品一区二区三区99| 国产视频一区在线观看一区免费| 国产亚洲成精品久久| 亚洲国产精品久久久久秋霞不卡| 亚洲免费av观看| 欧美一级久久久| 亚洲三级免费| 亚洲一区成人| 久久久国产精品一区二区中文| 久久亚洲免费| 欧美一级网站| 欧美激情bt| 国产精品久久久久久久久久免费| 国产一区二区毛片| 亚洲精选久久| 久久精品国产免费看久久精品| 日韩午夜剧场| 久久精品1区| 欧美日韩不卡一区| 国产偷国产偷精品高清尤物| 亚洲日本视频| 欧美一二区视频| 日韩亚洲欧美精品| 久久精品免费电影| 欧美日韩在线一区二区三区| 激情av一区二区| 亚洲一区二区三区在线看 | 国产精品免费aⅴ片在线观看| 国产一区视频在线观看免费| 日韩午夜高潮| 久久福利影视| 亚洲男人影院| 欧美精品成人一区二区在线观看| 国产精品你懂的在线欣赏| 伊人成年综合电影网| 亚洲午夜在线观看视频在线| 亚洲精品三级| 久久久91精品国产| 国产精品激情电影| 亚洲欧洲精品成人久久奇米网| 欧美一区二区三区日韩视频| 亚洲无玛一区| 欧美第一黄色网| 黑人巨大精品欧美一区二区| 欧美福利电影网| 亚洲欧美国产高清va在线播| 亚洲精品欧美激情| 久久亚洲精品欧美| 国产精品一级二级三级| 亚洲二区在线| 久久精品国产亚洲精品| 亚洲一区制服诱惑| 欧美黑人一区二区三区| 国模吧视频一区| 亚洲男人的天堂在线| 亚洲一区视频在线| 欧美日本亚洲| 91久久精品久久国产性色也91 | 亚洲男人的天堂在线aⅴ视频| 欧美国产在线电影| 影音先锋在线一区| 欧美亚洲一区在线| 欧美一区二区三区四区在线 | 99国产精品| 激情欧美日韩一区| 久久久久久999| 欧美黄色成人网| 亚洲电影在线免费观看| 韩日欧美一区二区| 久久免费精品视频| 国产精品视频内| 99精品国产在热久久婷婷| 亚洲理伦电影| 欧美大片一区二区三区| 亚洲高清在线| 亚洲三级视频在线观看| 美女脱光内衣内裤视频久久影院| 狠久久av成人天堂| 久久精品国产2020观看福利| 久久久久久尹人网香蕉| 国产亚洲欧美日韩日本| 欧美一区二区三区精品 | 久久国产精品一区二区三区四区| 国产精品一区二区三区久久久| 亚洲视频导航| 午夜电影亚洲| 国产欧美日本一区二区三区| 亚洲欧美经典视频| 久久久国际精品| 国模一区二区三区| 久久精品国产欧美激情| 美女视频网站黄色亚洲| 91久久久久久久久| 中文国产成人精品久久一| 欧美系列亚洲系列| 亚洲免费在线看| 久久久久久久久久久久久女国产乱| 国产午夜亚洲精品理论片色戒| 欧美一区二区三区的| 玖玖玖国产精品| 亚洲二区在线视频| 99视频精品在线| 欧美视频免费在线观看| 亚洲欧美日韩一区二区在线 | 欧美制服丝袜第一页| 久久免费国产精品1| 亚洲国产精品一区在线观看不卡| 亚洲一区国产视频| 国产精品视频自拍| 欧美一区二区三区在| 六月婷婷一区| 亚洲精品久久久久| 亚洲综合不卡| 国产一区二区丝袜高跟鞋图片| 亚洲经典视频在线观看| 欧美日韩国产丝袜另类| 亚洲欧美另类在线观看| 美女脱光内衣内裤视频久久网站| 亚洲麻豆av| 午夜精品一区二区三区电影天堂| 狠狠色狠狠色综合日日tαg| 亚洲日本电影| 国产精品久久亚洲7777| 久久精品二区亚洲w码| 欧美日本一区二区高清播放视频| 亚洲影视在线播放| 男人天堂欧美日韩| 亚洲午夜精品17c| 免费观看亚洲视频大全| 中文国产成人精品| 久久天天躁狠狠躁夜夜爽蜜月| 亚洲精品一区二区在线观看| 久久国产精品黑丝| 亚洲人成网站色ww在线| 欧美一区午夜视频在线观看| 亚洲国产精品精华液网站| 欧美一区不卡| 最近中文字幕mv在线一区二区三区四区| 亚洲在线第一页| 在线免费观看成人网| 亚洲欧美日韩精品久久奇米色影视 | 欧美一区二区三区免费观看视频| 欧美精品免费视频| 欧美在线播放视频| 中文在线一区| 久久蜜桃精品| 亚洲精品1区2区| 香蕉尹人综合在线观看| 亚洲人成毛片在线播放| 久久久久久久激情视频|