-
Notifications
You must be signed in to change notification settings - Fork 0
/
db.json
1 lines (1 loc) ยท 130 KB
/
db.json
1
{"meta":{"version":1,"warehouse":"2.2.0"},"models":{"Asset":[{"_id":"themes/clean-blog/source/css/article.styl","path":"css/article.styl","modified":0,"renderable":1},{"_id":"themes/clean-blog/source/css/base.styl","path":"css/base.styl","modified":0,"renderable":1},{"_id":"themes/clean-blog/source/css/mixins.styl","path":"css/mixins.styl","modified":0,"renderable":1},{"_id":"themes/clean-blog/source/css/style.styl","path":"css/style.styl","modified":0,"renderable":1},{"_id":"themes/clean-blog/source/css/variables.styl","path":"css/variables.styl","modified":0,"renderable":1},{"_id":"themes/clean-blog/source/img/about-bg.jpg","path":"img/about-bg.jpg","modified":0,"renderable":1},{"_id":"themes/clean-blog/source/img/home-bg.jpg","path":"img/home-bg.jpg","modified":0,"renderable":1},{"_id":"themes/clean-blog/source/img/contact-bg.jpg","path":"img/contact-bg.jpg","modified":0,"renderable":1}],"Cache":[{"_id":"themes/clean-blog/LICENSE","hash":"8726b416df4f067cff579e859f05c4b594b8be09","modified":1528677741166},{"_id":"themes/clean-blog/README.md","hash":"861dd2f959ab75d121226f4f3e2f61f4bc95fddb","modified":1528677741166},{"_id":"themes/clean-blog/_config.yml","hash":"688a783bfc51751e0abadd5ea1d325cb5ea82946","modified":1528677741166},{"_id":"source/_posts/RLKorea_intro.md","hash":"9aacf2ffc61a1a4b4c47485b66d81a15302cfe03","modified":1528985434468},{"_id":"source/_posts/bomi-mac-test-2.md","hash":"ccf0012be5cb9441ebad3469d3feec084f673eac","modified":1528681021943},{"_id":"source/_posts/test.md","hash":"f00d7dd96070b9a3c6d8ffd541bb9e78c7f68f9d","modified":1528985685918},{"_id":"source/_posts/test2.md","hash":"1bd3e1b4003f26ab0befcbe104f498c3dde2da22","modified":1528677741165},{"_id":"source/_posts/test3.md","hash":"44a8fdfe679e97672a668d47733fcc490b131f41","modified":1528990975351},{"_id":"themes/clean-blog/languages/de.yml","hash":"424a9c1e6ab69334d7873f6574da02ca960aa572","modified":1528677741166},{"_id":"themes/clean-blog/languages/default.yml","hash":"97326c9e6518d9f379778178b3b8f9a58434725d","modified":1528677741166},{"_id":"themes/clean-blog/languages/en.yml","hash":"97326c9e6518d9f379778178b3b8f9a58434725d","modified":1528677741167},{"_id":"themes/clean-blog/languages/es.yml","hash":"cb4eeca0ed3768a77e0cd216300f2b2549628b1b","modified":1528677741167},{"_id":"themes/clean-blog/languages/fr.yml","hash":"e9e6f7cb362ebb7997f11027498a2748fe3bac95","modified":1528677741167},{"_id":"themes/clean-blog/languages/no.yml","hash":"8ca475a3b4f8efe6603030f0013aae39668230e1","modified":1528677741167},{"_id":"themes/clean-blog/languages/pl.yml","hash":"de7eb5850ae65ba7638e907c805fea90617a988c","modified":1528677741167},{"_id":"themes/clean-blog/languages/pt.yml","hash":"1d0c3689eb32fe13f37f8f6f303af7624ebfbaf0","modified":1528677741167},{"_id":"themes/clean-blog/languages/ru.yml","hash":"42df7afeb7a35dc46d272b7f4fb880a9d9ebcaa5","modified":1528677741168},{"_id":"themes/clean-blog/languages/zh-CN.yml","hash":"7bfcb0b8e97d7e5edcfca8ab26d55d9da2573c1c","modified":1528677741168},{"_id":"themes/clean-blog/languages/zh-TW.yml","hash":"9acac6cc4f8002c3fa53ff69fb8cf66c915bd016","modified":1528677741168},{"_id":"themes/clean-blog/layout/archive.ejs","hash":"f2ef73afc3d275333329bb30b9369b82e119da76","modified":1528677741172},{"_id":"themes/clean-blog/layout/index.ejs","hash":"5877862845a6a09ca89abd0b7297e0c7e5ddda74","modified":1528677741172},{"_id":"themes/clean-blog/layout/layout.ejs","hash":"da2f9018047924ddaf376aee5996c7ddc06cebc1","modified":1528677741172},{"_id":"themes/clean-blog/layout/page.ejs","hash":"591af587e1aae962950de7e79bd25c1f060c69ac","modified":1528677741172},{"_id":"themes/clean-blog/layout/post.ejs","hash":"38382e9bbeb6b8d2eafbd53fff2984111f524c1a","modified":1528677741173},{"_id":"themes/clean-blog/layout/_partial/after-footer.ejs","hash":"60d7f54031eabb3eebdf35470f9a8275cb45589a","modified":1528677741168},{"_id":"themes/clean-blog/layout/_partial/article-archive.ejs","hash":"3d8d98c6545b8332a6d6ed4f8b00327df03ea945","modified":1528677741168},{"_id":"themes/clean-blog/layout/_partial/article-categories.ejs","hash":"5a0bf5a20f670621d8013c9b9d7976b45c8aa80f","modified":1528677741169},{"_id":"themes/clean-blog/layout/_partial/article-full.ejs","hash":"6cf24bd7785d57cb7198b3f1ed4fa6a86c84a502","modified":1528677741169},{"_id":"themes/clean-blog/layout/_partial/article-index.ejs","hash":"e433df4e245e2d4c628052c6e59966563542d94d","modified":1528677741169},{"_id":"themes/clean-blog/layout/_partial/article-tags.ejs","hash":"6136434be09056c1466149cecb3cc2e80d107999","modified":1528677741169},{"_id":"themes/clean-blog/layout/_partial/comments.ejs","hash":"3fedb75436439d1d6979b7e4d20d48a593e12be4","modified":1528677741170},{"_id":"themes/clean-blog/layout/_partial/footer.ejs","hash":"a92f5168c006193c3d964fd293ad3c38aae69419","modified":1528677741170},{"_id":"themes/clean-blog/layout/_partial/gallery.ejs","hash":"21e4f28909f4a79ff7d9f10bdfef6a8cb11632bf","modified":1528677741170},{"_id":"themes/clean-blog/layout/_partial/google-analytics.ejs","hash":"4e6e8de9becea5a1636a4dcadcf7a10c06e2426e","modified":1528677741170},{"_id":"themes/clean-blog/layout/_partial/head.ejs","hash":"f8ddbced1627704ab35993e8fc6d6e34cc6f2ba9","modified":1528677741170},{"_id":"themes/clean-blog/layout/_partial/menu.ejs","hash":"cb17eba88f984547be5d1fdf54b00e195f8bee46","modified":1528985581996},{"_id":"themes/clean-blog/layout/_partial/menu_origin.ejs","hash":"cfc30e6b1ef9487cff3ce594d403d1e7c4d9cdf4","modified":1528677741171},{"_id":"themes/clean-blog/layout/_partial/pagination.ejs","hash":"557d6bb069a1d48af49ae912994653f44b32a570","modified":1528677741171},{"_id":"themes/clean-blog/layout/_partial/tag-category-index.ejs","hash":"10cdc1b7866999c714a666557c150d2c79c1fba9","modified":1528677741171},{"_id":"themes/clean-blog/source/css/article.styl","hash":"f5294d7a3d6127fcb287de3ff0c12aebb1766c7b","modified":1528677741173},{"_id":"themes/clean-blog/source/css/base.styl","hash":"29b54c63060bd2d7f5c501d403d9db5a552ad10c","modified":1528677741173},{"_id":"themes/clean-blog/source/css/mixins.styl","hash":"14264bf86b4e3194a3156447f7b7bce2fd0db5bd","modified":1528677741174},{"_id":"themes/clean-blog/source/css/style.styl","hash":"c40dc495a41007d21c59f342ee42b2d31d7b5ff4","modified":1528677741174},{"_id":"themes/clean-blog/source/css/variables.styl","hash":"cd82df5ca8dfbcfec12d833f01adfac00878e835","modified":1528677741174},{"_id":"themes/clean-blog/source/img/about-bg.jpg","hash":"d39126a6456f2bac0169d1779304725f179c9900","modified":1528677741175},{"_id":"themes/clean-blog/source/img/home-bg.jpg","hash":"990f6f9dd0ecb5348bfcc47305553d58c0d8f326","modified":1528677741177},{"_id":"themes/clean-blog/source/img/contact-bg.jpg","hash":"6af63305c923899017e727b5ca968a2703bc08cf","modified":1528677741176},{"_id":"public/2018/05/16/RLKorea_intro/index.html","hash":"9825af2b3a25549b4c30d66572b975c1053904a8","modified":1528985583825},{"_id":"public/2018/05/10/test/index.html","hash":"a5a2ce3d52d50a8835947bd5e8e20039d39af334","modified":1528990978732},{"_id":"public/2018/05/10/test2/index.html","hash":"1340d4b1328dcfd19a4401de02014c492bafed72","modified":1528985583826},{"_id":"public/2018/05/10/test3/index.html","hash":"143c5a02346be2538bcb3e1829a7e57ff8364296","modified":1528990978732},{"_id":"public/archives/index.html","hash":"c8f55c79132a44d10cd8e692c9b7a9f64d007a1a","modified":1528991136981},{"_id":"public/archives/2018/index.html","hash":"e7321e13cbee02b0c4d526bb4a606a4edd0f2918","modified":1528991136988},{"_id":"public/archives/2018/05/index.html","hash":"15712e3b59d58efe793190bc7cd4ed0022592ab6","modified":1528991018076},{"_id":"public/index.html","hash":"f3992f47c416f4f8f4a3e1cd76de031ddc3056c4","modified":1528991136989},{"_id":"public/categories/RLKorea์๊ฐ/index.html","hash":"9180085073e91e2b20de64f181a385c6a3b12c5f","modified":1528985266802},{"_id":"public/categories/๋ฅ๋ฌ๋์
๋ฌธ/index.html","hash":"d11a743d4aac5697c45d0c076d447a0bfa8af7b0","modified":1528990978732},{"_id":"public/tags/RLKorea์๊ฐ/index.html","hash":"675b6478b3561feb4d16c634cc11f6177a4f16d0","modified":1528985266802},{"_id":"public/tags/๋ฅ๋ฌ๋/index.html","hash":"5ba7aabf40b58958fc47219261992dc1b4f4309b","modified":1528985583827},{"_id":"public/tags/๋จธ์ ๋ฌ๋/index.html","hash":"c83b5707de4bf11b67e4e6730520bed8520f11a6","modified":1528985583827},{"_id":"public/tags/๋ฅ๋ฌ๋์
๋ฌธ/index.html","hash":"ceb602d53d60c245d70acabd4e1e316abe1a5ad8","modified":1528985583827},{"_id":"public/tags/๋ฅ๋ฌ๋๊ธฐ์ด/index.html","hash":"83d5fd552c62596bb6afb77e4add24317dffe70b","modified":1528985583827},{"_id":"public/2018/06/11/bomi-mac-test-2/index.html","hash":"4850c1131723fa03c5a9c27fceff0d114a0f16c7","modified":1528681028088},{"_id":"public/archives/2018/06/index.html","hash":"078c388a1d0871a065e3d582e00783ff9b70501c","modified":1528991136991},{"_id":"public/img/about-bg.jpg","hash":"d39126a6456f2bac0169d1779304725f179c9900","modified":1528681028092},{"_id":"public/css/article.css","hash":"f0ee490e1207191946fffc9444f891e9b7ae7289","modified":1528681028285},{"_id":"public/css/base.css","hash":"4e6b8cca7bcf009482853e9ff5a249b629062c50","modified":1528681028285},{"_id":"public/css/mixins.css","hash":"b02474c3097af9bef5d26c1448b90912c46cea98","modified":1528681028285},{"_id":"public/css/style.css","hash":"8e39d0e0a2d0200f5515da40231a811b96636410","modified":1528681028285},{"_id":"public/css/variables.css","hash":"da39a3ee5e6b4b0d3255bfef95601890afd80709","modified":1528681028285},{"_id":"public/img/home-bg.jpg","hash":"990f6f9dd0ecb5348bfcc47305553d58c0d8f326","modified":1528681028286},{"_id":"public/img/contact-bg.jpg","hash":"6af63305c923899017e727b5ca968a2703bc08cf","modified":1528681028287},{"_id":"public/categories/ํ๋ก์ ํธ/index.html","hash":"7588cd961d770557e94b5bd73017856b3fe2374b","modified":1528991136989},{"_id":"public/tags/์ํ์ค๋ชฉ/index.html","hash":"7801b6291b0bbfed8555cb093b573eef8dfa4719","modified":1528985583827},{"_id":"source/_posts/2018-06-15-npg.md","hash":"d9016f560961c53ea97aff718b89ed1b0e069fbe","modified":1528991098316},{"_id":"public/tags/ํ๋ก์ ํธ/index.html","hash":"3877f0dd79c674e17cfc4119675f7c46c5376099","modified":1528991136990},{"_id":"public/tags/ํผ์ง์ฌํ/index.html","hash":"ad233c6159b550136531757f38f94875bdfcee74","modified":1528991136990},{"_id":"public/2018/05/10/2018-06-15-npg/index.html","hash":"322dc96e6223e6586fe598ad7c058a57b172befb","modified":1528991018078},{"_id":"public/2018/06/14/2018-06-15-npg/index.html","hash":"ac5aa4cfc9fc59f20ec4ce86f59985504507d419","modified":1528991136991}],"Category":[{"name":"RLKorea์๊ฐ","_id":"cji9l7q4e0002vkae20n7i320"},{"name":"๋ฅ๋ฌ๋์
๋ฌธ","_id":"cji9l7q4j0007vkaeh8uhsnw1"},{"name":"ํ๋ก์ ํธ","_id":"cjiemg90n0000fn8a7atojdwq"}],"Data":[],"Page":[],"Post":[{"title":"A Natural Policy Gradient","date":"2018-06-14T04:18:45.000Z","author":"์ด์
์","subtitle":"ํผ์ง์ฌํ 4๋ฒ์งธ ๋
ผ๋ฌธ","_content":"\n# A Natural Policy Gradient [2001]\n\n<img src=\"https://www.dropbox.com/s/it82tfhfmhg9uwp/Screenshot%202018-06-10%2010.58.52.png?dl=1\">\n\n- ๋
ผ๋ฌธ ์ ์: Sham Kakade\n- ๋
ผ๋ฌธ ๋งํฌ: [https://papers.nips.cc/paper/2073-a-natural-policy-gradient.pdf](https://papers.nips.cc/paper/2073-a-natural-policy-gradient.pdf)\n- ํจ๊ป ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ: \n\t- [Policy Gradient Methods for\nReinforcement Learning with Function\nApproximation (2000)](hhttps://papers.nips.cc/paper/1713-policy-gradient-methods-for-reinforcement-learning-with-function-approximation.pdf)\n\t- [Natural Gradient Works Efficiently in Learning(1998)](http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.452.7280&rep=rep1&type=pdf)\n- ๋
ผ๋ฌธ์ ๋ณด๋ ์ด์ : TRPO์ NPG๋ ๊ด๋ จ์ด ๋ง๊ธฐ ๋๋ฌธ์ TRPO๋ฅผ ๋ ์ ์ดํดํ๊ธฐ ์ํด ๋ด\n\n## 1. Abstract\n---\n\n- natural gradient method๋ฅผ policy gradient์ ์ ์ฉ\n- natural gradient๋ steepest descent direction์ ๊ฐ์ง\n- gradient descent๋ parameter๋ฅผ ํ ๋ฒ์ ๋ง์ด update ํ ์ ์๋ ๋ฐ๋ฉด, natural gradient๋ ๊ฐ์ฅ ์ข์ action์ ๊ณ ๋ฅด๋๋ก ํ์ต์ด ๋ (sutton ๋
ผ๋ฌธ์์์ ๊ฐ์ด compatible value function์ ์ฌ์ฉํ ๊ฒฝ์ฐ policy iteration์์ policy improvement 1 step์ ๊ณผ์ ์์)\n- simple MDP์ tetris MDP์์ ํ
์คํธํจ. ์ฑ๋ฅ์ด ๋ง์ด ํฅ์\n\n## 2. Personal Interpretation and Thinking\n(๊ฐ์ธ์๊ฐ) ๋ด๋ด๋ท์ ์ฌ์ฉํ ๊ฒฝ์ฐ gradient๊ฐ steepest direction์ด ์๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. ๋ด๋ด๋ท์ parameter space๊ฐ ์ฐ๋ฆฌ๊ฐ ๋ณดํต ์๊ฐํ๋ ์ง์ ์ผ๋ก ์ญ์ญ ๋ป์ด์๋ Euclidean space๊ฐ ์๋๋ค. ์ข ๋ ์ผ๋ฐ์ ์ผ๋ก๋ ๊ตฌ์ ํ๋ฉด๊ณผ ๊ฐ์ด ํ์ด์ ธ์๋ ๊ณต๊ฐ ์ฆ, ๋ฆฌ๋ง ๊ณต๊ฐ(Riemannian space)๋ก ํํํ ์ ์๋ค. ์ด์ ๊ฐ์ ๊ณต๊ฐ์์๋ natural gradient๊ฐ steepest direction์ด ๋๋ค๋ ์ฐ๊ตฌ๊ฐ ์ด๋ค์ง๊ณ ์์๋ค. ๊ฐํํ์ต์ policy gradient์ objective function์ gradient๋ฅผ ๋ฐ๋ผ policy๋ฅผ ์
๋ฐ์ดํธํ๋ค. ์ด ๋, policy๋ parameterized ๋๋๋ฐ ์ด ๊ฒฝ์ฐ์๋ gradient ๋์ ์ natural gradient๊ฐ ์ข๋ค๋ ๊ฒ์ ์คํํด๋ณด๋ ๋
ผ๋ฌธ์ด๋ค. \n\ngradient๊ฐ non-covariant ํด์ ์๊ธฐ๋ ๋ฌธ์ ๋ ๊ฐ๋จํ ๋งํ์๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. policy๊ฐ parameterized๋ ์ํฉ์์๋ ๊ฐ์ policy๋ผ๋ ๋ค๋ฅธ parameter๋ฅผ ๊ฐ์ง ์ ์๋ค. ์ด ๋, steepest direction์ ๋ ๊ฒฝ์ฐ์ ๊ฐ์ ๋ฐฉํฅ์ ๊ฐ๋ฆฌ์ผ์ผํ๋๋ฐ non-covariantํ ๊ฒฝ์ฐ ๊ทธ๋ ์ง ๋ชปํ๋ค. ์ด๊ฒ์ ๊ฒฐ๊ตญ ๋๋ฆฐ ํ์ต์ผ๋ก ์ฐ๊ฒฐ์ด ๋๋ค. \n\n๋
ผ๋ฌธ์์ 2์ฐจ๋ฏธ๋ถ ๋ฐฉ๋ฒ๋ก ๋ค๊ณผ ์งง๊ฒ ๋น๊ต๋ฅผ ํ๋ค. ํ์ง๋ง 2์ฐจ๋ฏธ๋ถ์ ์ด์ฉํ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค๊ณผ์ ๋น๊ต๊ฐ ์๊ฐ๋ณด๋ค ์๋ ์ ์ด ์์ฝ๋ค.(Hessian์ ์ด์ฉํ๋ค๊ฑฐ๋ conjugate gradient method๋ฅผ ์ด์ฉํ๋ค๊ฑฐ๋). ์คํ์ ํตํด FIM์ด hessian์ ์๋ ด์ํ๋ ๊ฑฐ๋ผ๋์ง Hessian ๋ฐฉ๋ฒ๋ก ์ด local maxima ๋ถ๊ทผ์์ ์๋นํ ๋๋ฆฌ๋ค๋์ง์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ์์ผ๋ฉด ์ข์์ ๊ฒ ๊ฐ๋ค. \n\n๋ํ natural gradient ๋ง์ผ๋ก ์
๋ฐ์ดํธํ๋ฉด policy์ improvement๋ณด์ฅ์ด ์๋ ์ ์๋ค. policy์ improvement๋ฅผ ๋ณด์ฅํ๊ธฐ ์ํด line search๋ ์จ์ผํ๋๋ฐ line search๋ฅผ ์ด๋ป๊ฒ ์ฐ๋์ง์ ๋ํ ์์ธํ ์ธ๊ธ์ด ์๋ค. ์ฆ, ์์ธํ algorithm ์ค๋ช
์ด ์๋ค.\n\nnatural policy gradient ๋
ผ๋ฌธ์ natural gradient + policy gradient๋ฅผ ์ฒ์ ์ ์ฉํ๋ค๋๋ฐ ์์๊ฐ ์๋ค. ํ์ง๋ง ์ด ๋
ผ๋ฌธ์ด ๋ฌธ์ ์ผ์ gradient๋ non-covariantํ๋ค๋ผ๋ ๋ฌธ์ ๋ฅผ natural gradient๋ฅผ ํตํด ํด๊ฒฐํ์ง ๋ชปํ๋ค(Experiment๋ฅผ ํตํด covariant gradient๊ฐ ๋์ง ๋ชปํ๋ค๋ ๊ฒ์ด ๋ณด์ธ๋ค). NPG์ ๋ค๋ฅผ ์๋ ๋
ผ๋ฌธ์ด \"covariant policy search\"์ \"natural actor-critic\"์์ covariantํ์ง ๋ชปํ๋ค๋ ๊ฒ์ ํด๊ฒฐํ๊ธฐ ์ํด Fisher Information Matrix๋ฅผ sample ํ๋ ํ๋์ ๋ํด์ ๊ตฌํ๋ ๊ฒ์ด ์๋๋ผ trajectory ์ ์ฒด์ ๋ํด์ ๊ตฌํ๋ค. \n\n๋ํ ๋
ผ๋ฌธ์ pg์ ๋ ๊ฐ์ง ์ธํ
์ค์ average-reward setting(infinite horizon)์์๋ง NPG๋ฅผ ๋ค๋ฃฌ๋ค. \"covariant policy search\" ๋
ผ๋ฌธ์์๋ average-reward setting๊ณผ start-state setting ๋ชจ๋์ ๋ํด์ npg๋ฅผ ์ ์ฉํ๋ค. \n\nnatural gradient + policy gradient๋ฅผ ์ฒ์ ์ ์ํ๋ค๋ ๊ฒ์ ์ข์ง๋ง npg ํ์ต์ ๊ณผ์ ์ ์์ธํ๊ฒ ์ค๋ช
ํ์ง ์์๊ณ ๋ค๋ฅธ 2์ฐจ ๋ฏธ๋ถ ๋ฐฉ๋ฒ๋ค๊ณผ ๋น๊ต๋ฅผ ๋ง์ด ํ์ง ์์ ์ ์ด ์์ฌ์ด ๋
ผ๋ฌธ์ด๋ค.\n\n\n## 3. Introduction\n---\n\n- direct policy gradient method๋ future reward์ gradient๋ฅผ ๋ฐ๋ผ policy๋ฅผ updateํจ\n- ํ์ง๋ง gradient descent๋ non-covariant\n- ์ด ๋
ผ๋ฌธ์์๋ covarient gradient๋ฅผ ์ ์ํจ = natural gradient\n- natural gradient์ policy iteration์ ์ฐ๊ด์ฑ์ ์ค๋ช
ํ๊ฒ ์: natural policy gradient is moving toward choosing a greedy optimal action (์ด๋ฐ ์ฐ๊ฒฐ์ ์ ์๋ง๋ step-size๋ฅผ ๋ ์ ๊ฒฝ์ฐ๊ณ ์ถ์ด์ ๊ทธ๋ฐ๊ฒ ์๋๊ฐ ์ถ๋ค)\n\n๋
ผ๋ฌธ์ Introduction ๋ถ๋ถ์ ๋ค์ ๋ฉํธ๊ฐ ์๋ค. ์ด ๊ธ๋ง ๋ด์๋ ์ดํด๊ฐ ์๊ฐ๋๋ฐ Mackay ๋
ผ๋ฌธ์ ์ข ๋ ์์ธํ ๋์์๋ค. \n<img src=\"https://www.dropbox.com/s/41xhhr7lgfk24a1/Screenshot%202018-06-10%2011.45.18.png?dl=1\">\n\n[Mackay](http://www.inference.org.uk/mackay/ica.pdf)๋
ผ๋ฌธ์์๋ ๋ค์๊ณผ ๊ฐ์ด ์ธ๊ธํ๊ณ ์๋ค. Back-propagation์ ์ฌ์ฉํ ๊ฒฝ์ฐ์ learning rate๋ฅผ dimension์ 1/n๋ก ์ฌ์ฉํ๋ฉด ์๋ ดํ๋ค๋ ๊ฒ์ด ์ฆ๋ช
๋๋ค. ํ์ง๋ง ๋๋ฌด ๋๋ฆฌ๋ค. \n<img src=\"https://www.dropbox.com/s/us9ezc7vxgrkez6/Screenshot%202018-06-10%2011.47.21.png?dl=1\">\n\n## 4. A Natural Gradient\n---\n### 4.1 ํ๊ฒฝ์ ๋ํ ์ค์ \n์ด ๋
ผ๋ฌธ์์ ์ ์ํ๋ ํ์ต ํ๊ฒฝ์ ๋ค์๊ณผ ๊ฐ๋ค.\n\n- MDP: tuple $$(S, s_0, A, R, P)$$\n- $$S$$: a finite set of states\n- $$s_0$$: a start state\n- $$A$$: a finite set of actions\n- $$R$$: reward function $$R: S \\times A -> [0, R_{max}]$$\n- $$\\pi(a;s, \\theta)$$: stochastic policy parameterized by $$\\theta$$\n- ๋ชจ๋ ์ ์ฑ
$$\\pi$$๋ ergodic: stationary distribution $$\\rho^{\\pi}$$์ด ์ ์ ์๋์ด์์\n- ์ด ๋
ผ๋ฌธ์์๋ sutton์ pg ๋
ผ๋ฌธ์ ๋ ์ธํ
(start-state formulation, average-reward formulation) ์ค์ ๋ ๋ฒ์งธ์ธ average-reward formulation์ ๊ฐ์ \n- performance or average reward: $$\\eta(\\pi)=\\sum_{s,a}\\rho^{\\pi}(s)\\pi(a;s)R(s,a)$$\n- state-action value: $$Q^{\\pi}(s,a)=E_{\\pi}[\\sum_{t=0}^{\\infty}R(s_t, a_t)-\\eta(\\pi)\\vert s_0=s, a_0=a]$$\n- ์ ์ฑ
์ด $$\\theta$$๋ก parameterize๋์ด์์ผ๋ฏ๋ก performance๋ $$\\eta(\\pi_{\\theta})$$์ธ๋ฐ $$\\eta(\\theta)$$๋ก ์ธ๊ฑฐ์\n\n### 4.2 Natural Gradient\n#### 4.2.1 Policy gradient Theorem\n์ํผ pg ๋
ผ๋ฌธ์ policy gradient theorem์ ๋ฐ๋ผ exact gradient of the average reward๋ ๋ค์๊ณผ ๊ฐ๋ค. ๋ค์ ์์์ด ์ด๋ป๊ฒ ์ ๋๋์๋์ง, ์ด๋ค ์๋ฏธ์ธ์ง ๋ชจ๋ฅธ๋ค๋ฉด ์ํผ pg ๋
ผ๋ฌธ์ ํตํด ์ ๋๋ก ์ดํดํ๋ ๊ฒ์ด ์ข๋ค.\n\n$$\\nabla\\eta(\\theta)=\\sum_{s,a}\\rho^{\\pi}(s)\\nabla\\pi(a;s,\\theta)Q^{\\pi}(s,a)$$\n\nsteepest descent direction of $$\\eta(\\theta)$$๋ $$\\eta(\\theta + d\\theta)$$๋ฅผ ์ต์ํํ๋ $$d\\theta$$๋ก ์ ์๋๋ค. ์ด ๋, $$\\vert d\\theta \\vert^2$$๊ฐ ์ผ์ ํฌ๊ธฐ ์ดํ์ธ ๊ฒ์ผ๋ก ์ ์ฝ์กฐ๊ฑด์ ์ค๋ค(held to small constant). Euclidian space์์๋ $$\\eta(\\theta)$$๊ฐ steepest direction์ด์ง๋ง Riemannian space์์๋ natural gradient๊ฐ steepest direction์ด๋ค. \n\n#### 4.2.2 Natural gradient ์ฆ๋ช
\nRiemannian space์์ ๊ฑฐ๋ฆฌ๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค. $$G(\\theta)$$๋ ํน์ ํ ์์๋ก ์ด๋ฃจ์ด์ง matrix์ด๋ค.\n\n$$\\vert d\\theta \\vert^2=\\sum_{ij}(\\theta)d\\theta_id\\theta_i=d\\theta^TG(\\theta)d\\theta$$\n\n์ด ์์์ Natural Gradient Works Efficiently in Learning ๋
ผ๋ฌธ์์ ์ฆ๋ช
๋์ด์๋ค. ๋ค์์ natural gradient ์ฆ๋ช
์ด๋ค. \n\nsteepest direction์ ๊ตฌํ ๋ $$\\theta$$์ ํฌ๊ธฐ๋ฅผ ์ ์ฝ์กฐ๊ฑด์ ์ค๋ค. ์ ์ฝ์กฐ๊ฑด์ ๋ค์๊ณผ ๊ฐ๋ค. \n\n$$\\vert d\\theta \\vert^2 = \\epsilon^2$$\n\n๊ทธ๋ฆฌ๊ณ steepest vector์ธ $$d\\theta$$๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ ์ ์๋ค. \n\n$$d\\theta = \\epsilon a$$\n\n$$\\vert a \\vert^2=a^TG(\\theta)a = 1$$\n\n์ด ๋, $$a$$๊ฐ steepest direction unit vector์ด ๋๋ ค๋ฉด ๋ค์ ์์์ ์ต์๋ก ๋ง๋ค์ด์ผ ํ๋ค. (์ด ์์์ ์ ๋ชจ๋ฅด๊ฒ ์ง๋ง $$\\theta$$์์์ 1์ฐจ๊ทผ์ฌ๋ฅผ ๊ฐ์ ํ๋๊ฒ ์๋๊ฐ ์ถ๋ค.\n\n$$\\eta(\\theta + d\\theta) = \\eta(\\theta) + \\epsilon\\nabla\\eta(\\theta)^Ta$$\n\n์ ์์์ด ์ ์ฝ์กฐ๊ฑด ์๋ ์ต์๊ฐ ๋๋ $$a$$๋ฅผ ๊ตฌํ๊ธฐ ์ํด Lagrangian method๋ฅผ ์ฌ์ฉํ๋ค. Lagrangian method๋ฅผ ๋ชจ๋ฅธ๋ค๋ฉด [์ํคํผ๋์](https://en.wikipedia.org/wiki/Lagrange_multiplier)๋ฅผ ์ฐธ๊ณ ํ๋ ๊ฒ์ ์ถ์ฒํ๋ค. ์ ์์์ด ์ต์๋ผ๋ ๊ฒ์ $$\\nabla\\eta(\\theta)^Ta$$๊ฐ ์ต์๋ผ๋ ๊ฒ์ด๋ค. \n\n$$\\frac{\\partial}{\\partial a_i}(\\nabla\\eta(\\theta)^Ta - \\lambda a^TG(\\theta)a)=0$$\n\n๋ฐ๋ผ์ $$(\\nabla\\eta(\\theta)^Ta - \\lambda a^TG(\\theta)a)=0$$๋ ์์์ด๋ค. ์์๋ฅผ ๋ฏธ๋ถํ๋ฉด 0์ด๋ฏ๋ก ์ด ์์ $$a$$๋ก ๋ฏธ๋ถํ๋ค. ๊ทธ๋ฌ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. steepest direction์ ๊ตฌํ ๊ฒ์ด๋ค.\n\n$$\\nabla\\eta(\\theta) = 2 \\lambda G(\\theta)a$$\n\n$$a=\\frac{1}{2\\lambda}G^{-1}\\nabla\\eta(\\theta)$$\n\n์ด ๋, ๋ค์ ์์ natural gradient๋ผ๊ณ ์ ์ํ๋ค.\n\n$$\\bar{\\nabla}\\eta(\\theta) = G^{-1}\\nabla\\eta(\\theta)$$\n\nnatural gradient๋ฅผ ์ด์ฉํ ์
๋ฐ์ดํธ๋ ๋ค์๊ณผ ๊ฐ๋ค. \n\n$$\\theta_{t+1}=\\theta_t - \\alpha_tG^{-1}\\nabla\\eta(\\theta)$$\n\n์ฌ๊ธฐ๊น์ง๋ natural gradient์ ์ฆ๋ช
์ด์๋ค. ์ด natural gradient๋ฅผ policy gradient์ ์ ์ฉํ ๊ฒ์ด natural policy gradient์ด๋ค. natural policy gradient๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.\n\n$$\\bar{\\nabla}\\eta(\\theta) = F^{-1}\\nabla\\eta(\\theta)$$\n\n$$G$$ ๋์ $$F$$๋ฅผ ์ฌ์ฉํ๋๋ฐ $$F$$๋ Fisher information matix์ด๋ค. ์์์ ๋ค์๊ณผ ๊ฐ๋ค.\n\n$$F(\\theta) = E_{\\rho^\\pi(s)}[F_s(\\theta)]$$\n\n$$F_s(\\theta)=E_{\\pi(a;s,\\theta)}[\\frac{\\partial log \\pi(a;s, \\theta)}{\\partial \\theta_i}\\frac{\\partial log \\pi(a;s, \\theta)}{\\partial\\theta_j}]$$\n\n์ G๊ฐ F๊ฐ ๋๋์ง๋ ์์ง ์ ๋ชจ๋ฅด๊ฒ ๋ค. ๊ฑฐ๋ฆฌ๋ผ๋ ๊ฐ๋
์ ํํํ๋ ค๋ฉด \n\n## 5. The Natural Gradient and Policy Iteration\n---\n### 5.1 Theorem 1\nsutton pg ๋
ผ๋ฌธ์ ๋ฐ๋ผ $$Q^{\\pi}(s,a)$$๋ฅผ approximationํ๋ค. approximateํ๋ ํจ์ $$f^{\\pi}(s,a;w)$$๋ ๋ค์๊ณผ ๊ฐ๋ค.(compatible value function)\n\n$$f^{\\pi}(s,a;w)=w^T\\psi^{\\pi}(s,a)$$\n\n$$\\psi^{\\pi}(s,a) = \\nabla log\\pi(a;s,\\theta)$$\n\n$$w$$๋ ์๋ approximateํ๋ ํจ์ $$Q$$์ $$f$$์ ์ฐจ์ด๋ฅผ ์ค์ด๋๋ก ํ์ตํ๋ค(mean square error). ์๋ ดํ local minima์ $$w$$๋ฅผ $$\\bar{w}$$๋ผ๊ณ ํ๊ฒ ๋ค. ์๋ฌ๋ ๋ค์๊ณผ ๊ฐ์ ์์์ผ๋ก ๋ํ๋ธ๋ค. \n\n$$\\epsilon(w,\\pi)\\equiv\\sum_{s, a}\\rho^{\\pi}(s)\\pi(a;s,\\theta)(f^{\\pi}(s,a;w)-Q^{\\pi}(s,a))^2$$\n\n์ ์์ด local minima์ด๋ฉด ๋ฏธ๋ถ๊ฐ์ด 0์ด๋ค. $$w$$์ ๋ํด์ ๋ฏธ๋ถํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. \n\n$$\\sum_{s, a}\\rho^{\\pi}(s)\\pi(a;s,\\theta)\\psi^{\\pi}(s,a)(\\psi^{\\pi}(s,a)^T\\bar{w}-Q^{\\pi}(s,a))=0$$\n\n$$(\\sum_{s, a}\\rho^{\\pi}(s)\\pi(a;s,\\theta)\\psi^{\\pi}(s,a)\\psi^{\\pi}(s,a)^T)\\bar{w}=\\sum_{s, a}\\rho^{\\pi}(s)\\pi(a;s,\\theta)\\psi^{\\pi}(s,a)Q^{\\pi}(s,a))$$\n\n์ด ๋, ์ ์์ ์ฐ๋ณ์ $$\\psi$$์ ์ ์์ ์ํด policy gradient๊ฐ ๋๋ค. ๋ํ ์ผ์ชฝ ํญ์์๋ Fisher information matrix๊ฐ ๋์จ๋ค.\n\n$$F(\\theta)=\\sum_{s,a}\\pi(a;s,\\theta)\\psi^{\\pi}(s,a)\\psi^{\\pi}(s,a)=E_{\\rho^\\pi(s)}[F_s(\\theta)]$$\n\n๋ฐ๋ผ์ ๋ค์๊ณผ ๊ฐ๋ค.\n\n$$F(\\theta)\\bar{w}=\\nabla\\eta(\\theta)$$\n\n$$\\bar{w}=F(\\theta)^{-1}\\nabla\\eta(\\theta)$$\n\n์ด ์์ natural gradient ์๊ณผ ๋์ผํ๋ค. ์ด ์์ policy๊ฐ update ๋ ๋, value function approximator์ parameter ๋ฐฉํฅ์ผ๋ก ์ด๋ํ๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค. function approximation์ด ์ ํํ๋ค๋ฉด ๊ทธ parameter์ natural policy gradient์ inner product๊ฐ ์ปค์ผํ๋ค. \n\n### 5.2 Theorem 2: Greedy Polict Improvement\nnatural policy gradient๊ฐ ๋จ์ํ ๋ ์ข์ ํ๋์ ๊ณ ๋ฅด๋๋ก ํ์ตํ๋๊ฒ ์๋๋ผ ๊ฐ์ฅ ์ข์ (greedy) ํ๋์ ๊ณ ๋ฅด๋๋ก ํ์ตํ๋ค๋ ๊ฒ์ ์ฆ๋ช
ํ๋ ํํธ์ด๋ค. ์ด๊ฒ์ ์ผ๋ฐ์ ์ธ ํํ์ policy์ ๋ํด์ ์ฆ๋ช
ํ๊ธฐ ์ ์ exponential ํํ์ policy์ ๋ํด์ ์ฆ๋ช
ํ๋ ๊ฒ์ด Theorem 2์ด๋ค.\n\npolicy๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ๋ค.\n\n$$\\pi(a;s,\\theta) \\propto exp(\\theta^T\\phi_{sa})$$\n\n$$\\bar{\\nabla}\\eta(\\theta)$$๊ฐ 0์ด ์๋๊ณ $$\\bar{w}$$๋ approximation error๋ฅผ ์ต์ํํ $$w$$๋ผ๊ณ ๊ฐ์ ํ๋ค. ์ด ์ํ์์ natural gradient update๋ฅผ ์๊ฐํด๋ณด์. policy gradient๋ gradient ascent์์ ๊ธฐ์ตํ์.\n\n$$\\theta_{t+1}=\\theta_t + \\alpha_t\\bar{\\nabla}\\eta(\\theta)$$\n\n์ด ๋ $$\\alpha$$๊ฐ learning rate๋ก parameter๋ฅผ ์ผ๋ง๋ ์
๋ฐ์ดํธํ๋์ง๋ฅผ ๊ฒฐ์ ํ๋ค. ์ด ๊ฐ์ ๋ฌดํ๋๋ก ๋๋ ธ์ ๋ policy๊ฐ ์ด๋ป๊ฒ ์
๋ฐ์ดํธ๋๋์ง ์๊ฐํด๋ณด์. \n\n$$\\pi_{\\infty}(a;s)=lim_{\\alpha\\rightarrow\\infty}\\pi(a;s,\\theta+\\alpha\\bar{\\nabla}\\eta(\\theta))-(1)$$\n\nfunction approximator๋ ๋ค์๊ณผ ๊ฐ๋ค. \n\n$$f^{\\pi}(s,a;w)=w^T\\psi^{\\pi}(s,a)$$\n\nTheorem 1์ ์ํด ์ ์์ ์๋์ ๊ฐ์ด ์ธ ์ ์๋ค.\n\n\n$$f^{\\pi}(s,a;w)=\\bar{\\nabla}\\eta(\\theta)^T\\psi^{\\pi}(s,a)$$\n\n$$\\theta$$์ ์ ์์ ์ํด $$\\psi$$๋ ๋ค์๊ณผ ๊ฐ๋ค.\n\n$$\\psi^{\\pi}(s,a)=\\phi_{sa}-E_{\\pi(a';s,\\theta)}[\\phi_{sa'}]$$\n\nfunction approximator๋ ๋ค์๊ณผ ๊ฐ์ด ๋ค์ ์ธ ์ ์๋ค.\n\n$$f^{\\pi}(s,a;w)=\\bar{\\nabla}\\eta(\\theta)^T(\\phi_{sa}-E_{\\pi(a';s,\\theta)}[\\phi_{sa'}])$$\n\ngreedy policy improvement๊ฐ Q function ๊ฐ ์ค ๊ฐ์ฅ ํฐ ๊ฐ์ ๊ฐ์ง๋ action์ ์ ํํ๋ฏ์ด ์ฌ๊ธฐ์๋ function approximator์ ๊ฐ์ด ๊ฐ์ฅ ํฐ action์ ์ ํํ๋ ์ํฉ์ ๊ฐ์ ํด๋ณธ๋ค. ์ด ๋ function approximator์ argmax๋ ๋ค์๊ณผ ๊ฐ์ด ์ธ ์ ์๋ค.\n\n$$argmax_{a'}f^{\\pi}(s,a)=argmax_{a'}\\bar{\\nabla}\\eta(\\theta)^T\\phi_{sa'}$$\n\n(1) ์์ ๋ค์ ์ดํด๋ณด์. policy์ ์ ์์ ๋ฐ๋ผ ๋ค์๊ณผ ๊ฐ์ด ์ธ ์ ์๋ค. \n\n$$\\pi(a;s,\\theta + \\alpha\\bar{\\nabla}\\eta(\\theta)) \\propto exp(\\theta^T\\phi_{sa} + \\alpha\\bar{\\nabla}\\eta(\\theta)^T\\phi_{sa})$$\n\n$$\\bar{\\nabla}\\eta(\\theta) \\neq 0$$์ด๊ณ $$\\alpha\\rightarrow\\infty$$์ด๋ฉด exp์์ ํญ ์ค์์ ๋ค์ ํญ์ด dominateํ๊ฒ ๋๋ค. ์ฌ๋ฌ ํ๋ ์ค์ $$\\bar{\\nabla}\\eta(\\theta)^T\\phi_{sa}$$๊ฐ ๊ฐ์ฅ ํฐ ํ๋์ด ์๋ค๋ฉด ์ด ํ๋์ policy probability๊ฐ 1์ด ๋๊ณ ๋๋จธ์ง๋ 0์ด ๋๋ค. ๋ฐ๋ผ์ ๋ค์์ด ์ฑ๋ฆฝํ๋ค.\n\n$$\\pi_{\\infty}=0$$ \n\nif and only if \n\n$$a \\notin argmax_{a'}\\bar{\\nabla}\\eta(\\theta)^T\\phi_{sa'}$$\n\n์ด ๊ฒฐ๊ณผ๋ก๋ถํฐ natural policy gradient๋ ๋จ์ง ๋ ์ข์ action์ด ์๋๋ผ best action์ ๊ณ ๋ฅด๋๋ก ํ์ต์ด ๋๋ค. ํ์ง๋ง non-covariant gradient(1์ฐจ๋ฏธ๋ถ) ์์๋ ๊ทธ์ ๋ ์ข์ action์ ๊ณ ๋ฅด๋๋ก ํ์ต์ด ๋๋ค. ํ์ง๋ง ์ด natural policy gradient์ ๋ํ ๊ฒฐ๊ณผ๋ infinite learning rate ์ธํ
์์๋ง ์ฑ๋ฆฝํจ. ์ข ๋ ์ผ๋ฐ์ ์ธ ๊ฒฝ์ฐ์ ๋ํด์ ์ดํด๋ณด์.\n\n#### 4.3 Theorem 3 \nTheorem 2์์์๋ ๋ฌ๋ฆฌ ์ผ๋ฐ์ ์ธ policy๋ฅผ ๊ฐ์ ํ์(general parameterized policy). Theorem 3๋ ์ด ์ํฉ์์ natural gradient๋ฅผ ํตํ ์
๋ฐ์ดํธ๊ฐ best action๋ฅผ ๊ณ ๋ฅด๋ ๋ฐฉํฅ์ผ๋ก ํ์ต์ด ๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. \n\nnatural gradien์ ๋ฐ๋ฅธ policy parameter์ ์
๋ฐ์ดํธ๋ ๋ค์๊ณผ ๊ฐ๋ค. $$\\bar{w}$$๋ approximation error๋ฅผ minimizeํ๋ $$w$$์ด๋ค.\n\n$$\\delta\\theta = \\theta' - \\theta = \\alpha\\bar{\\nabla}\\eta(\\theta)=\\alpha\\bar{w}$$\n\npolicy์ ๋ํด์ 1์ฐจ๊ทผ์ฌ๋ฅผ ํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. \n\n$$\\pi(a;s,\\theta')=\\pi(a;s,\\theta)+\\frac{\\partial\\pi(a;s,\\theta)^T}{\\partial\\theta}\\delta\\theta + O(\\delta\\theta^2)$$\n\n$$=\\pi(a;s,\\theta)(1+\\psi(s,a)^T\\delta\\theta) + O(\\delta\\theta^2)$$\n\n$$=\\pi(a;s,\\theta)(1+\\alpha\\psi(s,a)^T\\bar{w}) + O(\\delta\\theta^2)$$\n\n$$=\\pi(a;s,\\theta)(1+\\alpha f^{\\pi}(s,a;\\bar{w}) + O(\\delta\\theta^2)$$\n\npolicy ์์ฒด๊ฐ function approximator์ ํฌ๊ธฐ๋๋ก ์
๋ฐ์ดํธ๊ฐ ๋๋ฏ๋ก localํ๊ฒ best action์ probability๋ ์ปค์ง๊ณ ๋ค๋ฅธ probability์ ํฌ๊ธฐ๋ ์์์ง ๊ฒ์ด๋ค. ํ์ง๋ง ๋ง์ฝ greedy improvement๊ฐ ๋๋คํ๋๋ผ๋ ๊ทธ๊ฒ performance์ improvement๋ฅผ ๋ณด์ฅํ๋ ๊ฒ์ ์๋๋ค. ํ์ง๋ง line search์ ํจ๊ป ์ฌ์ฉํ ๊ฒฝ์ฐ improvement๋ฅผ ๋ณด์ฅํ ์ ์๋ค. \n\n## 6. Metrics and Curvatures\n---\n๋ค์ ์์ ํด๋นํ๋ G๋ Fisher Information Matrix๋ง ์ฌ์ฉํ ์ ์๋ ๊ฒ์ด ์๋๋ค.\n\n$$\\vert d\\theta \\vert^2=\\sum_{ij}(\\theta)d\\theta_id\\theta_i=d\\theta^TG(\\theta)d\\theta$$\n\n์ด ํํธ์์๋ FIM๊ณผ ๋ค๋ฅธ metric ์ฌ์ด์ ๊ด๊ณ๋ฅผ ๋ค๋ฃฌ๋ค. \n\n- In the different setting of parameter estimation, the Fisher information converges to the ```Hessian```, so it is [asymptotically efficient](https://en.wikipedia.org/wiki/Efficiency_(statistics)#Asymptotic_efficiency)\n- ์ด ๋
ผ๋ฌธ์ ๊ฒฝ์ฐ, ์๋ง๋ฆฌ ๋
ผ๋ฌธ์ 'blind separation case'์ ์ ์ฌํ๋ฐ ์ด ๋๋ ๊ผญ asymtotically efficientํ์ง ์๋ค. ์ด ๋ง์ ์ฆ 2nd order ์๋ ด์ด ๋ณด์ฅ๋์ง ์๋๋ค๋ ๊ฒ์ด๋ค.\n- [Mackay](http://www.inference.org.uk/mackay/ica.pdf) ๋
ผ๋ฌธ์์ hessian์์ data independantํ term์ metric์ผ๋ก ๊ฐ์ ธ์ค๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ๊ทธ๋์ performance๋ฅผ 2๋ฒ ๋ฏธ๋ถํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. ํ์ง๋ง ๋ค์ ์์์๋ ๋ชจ๋ ํญ์ด data dependentํ๋ค(Q๊ฐ ์์ผ๋๊น). ์ฒซ ๋ฒ์งธ ํญ์ด ๊ทธ๋๋ง FIM๊ณผ์ ๊ด๋ จ์ฑ์ด ์์ ์ ์์ง๋ง Q ๊ฐ์ด curvature์ weight๋ฅผ ์ฃผ๋ ๋ฐฉ์ ๋๋ฌธ์ ๋ค๋ฅด๋ค๊ณ ํ ์ ์๋ค.\n\n$$\n\\nabla^2\\eta(\\theta)=\\sum_{sa}\\rho^{\\pi}(s)(\\nabla^2\\pi(a;s)Q^{\\pi}(s,a)+\\nabla\\pi(a;s)\\nabla Q^{\\pi}(s,a)^T+\\nabla Q^{\\pi}(s,a)\\nabla\\pi(a;s)^T)\n$$\n\n\n- hessian์ ๋ณดํต positive definite๊ฐ ์๋์๋ ์๋ค. ๋ฐ๋ผ์ local maxima๊ฐ ๋ ๋๊น์ง Hessian์ด ์ฌ์ฉํ๊ธฐ ๋ณ๋ก ์์ข๋ค. ๊ทธ๋ฆฌ๊ณ local maxima์์๋ Hessian๋ณด๋ค๋ Conjugate methods๊ฐ ๋ ํจ์จ์ ์ด๋ค. \n\n์ด ํํธ์์๋ ๋ฌด์์ ๋งํ๊ณ ์๋์ง ์๊ธฐ๊ฐ ์ด๋ ต๋ค. FIM๊ณผ Hessian์ด ๊ด๋ จ์ด ์๋ค๋ ๊ฒ์ ์๊ฒ ๋ค. ํ์ง๋ง asymtotically efficient์ ๊ฐ์ ๋ด์ฉ์ ๋ชจ๋ฅด๋ฏ๋ก ๋ด์ฉ์ ์ดํด๊ฐ ์ด๋ ค์ ๋ค.\n\nMackay ๋
ผ๋ฌธ์์ ํด๋น ๋ถ๋ถ์ ๋ค์๊ณผ ๊ฐ๋ค. \n\n<img src=\"https://www.dropbox.com/s/x4n6z6pdyi7xtb9/Screenshot%202018-06-10%2012.04.13.png?dl=1\">\n\n## 7. Experiment\n---\n๋
ผ๋ฌธ์์๋ natural gradient๋ฅผ simple MDP์ tetris MDP์ ๋ํด์ ํ
์คํธํ๋ค. practice์์๋ Fisher information matrix๋ ๋ค์๊ณผ ๊ฐ์ ์์ผ๋ก ์
๋ฐ์ดํธํ๋ค.\n\n$$f\\leftarrow f+\\nabla log \\pi(a_t; s_t, \\theta)\\nabla log \\pi(a_t; s_t, \\theta)^T$$\n\nT length trajectory์ ๋ํด์ f/T๋ฅผ ํตํด F์ estimate๋ฅผ ๊ตฌํ๋ค.\n\n### 7.1 Linear Quadratic regulator\n์์ด์ ํธ๋ฅผ ํ
์คํธํ ํ๊ฒฝ์ ๋ค์๊ณผ ๊ฐ์ dynamics๋ฅผ ๊ฐ์ง๊ณ ์๋ค. $$u(t)$$๋ control signal๋ก์ ์์ด์ ํธ์ ํ๋์ด๋ผ๊ณ ์๊ฐํ๋ฉด ๋๋ค. $$\\epsilon$$์ noise distribution์ผ๋ก ํ๊ฒฝ์ ๊ฐํด์ง๋ ๋
ธ์ด์ฆ์ด๋ค. ์์ด์ ํธ์ ๋ชฉํ๋ ์ ์ ํ $$u(t)$$๋ฅผ ํตํด \nx(t)๋ฅผ 0์ผ๋ก ์ ์งํ๋ ๊ฒ์ด๋ค. ์ ์ด๋ถ์ผ์์์ LQR controller ๋ฌธ์ ์ด๋ค.\n\n$$\nx(t+1) = 0.7x(t)+u(t)+\\epsilon(t)\n$$\n\nx(t)๋ฅผ 0์ผ๋ก ์ ์งํ๊ธฐ ์ํด์ $$x(t)^2$$๋ฅผ cost๋ก ์ก๊ณ ์ด cost๋ฅผ ์ต์ํํ๋๋ก ํ์ตํ๋ค. ์ด ์์คํ
์ linear๋ผ๊ณ ๋ถ๋ฅด๋ ๊ฒ์ ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ์ ํ์ ํํ๋ฅผ ๋๊ธฐ ๋๋ฌธ์ด๋ค. ์ด ๋
ผ๋ฌธ์์ ์คํํ ๋๋ ์ด ๊ทธ๋ฆผ์์์ system์ noise๋ฅผ ๋ํด์ค ๊ฒ์ด๋ค. [๊ทธ๋ฆผ ์ถ์ฒ](https://stanford.edu/class/ee363/lectures/dlqr.pdf)\n\n<img src='https://www.dropbox.com/s/vz0q97lcek4oti5/Screenshot%202018-06-08%2014.21.10.png?dl=1'>\n\n์ด ์คํ์์ ์ฌ์ฉํ parameterized policy๋ ๋ค์๊ณผ ๊ฐ๋ค. parameter๊ฐ $$\\theta_1$$๊ณผ $$\\theta_2$$ ๋ฐ์ ์๋ ์๋นํ ๊ฐ๋จํ policy์ด๋ค. \n\n$$\n\\pi(u;x,\\theta) \\propto exp(\\theta_1 s_1 x^2 + \\theta_2 s_2 x)\n$$\n\n์ด policy๋ฅผ ๊ฐ๋จํ numpy์ matplotlib๋ฅผ ์ด์ฉํด์ ๊ทธ๋ ค๋ดค๋ค. $$\\theta_1$$๊ณผ $$theta_2$$๋ฅผ (0.5, 0.5), (1, 0), (0, 1)๋ก ํ๊ณ $$s_1$$๊ณผ $$s_2$$๋ 1๋ก ๋์๋ค. x๋ -1์์ 1๊น์ง์ ๋ฒ์๋ก ๊ทธ๋ ธ๋ค. x๋ฅผ 0์ผ๋ก ์ ์งํ๋ ค๋ฉด u(t)๊ฐ -์ +๊ฐ ๋ ๋ค ๊ฐ๋ฅํด์ผํ ๊ฒ ๊ฐ์๋ฐ ์ ์์ผ๋ก๋ง ๋ด์๋ action์ด ํ๋์ด๊ณ ๊ทธ action์ผ ํ๋ฅ ์ ํ์ํ๋ ๊ฒ์ฒ๋ผ ๋์๋ค. ์๋ง -1๊ณผ +1์ด u(t)๊ฐ ๋ ์ ์๋๋ฐ ๊ทธ ์ค +1์ ์ ํํ ํ๋ฅ ์ด ์์ ๊ฐ์ด ๋๋๊ฒ ์๋๊ฐ ์ถ๋ค.\n<center><img src='https://www.dropbox.com/s/v69qyrwn7zurk8c/Screenshot%202018-06-08%2014.57.07.png?dl=1' width='500px'></center>\n\n๋ค์ ๊ทธ๋ฆผ์ 1-d LQR์ ํ์ตํ ๊ทธ๋ํ์ด๋ค. cost๊ฐ $$x^2$$์ด๊ธฐ ๋๋ฌธ์ cost๊ฐ 0์ผ๋ก ๊ฐ์๋ก agent๋ 0์์ ์์ ์ ์ผ๋ก ๋จธ๋ฌด๋ฅธ๋ค๊ณ ๋ณผ ์ ์๋ค. 6๊ฐ์ ์ ์ค์์ ์ค๋ฅธ์ชฝ ์ธ ๊ฐ๊ฐ ์ผ๋ฐ์ ์ธ gradient ๋ฐฉ๋ฒ์ ์ฌ์ฉํด์ ํ์ตํ ๊ฒฐ๊ณผ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ์ผ์ชฝ์ ์ธ ๊ฐ์ ์ ์ด natural policy gradient๋ฅผ ํตํด ํ์ตํ ํ์ต ๊ณก์ ์ด๋ค. ์ผ๋ฐ gradient ๋ฐฉ๋ฒ๋ณด๋ค natural gradient๊ฐ ํจ์ฌ ๋น ๋ฅด๊ฒ ํ์ตํ๋ค(time ์ถ์ด log scale์ธ ๊ฒ์ ๊ฐ์ํ์).\n\nํ์ง๋ง ๋ฌธ์ ๊ฐ ์๋ค. npg๋ฅผ ํ์ตํ ์ธ ๊ฐ์ ๊ณก์ ์ $$\\theta$$๋ฅผ rescale ํ ๊ฒ์ด๋ค. $$\\theta$$์์ ๊ณฑํด์ง๋ ์ซ์์ ๋ฐ๋ผ ํ์ต์ ๊ณผ์ ์ด ๋ค๋ฅด๋ค. ์ด ๊ฒ์ coordinate์ ๋ฐ๋ผ steepest gradient๊ฐ ๋ค๋ฅด๊ฒ ์ธก์ ๋๋ค๋ ๊ฒ์ด๋ค. ์ฆ, covariant gradient๊ฐ ์๋๋ผ๋ ๋ป์ด๋ค. ์ด ๋
ผ๋ฌธ์์๋ natural gradient๋ฅผ ํตํด gradient๊ฐ covariantํ๋๋ก ๋ง๋ค๊ณ ์ถ์๋๋ฐ ์คํจํ ๊ฒ์ด๋ค. \n\n\n<center><img src=\"https://www.dropbox.com/s/fhn8cgje0rdws0i/Screenshot%202018-06-08%2023.13.37.png?dl=1\" width=\"300px\"></center>\n\nnatural gradient๊ฐ covariantํ์ง ์์ ์ด์ ๋ Fisher Information Matrix๊ฐ ์์ํ๋ ๋ฐ์๋ ๋ฌ๋ฆฌ invariant metric์ด ์๋๊ธฐ ๋๋ฌธ์ด๋ค. ๋ํ FIM์ด invariant metric์ด ์๋ ์ด์ ๋ FIM์ ๊ณ์ฐํ ๋ $$\\rho_s$$๊ฐ ๊ณฑํด์ง๊ธฐ ๋๋ฌธ์ด๋ค(state distribution์ ๋ํ expectation. $$\\rho_s$$๊ฐ ๊ณฑํด์ง๋ ๊ฒ์ด invariant์ ๋ฏธ์น๋ ์ํฅ์ด ๋ฌด์์ธ์ง๋ ๋ชจ๋ฅด๊ฒ ๋ค). ํ์ง๋ง ์ฌ์ ํ ์์๊ฐ ์๋ ๊ฒ์ ๊ธฐ์กด gradient ๋ฐฉ๋ฒ๋ค๋ณด๋ค ํจ์ฌ ๋น ๋ฅด๊ฒ ํ์ตํ๋ค๋ ๊ฒ์ด๋ค.\n\n### 7.2 simple 2-state MDP\n์ด์ ๋ค๋ฅธ ์์ ์์ NPG๋ฅผ ํ
์คํธํ๋ค. 2๊ฐ์ state๋ง ๊ฐ์ง๋ MDP๋ฅผ ๊ณ ๋ คํด๋ณด์. [๊ทธ๋ฆผ์ถ์ฒ](http://repository.cmu.edu/cgi/viewcontent.cgi?article=1080&context=robotics). ๊ทธ๋ฆผ์ผ๋ก๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. x=0 ์ํ์ x=1 ์ํ ๋ ๊ฐ๊ฐ ์กด์ฌํ๋ค. ์์ด์ ํธ๋ ๊ฐ ์ํ์์ ๋ค์ ์์ ์ ์ํ๋ก ๋๋์์ค๋ ํ๋์ ํ๊ฑฐ๋ ๋ค๋ฅธ ์ํ๋ก ๊ฐ๋ ํ๋์ ํ ์ ์๋ค. ์ํ x=0์์ ๋ค์ ์๊ธฐ ์์ ์ผ๋ก ๋์์ค๋ฉด 1์ ๋ณด์์ ๋ฐ๊ณ ์ํ x=1์์ ์๊ธฐ ์์ ์ผ๋ก ๋์์ค๋ฉด 2์ ๋ณด์์ ๋ฐ๋๋ค. ๋ฐ๋ผ์ ๊ฒฐ๊ตญ optimal policy๋ ์ํ x=1์์ ๊ณ์ ์๊ธฐ ์์ ์ผ๋ก ๋์์ค๋ ํ๋์ ์ทจํ๋ ๊ฒ์ด๋ค. \n\n<img src=\"https://www.dropbox.com/s/g1x9yknzsrip59i/Screenshot%202018-06-08%2023.06.50.png?dl=1\">\n\n๋ฌธ์ ๋ฅผ ์ข ์ด๋ ต๊ฒ ๋ง๋ค๊ธฐ ์ํด state distribution์ ๋ค์๊ณผ ๊ฐ์ด ์ค์ ํ๋ค. ์ฆ, ๋๋ถ๋ถ์ ๊ฒฝ์ฐ์ ์ํ x=0์์ ์์ด์ ํธ๊ฐ ์์ํ๋ ๊ฒ์ด๋ค. \n\n$$\n\\rho(x=0)=0.8, \\rho(x=1)=0.2\n$$\n\n์ผ๋ฐ์ ์ธ gradient ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ฉด ๋ค์๊ณผ ๊ฐ์ policy gradient ์์ ๋ฐ๋ผ์ ์
๋ฐ์ดํธ๋ฅผ ํ๊ฒ ๋๋ค. ์ด ๋, $$\\rho(s)$$๊ฐ gradient์ ๊ณฑํด์ง๋ฏ๋ก ์ํ์ ์ผ๋ก ์ํ 0์์์ gradient ๊ฐ์ด ์ปค์ง๊ฒ ๋๋ค. ๋ฐ๋ผ์ ์์ด์ ํธ๋ ์ํ 0์์์ gradient(์ํ 0์์ ์ค์ค๋ก์๊ฒ ๋์์ค๋ ํ๋์ ์ทจํ๋๋ก ์ ์ฑ
์ ์
๋ฐ์ดํธํ๋ gradient)๋ฅผ ๋ฐ๋ผ parameterized policy๋ฅผ updateํ๋ค. ๋ฐ๋ผ์ ์๋ ๊ทธ๋ฆผ์ ์ฒซ๋ฒ์งธ ๊ทธ๋ฆผ์์์ฒ๋ผ Reward๊ฐ 1์์ ์ค๋ ์๊ฐ๋์ ๋จธ๋ฌด๋ฅธ๋ค. ์ฆ, ์์ด์ ํธ๊ฐ ์ํ 0์์ self-loop๋ฅผ ๊ณ์ ๋๊ณ ์๋ค๋ ๊ฒ์ด๋ค. $$\\rho(x=0)$$๊ฐ $$10^{-7}$$๊น์ง ๋จ์ด์ง๋ค.\n\n$$\\nabla\\eta(\\theta)=\\sum_{s,a}\\rho^{\\pi}(s)\\nabla\\pi(a;s,\\theta)Q^{\\pi}(s,a)$$\n\n<center><img src=\"https://www.dropbox.com/s/xtb77mfazbppnss/Screenshot%202018-06-08%2023.14.24.png?dl=1\" width=\"300px\"></center>\n\nํ์ง๋ง NPG๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ์๋ ํจ์ฌ ๋น ๋ฅด๊ฒ average reward๊ฐ 2์ ๋๋ฌํ๋ค. gradient ๋ฐฉ๋ฒ์ด $$1.7X10^(7)$$์ ๋์ ์๊ฐ๋ง์ 2์ ๋๋ฌํ ๋ฐ๋ฉด NPG๋ 2๋ง์ ๋๋ฌํ๋ค. ๋ํ $$\\rho(x=0)$$๊ฐ $$10^{-5}$$์ดํ๋ก ๋จ์ด์ง์ง ์๋๋ค.\n\nํ ๊ฐ์ง ๊ทธ๋ํ๋ฅผ ๋ ์ดํด๋ณด์. ๋ค์ ๊ทธ๋ํ๋ parameter $$\\theta$$๊ฐ ์
๋ฐ์ดํธ ๋๋ ๊ณผ์ ์ ๋ณด์ฌ์ค๋ค. ์ด ๊ทธ๋ํ์์๋ parameter๊ฐ 2๊ฐ ์๋ ๊ฒ์ด๋ค. ์ผ๋ฐ์ ์ธ gradient๊ฐ ์๋ ๊ทธ๋ํ์์ ์ค์ ์ ํด๋นํ๋ค. ์ด ์ค์ ์ ๊ทธ๋ํ๋ ๋ณด๋ฉด ์ฒ์๋ถํฐ ์ค๋ฐ๊น์ง $$\\theta_i$$๋ง ๊ฑฐ์ ์
๋ฐ์ดํธํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค. ๊ทธ์ ๋นํด NPG๋ ๋ ๊ฐ์ parameter๋ฅผ ๊ท ๋ฑํ๊ฒ ์
๋ฐ์ดํธํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค. \n\n<center><img src=\"https://www.dropbox.com/s/g7pazozw2k6rd7x/Screenshot%202018-06-08%2023.23.25.png?dl=1\" width=\"300px\"></center>\n\npolicy๊ฐ $$\\pi(a;s,\\theta)\\propto exp(\\theta_{sa})$$์ผ ๋, ๋ค์๊ณผ ๊ฐ์ด $$F_{-1}$$์ด gradient ์์ weight๋ก ๊ณฑํด์ง๋๋ฐ ์ด๊ฒ $$\\rho$$์๋ ๋ฌ๋ฆฌ ๊ฐ parameter์ ๋ํด ๊ท ๋ฑํ๋ค. ๋ฐ๋ผ์ ์ ๊ทธ๋ํ์์์ ๊ฐ์ด ๊ฐ parameter๋ ๋น์ทํ ๋น์จ๋ก ์
๋ฐ์ดํธ๊ฐ ๋๋ ๊ฒ์ด๋ค.\n\n$$\\bar{\\nabla}\\eta(\\theta) = F^{-1}\\nabla\\eta(\\theta)$$\n\n### 7.3 Tetris\nNPG๋ฅผ ํ
์คํธํ tetris ์์ ๋ Neuro Dynamic Programming ์ฑ
์ ์๊ฐ๋์ด์๋ค. ๋ค์ ๊ทธ๋ฆผ์ tetris ์์ ๋ฅผ ๋ณด์ฌ์ค๋ค. ๋ณดํต ๊ทธ๋ฆผ์์์ ๊ฐ์ด state์ feature๋ฅผ ์ ํด์ค๋ค. [๊ทธ๋ฆผ ์ถ์ฒ](http://slideplayer.com/slide/5215520/)\n\n<img src=\"https://www.dropbox.com/s/y1halso9yermy8s/Screenshot%202018-06-08%2023.44.34.png?dl=1\">\n\n์ด ์์ ์์๋ exponantial family๋ก policy๋ฅผ ํํํ๋ค. $$\\pi(a;s,\\theta) \\propto exp(\\theta^T\\phi_{sa})$$ ๋ก ํํํ๋ค.\n\ntetris๋ linear function approximator์ greedy policy iteration์ ์ฌ์ฉํ ๊ฒฝ์ฐ performance๊ฐ ๊ฐ์๊ธฐ ๋จ์ด์ง๋ ํ์์ด ์๋ค. ๋ฐ์ ๊ทธ๋ฆผ์์ A์ spike๊ฐ ์๋ ๊ทธ๋ํ๊ฐ ์ด ๊ฒฝ์ฐ์ด๋ค. ๊ทธ ๋ฐ์ ๋ฎ๊ฒ ๋์์๋ ๊ทธ๋ํ๋ ์ผ๋ฐ์ ์ธ policy gradient ๋ฐฉ๋ฒ์ด๋ค. ํ์ง๋ง Natural policy gradient๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ B ๊ทธ๋ฆผ์์ ์ค๋ฅธ์ชฝ ๊ทธ๋ํ์ ๊ฐ์ด ์ฑ๋ฅ๊ฐ์ ์ด ๋๋ ทํ๋ค. Policy Iteration ์ฒ๋ผ ์ฑ๋ฅ์ด ๋ ๋จ์ด์ง์ง ์๊ณ ์์ ์ ์ผ๋ก ์ ์งํ๋ค. ๋ํ ๊ทธ๋ฆผ C์์ ๋ณด๋ ๊ฒ์ฒ๋ผ ์ค๋ฅธ์ชฝ ๊ทธ๋ํ์ธ ์ผ๋ฐ์ ์ธ gradient ๋ฐฉ๋ฒ๋ณด๋ค ํจ์ฌ ๋น ๋ฅด๊ฒ ํ์ตํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค.\n\n<img src=\"https://www.dropbox.com/s/pr6s2qrqaic0wyj/Screenshot%202018-06-08%2023.40.16.png?dl=1\">\n\n\n## 8. Discussion\n---\n\n- natural gradient method๋ policy iteration์์์ ๊ฐ์ด greedy action์ ์ ํํ๋๋ก ํ์ต๋\n- line search์ ํจ๊ป ์ฐ๋ฉด natural gradient method๋ ๋ policy iteration ๊ฐ์์ง\n- greedy policy iteration์์์๋ ๋ฌ๋ฆฌ performance improvement๊ฐ ๋ณด์ฅ๋\n- ํ์ง๋ง F(Fisher information matrix)๊ฐ asymtotically Hessian์ผ๋ก ์๋ ดํ์ง ์์. asymtotically conjugate gradient method(Hessian์ inverse๋ฅผ approx.๋ก ๊ตฌํ๋ ๋ฐฉ๋ฒ)๊ฐ ๋ ์ข์ ๋ณด์ผ ์ ์์\n- ํ์ง๋ง Hessian์ด ํญ์ informativeํ์ง ์๊ณ (hessian์ด ์ด๋ค ์ ๋ณด๋ฅผ ์ฃผ๋ ค๋ฉด positive definite์ ๊ฐ์ ์ฑ์ง์ ๊ฐ์ ธ์ ํด๋น ํจ์๊ฐ convex์ธ ๊ฒ์ ์ ์ ์๋ค๋ ์ง์ ๊ฒฝ์ฐ๋ฅผ ์ด์ผ๊ธฐํ๋๋ฐ hessian์ด ํญ์ positive definite๊ฐ ์๋ ์ ์๋ค๋ ๊ฒ์ด๋ค) tetris์์ ๋ดค๋ฏ์ด natural gradient method๊ฐ ๋ ํจ์จ์ ์ผ ์ ์์(pushing the policy toward choosing greedy optimal actions)\n- conjugate gradient method๊ฐ ์ข ๋ maximum์ ๋น ๋ฅด๊ฒ ์๋ ดํ์ง๋ง, performance๋ maximum์์ ๊ฑฐ์ ์๋ณํ๋ฏ๋ก ์ข๋ค๊ณ ๋งํ๊ธฐ ์ด๋ ค์(?). ์ด ๋ถ๋ถ์ ๋ํด์ ์ถ๊ฐ์ ์ธ ์ฐ๊ตฌ ํ์.\n\namet, consectetur adipisicing elit. Vitae ipsum, voluptatem quis officiis inventore dolor totam deserunt, possimus similique eum, accusantium adipisci doloremque omnis excepturi quasi, suscipit repellendus quibusdam? Veritatis.","source":"_posts/2018-06-15-npg.md","raw":"---\ntitle: A Natural Policy Gradient\ndate: 2018-06-14 13:18:45\ntags: [\"ํ๋ก์ ํธ\", \"ํผ์ง์ฌํ\"]\ncategories: ํ๋ก์ ํธ\nauthor: ์ด์
์\nsubtitle: ํผ์ง์ฌํ 4๋ฒ์งธ ๋
ผ๋ฌธ\n---\n\n# A Natural Policy Gradient [2001]\n\n<img src=\"https://www.dropbox.com/s/it82tfhfmhg9uwp/Screenshot%202018-06-10%2010.58.52.png?dl=1\">\n\n- ๋
ผ๋ฌธ ์ ์: Sham Kakade\n- ๋
ผ๋ฌธ ๋งํฌ: [https://papers.nips.cc/paper/2073-a-natural-policy-gradient.pdf](https://papers.nips.cc/paper/2073-a-natural-policy-gradient.pdf)\n- ํจ๊ป ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ: \n\t- [Policy Gradient Methods for\nReinforcement Learning with Function\nApproximation (2000)](hhttps://papers.nips.cc/paper/1713-policy-gradient-methods-for-reinforcement-learning-with-function-approximation.pdf)\n\t- [Natural Gradient Works Efficiently in Learning(1998)](http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.452.7280&rep=rep1&type=pdf)\n- ๋
ผ๋ฌธ์ ๋ณด๋ ์ด์ : TRPO์ NPG๋ ๊ด๋ จ์ด ๋ง๊ธฐ ๋๋ฌธ์ TRPO๋ฅผ ๋ ์ ์ดํดํ๊ธฐ ์ํด ๋ด\n\n## 1. Abstract\n---\n\n- natural gradient method๋ฅผ policy gradient์ ์ ์ฉ\n- natural gradient๋ steepest descent direction์ ๊ฐ์ง\n- gradient descent๋ parameter๋ฅผ ํ ๋ฒ์ ๋ง์ด update ํ ์ ์๋ ๋ฐ๋ฉด, natural gradient๋ ๊ฐ์ฅ ์ข์ action์ ๊ณ ๋ฅด๋๋ก ํ์ต์ด ๋ (sutton ๋
ผ๋ฌธ์์์ ๊ฐ์ด compatible value function์ ์ฌ์ฉํ ๊ฒฝ์ฐ policy iteration์์ policy improvement 1 step์ ๊ณผ์ ์์)\n- simple MDP์ tetris MDP์์ ํ
์คํธํจ. ์ฑ๋ฅ์ด ๋ง์ด ํฅ์\n\n## 2. Personal Interpretation and Thinking\n(๊ฐ์ธ์๊ฐ) ๋ด๋ด๋ท์ ์ฌ์ฉํ ๊ฒฝ์ฐ gradient๊ฐ steepest direction์ด ์๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. ๋ด๋ด๋ท์ parameter space๊ฐ ์ฐ๋ฆฌ๊ฐ ๋ณดํต ์๊ฐํ๋ ์ง์ ์ผ๋ก ์ญ์ญ ๋ป์ด์๋ Euclidean space๊ฐ ์๋๋ค. ์ข ๋ ์ผ๋ฐ์ ์ผ๋ก๋ ๊ตฌ์ ํ๋ฉด๊ณผ ๊ฐ์ด ํ์ด์ ธ์๋ ๊ณต๊ฐ ์ฆ, ๋ฆฌ๋ง ๊ณต๊ฐ(Riemannian space)๋ก ํํํ ์ ์๋ค. ์ด์ ๊ฐ์ ๊ณต๊ฐ์์๋ natural gradient๊ฐ steepest direction์ด ๋๋ค๋ ์ฐ๊ตฌ๊ฐ ์ด๋ค์ง๊ณ ์์๋ค. ๊ฐํํ์ต์ policy gradient์ objective function์ gradient๋ฅผ ๋ฐ๋ผ policy๋ฅผ ์
๋ฐ์ดํธํ๋ค. ์ด ๋, policy๋ parameterized ๋๋๋ฐ ์ด ๊ฒฝ์ฐ์๋ gradient ๋์ ์ natural gradient๊ฐ ์ข๋ค๋ ๊ฒ์ ์คํํด๋ณด๋ ๋
ผ๋ฌธ์ด๋ค. \n\ngradient๊ฐ non-covariant ํด์ ์๊ธฐ๋ ๋ฌธ์ ๋ ๊ฐ๋จํ ๋งํ์๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. policy๊ฐ parameterized๋ ์ํฉ์์๋ ๊ฐ์ policy๋ผ๋ ๋ค๋ฅธ parameter๋ฅผ ๊ฐ์ง ์ ์๋ค. ์ด ๋, steepest direction์ ๋ ๊ฒฝ์ฐ์ ๊ฐ์ ๋ฐฉํฅ์ ๊ฐ๋ฆฌ์ผ์ผํ๋๋ฐ non-covariantํ ๊ฒฝ์ฐ ๊ทธ๋ ์ง ๋ชปํ๋ค. ์ด๊ฒ์ ๊ฒฐ๊ตญ ๋๋ฆฐ ํ์ต์ผ๋ก ์ฐ๊ฒฐ์ด ๋๋ค. \n\n๋
ผ๋ฌธ์์ 2์ฐจ๋ฏธ๋ถ ๋ฐฉ๋ฒ๋ก ๋ค๊ณผ ์งง๊ฒ ๋น๊ต๋ฅผ ํ๋ค. ํ์ง๋ง 2์ฐจ๋ฏธ๋ถ์ ์ด์ฉํ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค๊ณผ์ ๋น๊ต๊ฐ ์๊ฐ๋ณด๋ค ์๋ ์ ์ด ์์ฝ๋ค.(Hessian์ ์ด์ฉํ๋ค๊ฑฐ๋ conjugate gradient method๋ฅผ ์ด์ฉํ๋ค๊ฑฐ๋). ์คํ์ ํตํด FIM์ด hessian์ ์๋ ด์ํ๋ ๊ฑฐ๋ผ๋์ง Hessian ๋ฐฉ๋ฒ๋ก ์ด local maxima ๋ถ๊ทผ์์ ์๋นํ ๋๋ฆฌ๋ค๋์ง์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ์์ผ๋ฉด ์ข์์ ๊ฒ ๊ฐ๋ค. \n\n๋ํ natural gradient ๋ง์ผ๋ก ์
๋ฐ์ดํธํ๋ฉด policy์ improvement๋ณด์ฅ์ด ์๋ ์ ์๋ค. policy์ improvement๋ฅผ ๋ณด์ฅํ๊ธฐ ์ํด line search๋ ์จ์ผํ๋๋ฐ line search๋ฅผ ์ด๋ป๊ฒ ์ฐ๋์ง์ ๋ํ ์์ธํ ์ธ๊ธ์ด ์๋ค. ์ฆ, ์์ธํ algorithm ์ค๋ช
์ด ์๋ค.\n\nnatural policy gradient ๋
ผ๋ฌธ์ natural gradient + policy gradient๋ฅผ ์ฒ์ ์ ์ฉํ๋ค๋๋ฐ ์์๊ฐ ์๋ค. ํ์ง๋ง ์ด ๋
ผ๋ฌธ์ด ๋ฌธ์ ์ผ์ gradient๋ non-covariantํ๋ค๋ผ๋ ๋ฌธ์ ๋ฅผ natural gradient๋ฅผ ํตํด ํด๊ฒฐํ์ง ๋ชปํ๋ค(Experiment๋ฅผ ํตํด covariant gradient๊ฐ ๋์ง ๋ชปํ๋ค๋ ๊ฒ์ด ๋ณด์ธ๋ค). NPG์ ๋ค๋ฅผ ์๋ ๋
ผ๋ฌธ์ด \"covariant policy search\"์ \"natural actor-critic\"์์ covariantํ์ง ๋ชปํ๋ค๋ ๊ฒ์ ํด๊ฒฐํ๊ธฐ ์ํด Fisher Information Matrix๋ฅผ sample ํ๋ ํ๋์ ๋ํด์ ๊ตฌํ๋ ๊ฒ์ด ์๋๋ผ trajectory ์ ์ฒด์ ๋ํด์ ๊ตฌํ๋ค. \n\n๋ํ ๋
ผ๋ฌธ์ pg์ ๋ ๊ฐ์ง ์ธํ
์ค์ average-reward setting(infinite horizon)์์๋ง NPG๋ฅผ ๋ค๋ฃฌ๋ค. \"covariant policy search\" ๋
ผ๋ฌธ์์๋ average-reward setting๊ณผ start-state setting ๋ชจ๋์ ๋ํด์ npg๋ฅผ ์ ์ฉํ๋ค. \n\nnatural gradient + policy gradient๋ฅผ ์ฒ์ ์ ์ํ๋ค๋ ๊ฒ์ ์ข์ง๋ง npg ํ์ต์ ๊ณผ์ ์ ์์ธํ๊ฒ ์ค๋ช
ํ์ง ์์๊ณ ๋ค๋ฅธ 2์ฐจ ๋ฏธ๋ถ ๋ฐฉ๋ฒ๋ค๊ณผ ๋น๊ต๋ฅผ ๋ง์ด ํ์ง ์์ ์ ์ด ์์ฌ์ด ๋
ผ๋ฌธ์ด๋ค.\n\n\n## 3. Introduction\n---\n\n- direct policy gradient method๋ future reward์ gradient๋ฅผ ๋ฐ๋ผ policy๋ฅผ updateํจ\n- ํ์ง๋ง gradient descent๋ non-covariant\n- ์ด ๋
ผ๋ฌธ์์๋ covarient gradient๋ฅผ ์ ์ํจ = natural gradient\n- natural gradient์ policy iteration์ ์ฐ๊ด์ฑ์ ์ค๋ช
ํ๊ฒ ์: natural policy gradient is moving toward choosing a greedy optimal action (์ด๋ฐ ์ฐ๊ฒฐ์ ์ ์๋ง๋ step-size๋ฅผ ๋ ์ ๊ฒฝ์ฐ๊ณ ์ถ์ด์ ๊ทธ๋ฐ๊ฒ ์๋๊ฐ ์ถ๋ค)\n\n๋
ผ๋ฌธ์ Introduction ๋ถ๋ถ์ ๋ค์ ๋ฉํธ๊ฐ ์๋ค. ์ด ๊ธ๋ง ๋ด์๋ ์ดํด๊ฐ ์๊ฐ๋๋ฐ Mackay ๋
ผ๋ฌธ์ ์ข ๋ ์์ธํ ๋์์๋ค. \n<img src=\"https://www.dropbox.com/s/41xhhr7lgfk24a1/Screenshot%202018-06-10%2011.45.18.png?dl=1\">\n\n[Mackay](http://www.inference.org.uk/mackay/ica.pdf)๋
ผ๋ฌธ์์๋ ๋ค์๊ณผ ๊ฐ์ด ์ธ๊ธํ๊ณ ์๋ค. Back-propagation์ ์ฌ์ฉํ ๊ฒฝ์ฐ์ learning rate๋ฅผ dimension์ 1/n๋ก ์ฌ์ฉํ๋ฉด ์๋ ดํ๋ค๋ ๊ฒ์ด ์ฆ๋ช
๋๋ค. ํ์ง๋ง ๋๋ฌด ๋๋ฆฌ๋ค. \n<img src=\"https://www.dropbox.com/s/us9ezc7vxgrkez6/Screenshot%202018-06-10%2011.47.21.png?dl=1\">\n\n## 4. A Natural Gradient\n---\n### 4.1 ํ๊ฒฝ์ ๋ํ ์ค์ \n์ด ๋
ผ๋ฌธ์์ ์ ์ํ๋ ํ์ต ํ๊ฒฝ์ ๋ค์๊ณผ ๊ฐ๋ค.\n\n- MDP: tuple $$(S, s_0, A, R, P)$$\n- $$S$$: a finite set of states\n- $$s_0$$: a start state\n- $$A$$: a finite set of actions\n- $$R$$: reward function $$R: S \\times A -> [0, R_{max}]$$\n- $$\\pi(a;s, \\theta)$$: stochastic policy parameterized by $$\\theta$$\n- ๋ชจ๋ ์ ์ฑ
$$\\pi$$๋ ergodic: stationary distribution $$\\rho^{\\pi}$$์ด ์ ์ ์๋์ด์์\n- ์ด ๋
ผ๋ฌธ์์๋ sutton์ pg ๋
ผ๋ฌธ์ ๋ ์ธํ
(start-state formulation, average-reward formulation) ์ค์ ๋ ๋ฒ์งธ์ธ average-reward formulation์ ๊ฐ์ \n- performance or average reward: $$\\eta(\\pi)=\\sum_{s,a}\\rho^{\\pi}(s)\\pi(a;s)R(s,a)$$\n- state-action value: $$Q^{\\pi}(s,a)=E_{\\pi}[\\sum_{t=0}^{\\infty}R(s_t, a_t)-\\eta(\\pi)\\vert s_0=s, a_0=a]$$\n- ์ ์ฑ
์ด $$\\theta$$๋ก parameterize๋์ด์์ผ๋ฏ๋ก performance๋ $$\\eta(\\pi_{\\theta})$$์ธ๋ฐ $$\\eta(\\theta)$$๋ก ์ธ๊ฑฐ์\n\n### 4.2 Natural Gradient\n#### 4.2.1 Policy gradient Theorem\n์ํผ pg ๋
ผ๋ฌธ์ policy gradient theorem์ ๋ฐ๋ผ exact gradient of the average reward๋ ๋ค์๊ณผ ๊ฐ๋ค. ๋ค์ ์์์ด ์ด๋ป๊ฒ ์ ๋๋์๋์ง, ์ด๋ค ์๋ฏธ์ธ์ง ๋ชจ๋ฅธ๋ค๋ฉด ์ํผ pg ๋
ผ๋ฌธ์ ํตํด ์ ๋๋ก ์ดํดํ๋ ๊ฒ์ด ์ข๋ค.\n\n$$\\nabla\\eta(\\theta)=\\sum_{s,a}\\rho^{\\pi}(s)\\nabla\\pi(a;s,\\theta)Q^{\\pi}(s,a)$$\n\nsteepest descent direction of $$\\eta(\\theta)$$๋ $$\\eta(\\theta + d\\theta)$$๋ฅผ ์ต์ํํ๋ $$d\\theta$$๋ก ์ ์๋๋ค. ์ด ๋, $$\\vert d\\theta \\vert^2$$๊ฐ ์ผ์ ํฌ๊ธฐ ์ดํ์ธ ๊ฒ์ผ๋ก ์ ์ฝ์กฐ๊ฑด์ ์ค๋ค(held to small constant). Euclidian space์์๋ $$\\eta(\\theta)$$๊ฐ steepest direction์ด์ง๋ง Riemannian space์์๋ natural gradient๊ฐ steepest direction์ด๋ค. \n\n#### 4.2.2 Natural gradient ์ฆ๋ช
\nRiemannian space์์ ๊ฑฐ๋ฆฌ๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค. $$G(\\theta)$$๋ ํน์ ํ ์์๋ก ์ด๋ฃจ์ด์ง matrix์ด๋ค.\n\n$$\\vert d\\theta \\vert^2=\\sum_{ij}(\\theta)d\\theta_id\\theta_i=d\\theta^TG(\\theta)d\\theta$$\n\n์ด ์์์ Natural Gradient Works Efficiently in Learning ๋
ผ๋ฌธ์์ ์ฆ๋ช
๋์ด์๋ค. ๋ค์์ natural gradient ์ฆ๋ช
์ด๋ค. \n\nsteepest direction์ ๊ตฌํ ๋ $$\\theta$$์ ํฌ๊ธฐ๋ฅผ ์ ์ฝ์กฐ๊ฑด์ ์ค๋ค. ์ ์ฝ์กฐ๊ฑด์ ๋ค์๊ณผ ๊ฐ๋ค. \n\n$$\\vert d\\theta \\vert^2 = \\epsilon^2$$\n\n๊ทธ๋ฆฌ๊ณ steepest vector์ธ $$d\\theta$$๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ ์ ์๋ค. \n\n$$d\\theta = \\epsilon a$$\n\n$$\\vert a \\vert^2=a^TG(\\theta)a = 1$$\n\n์ด ๋, $$a$$๊ฐ steepest direction unit vector์ด ๋๋ ค๋ฉด ๋ค์ ์์์ ์ต์๋ก ๋ง๋ค์ด์ผ ํ๋ค. (์ด ์์์ ์ ๋ชจ๋ฅด๊ฒ ์ง๋ง $$\\theta$$์์์ 1์ฐจ๊ทผ์ฌ๋ฅผ ๊ฐ์ ํ๋๊ฒ ์๋๊ฐ ์ถ๋ค.\n\n$$\\eta(\\theta + d\\theta) = \\eta(\\theta) + \\epsilon\\nabla\\eta(\\theta)^Ta$$\n\n์ ์์์ด ์ ์ฝ์กฐ๊ฑด ์๋ ์ต์๊ฐ ๋๋ $$a$$๋ฅผ ๊ตฌํ๊ธฐ ์ํด Lagrangian method๋ฅผ ์ฌ์ฉํ๋ค. Lagrangian method๋ฅผ ๋ชจ๋ฅธ๋ค๋ฉด [์ํคํผ๋์](https://en.wikipedia.org/wiki/Lagrange_multiplier)๋ฅผ ์ฐธ๊ณ ํ๋ ๊ฒ์ ์ถ์ฒํ๋ค. ์ ์์์ด ์ต์๋ผ๋ ๊ฒ์ $$\\nabla\\eta(\\theta)^Ta$$๊ฐ ์ต์๋ผ๋ ๊ฒ์ด๋ค. \n\n$$\\frac{\\partial}{\\partial a_i}(\\nabla\\eta(\\theta)^Ta - \\lambda a^TG(\\theta)a)=0$$\n\n๋ฐ๋ผ์ $$(\\nabla\\eta(\\theta)^Ta - \\lambda a^TG(\\theta)a)=0$$๋ ์์์ด๋ค. ์์๋ฅผ ๋ฏธ๋ถํ๋ฉด 0์ด๋ฏ๋ก ์ด ์์ $$a$$๋ก ๋ฏธ๋ถํ๋ค. ๊ทธ๋ฌ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. steepest direction์ ๊ตฌํ ๊ฒ์ด๋ค.\n\n$$\\nabla\\eta(\\theta) = 2 \\lambda G(\\theta)a$$\n\n$$a=\\frac{1}{2\\lambda}G^{-1}\\nabla\\eta(\\theta)$$\n\n์ด ๋, ๋ค์ ์์ natural gradient๋ผ๊ณ ์ ์ํ๋ค.\n\n$$\\bar{\\nabla}\\eta(\\theta) = G^{-1}\\nabla\\eta(\\theta)$$\n\nnatural gradient๋ฅผ ์ด์ฉํ ์
๋ฐ์ดํธ๋ ๋ค์๊ณผ ๊ฐ๋ค. \n\n$$\\theta_{t+1}=\\theta_t - \\alpha_tG^{-1}\\nabla\\eta(\\theta)$$\n\n์ฌ๊ธฐ๊น์ง๋ natural gradient์ ์ฆ๋ช
์ด์๋ค. ์ด natural gradient๋ฅผ policy gradient์ ์ ์ฉํ ๊ฒ์ด natural policy gradient์ด๋ค. natural policy gradient๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.\n\n$$\\bar{\\nabla}\\eta(\\theta) = F^{-1}\\nabla\\eta(\\theta)$$\n\n$$G$$ ๋์ $$F$$๋ฅผ ์ฌ์ฉํ๋๋ฐ $$F$$๋ Fisher information matix์ด๋ค. ์์์ ๋ค์๊ณผ ๊ฐ๋ค.\n\n$$F(\\theta) = E_{\\rho^\\pi(s)}[F_s(\\theta)]$$\n\n$$F_s(\\theta)=E_{\\pi(a;s,\\theta)}[\\frac{\\partial log \\pi(a;s, \\theta)}{\\partial \\theta_i}\\frac{\\partial log \\pi(a;s, \\theta)}{\\partial\\theta_j}]$$\n\n์ G๊ฐ F๊ฐ ๋๋์ง๋ ์์ง ์ ๋ชจ๋ฅด๊ฒ ๋ค. ๊ฑฐ๋ฆฌ๋ผ๋ ๊ฐ๋
์ ํํํ๋ ค๋ฉด \n\n## 5. The Natural Gradient and Policy Iteration\n---\n### 5.1 Theorem 1\nsutton pg ๋
ผ๋ฌธ์ ๋ฐ๋ผ $$Q^{\\pi}(s,a)$$๋ฅผ approximationํ๋ค. approximateํ๋ ํจ์ $$f^{\\pi}(s,a;w)$$๋ ๋ค์๊ณผ ๊ฐ๋ค.(compatible value function)\n\n$$f^{\\pi}(s,a;w)=w^T\\psi^{\\pi}(s,a)$$\n\n$$\\psi^{\\pi}(s,a) = \\nabla log\\pi(a;s,\\theta)$$\n\n$$w$$๋ ์๋ approximateํ๋ ํจ์ $$Q$$์ $$f$$์ ์ฐจ์ด๋ฅผ ์ค์ด๋๋ก ํ์ตํ๋ค(mean square error). ์๋ ดํ local minima์ $$w$$๋ฅผ $$\\bar{w}$$๋ผ๊ณ ํ๊ฒ ๋ค. ์๋ฌ๋ ๋ค์๊ณผ ๊ฐ์ ์์์ผ๋ก ๋ํ๋ธ๋ค. \n\n$$\\epsilon(w,\\pi)\\equiv\\sum_{s, a}\\rho^{\\pi}(s)\\pi(a;s,\\theta)(f^{\\pi}(s,a;w)-Q^{\\pi}(s,a))^2$$\n\n์ ์์ด local minima์ด๋ฉด ๋ฏธ๋ถ๊ฐ์ด 0์ด๋ค. $$w$$์ ๋ํด์ ๋ฏธ๋ถํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. \n\n$$\\sum_{s, a}\\rho^{\\pi}(s)\\pi(a;s,\\theta)\\psi^{\\pi}(s,a)(\\psi^{\\pi}(s,a)^T\\bar{w}-Q^{\\pi}(s,a))=0$$\n\n$$(\\sum_{s, a}\\rho^{\\pi}(s)\\pi(a;s,\\theta)\\psi^{\\pi}(s,a)\\psi^{\\pi}(s,a)^T)\\bar{w}=\\sum_{s, a}\\rho^{\\pi}(s)\\pi(a;s,\\theta)\\psi^{\\pi}(s,a)Q^{\\pi}(s,a))$$\n\n์ด ๋, ์ ์์ ์ฐ๋ณ์ $$\\psi$$์ ์ ์์ ์ํด policy gradient๊ฐ ๋๋ค. ๋ํ ์ผ์ชฝ ํญ์์๋ Fisher information matrix๊ฐ ๋์จ๋ค.\n\n$$F(\\theta)=\\sum_{s,a}\\pi(a;s,\\theta)\\psi^{\\pi}(s,a)\\psi^{\\pi}(s,a)=E_{\\rho^\\pi(s)}[F_s(\\theta)]$$\n\n๋ฐ๋ผ์ ๋ค์๊ณผ ๊ฐ๋ค.\n\n$$F(\\theta)\\bar{w}=\\nabla\\eta(\\theta)$$\n\n$$\\bar{w}=F(\\theta)^{-1}\\nabla\\eta(\\theta)$$\n\n์ด ์์ natural gradient ์๊ณผ ๋์ผํ๋ค. ์ด ์์ policy๊ฐ update ๋ ๋, value function approximator์ parameter ๋ฐฉํฅ์ผ๋ก ์ด๋ํ๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค. function approximation์ด ์ ํํ๋ค๋ฉด ๊ทธ parameter์ natural policy gradient์ inner product๊ฐ ์ปค์ผํ๋ค. \n\n### 5.2 Theorem 2: Greedy Polict Improvement\nnatural policy gradient๊ฐ ๋จ์ํ ๋ ์ข์ ํ๋์ ๊ณ ๋ฅด๋๋ก ํ์ตํ๋๊ฒ ์๋๋ผ ๊ฐ์ฅ ์ข์ (greedy) ํ๋์ ๊ณ ๋ฅด๋๋ก ํ์ตํ๋ค๋ ๊ฒ์ ์ฆ๋ช
ํ๋ ํํธ์ด๋ค. ์ด๊ฒ์ ์ผ๋ฐ์ ์ธ ํํ์ policy์ ๋ํด์ ์ฆ๋ช
ํ๊ธฐ ์ ์ exponential ํํ์ policy์ ๋ํด์ ์ฆ๋ช
ํ๋ ๊ฒ์ด Theorem 2์ด๋ค.\n\npolicy๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ๋ค.\n\n$$\\pi(a;s,\\theta) \\propto exp(\\theta^T\\phi_{sa})$$\n\n$$\\bar{\\nabla}\\eta(\\theta)$$๊ฐ 0์ด ์๋๊ณ $$\\bar{w}$$๋ approximation error๋ฅผ ์ต์ํํ $$w$$๋ผ๊ณ ๊ฐ์ ํ๋ค. ์ด ์ํ์์ natural gradient update๋ฅผ ์๊ฐํด๋ณด์. policy gradient๋ gradient ascent์์ ๊ธฐ์ตํ์.\n\n$$\\theta_{t+1}=\\theta_t + \\alpha_t\\bar{\\nabla}\\eta(\\theta)$$\n\n์ด ๋ $$\\alpha$$๊ฐ learning rate๋ก parameter๋ฅผ ์ผ๋ง๋ ์
๋ฐ์ดํธํ๋์ง๋ฅผ ๊ฒฐ์ ํ๋ค. ์ด ๊ฐ์ ๋ฌดํ๋๋ก ๋๋ ธ์ ๋ policy๊ฐ ์ด๋ป๊ฒ ์
๋ฐ์ดํธ๋๋์ง ์๊ฐํด๋ณด์. \n\n$$\\pi_{\\infty}(a;s)=lim_{\\alpha\\rightarrow\\infty}\\pi(a;s,\\theta+\\alpha\\bar{\\nabla}\\eta(\\theta))-(1)$$\n\nfunction approximator๋ ๋ค์๊ณผ ๊ฐ๋ค. \n\n$$f^{\\pi}(s,a;w)=w^T\\psi^{\\pi}(s,a)$$\n\nTheorem 1์ ์ํด ์ ์์ ์๋์ ๊ฐ์ด ์ธ ์ ์๋ค.\n\n\n$$f^{\\pi}(s,a;w)=\\bar{\\nabla}\\eta(\\theta)^T\\psi^{\\pi}(s,a)$$\n\n$$\\theta$$์ ์ ์์ ์ํด $$\\psi$$๋ ๋ค์๊ณผ ๊ฐ๋ค.\n\n$$\\psi^{\\pi}(s,a)=\\phi_{sa}-E_{\\pi(a';s,\\theta)}[\\phi_{sa'}]$$\n\nfunction approximator๋ ๋ค์๊ณผ ๊ฐ์ด ๋ค์ ์ธ ์ ์๋ค.\n\n$$f^{\\pi}(s,a;w)=\\bar{\\nabla}\\eta(\\theta)^T(\\phi_{sa}-E_{\\pi(a';s,\\theta)}[\\phi_{sa'}])$$\n\ngreedy policy improvement๊ฐ Q function ๊ฐ ์ค ๊ฐ์ฅ ํฐ ๊ฐ์ ๊ฐ์ง๋ action์ ์ ํํ๋ฏ์ด ์ฌ๊ธฐ์๋ function approximator์ ๊ฐ์ด ๊ฐ์ฅ ํฐ action์ ์ ํํ๋ ์ํฉ์ ๊ฐ์ ํด๋ณธ๋ค. ์ด ๋ function approximator์ argmax๋ ๋ค์๊ณผ ๊ฐ์ด ์ธ ์ ์๋ค.\n\n$$argmax_{a'}f^{\\pi}(s,a)=argmax_{a'}\\bar{\\nabla}\\eta(\\theta)^T\\phi_{sa'}$$\n\n(1) ์์ ๋ค์ ์ดํด๋ณด์. policy์ ์ ์์ ๋ฐ๋ผ ๋ค์๊ณผ ๊ฐ์ด ์ธ ์ ์๋ค. \n\n$$\\pi(a;s,\\theta + \\alpha\\bar{\\nabla}\\eta(\\theta)) \\propto exp(\\theta^T\\phi_{sa} + \\alpha\\bar{\\nabla}\\eta(\\theta)^T\\phi_{sa})$$\n\n$$\\bar{\\nabla}\\eta(\\theta) \\neq 0$$์ด๊ณ $$\\alpha\\rightarrow\\infty$$์ด๋ฉด exp์์ ํญ ์ค์์ ๋ค์ ํญ์ด dominateํ๊ฒ ๋๋ค. ์ฌ๋ฌ ํ๋ ์ค์ $$\\bar{\\nabla}\\eta(\\theta)^T\\phi_{sa}$$๊ฐ ๊ฐ์ฅ ํฐ ํ๋์ด ์๋ค๋ฉด ์ด ํ๋์ policy probability๊ฐ 1์ด ๋๊ณ ๋๋จธ์ง๋ 0์ด ๋๋ค. ๋ฐ๋ผ์ ๋ค์์ด ์ฑ๋ฆฝํ๋ค.\n\n$$\\pi_{\\infty}=0$$ \n\nif and only if \n\n$$a \\notin argmax_{a'}\\bar{\\nabla}\\eta(\\theta)^T\\phi_{sa'}$$\n\n์ด ๊ฒฐ๊ณผ๋ก๋ถํฐ natural policy gradient๋ ๋จ์ง ๋ ์ข์ action์ด ์๋๋ผ best action์ ๊ณ ๋ฅด๋๋ก ํ์ต์ด ๋๋ค. ํ์ง๋ง non-covariant gradient(1์ฐจ๋ฏธ๋ถ) ์์๋ ๊ทธ์ ๋ ์ข์ action์ ๊ณ ๋ฅด๋๋ก ํ์ต์ด ๋๋ค. ํ์ง๋ง ์ด natural policy gradient์ ๋ํ ๊ฒฐ๊ณผ๋ infinite learning rate ์ธํ
์์๋ง ์ฑ๋ฆฝํจ. ์ข ๋ ์ผ๋ฐ์ ์ธ ๊ฒฝ์ฐ์ ๋ํด์ ์ดํด๋ณด์.\n\n#### 4.3 Theorem 3 \nTheorem 2์์์๋ ๋ฌ๋ฆฌ ์ผ๋ฐ์ ์ธ policy๋ฅผ ๊ฐ์ ํ์(general parameterized policy). Theorem 3๋ ์ด ์ํฉ์์ natural gradient๋ฅผ ํตํ ์
๋ฐ์ดํธ๊ฐ best action๋ฅผ ๊ณ ๋ฅด๋ ๋ฐฉํฅ์ผ๋ก ํ์ต์ด ๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. \n\nnatural gradien์ ๋ฐ๋ฅธ policy parameter์ ์
๋ฐ์ดํธ๋ ๋ค์๊ณผ ๊ฐ๋ค. $$\\bar{w}$$๋ approximation error๋ฅผ minimizeํ๋ $$w$$์ด๋ค.\n\n$$\\delta\\theta = \\theta' - \\theta = \\alpha\\bar{\\nabla}\\eta(\\theta)=\\alpha\\bar{w}$$\n\npolicy์ ๋ํด์ 1์ฐจ๊ทผ์ฌ๋ฅผ ํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. \n\n$$\\pi(a;s,\\theta')=\\pi(a;s,\\theta)+\\frac{\\partial\\pi(a;s,\\theta)^T}{\\partial\\theta}\\delta\\theta + O(\\delta\\theta^2)$$\n\n$$=\\pi(a;s,\\theta)(1+\\psi(s,a)^T\\delta\\theta) + O(\\delta\\theta^2)$$\n\n$$=\\pi(a;s,\\theta)(1+\\alpha\\psi(s,a)^T\\bar{w}) + O(\\delta\\theta^2)$$\n\n$$=\\pi(a;s,\\theta)(1+\\alpha f^{\\pi}(s,a;\\bar{w}) + O(\\delta\\theta^2)$$\n\npolicy ์์ฒด๊ฐ function approximator์ ํฌ๊ธฐ๋๋ก ์
๋ฐ์ดํธ๊ฐ ๋๋ฏ๋ก localํ๊ฒ best action์ probability๋ ์ปค์ง๊ณ ๋ค๋ฅธ probability์ ํฌ๊ธฐ๋ ์์์ง ๊ฒ์ด๋ค. ํ์ง๋ง ๋ง์ฝ greedy improvement๊ฐ ๋๋คํ๋๋ผ๋ ๊ทธ๊ฒ performance์ improvement๋ฅผ ๋ณด์ฅํ๋ ๊ฒ์ ์๋๋ค. ํ์ง๋ง line search์ ํจ๊ป ์ฌ์ฉํ ๊ฒฝ์ฐ improvement๋ฅผ ๋ณด์ฅํ ์ ์๋ค. \n\n## 6. Metrics and Curvatures\n---\n๋ค์ ์์ ํด๋นํ๋ G๋ Fisher Information Matrix๋ง ์ฌ์ฉํ ์ ์๋ ๊ฒ์ด ์๋๋ค.\n\n$$\\vert d\\theta \\vert^2=\\sum_{ij}(\\theta)d\\theta_id\\theta_i=d\\theta^TG(\\theta)d\\theta$$\n\n์ด ํํธ์์๋ FIM๊ณผ ๋ค๋ฅธ metric ์ฌ์ด์ ๊ด๊ณ๋ฅผ ๋ค๋ฃฌ๋ค. \n\n- In the different setting of parameter estimation, the Fisher information converges to the ```Hessian```, so it is [asymptotically efficient](https://en.wikipedia.org/wiki/Efficiency_(statistics)#Asymptotic_efficiency)\n- ์ด ๋
ผ๋ฌธ์ ๊ฒฝ์ฐ, ์๋ง๋ฆฌ ๋
ผ๋ฌธ์ 'blind separation case'์ ์ ์ฌํ๋ฐ ์ด ๋๋ ๊ผญ asymtotically efficientํ์ง ์๋ค. ์ด ๋ง์ ์ฆ 2nd order ์๋ ด์ด ๋ณด์ฅ๋์ง ์๋๋ค๋ ๊ฒ์ด๋ค.\n- [Mackay](http://www.inference.org.uk/mackay/ica.pdf) ๋
ผ๋ฌธ์์ hessian์์ data independantํ term์ metric์ผ๋ก ๊ฐ์ ธ์ค๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ๊ทธ๋์ performance๋ฅผ 2๋ฒ ๋ฏธ๋ถํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. ํ์ง๋ง ๋ค์ ์์์๋ ๋ชจ๋ ํญ์ด data dependentํ๋ค(Q๊ฐ ์์ผ๋๊น). ์ฒซ ๋ฒ์งธ ํญ์ด ๊ทธ๋๋ง FIM๊ณผ์ ๊ด๋ จ์ฑ์ด ์์ ์ ์์ง๋ง Q ๊ฐ์ด curvature์ weight๋ฅผ ์ฃผ๋ ๋ฐฉ์ ๋๋ฌธ์ ๋ค๋ฅด๋ค๊ณ ํ ์ ์๋ค.\n\n$$\n\\nabla^2\\eta(\\theta)=\\sum_{sa}\\rho^{\\pi}(s)(\\nabla^2\\pi(a;s)Q^{\\pi}(s,a)+\\nabla\\pi(a;s)\\nabla Q^{\\pi}(s,a)^T+\\nabla Q^{\\pi}(s,a)\\nabla\\pi(a;s)^T)\n$$\n\n\n- hessian์ ๋ณดํต positive definite๊ฐ ์๋์๋ ์๋ค. ๋ฐ๋ผ์ local maxima๊ฐ ๋ ๋๊น์ง Hessian์ด ์ฌ์ฉํ๊ธฐ ๋ณ๋ก ์์ข๋ค. ๊ทธ๋ฆฌ๊ณ local maxima์์๋ Hessian๋ณด๋ค๋ Conjugate methods๊ฐ ๋ ํจ์จ์ ์ด๋ค. \n\n์ด ํํธ์์๋ ๋ฌด์์ ๋งํ๊ณ ์๋์ง ์๊ธฐ๊ฐ ์ด๋ ต๋ค. FIM๊ณผ Hessian์ด ๊ด๋ จ์ด ์๋ค๋ ๊ฒ์ ์๊ฒ ๋ค. ํ์ง๋ง asymtotically efficient์ ๊ฐ์ ๋ด์ฉ์ ๋ชจ๋ฅด๋ฏ๋ก ๋ด์ฉ์ ์ดํด๊ฐ ์ด๋ ค์ ๋ค.\n\nMackay ๋
ผ๋ฌธ์์ ํด๋น ๋ถ๋ถ์ ๋ค์๊ณผ ๊ฐ๋ค. \n\n<img src=\"https://www.dropbox.com/s/x4n6z6pdyi7xtb9/Screenshot%202018-06-10%2012.04.13.png?dl=1\">\n\n## 7. Experiment\n---\n๋
ผ๋ฌธ์์๋ natural gradient๋ฅผ simple MDP์ tetris MDP์ ๋ํด์ ํ
์คํธํ๋ค. practice์์๋ Fisher information matrix๋ ๋ค์๊ณผ ๊ฐ์ ์์ผ๋ก ์
๋ฐ์ดํธํ๋ค.\n\n$$f\\leftarrow f+\\nabla log \\pi(a_t; s_t, \\theta)\\nabla log \\pi(a_t; s_t, \\theta)^T$$\n\nT length trajectory์ ๋ํด์ f/T๋ฅผ ํตํด F์ estimate๋ฅผ ๊ตฌํ๋ค.\n\n### 7.1 Linear Quadratic regulator\n์์ด์ ํธ๋ฅผ ํ
์คํธํ ํ๊ฒฝ์ ๋ค์๊ณผ ๊ฐ์ dynamics๋ฅผ ๊ฐ์ง๊ณ ์๋ค. $$u(t)$$๋ control signal๋ก์ ์์ด์ ํธ์ ํ๋์ด๋ผ๊ณ ์๊ฐํ๋ฉด ๋๋ค. $$\\epsilon$$์ noise distribution์ผ๋ก ํ๊ฒฝ์ ๊ฐํด์ง๋ ๋
ธ์ด์ฆ์ด๋ค. ์์ด์ ํธ์ ๋ชฉํ๋ ์ ์ ํ $$u(t)$$๋ฅผ ํตํด \nx(t)๋ฅผ 0์ผ๋ก ์ ์งํ๋ ๊ฒ์ด๋ค. ์ ์ด๋ถ์ผ์์์ LQR controller ๋ฌธ์ ์ด๋ค.\n\n$$\nx(t+1) = 0.7x(t)+u(t)+\\epsilon(t)\n$$\n\nx(t)๋ฅผ 0์ผ๋ก ์ ์งํ๊ธฐ ์ํด์ $$x(t)^2$$๋ฅผ cost๋ก ์ก๊ณ ์ด cost๋ฅผ ์ต์ํํ๋๋ก ํ์ตํ๋ค. ์ด ์์คํ
์ linear๋ผ๊ณ ๋ถ๋ฅด๋ ๊ฒ์ ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ์ ํ์ ํํ๋ฅผ ๋๊ธฐ ๋๋ฌธ์ด๋ค. ์ด ๋
ผ๋ฌธ์์ ์คํํ ๋๋ ์ด ๊ทธ๋ฆผ์์์ system์ noise๋ฅผ ๋ํด์ค ๊ฒ์ด๋ค. [๊ทธ๋ฆผ ์ถ์ฒ](https://stanford.edu/class/ee363/lectures/dlqr.pdf)\n\n<img src='https://www.dropbox.com/s/vz0q97lcek4oti5/Screenshot%202018-06-08%2014.21.10.png?dl=1'>\n\n์ด ์คํ์์ ์ฌ์ฉํ parameterized policy๋ ๋ค์๊ณผ ๊ฐ๋ค. parameter๊ฐ $$\\theta_1$$๊ณผ $$\\theta_2$$ ๋ฐ์ ์๋ ์๋นํ ๊ฐ๋จํ policy์ด๋ค. \n\n$$\n\\pi(u;x,\\theta) \\propto exp(\\theta_1 s_1 x^2 + \\theta_2 s_2 x)\n$$\n\n์ด policy๋ฅผ ๊ฐ๋จํ numpy์ matplotlib๋ฅผ ์ด์ฉํด์ ๊ทธ๋ ค๋ดค๋ค. $$\\theta_1$$๊ณผ $$theta_2$$๋ฅผ (0.5, 0.5), (1, 0), (0, 1)๋ก ํ๊ณ $$s_1$$๊ณผ $$s_2$$๋ 1๋ก ๋์๋ค. x๋ -1์์ 1๊น์ง์ ๋ฒ์๋ก ๊ทธ๋ ธ๋ค. x๋ฅผ 0์ผ๋ก ์ ์งํ๋ ค๋ฉด u(t)๊ฐ -์ +๊ฐ ๋ ๋ค ๊ฐ๋ฅํด์ผํ ๊ฒ ๊ฐ์๋ฐ ์ ์์ผ๋ก๋ง ๋ด์๋ action์ด ํ๋์ด๊ณ ๊ทธ action์ผ ํ๋ฅ ์ ํ์ํ๋ ๊ฒ์ฒ๋ผ ๋์๋ค. ์๋ง -1๊ณผ +1์ด u(t)๊ฐ ๋ ์ ์๋๋ฐ ๊ทธ ์ค +1์ ์ ํํ ํ๋ฅ ์ด ์์ ๊ฐ์ด ๋๋๊ฒ ์๋๊ฐ ์ถ๋ค.\n<center><img src='https://www.dropbox.com/s/v69qyrwn7zurk8c/Screenshot%202018-06-08%2014.57.07.png?dl=1' width='500px'></center>\n\n๋ค์ ๊ทธ๋ฆผ์ 1-d LQR์ ํ์ตํ ๊ทธ๋ํ์ด๋ค. cost๊ฐ $$x^2$$์ด๊ธฐ ๋๋ฌธ์ cost๊ฐ 0์ผ๋ก ๊ฐ์๋ก agent๋ 0์์ ์์ ์ ์ผ๋ก ๋จธ๋ฌด๋ฅธ๋ค๊ณ ๋ณผ ์ ์๋ค. 6๊ฐ์ ์ ์ค์์ ์ค๋ฅธ์ชฝ ์ธ ๊ฐ๊ฐ ์ผ๋ฐ์ ์ธ gradient ๋ฐฉ๋ฒ์ ์ฌ์ฉํด์ ํ์ตํ ๊ฒฐ๊ณผ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ์ผ์ชฝ์ ์ธ ๊ฐ์ ์ ์ด natural policy gradient๋ฅผ ํตํด ํ์ตํ ํ์ต ๊ณก์ ์ด๋ค. ์ผ๋ฐ gradient ๋ฐฉ๋ฒ๋ณด๋ค natural gradient๊ฐ ํจ์ฌ ๋น ๋ฅด๊ฒ ํ์ตํ๋ค(time ์ถ์ด log scale์ธ ๊ฒ์ ๊ฐ์ํ์).\n\nํ์ง๋ง ๋ฌธ์ ๊ฐ ์๋ค. npg๋ฅผ ํ์ตํ ์ธ ๊ฐ์ ๊ณก์ ์ $$\\theta$$๋ฅผ rescale ํ ๊ฒ์ด๋ค. $$\\theta$$์์ ๊ณฑํด์ง๋ ์ซ์์ ๋ฐ๋ผ ํ์ต์ ๊ณผ์ ์ด ๋ค๋ฅด๋ค. ์ด ๊ฒ์ coordinate์ ๋ฐ๋ผ steepest gradient๊ฐ ๋ค๋ฅด๊ฒ ์ธก์ ๋๋ค๋ ๊ฒ์ด๋ค. ์ฆ, covariant gradient๊ฐ ์๋๋ผ๋ ๋ป์ด๋ค. ์ด ๋
ผ๋ฌธ์์๋ natural gradient๋ฅผ ํตํด gradient๊ฐ covariantํ๋๋ก ๋ง๋ค๊ณ ์ถ์๋๋ฐ ์คํจํ ๊ฒ์ด๋ค. \n\n\n<center><img src=\"https://www.dropbox.com/s/fhn8cgje0rdws0i/Screenshot%202018-06-08%2023.13.37.png?dl=1\" width=\"300px\"></center>\n\nnatural gradient๊ฐ covariantํ์ง ์์ ์ด์ ๋ Fisher Information Matrix๊ฐ ์์ํ๋ ๋ฐ์๋ ๋ฌ๋ฆฌ invariant metric์ด ์๋๊ธฐ ๋๋ฌธ์ด๋ค. ๋ํ FIM์ด invariant metric์ด ์๋ ์ด์ ๋ FIM์ ๊ณ์ฐํ ๋ $$\\rho_s$$๊ฐ ๊ณฑํด์ง๊ธฐ ๋๋ฌธ์ด๋ค(state distribution์ ๋ํ expectation. $$\\rho_s$$๊ฐ ๊ณฑํด์ง๋ ๊ฒ์ด invariant์ ๋ฏธ์น๋ ์ํฅ์ด ๋ฌด์์ธ์ง๋ ๋ชจ๋ฅด๊ฒ ๋ค). ํ์ง๋ง ์ฌ์ ํ ์์๊ฐ ์๋ ๊ฒ์ ๊ธฐ์กด gradient ๋ฐฉ๋ฒ๋ค๋ณด๋ค ํจ์ฌ ๋น ๋ฅด๊ฒ ํ์ตํ๋ค๋ ๊ฒ์ด๋ค.\n\n### 7.2 simple 2-state MDP\n์ด์ ๋ค๋ฅธ ์์ ์์ NPG๋ฅผ ํ
์คํธํ๋ค. 2๊ฐ์ state๋ง ๊ฐ์ง๋ MDP๋ฅผ ๊ณ ๋ คํด๋ณด์. [๊ทธ๋ฆผ์ถ์ฒ](http://repository.cmu.edu/cgi/viewcontent.cgi?article=1080&context=robotics). ๊ทธ๋ฆผ์ผ๋ก๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. x=0 ์ํ์ x=1 ์ํ ๋ ๊ฐ๊ฐ ์กด์ฌํ๋ค. ์์ด์ ํธ๋ ๊ฐ ์ํ์์ ๋ค์ ์์ ์ ์ํ๋ก ๋๋์์ค๋ ํ๋์ ํ๊ฑฐ๋ ๋ค๋ฅธ ์ํ๋ก ๊ฐ๋ ํ๋์ ํ ์ ์๋ค. ์ํ x=0์์ ๋ค์ ์๊ธฐ ์์ ์ผ๋ก ๋์์ค๋ฉด 1์ ๋ณด์์ ๋ฐ๊ณ ์ํ x=1์์ ์๊ธฐ ์์ ์ผ๋ก ๋์์ค๋ฉด 2์ ๋ณด์์ ๋ฐ๋๋ค. ๋ฐ๋ผ์ ๊ฒฐ๊ตญ optimal policy๋ ์ํ x=1์์ ๊ณ์ ์๊ธฐ ์์ ์ผ๋ก ๋์์ค๋ ํ๋์ ์ทจํ๋ ๊ฒ์ด๋ค. \n\n<img src=\"https://www.dropbox.com/s/g1x9yknzsrip59i/Screenshot%202018-06-08%2023.06.50.png?dl=1\">\n\n๋ฌธ์ ๋ฅผ ์ข ์ด๋ ต๊ฒ ๋ง๋ค๊ธฐ ์ํด state distribution์ ๋ค์๊ณผ ๊ฐ์ด ์ค์ ํ๋ค. ์ฆ, ๋๋ถ๋ถ์ ๊ฒฝ์ฐ์ ์ํ x=0์์ ์์ด์ ํธ๊ฐ ์์ํ๋ ๊ฒ์ด๋ค. \n\n$$\n\\rho(x=0)=0.8, \\rho(x=1)=0.2\n$$\n\n์ผ๋ฐ์ ์ธ gradient ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ฉด ๋ค์๊ณผ ๊ฐ์ policy gradient ์์ ๋ฐ๋ผ์ ์
๋ฐ์ดํธ๋ฅผ ํ๊ฒ ๋๋ค. ์ด ๋, $$\\rho(s)$$๊ฐ gradient์ ๊ณฑํด์ง๋ฏ๋ก ์ํ์ ์ผ๋ก ์ํ 0์์์ gradient ๊ฐ์ด ์ปค์ง๊ฒ ๋๋ค. ๋ฐ๋ผ์ ์์ด์ ํธ๋ ์ํ 0์์์ gradient(์ํ 0์์ ์ค์ค๋ก์๊ฒ ๋์์ค๋ ํ๋์ ์ทจํ๋๋ก ์ ์ฑ
์ ์
๋ฐ์ดํธํ๋ gradient)๋ฅผ ๋ฐ๋ผ parameterized policy๋ฅผ updateํ๋ค. ๋ฐ๋ผ์ ์๋ ๊ทธ๋ฆผ์ ์ฒซ๋ฒ์งธ ๊ทธ๋ฆผ์์์ฒ๋ผ Reward๊ฐ 1์์ ์ค๋ ์๊ฐ๋์ ๋จธ๋ฌด๋ฅธ๋ค. ์ฆ, ์์ด์ ํธ๊ฐ ์ํ 0์์ self-loop๋ฅผ ๊ณ์ ๋๊ณ ์๋ค๋ ๊ฒ์ด๋ค. $$\\rho(x=0)$$๊ฐ $$10^{-7}$$๊น์ง ๋จ์ด์ง๋ค.\n\n$$\\nabla\\eta(\\theta)=\\sum_{s,a}\\rho^{\\pi}(s)\\nabla\\pi(a;s,\\theta)Q^{\\pi}(s,a)$$\n\n<center><img src=\"https://www.dropbox.com/s/xtb77mfazbppnss/Screenshot%202018-06-08%2023.14.24.png?dl=1\" width=\"300px\"></center>\n\nํ์ง๋ง NPG๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ์๋ ํจ์ฌ ๋น ๋ฅด๊ฒ average reward๊ฐ 2์ ๋๋ฌํ๋ค. gradient ๋ฐฉ๋ฒ์ด $$1.7X10^(7)$$์ ๋์ ์๊ฐ๋ง์ 2์ ๋๋ฌํ ๋ฐ๋ฉด NPG๋ 2๋ง์ ๋๋ฌํ๋ค. ๋ํ $$\\rho(x=0)$$๊ฐ $$10^{-5}$$์ดํ๋ก ๋จ์ด์ง์ง ์๋๋ค.\n\nํ ๊ฐ์ง ๊ทธ๋ํ๋ฅผ ๋ ์ดํด๋ณด์. ๋ค์ ๊ทธ๋ํ๋ parameter $$\\theta$$๊ฐ ์
๋ฐ์ดํธ ๋๋ ๊ณผ์ ์ ๋ณด์ฌ์ค๋ค. ์ด ๊ทธ๋ํ์์๋ parameter๊ฐ 2๊ฐ ์๋ ๊ฒ์ด๋ค. ์ผ๋ฐ์ ์ธ gradient๊ฐ ์๋ ๊ทธ๋ํ์์ ์ค์ ์ ํด๋นํ๋ค. ์ด ์ค์ ์ ๊ทธ๋ํ๋ ๋ณด๋ฉด ์ฒ์๋ถํฐ ์ค๋ฐ๊น์ง $$\\theta_i$$๋ง ๊ฑฐ์ ์
๋ฐ์ดํธํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค. ๊ทธ์ ๋นํด NPG๋ ๋ ๊ฐ์ parameter๋ฅผ ๊ท ๋ฑํ๊ฒ ์
๋ฐ์ดํธํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค. \n\n<center><img src=\"https://www.dropbox.com/s/g7pazozw2k6rd7x/Screenshot%202018-06-08%2023.23.25.png?dl=1\" width=\"300px\"></center>\n\npolicy๊ฐ $$\\pi(a;s,\\theta)\\propto exp(\\theta_{sa})$$์ผ ๋, ๋ค์๊ณผ ๊ฐ์ด $$F_{-1}$$์ด gradient ์์ weight๋ก ๊ณฑํด์ง๋๋ฐ ์ด๊ฒ $$\\rho$$์๋ ๋ฌ๋ฆฌ ๊ฐ parameter์ ๋ํด ๊ท ๋ฑํ๋ค. ๋ฐ๋ผ์ ์ ๊ทธ๋ํ์์์ ๊ฐ์ด ๊ฐ parameter๋ ๋น์ทํ ๋น์จ๋ก ์
๋ฐ์ดํธ๊ฐ ๋๋ ๊ฒ์ด๋ค.\n\n$$\\bar{\\nabla}\\eta(\\theta) = F^{-1}\\nabla\\eta(\\theta)$$\n\n### 7.3 Tetris\nNPG๋ฅผ ํ
์คํธํ tetris ์์ ๋ Neuro Dynamic Programming ์ฑ
์ ์๊ฐ๋์ด์๋ค. ๋ค์ ๊ทธ๋ฆผ์ tetris ์์ ๋ฅผ ๋ณด์ฌ์ค๋ค. ๋ณดํต ๊ทธ๋ฆผ์์์ ๊ฐ์ด state์ feature๋ฅผ ์ ํด์ค๋ค. [๊ทธ๋ฆผ ์ถ์ฒ](http://slideplayer.com/slide/5215520/)\n\n<img src=\"https://www.dropbox.com/s/y1halso9yermy8s/Screenshot%202018-06-08%2023.44.34.png?dl=1\">\n\n์ด ์์ ์์๋ exponantial family๋ก policy๋ฅผ ํํํ๋ค. $$\\pi(a;s,\\theta) \\propto exp(\\theta^T\\phi_{sa})$$ ๋ก ํํํ๋ค.\n\ntetris๋ linear function approximator์ greedy policy iteration์ ์ฌ์ฉํ ๊ฒฝ์ฐ performance๊ฐ ๊ฐ์๊ธฐ ๋จ์ด์ง๋ ํ์์ด ์๋ค. ๋ฐ์ ๊ทธ๋ฆผ์์ A์ spike๊ฐ ์๋ ๊ทธ๋ํ๊ฐ ์ด ๊ฒฝ์ฐ์ด๋ค. ๊ทธ ๋ฐ์ ๋ฎ๊ฒ ๋์์๋ ๊ทธ๋ํ๋ ์ผ๋ฐ์ ์ธ policy gradient ๋ฐฉ๋ฒ์ด๋ค. ํ์ง๋ง Natural policy gradient๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ B ๊ทธ๋ฆผ์์ ์ค๋ฅธ์ชฝ ๊ทธ๋ํ์ ๊ฐ์ด ์ฑ๋ฅ๊ฐ์ ์ด ๋๋ ทํ๋ค. Policy Iteration ์ฒ๋ผ ์ฑ๋ฅ์ด ๋ ๋จ์ด์ง์ง ์๊ณ ์์ ์ ์ผ๋ก ์ ์งํ๋ค. ๋ํ ๊ทธ๋ฆผ C์์ ๋ณด๋ ๊ฒ์ฒ๋ผ ์ค๋ฅธ์ชฝ ๊ทธ๋ํ์ธ ์ผ๋ฐ์ ์ธ gradient ๋ฐฉ๋ฒ๋ณด๋ค ํจ์ฌ ๋น ๋ฅด๊ฒ ํ์ตํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค.\n\n<img src=\"https://www.dropbox.com/s/pr6s2qrqaic0wyj/Screenshot%202018-06-08%2023.40.16.png?dl=1\">\n\n\n## 8. Discussion\n---\n\n- natural gradient method๋ policy iteration์์์ ๊ฐ์ด greedy action์ ์ ํํ๋๋ก ํ์ต๋\n- line search์ ํจ๊ป ์ฐ๋ฉด natural gradient method๋ ๋ policy iteration ๊ฐ์์ง\n- greedy policy iteration์์์๋ ๋ฌ๋ฆฌ performance improvement๊ฐ ๋ณด์ฅ๋\n- ํ์ง๋ง F(Fisher information matrix)๊ฐ asymtotically Hessian์ผ๋ก ์๋ ดํ์ง ์์. asymtotically conjugate gradient method(Hessian์ inverse๋ฅผ approx.๋ก ๊ตฌํ๋ ๋ฐฉ๋ฒ)๊ฐ ๋ ์ข์ ๋ณด์ผ ์ ์์\n- ํ์ง๋ง Hessian์ด ํญ์ informativeํ์ง ์๊ณ (hessian์ด ์ด๋ค ์ ๋ณด๋ฅผ ์ฃผ๋ ค๋ฉด positive definite์ ๊ฐ์ ์ฑ์ง์ ๊ฐ์ ธ์ ํด๋น ํจ์๊ฐ convex์ธ ๊ฒ์ ์ ์ ์๋ค๋ ์ง์ ๊ฒฝ์ฐ๋ฅผ ์ด์ผ๊ธฐํ๋๋ฐ hessian์ด ํญ์ positive definite๊ฐ ์๋ ์ ์๋ค๋ ๊ฒ์ด๋ค) tetris์์ ๋ดค๋ฏ์ด natural gradient method๊ฐ ๋ ํจ์จ์ ์ผ ์ ์์(pushing the policy toward choosing greedy optimal actions)\n- conjugate gradient method๊ฐ ์ข ๋ maximum์ ๋น ๋ฅด๊ฒ ์๋ ดํ์ง๋ง, performance๋ maximum์์ ๊ฑฐ์ ์๋ณํ๋ฏ๋ก ์ข๋ค๊ณ ๋งํ๊ธฐ ์ด๋ ค์(?). ์ด ๋ถ๋ถ์ ๋ํด์ ์ถ๊ฐ์ ์ธ ์ฐ๊ตฌ ํ์.\n\namet, consectetur adipisicing elit. Vitae ipsum, voluptatem quis officiis inventore dolor totam deserunt, possimus similique eum, accusantium adipisci doloremque omnis excepturi quasi, suscipit repellendus quibusdam? Veritatis.","slug":"2018-06-15-npg","published":1,"updated":"2018-06-14T15:44:58.316Z","_id":"cjieprvwi0000lu8atkpbre1x","comments":1,"layout":"post","photos":[],"link":"","content":"<h1 id=\"A-Natural-Policy-Gradient-2001\"><a href=\"#A-Natural-Policy-Gradient-2001\" class=\"headerlink\" title=\"A Natural Policy Gradient [2001]\"></a>A Natural Policy Gradient [2001]</h1><p><img src=\"https://www.dropbox.com/s/it82tfhfmhg9uwp/Screenshot%202018-06-10%2010.58.52.png?dl=1\"></p>\n<ul>\n<li>๋
ผ๋ฌธ ์ ์: Sham Kakade</li>\n<li>๋
ผ๋ฌธ ๋งํฌ: <a href=\"https://papers.nips.cc/paper/2073-a-natural-policy-gradient.pdf\" target=\"_blank\" rel=\"noopener\">https://papers.nips.cc/paper/2073-a-natural-policy-gradient.pdf</a></li>\n<li>ํจ๊ป ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ: <ul>\n<li><a href=\"hhttps://papers.nips.cc/paper/1713-policy-gradient-methods-for-reinforcement-learning-with-function-approximation.pdf\" target=\"_blank\" rel=\"noopener\">Policy Gradient Methods for<br>Reinforcement Learning with Function<br>Approximation (2000)</a></li>\n<li><a href=\"http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.452.7280&rep=rep1&type=pdf\" target=\"_blank\" rel=\"noopener\">Natural Gradient Works Efficiently in Learning(1998)</a></li>\n</ul>\n</li>\n<li>๋
ผ๋ฌธ์ ๋ณด๋ ์ด์ : TRPO์ NPG๋ ๊ด๋ จ์ด ๋ง๊ธฐ ๋๋ฌธ์ TRPO๋ฅผ ๋ ์ ์ดํดํ๊ธฐ ์ํด ๋ด</li>\n</ul>\n<h2 id=\"1-Abstract\"><a href=\"#1-Abstract\" class=\"headerlink\" title=\"1. Abstract\"></a>1. Abstract</h2><hr>\n<ul>\n<li>natural gradient method๋ฅผ policy gradient์ ์ ์ฉ</li>\n<li>natural gradient๋ steepest descent direction์ ๊ฐ์ง</li>\n<li>gradient descent๋ parameter๋ฅผ ํ ๋ฒ์ ๋ง์ด update ํ ์ ์๋ ๋ฐ๋ฉด, natural gradient๋ ๊ฐ์ฅ ์ข์ action์ ๊ณ ๋ฅด๋๋ก ํ์ต์ด ๋ (sutton ๋
ผ๋ฌธ์์์ ๊ฐ์ด compatible value function์ ์ฌ์ฉํ ๊ฒฝ์ฐ policy iteration์์ policy improvement 1 step์ ๊ณผ์ ์์)</li>\n<li>simple MDP์ tetris MDP์์ ํ
์คํธํจ. ์ฑ๋ฅ์ด ๋ง์ด ํฅ์</li>\n</ul>\n<h2 id=\"2-Personal-Interpretation-and-Thinking\"><a href=\"#2-Personal-Interpretation-and-Thinking\" class=\"headerlink\" title=\"2. Personal Interpretation and Thinking\"></a>2. Personal Interpretation and Thinking</h2><p>(๊ฐ์ธ์๊ฐ) ๋ด๋ด๋ท์ ์ฌ์ฉํ ๊ฒฝ์ฐ gradient๊ฐ steepest direction์ด ์๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. ๋ด๋ด๋ท์ parameter space๊ฐ ์ฐ๋ฆฌ๊ฐ ๋ณดํต ์๊ฐํ๋ ์ง์ ์ผ๋ก ์ญ์ญ ๋ป์ด์๋ Euclidean space๊ฐ ์๋๋ค. ์ข ๋ ์ผ๋ฐ์ ์ผ๋ก๋ ๊ตฌ์ ํ๋ฉด๊ณผ ๊ฐ์ด ํ์ด์ ธ์๋ ๊ณต๊ฐ ์ฆ, ๋ฆฌ๋ง ๊ณต๊ฐ(Riemannian space)๋ก ํํํ ์ ์๋ค. ์ด์ ๊ฐ์ ๊ณต๊ฐ์์๋ natural gradient๊ฐ steepest direction์ด ๋๋ค๋ ์ฐ๊ตฌ๊ฐ ์ด๋ค์ง๊ณ ์์๋ค. ๊ฐํํ์ต์ policy gradient์ objective function์ gradient๋ฅผ ๋ฐ๋ผ policy๋ฅผ ์
๋ฐ์ดํธํ๋ค. ์ด ๋, policy๋ parameterized ๋๋๋ฐ ์ด ๊ฒฝ์ฐ์๋ gradient ๋์ ์ natural gradient๊ฐ ์ข๋ค๋ ๊ฒ์ ์คํํด๋ณด๋ ๋
ผ๋ฌธ์ด๋ค. </p>\n<p>gradient๊ฐ non-covariant ํด์ ์๊ธฐ๋ ๋ฌธ์ ๋ ๊ฐ๋จํ ๋งํ์๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. policy๊ฐ parameterized๋ ์ํฉ์์๋ ๊ฐ์ policy๋ผ๋ ๋ค๋ฅธ parameter๋ฅผ ๊ฐ์ง ์ ์๋ค. ์ด ๋, steepest direction์ ๋ ๊ฒฝ์ฐ์ ๊ฐ์ ๋ฐฉํฅ์ ๊ฐ๋ฆฌ์ผ์ผํ๋๋ฐ non-covariantํ ๊ฒฝ์ฐ ๊ทธ๋ ์ง ๋ชปํ๋ค. ์ด๊ฒ์ ๊ฒฐ๊ตญ ๋๋ฆฐ ํ์ต์ผ๋ก ์ฐ๊ฒฐ์ด ๋๋ค. </p>\n<p>๋
ผ๋ฌธ์์ 2์ฐจ๋ฏธ๋ถ ๋ฐฉ๋ฒ๋ก ๋ค๊ณผ ์งง๊ฒ ๋น๊ต๋ฅผ ํ๋ค. ํ์ง๋ง 2์ฐจ๋ฏธ๋ถ์ ์ด์ฉํ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค๊ณผ์ ๋น๊ต๊ฐ ์๊ฐ๋ณด๋ค ์๋ ์ ์ด ์์ฝ๋ค.(Hessian์ ์ด์ฉํ๋ค๊ฑฐ๋ conjugate gradient method๋ฅผ ์ด์ฉํ๋ค๊ฑฐ๋). ์คํ์ ํตํด FIM์ด hessian์ ์๋ ด์ํ๋ ๊ฑฐ๋ผ๋์ง Hessian ๋ฐฉ๋ฒ๋ก ์ด local maxima ๋ถ๊ทผ์์ ์๋นํ ๋๋ฆฌ๋ค๋์ง์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ์์ผ๋ฉด ์ข์์ ๊ฒ ๊ฐ๋ค. </p>\n<p>๋ํ natural gradient ๋ง์ผ๋ก ์
๋ฐ์ดํธํ๋ฉด policy์ improvement๋ณด์ฅ์ด ์๋ ์ ์๋ค. policy์ improvement๋ฅผ ๋ณด์ฅํ๊ธฐ ์ํด line search๋ ์จ์ผํ๋๋ฐ line search๋ฅผ ์ด๋ป๊ฒ ์ฐ๋์ง์ ๋ํ ์์ธํ ์ธ๊ธ์ด ์๋ค. ์ฆ, ์์ธํ algorithm ์ค๋ช
์ด ์๋ค.</p>\n<p>natural policy gradient ๋
ผ๋ฌธ์ natural gradient + policy gradient๋ฅผ ์ฒ์ ์ ์ฉํ๋ค๋๋ฐ ์์๊ฐ ์๋ค. ํ์ง๋ง ์ด ๋
ผ๋ฌธ์ด ๋ฌธ์ ์ผ์ gradient๋ non-covariantํ๋ค๋ผ๋ ๋ฌธ์ ๋ฅผ natural gradient๋ฅผ ํตํด ํด๊ฒฐํ์ง ๋ชปํ๋ค(Experiment๋ฅผ ํตํด covariant gradient๊ฐ ๋์ง ๋ชปํ๋ค๋ ๊ฒ์ด ๋ณด์ธ๋ค). NPG์ ๋ค๋ฅผ ์๋ ๋
ผ๋ฌธ์ด โcovariant policy searchโ์ โnatural actor-criticโ์์ covariantํ์ง ๋ชปํ๋ค๋ ๊ฒ์ ํด๊ฒฐํ๊ธฐ ์ํด Fisher Information Matrix๋ฅผ sample ํ๋ ํ๋์ ๋ํด์ ๊ตฌํ๋ ๊ฒ์ด ์๋๋ผ trajectory ์ ์ฒด์ ๋ํด์ ๊ตฌํ๋ค. </p>\n<p>๋ํ ๋
ผ๋ฌธ์ pg์ ๋ ๊ฐ์ง ์ธํ
์ค์ average-reward setting(infinite horizon)์์๋ง NPG๋ฅผ ๋ค๋ฃฌ๋ค. โcovariant policy searchโ ๋
ผ๋ฌธ์์๋ average-reward setting๊ณผ start-state setting ๋ชจ๋์ ๋ํด์ npg๋ฅผ ์ ์ฉํ๋ค. </p>\n<p>natural gradient + policy gradient๋ฅผ ์ฒ์ ์ ์ํ๋ค๋ ๊ฒ์ ์ข์ง๋ง npg ํ์ต์ ๊ณผ์ ์ ์์ธํ๊ฒ ์ค๋ช
ํ์ง ์์๊ณ ๋ค๋ฅธ 2์ฐจ ๋ฏธ๋ถ ๋ฐฉ๋ฒ๋ค๊ณผ ๋น๊ต๋ฅผ ๋ง์ด ํ์ง ์์ ์ ์ด ์์ฌ์ด ๋
ผ๋ฌธ์ด๋ค.</p>\n<h2 id=\"3-Introduction\"><a href=\"#3-Introduction\" class=\"headerlink\" title=\"3. Introduction\"></a>3. Introduction</h2><hr>\n<ul>\n<li>direct policy gradient method๋ future reward์ gradient๋ฅผ ๋ฐ๋ผ policy๋ฅผ updateํจ</li>\n<li>ํ์ง๋ง gradient descent๋ non-covariant</li>\n<li>์ด ๋
ผ๋ฌธ์์๋ covarient gradient๋ฅผ ์ ์ํจ = natural gradient</li>\n<li>natural gradient์ policy iteration์ ์ฐ๊ด์ฑ์ ์ค๋ช
ํ๊ฒ ์: natural policy gradient is moving toward choosing a greedy optimal action (์ด๋ฐ ์ฐ๊ฒฐ์ ์ ์๋ง๋ step-size๋ฅผ ๋ ์ ๊ฒฝ์ฐ๊ณ ์ถ์ด์ ๊ทธ๋ฐ๊ฒ ์๋๊ฐ ์ถ๋ค)</li>\n</ul>\n<p>๋
ผ๋ฌธ์ Introduction ๋ถ๋ถ์ ๋ค์ ๋ฉํธ๊ฐ ์๋ค. ์ด ๊ธ๋ง ๋ด์๋ ์ดํด๊ฐ ์๊ฐ๋๋ฐ Mackay ๋
ผ๋ฌธ์ ์ข ๋ ์์ธํ ๋์์๋ค.<br><img src=\"https://www.dropbox.com/s/41xhhr7lgfk24a1/Screenshot%202018-06-10%2011.45.18.png?dl=1\"></p>\n<p><a href=\"http://www.inference.org.uk/mackay/ica.pdf\" target=\"_blank\" rel=\"noopener\">Mackay</a>๋
ผ๋ฌธ์์๋ ๋ค์๊ณผ ๊ฐ์ด ์ธ๊ธํ๊ณ ์๋ค. Back-propagation์ ์ฌ์ฉํ ๊ฒฝ์ฐ์ learning rate๋ฅผ dimension์ 1/n๋ก ์ฌ์ฉํ๋ฉด ์๋ ดํ๋ค๋ ๊ฒ์ด ์ฆ๋ช
๋๋ค. ํ์ง๋ง ๋๋ฌด ๋๋ฆฌ๋ค.<br><img src=\"https://www.dropbox.com/s/us9ezc7vxgrkez6/Screenshot%202018-06-10%2011.47.21.png?dl=1\"></p>\n<h2 id=\"4-A-Natural-Gradient\"><a href=\"#4-A-Natural-Gradient\" class=\"headerlink\" title=\"4. A Natural Gradient\"></a>4. A Natural Gradient</h2><hr>\n<h3 id=\"4-1-ํ๊ฒฝ์-๋ํ-์ค์ \"><a href=\"#4-1-ํ๊ฒฝ์-๋ํ-์ค์ \" class=\"headerlink\" title=\"4.1 ํ๊ฒฝ์ ๋ํ ์ค์ \"></a>4.1 ํ๊ฒฝ์ ๋ํ ์ค์ </h3><p>์ด ๋
ผ๋ฌธ์์ ์ ์ํ๋ ํ์ต ํ๊ฒฝ์ ๋ค์๊ณผ ๊ฐ๋ค.</p>\n<ul>\n<li>MDP: tuple $$(S, s_0, A, R, P)$$</li>\n<li>$$S$$: a finite set of states</li>\n<li>$$s_0$$: a start state</li>\n<li>$$A$$: a finite set of actions</li>\n<li>$$R$$: reward function $$R: S \\times A -> [0, R_{max}]$$</li>\n<li>$$\\pi(a;s, \\theta)$$: stochastic policy parameterized by $$\\theta$$</li>\n<li>๋ชจ๋ ์ ์ฑ
$$\\pi$$๋ ergodic: stationary distribution $$\\rho^{\\pi}$$์ด ์ ์ ์๋์ด์์</li>\n<li>์ด ๋
ผ๋ฌธ์์๋ sutton์ pg ๋
ผ๋ฌธ์ ๋ ์ธํ
(start-state formulation, average-reward formulation) ์ค์ ๋ ๋ฒ์งธ์ธ average-reward formulation์ ๊ฐ์ </li>\n<li>performance or average reward: $$\\eta(\\pi)=\\sum_{s,a}\\rho^{\\pi}(s)\\pi(a;s)R(s,a)$$</li>\n<li>state-action value: $$Q^{\\pi}(s,a)=E_{\\pi}[\\sum_{t=0}^{\\infty}R(s_t, a_t)-\\eta(\\pi)\\vert s_0=s, a_0=a]$$</li>\n<li>์ ์ฑ
์ด $$\\theta$$๋ก parameterize๋์ด์์ผ๋ฏ๋ก performance๋ $$\\eta(\\pi_{\\theta})$$์ธ๋ฐ $$\\eta(\\theta)$$๋ก ์ธ๊ฑฐ์</li>\n</ul>\n<h3 id=\"4-2-Natural-Gradient\"><a href=\"#4-2-Natural-Gradient\" class=\"headerlink\" title=\"4.2 Natural Gradient\"></a>4.2 Natural Gradient</h3><h4 id=\"4-2-1-Policy-gradient-Theorem\"><a href=\"#4-2-1-Policy-gradient-Theorem\" class=\"headerlink\" title=\"4.2.1 Policy gradient Theorem\"></a>4.2.1 Policy gradient Theorem</h4><p>์ํผ pg ๋
ผ๋ฌธ์ policy gradient theorem์ ๋ฐ๋ผ exact gradient of the average reward๋ ๋ค์๊ณผ ๊ฐ๋ค. ๋ค์ ์์์ด ์ด๋ป๊ฒ ์ ๋๋์๋์ง, ์ด๋ค ์๋ฏธ์ธ์ง ๋ชจ๋ฅธ๋ค๋ฉด ์ํผ pg ๋
ผ๋ฌธ์ ํตํด ์ ๋๋ก ์ดํดํ๋ ๊ฒ์ด ์ข๋ค.</p>\n<p>$$\\nabla\\eta(\\theta)=\\sum_{s,a}\\rho^{\\pi}(s)\\nabla\\pi(a;s,\\theta)Q^{\\pi}(s,a)$$</p>\n<p>steepest descent direction of $$\\eta(\\theta)$$๋ $$\\eta(\\theta + d\\theta)$$๋ฅผ ์ต์ํํ๋ $$d\\theta$$๋ก ์ ์๋๋ค. ์ด ๋, $$\\vert d\\theta \\vert^2$$๊ฐ ์ผ์ ํฌ๊ธฐ ์ดํ์ธ ๊ฒ์ผ๋ก ์ ์ฝ์กฐ๊ฑด์ ์ค๋ค(held to small constant). Euclidian space์์๋ $$\\eta(\\theta)$$๊ฐ steepest direction์ด์ง๋ง Riemannian space์์๋ natural gradient๊ฐ steepest direction์ด๋ค. </p>\n<h4 id=\"4-2-2-Natural-gradient-์ฆ๋ช
\"><a href=\"#4-2-2-Natural-gradient-์ฆ๋ช
\" class=\"headerlink\" title=\"4.2.2 Natural gradient ์ฆ๋ช
\"></a>4.2.2 Natural gradient ์ฆ๋ช
</h4><p>Riemannian space์์ ๊ฑฐ๋ฆฌ๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค. $$G(\\theta)$$๋ ํน์ ํ ์์๋ก ์ด๋ฃจ์ด์ง matrix์ด๋ค.</p>\n<p>$$\\vert d\\theta \\vert^2=\\sum_{ij}(\\theta)d\\theta_id\\theta_i=d\\theta^TG(\\theta)d\\theta$$</p>\n<p>์ด ์์์ Natural Gradient Works Efficiently in Learning ๋
ผ๋ฌธ์์ ์ฆ๋ช
๋์ด์๋ค. ๋ค์์ natural gradient ์ฆ๋ช
์ด๋ค. </p>\n<p>steepest direction์ ๊ตฌํ ๋ $$\\theta$$์ ํฌ๊ธฐ๋ฅผ ์ ์ฝ์กฐ๊ฑด์ ์ค๋ค. ์ ์ฝ์กฐ๊ฑด์ ๋ค์๊ณผ ๊ฐ๋ค. </p>\n<p>$$\\vert d\\theta \\vert^2 = \\epsilon^2$$</p>\n<p>๊ทธ๋ฆฌ๊ณ steepest vector์ธ $$d\\theta$$๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ ์ ์๋ค. </p>\n<p>$$d\\theta = \\epsilon a$$</p>\n<p>$$\\vert a \\vert^2=a^TG(\\theta)a = 1$$</p>\n<p>์ด ๋, $$a$$๊ฐ steepest direction unit vector์ด ๋๋ ค๋ฉด ๋ค์ ์์์ ์ต์๋ก ๋ง๋ค์ด์ผ ํ๋ค. (์ด ์์์ ์ ๋ชจ๋ฅด๊ฒ ์ง๋ง $$\\theta$$์์์ 1์ฐจ๊ทผ์ฌ๋ฅผ ๊ฐ์ ํ๋๊ฒ ์๋๊ฐ ์ถ๋ค.</p>\n<p>$$\\eta(\\theta + d\\theta) = \\eta(\\theta) + \\epsilon\\nabla\\eta(\\theta)^Ta$$</p>\n<p>์ ์์์ด ์ ์ฝ์กฐ๊ฑด ์๋ ์ต์๊ฐ ๋๋ $$a$$๋ฅผ ๊ตฌํ๊ธฐ ์ํด Lagrangian method๋ฅผ ์ฌ์ฉํ๋ค. Lagrangian method๋ฅผ ๋ชจ๋ฅธ๋ค๋ฉด <a href=\"https://en.wikipedia.org/wiki/Lagrange_multiplier\" target=\"_blank\" rel=\"noopener\">์ํคํผ๋์</a>๋ฅผ ์ฐธ๊ณ ํ๋ ๊ฒ์ ์ถ์ฒํ๋ค. ์ ์์์ด ์ต์๋ผ๋ ๊ฒ์ $$\\nabla\\eta(\\theta)^Ta$$๊ฐ ์ต์๋ผ๋ ๊ฒ์ด๋ค. </p>\n<p>$$\\frac{\\partial}{\\partial a_i}(\\nabla\\eta(\\theta)^Ta - \\lambda a^TG(\\theta)a)=0$$</p>\n<p>๋ฐ๋ผ์ $$(\\nabla\\eta(\\theta)^Ta - \\lambda a^TG(\\theta)a)=0$$๋ ์์์ด๋ค. ์์๋ฅผ ๋ฏธ๋ถํ๋ฉด 0์ด๋ฏ๋ก ์ด ์์ $$a$$๋ก ๋ฏธ๋ถํ๋ค. ๊ทธ๋ฌ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. steepest direction์ ๊ตฌํ ๊ฒ์ด๋ค.</p>\n<p>$$\\nabla\\eta(\\theta) = 2 \\lambda G(\\theta)a$$</p>\n<p>$$a=\\frac{1}{2\\lambda}G^{-1}\\nabla\\eta(\\theta)$$</p>\n<p>์ด ๋, ๋ค์ ์์ natural gradient๋ผ๊ณ ์ ์ํ๋ค.</p>\n<p>$$\\bar{\\nabla}\\eta(\\theta) = G^{-1}\\nabla\\eta(\\theta)$$</p>\n<p>natural gradient๋ฅผ ์ด์ฉํ ์
๋ฐ์ดํธ๋ ๋ค์๊ณผ ๊ฐ๋ค. </p>\n<p>$$\\theta_{t+1}=\\theta_t - \\alpha_tG^{-1}\\nabla\\eta(\\theta)$$</p>\n<p>์ฌ๊ธฐ๊น์ง๋ natural gradient์ ์ฆ๋ช
์ด์๋ค. ์ด natural gradient๋ฅผ policy gradient์ ์ ์ฉํ ๊ฒ์ด natural policy gradient์ด๋ค. natural policy gradient๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.</p>\n<p>$$\\bar{\\nabla}\\eta(\\theta) = F^{-1}\\nabla\\eta(\\theta)$$</p>\n<p>$$G$$ ๋์ $$F$$๋ฅผ ์ฌ์ฉํ๋๋ฐ $$F$$๋ Fisher information matix์ด๋ค. ์์์ ๋ค์๊ณผ ๊ฐ๋ค.</p>\n<p>$$F(\\theta) = E_{\\rho^\\pi(s)}[F_s(\\theta)]$$</p>\n<p>$$F_s(\\theta)=E_{\\pi(a;s,\\theta)}[\\frac{\\partial log \\pi(a;s, \\theta)}{\\partial \\theta_i}\\frac{\\partial log \\pi(a;s, \\theta)}{\\partial\\theta_j}]$$</p>\n<p>์ G๊ฐ F๊ฐ ๋๋์ง๋ ์์ง ์ ๋ชจ๋ฅด๊ฒ ๋ค. ๊ฑฐ๋ฆฌ๋ผ๋ ๊ฐ๋
์ ํํํ๋ ค๋ฉด </p>\n<h2 id=\"5-The-Natural-Gradient-and-Policy-Iteration\"><a href=\"#5-The-Natural-Gradient-and-Policy-Iteration\" class=\"headerlink\" title=\"5. The Natural Gradient and Policy Iteration\"></a>5. The Natural Gradient and Policy Iteration</h2><hr>\n<h3 id=\"5-1-Theorem-1\"><a href=\"#5-1-Theorem-1\" class=\"headerlink\" title=\"5.1 Theorem 1\"></a>5.1 Theorem 1</h3><p>sutton pg ๋
ผ๋ฌธ์ ๋ฐ๋ผ $$Q^{\\pi}(s,a)$$๋ฅผ approximationํ๋ค. approximateํ๋ ํจ์ $$f^{\\pi}(s,a;w)$$๋ ๋ค์๊ณผ ๊ฐ๋ค.(compatible value function)</p>\n<p>$$f^{\\pi}(s,a;w)=w^T\\psi^{\\pi}(s,a)$$</p>\n<p>$$\\psi^{\\pi}(s,a) = \\nabla log\\pi(a;s,\\theta)$$</p>\n<p>$$w$$๋ ์๋ approximateํ๋ ํจ์ $$Q$$์ $$f$$์ ์ฐจ์ด๋ฅผ ์ค์ด๋๋ก ํ์ตํ๋ค(mean square error). ์๋ ดํ local minima์ $$w$$๋ฅผ $$\\bar{w}$$๋ผ๊ณ ํ๊ฒ ๋ค. ์๋ฌ๋ ๋ค์๊ณผ ๊ฐ์ ์์์ผ๋ก ๋ํ๋ธ๋ค. </p>\n<p>$$\\epsilon(w,\\pi)\\equiv\\sum_{s, a}\\rho^{\\pi}(s)\\pi(a;s,\\theta)(f^{\\pi}(s,a;w)-Q^{\\pi}(s,a))^2$$</p>\n<p>์ ์์ด local minima์ด๋ฉด ๋ฏธ๋ถ๊ฐ์ด 0์ด๋ค. $$w$$์ ๋ํด์ ๋ฏธ๋ถํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. </p>\n<p>$$\\sum_{s, a}\\rho^{\\pi}(s)\\pi(a;s,\\theta)\\psi^{\\pi}(s,a)(\\psi^{\\pi}(s,a)^T\\bar{w}-Q^{\\pi}(s,a))=0$$</p>\n<p>$$(\\sum_{s, a}\\rho^{\\pi}(s)\\pi(a;s,\\theta)\\psi^{\\pi}(s,a)\\psi^{\\pi}(s,a)^T)\\bar{w}=\\sum_{s, a}\\rho^{\\pi}(s)\\pi(a;s,\\theta)\\psi^{\\pi}(s,a)Q^{\\pi}(s,a))$$</p>\n<p>์ด ๋, ์ ์์ ์ฐ๋ณ์ $$\\psi$$์ ์ ์์ ์ํด policy gradient๊ฐ ๋๋ค. ๋ํ ์ผ์ชฝ ํญ์์๋ Fisher information matrix๊ฐ ๋์จ๋ค.</p>\n<p>$$F(\\theta)=\\sum_{s,a}\\pi(a;s,\\theta)\\psi^{\\pi}(s,a)\\psi^{\\pi}(s,a)=E_{\\rho^\\pi(s)}[F_s(\\theta)]$$</p>\n<p>๋ฐ๋ผ์ ๋ค์๊ณผ ๊ฐ๋ค.</p>\n<p>$$F(\\theta)\\bar{w}=\\nabla\\eta(\\theta)$$</p>\n<p>$$\\bar{w}=F(\\theta)^{-1}\\nabla\\eta(\\theta)$$</p>\n<p>์ด ์์ natural gradient ์๊ณผ ๋์ผํ๋ค. ์ด ์์ policy๊ฐ update ๋ ๋, value function approximator์ parameter ๋ฐฉํฅ์ผ๋ก ์ด๋ํ๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค. function approximation์ด ์ ํํ๋ค๋ฉด ๊ทธ parameter์ natural policy gradient์ inner product๊ฐ ์ปค์ผํ๋ค. </p>\n<h3 id=\"5-2-Theorem-2-Greedy-Polict-Improvement\"><a href=\"#5-2-Theorem-2-Greedy-Polict-Improvement\" class=\"headerlink\" title=\"5.2 Theorem 2: Greedy Polict Improvement\"></a>5.2 Theorem 2: Greedy Polict Improvement</h3><p>natural policy gradient๊ฐ ๋จ์ํ ๋ ์ข์ ํ๋์ ๊ณ ๋ฅด๋๋ก ํ์ตํ๋๊ฒ ์๋๋ผ ๊ฐ์ฅ ์ข์ (greedy) ํ๋์ ๊ณ ๋ฅด๋๋ก ํ์ตํ๋ค๋ ๊ฒ์ ์ฆ๋ช
ํ๋ ํํธ์ด๋ค. ์ด๊ฒ์ ์ผ๋ฐ์ ์ธ ํํ์ policy์ ๋ํด์ ์ฆ๋ช
ํ๊ธฐ ์ ์ exponential ํํ์ policy์ ๋ํด์ ์ฆ๋ช
ํ๋ ๊ฒ์ด Theorem 2์ด๋ค.</p>\n<p>policy๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ๋ค.</p>\n<p>$$\\pi(a;s,\\theta) \\propto exp(\\theta^T\\phi_{sa})$$</p>\n<p>$$\\bar{\\nabla}\\eta(\\theta)$$๊ฐ 0์ด ์๋๊ณ $$\\bar{w}$$๋ approximation error๋ฅผ ์ต์ํํ $$w$$๋ผ๊ณ ๊ฐ์ ํ๋ค. ์ด ์ํ์์ natural gradient update๋ฅผ ์๊ฐํด๋ณด์. policy gradient๋ gradient ascent์์ ๊ธฐ์ตํ์.</p>\n<p>$$\\theta_{t+1}=\\theta_t + \\alpha_t\\bar{\\nabla}\\eta(\\theta)$$</p>\n<p>์ด ๋ $$\\alpha$$๊ฐ learning rate๋ก parameter๋ฅผ ์ผ๋ง๋ ์
๋ฐ์ดํธํ๋์ง๋ฅผ ๊ฒฐ์ ํ๋ค. ์ด ๊ฐ์ ๋ฌดํ๋๋ก ๋๋ ธ์ ๋ policy๊ฐ ์ด๋ป๊ฒ ์
๋ฐ์ดํธ๋๋์ง ์๊ฐํด๋ณด์. </p>\n<p>$$\\pi_{\\infty}(a;s)=lim_{\\alpha\\rightarrow\\infty}\\pi(a;s,\\theta+\\alpha\\bar{\\nabla}\\eta(\\theta))-(1)$$</p>\n<p>function approximator๋ ๋ค์๊ณผ ๊ฐ๋ค. </p>\n<p>$$f^{\\pi}(s,a;w)=w^T\\psi^{\\pi}(s,a)$$</p>\n<p>Theorem 1์ ์ํด ์ ์์ ์๋์ ๊ฐ์ด ์ธ ์ ์๋ค.</p>\n<p>$$f^{\\pi}(s,a;w)=\\bar{\\nabla}\\eta(\\theta)^T\\psi^{\\pi}(s,a)$$</p>\n<p>$$\\theta$$์ ์ ์์ ์ํด $$\\psi$$๋ ๋ค์๊ณผ ๊ฐ๋ค.</p>\n<p>$$\\psi^{\\pi}(s,a)=\\phi_{sa}-E_{\\pi(aโ;s,\\theta)}[\\phi_{saโ}]$$</p>\n<p>function approximator๋ ๋ค์๊ณผ ๊ฐ์ด ๋ค์ ์ธ ์ ์๋ค.</p>\n<p>$$f^{\\pi}(s,a;w)=\\bar{\\nabla}\\eta(\\theta)^T(\\phi_{sa}-E_{\\pi(aโ;s,\\theta)}[\\phi_{saโ}])$$</p>\n<p>greedy policy improvement๊ฐ Q function ๊ฐ ์ค ๊ฐ์ฅ ํฐ ๊ฐ์ ๊ฐ์ง๋ action์ ์ ํํ๋ฏ์ด ์ฌ๊ธฐ์๋ function approximator์ ๊ฐ์ด ๊ฐ์ฅ ํฐ action์ ์ ํํ๋ ์ํฉ์ ๊ฐ์ ํด๋ณธ๋ค. ์ด ๋ function approximator์ argmax๋ ๋ค์๊ณผ ๊ฐ์ด ์ธ ์ ์๋ค.</p>\n<p>$$argmax_{aโ}f^{\\pi}(s,a)=argmax_{aโ}\\bar{\\nabla}\\eta(\\theta)^T\\phi_{saโ}$$</p>\n<p>(1) ์์ ๋ค์ ์ดํด๋ณด์. policy์ ์ ์์ ๋ฐ๋ผ ๋ค์๊ณผ ๊ฐ์ด ์ธ ์ ์๋ค. </p>\n<p>$$\\pi(a;s,\\theta + \\alpha\\bar{\\nabla}\\eta(\\theta)) \\propto exp(\\theta^T\\phi_{sa} + \\alpha\\bar{\\nabla}\\eta(\\theta)^T\\phi_{sa})$$</p>\n<p>$$\\bar{\\nabla}\\eta(\\theta) \\neq 0$$์ด๊ณ $$\\alpha\\rightarrow\\infty$$์ด๋ฉด exp์์ ํญ ์ค์์ ๋ค์ ํญ์ด dominateํ๊ฒ ๋๋ค. ์ฌ๋ฌ ํ๋ ์ค์ $$\\bar{\\nabla}\\eta(\\theta)^T\\phi_{sa}$$๊ฐ ๊ฐ์ฅ ํฐ ํ๋์ด ์๋ค๋ฉด ์ด ํ๋์ policy probability๊ฐ 1์ด ๋๊ณ ๋๋จธ์ง๋ 0์ด ๋๋ค. ๋ฐ๋ผ์ ๋ค์์ด ์ฑ๋ฆฝํ๋ค.</p>\n<p>$$\\pi_{\\infty}=0$$ </p>\n<p>if and only if </p>\n<p>$$a \\notin argmax_{aโ}\\bar{\\nabla}\\eta(\\theta)^T\\phi_{saโ}$$</p>\n<p>์ด ๊ฒฐ๊ณผ๋ก๋ถํฐ natural policy gradient๋ ๋จ์ง ๋ ์ข์ action์ด ์๋๋ผ best action์ ๊ณ ๋ฅด๋๋ก ํ์ต์ด ๋๋ค. ํ์ง๋ง non-covariant gradient(1์ฐจ๋ฏธ๋ถ) ์์๋ ๊ทธ์ ๋ ์ข์ action์ ๊ณ ๋ฅด๋๋ก ํ์ต์ด ๋๋ค. ํ์ง๋ง ์ด natural policy gradient์ ๋ํ ๊ฒฐ๊ณผ๋ infinite learning rate ์ธํ
์์๋ง ์ฑ๋ฆฝํจ. ์ข ๋ ์ผ๋ฐ์ ์ธ ๊ฒฝ์ฐ์ ๋ํด์ ์ดํด๋ณด์.</p>\n<h4 id=\"4-3-Theorem-3\"><a href=\"#4-3-Theorem-3\" class=\"headerlink\" title=\"4.3 Theorem 3\"></a>4.3 Theorem 3</h4><p>Theorem 2์์์๋ ๋ฌ๋ฆฌ ์ผ๋ฐ์ ์ธ policy๋ฅผ ๊ฐ์ ํ์(general parameterized policy). Theorem 3๋ ์ด ์ํฉ์์ natural gradient๋ฅผ ํตํ ์
๋ฐ์ดํธ๊ฐ best action๋ฅผ ๊ณ ๋ฅด๋ ๋ฐฉํฅ์ผ๋ก ํ์ต์ด ๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. </p>\n<p>natural gradien์ ๋ฐ๋ฅธ policy parameter์ ์
๋ฐ์ดํธ๋ ๋ค์๊ณผ ๊ฐ๋ค. $$\\bar{w}$$๋ approximation error๋ฅผ minimizeํ๋ $$w$$์ด๋ค.</p>\n<p>$$\\delta\\theta = \\thetaโ - \\theta = \\alpha\\bar{\\nabla}\\eta(\\theta)=\\alpha\\bar{w}$$</p>\n<p>policy์ ๋ํด์ 1์ฐจ๊ทผ์ฌ๋ฅผ ํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. </p>\n<p>$$\\pi(a;s,\\thetaโ)=\\pi(a;s,\\theta)+\\frac{\\partial\\pi(a;s,\\theta)^T}{\\partial\\theta}\\delta\\theta + O(\\delta\\theta^2)$$</p>\n<p>$$=\\pi(a;s,\\theta)(1+\\psi(s,a)^T\\delta\\theta) + O(\\delta\\theta^2)$$</p>\n<p>$$=\\pi(a;s,\\theta)(1+\\alpha\\psi(s,a)^T\\bar{w}) + O(\\delta\\theta^2)$$</p>\n<p>$$=\\pi(a;s,\\theta)(1+\\alpha f^{\\pi}(s,a;\\bar{w}) + O(\\delta\\theta^2)$$</p>\n<p>policy ์์ฒด๊ฐ function approximator์ ํฌ๊ธฐ๋๋ก ์
๋ฐ์ดํธ๊ฐ ๋๋ฏ๋ก localํ๊ฒ best action์ probability๋ ์ปค์ง๊ณ ๋ค๋ฅธ probability์ ํฌ๊ธฐ๋ ์์์ง ๊ฒ์ด๋ค. ํ์ง๋ง ๋ง์ฝ greedy improvement๊ฐ ๋๋คํ๋๋ผ๋ ๊ทธ๊ฒ performance์ improvement๋ฅผ ๋ณด์ฅํ๋ ๊ฒ์ ์๋๋ค. ํ์ง๋ง line search์ ํจ๊ป ์ฌ์ฉํ ๊ฒฝ์ฐ improvement๋ฅผ ๋ณด์ฅํ ์ ์๋ค. </p>\n<h2 id=\"6-Metrics-and-Curvatures\"><a href=\"#6-Metrics-and-Curvatures\" class=\"headerlink\" title=\"6. Metrics and Curvatures\"></a>6. Metrics and Curvatures</h2><hr>\n<p>๋ค์ ์์ ํด๋นํ๋ G๋ Fisher Information Matrix๋ง ์ฌ์ฉํ ์ ์๋ ๊ฒ์ด ์๋๋ค.</p>\n<p>$$\\vert d\\theta \\vert^2=\\sum_{ij}(\\theta)d\\theta_id\\theta_i=d\\theta^TG(\\theta)d\\theta$$</p>\n<p>์ด ํํธ์์๋ FIM๊ณผ ๋ค๋ฅธ metric ์ฌ์ด์ ๊ด๊ณ๋ฅผ ๋ค๋ฃฌ๋ค. </p>\n<ul>\n<li>In the different setting of parameter estimation, the Fisher information converges to the <code>Hessian</code>, so it is <a href=\"https://en.wikipedia.org/wiki/Efficiency_(statistics\" target=\"_blank\" rel=\"noopener\">asymptotically efficient</a>#Asymptotic_efficiency)</li>\n<li>์ด ๋
ผ๋ฌธ์ ๊ฒฝ์ฐ, ์๋ง๋ฆฌ ๋
ผ๋ฌธ์ โblind separation caseโ์ ์ ์ฌํ๋ฐ ์ด ๋๋ ๊ผญ asymtotically efficientํ์ง ์๋ค. ์ด ๋ง์ ์ฆ 2nd order ์๋ ด์ด ๋ณด์ฅ๋์ง ์๋๋ค๋ ๊ฒ์ด๋ค.</li>\n<li><a href=\"http://www.inference.org.uk/mackay/ica.pdf\" target=\"_blank\" rel=\"noopener\">Mackay</a> ๋
ผ๋ฌธ์์ hessian์์ data independantํ term์ metric์ผ๋ก ๊ฐ์ ธ์ค๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ๊ทธ๋์ performance๋ฅผ 2๋ฒ ๋ฏธ๋ถํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. ํ์ง๋ง ๋ค์ ์์์๋ ๋ชจ๋ ํญ์ด data dependentํ๋ค(Q๊ฐ ์์ผ๋๊น). ์ฒซ ๋ฒ์งธ ํญ์ด ๊ทธ๋๋ง FIM๊ณผ์ ๊ด๋ จ์ฑ์ด ์์ ์ ์์ง๋ง Q ๊ฐ์ด curvature์ weight๋ฅผ ์ฃผ๋ ๋ฐฉ์ ๋๋ฌธ์ ๋ค๋ฅด๋ค๊ณ ํ ์ ์๋ค.</li>\n</ul>\n<p>$$<br>\\nabla^2\\eta(\\theta)=\\sum_{sa}\\rho^{\\pi}(s)(\\nabla^2\\pi(a;s)Q^{\\pi}(s,a)+\\nabla\\pi(a;s)\\nabla Q^{\\pi}(s,a)^T+\\nabla Q^{\\pi}(s,a)\\nabla\\pi(a;s)^T)<br>$$</p>\n<ul>\n<li>hessian์ ๋ณดํต positive definite๊ฐ ์๋์๋ ์๋ค. ๋ฐ๋ผ์ local maxima๊ฐ ๋ ๋๊น์ง Hessian์ด ์ฌ์ฉํ๊ธฐ ๋ณ๋ก ์์ข๋ค. ๊ทธ๋ฆฌ๊ณ local maxima์์๋ Hessian๋ณด๋ค๋ Conjugate methods๊ฐ ๋ ํจ์จ์ ์ด๋ค. </li>\n</ul>\n<p>์ด ํํธ์์๋ ๋ฌด์์ ๋งํ๊ณ ์๋์ง ์๊ธฐ๊ฐ ์ด๋ ต๋ค. FIM๊ณผ Hessian์ด ๊ด๋ จ์ด ์๋ค๋ ๊ฒ์ ์๊ฒ ๋ค. ํ์ง๋ง asymtotically efficient์ ๊ฐ์ ๋ด์ฉ์ ๋ชจ๋ฅด๋ฏ๋ก ๋ด์ฉ์ ์ดํด๊ฐ ์ด๋ ค์ ๋ค.</p>\n<p>Mackay ๋
ผ๋ฌธ์์ ํด๋น ๋ถ๋ถ์ ๋ค์๊ณผ ๊ฐ๋ค. </p>\n<p><img src=\"https://www.dropbox.com/s/x4n6z6pdyi7xtb9/Screenshot%202018-06-10%2012.04.13.png?dl=1\"></p>\n<h2 id=\"7-Experiment\"><a href=\"#7-Experiment\" class=\"headerlink\" title=\"7. Experiment\"></a>7. Experiment</h2><hr>\n<p>๋
ผ๋ฌธ์์๋ natural gradient๋ฅผ simple MDP์ tetris MDP์ ๋ํด์ ํ
์คํธํ๋ค. practice์์๋ Fisher information matrix๋ ๋ค์๊ณผ ๊ฐ์ ์์ผ๋ก ์
๋ฐ์ดํธํ๋ค.</p>\n<p>$$f\\leftarrow f+\\nabla log \\pi(a_t; s_t, \\theta)\\nabla log \\pi(a_t; s_t, \\theta)^T$$</p>\n<p>T length trajectory์ ๋ํด์ f/T๋ฅผ ํตํด F์ estimate๋ฅผ ๊ตฌํ๋ค.</p>\n<h3 id=\"7-1-Linear-Quadratic-regulator\"><a href=\"#7-1-Linear-Quadratic-regulator\" class=\"headerlink\" title=\"7.1 Linear Quadratic regulator\"></a>7.1 Linear Quadratic regulator</h3><p>์์ด์ ํธ๋ฅผ ํ
์คํธํ ํ๊ฒฝ์ ๋ค์๊ณผ ๊ฐ์ dynamics๋ฅผ ๊ฐ์ง๊ณ ์๋ค. $$u(t)$$๋ control signal๋ก์ ์์ด์ ํธ์ ํ๋์ด๋ผ๊ณ ์๊ฐํ๋ฉด ๋๋ค. $$\\epsilon$$์ noise distribution์ผ๋ก ํ๊ฒฝ์ ๊ฐํด์ง๋ ๋
ธ์ด์ฆ์ด๋ค. ์์ด์ ํธ์ ๋ชฉํ๋ ์ ์ ํ $$u(t)$$๋ฅผ ํตํด<br>x(t)๋ฅผ 0์ผ๋ก ์ ์งํ๋ ๊ฒ์ด๋ค. ์ ์ด๋ถ์ผ์์์ LQR controller ๋ฌธ์ ์ด๋ค.</p>\n<p>$$<br>x(t+1) = 0.7x(t)+u(t)+\\epsilon(t)<br>$$</p>\n<p>x(t)๋ฅผ 0์ผ๋ก ์ ์งํ๊ธฐ ์ํด์ $$x(t)^2$$๋ฅผ cost๋ก ์ก๊ณ ์ด cost๋ฅผ ์ต์ํํ๋๋ก ํ์ตํ๋ค. ์ด ์์คํ
์ linear๋ผ๊ณ ๋ถ๋ฅด๋ ๊ฒ์ ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ์ ํ์ ํํ๋ฅผ ๋๊ธฐ ๋๋ฌธ์ด๋ค. ์ด ๋
ผ๋ฌธ์์ ์คํํ ๋๋ ์ด ๊ทธ๋ฆผ์์์ system์ noise๋ฅผ ๋ํด์ค ๊ฒ์ด๋ค. <a href=\"https://stanford.edu/class/ee363/lectures/dlqr.pdf\" target=\"_blank\" rel=\"noopener\">๊ทธ๋ฆผ ์ถ์ฒ</a></p>\n<p><img src=\"https://www.dropbox.com/s/vz0q97lcek4oti5/Screenshot%202018-06-08%2014.21.10.png?dl=1\"></p>\n<p>์ด ์คํ์์ ์ฌ์ฉํ parameterized policy๋ ๋ค์๊ณผ ๊ฐ๋ค. parameter๊ฐ $$\\theta_1$$๊ณผ $$\\theta_2$$ ๋ฐ์ ์๋ ์๋นํ ๊ฐ๋จํ policy์ด๋ค. </p>\n<p>$$<br>\\pi(u;x,\\theta) \\propto exp(\\theta_1 s_1 x^2 + \\theta_2 s_2 x)<br>$$</p>\n<p>์ด policy๋ฅผ ๊ฐ๋จํ numpy์ matplotlib๋ฅผ ์ด์ฉํด์ ๊ทธ๋ ค๋ดค๋ค. $$\\theta_1$$๊ณผ $$theta_2$$๋ฅผ (0.5, 0.5), (1, 0), (0, 1)๋ก ํ๊ณ $$s_1$$๊ณผ $$s_2$$๋ 1๋ก ๋์๋ค. x๋ -1์์ 1๊น์ง์ ๋ฒ์๋ก ๊ทธ๋ ธ๋ค. x๋ฅผ 0์ผ๋ก ์ ์งํ๋ ค๋ฉด u(t)๊ฐ -์ +๊ฐ ๋ ๋ค ๊ฐ๋ฅํด์ผํ ๊ฒ ๊ฐ์๋ฐ ์ ์์ผ๋ก๋ง ๋ด์๋ action์ด ํ๋์ด๊ณ ๊ทธ action์ผ ํ๋ฅ ์ ํ์ํ๋ ๊ฒ์ฒ๋ผ ๋์๋ค. ์๋ง -1๊ณผ +1์ด u(t)๊ฐ ๋ ์ ์๋๋ฐ ๊ทธ ์ค +1์ ์ ํํ ํ๋ฅ ์ด ์์ ๊ฐ์ด ๋๋๊ฒ ์๋๊ฐ ์ถ๋ค.</p>\n<center><img src=\"https://www.dropbox.com/s/v69qyrwn7zurk8c/Screenshot%202018-06-08%2014.57.07.png?dl=1\" width=\"500px\"></center>\n\n<p>๋ค์ ๊ทธ๋ฆผ์ 1-d LQR์ ํ์ตํ ๊ทธ๋ํ์ด๋ค. cost๊ฐ $$x^2$$์ด๊ธฐ ๋๋ฌธ์ cost๊ฐ 0์ผ๋ก ๊ฐ์๋ก agent๋ 0์์ ์์ ์ ์ผ๋ก ๋จธ๋ฌด๋ฅธ๋ค๊ณ ๋ณผ ์ ์๋ค. 6๊ฐ์ ์ ์ค์์ ์ค๋ฅธ์ชฝ ์ธ ๊ฐ๊ฐ ์ผ๋ฐ์ ์ธ gradient ๋ฐฉ๋ฒ์ ์ฌ์ฉํด์ ํ์ตํ ๊ฒฐ๊ณผ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ์ผ์ชฝ์ ์ธ ๊ฐ์ ์ ์ด natural policy gradient๋ฅผ ํตํด ํ์ตํ ํ์ต ๊ณก์ ์ด๋ค. ์ผ๋ฐ gradient ๋ฐฉ๋ฒ๋ณด๋ค natural gradient๊ฐ ํจ์ฌ ๋น ๋ฅด๊ฒ ํ์ตํ๋ค(time ์ถ์ด log scale์ธ ๊ฒ์ ๊ฐ์ํ์).</p>\n<p>ํ์ง๋ง ๋ฌธ์ ๊ฐ ์๋ค. npg๋ฅผ ํ์ตํ ์ธ ๊ฐ์ ๊ณก์ ์ $$\\theta$$๋ฅผ rescale ํ ๊ฒ์ด๋ค. $$\\theta$$์์ ๊ณฑํด์ง๋ ์ซ์์ ๋ฐ๋ผ ํ์ต์ ๊ณผ์ ์ด ๋ค๋ฅด๋ค. ์ด ๊ฒ์ coordinate์ ๋ฐ๋ผ steepest gradient๊ฐ ๋ค๋ฅด๊ฒ ์ธก์ ๋๋ค๋ ๊ฒ์ด๋ค. ์ฆ, covariant gradient๊ฐ ์๋๋ผ๋ ๋ป์ด๋ค. ์ด ๋
ผ๋ฌธ์์๋ natural gradient๋ฅผ ํตํด gradient๊ฐ covariantํ๋๋ก ๋ง๋ค๊ณ ์ถ์๋๋ฐ ์คํจํ ๊ฒ์ด๋ค. </p>\n<center><img src=\"https://www.dropbox.com/s/fhn8cgje0rdws0i/Screenshot%202018-06-08%2023.13.37.png?dl=1\" width=\"300px\"></center>\n\n<p>natural gradient๊ฐ covariantํ์ง ์์ ์ด์ ๋ Fisher Information Matrix๊ฐ ์์ํ๋ ๋ฐ์๋ ๋ฌ๋ฆฌ invariant metric์ด ์๋๊ธฐ ๋๋ฌธ์ด๋ค. ๋ํ FIM์ด invariant metric์ด ์๋ ์ด์ ๋ FIM์ ๊ณ์ฐํ ๋ $$\\rho_s$$๊ฐ ๊ณฑํด์ง๊ธฐ ๋๋ฌธ์ด๋ค(state distribution์ ๋ํ expectation. $$\\rho_s$$๊ฐ ๊ณฑํด์ง๋ ๊ฒ์ด invariant์ ๋ฏธ์น๋ ์ํฅ์ด ๋ฌด์์ธ์ง๋ ๋ชจ๋ฅด๊ฒ ๋ค). ํ์ง๋ง ์ฌ์ ํ ์์๊ฐ ์๋ ๊ฒ์ ๊ธฐ์กด gradient ๋ฐฉ๋ฒ๋ค๋ณด๋ค ํจ์ฌ ๋น ๋ฅด๊ฒ ํ์ตํ๋ค๋ ๊ฒ์ด๋ค.</p>\n<h3 id=\"7-2-simple-2-state-MDP\"><a href=\"#7-2-simple-2-state-MDP\" class=\"headerlink\" title=\"7.2 simple 2-state MDP\"></a>7.2 simple 2-state MDP</h3><p>์ด์ ๋ค๋ฅธ ์์ ์์ NPG๋ฅผ ํ
์คํธํ๋ค. 2๊ฐ์ state๋ง ๊ฐ์ง๋ MDP๋ฅผ ๊ณ ๋ คํด๋ณด์. <a href=\"http://repository.cmu.edu/cgi/viewcontent.cgi?article=1080&context=robotics\" target=\"_blank\" rel=\"noopener\">๊ทธ๋ฆผ์ถ์ฒ</a>. ๊ทธ๋ฆผ์ผ๋ก๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. x=0 ์ํ์ x=1 ์ํ ๋ ๊ฐ๊ฐ ์กด์ฌํ๋ค. ์์ด์ ํธ๋ ๊ฐ ์ํ์์ ๋ค์ ์์ ์ ์ํ๋ก ๋๋์์ค๋ ํ๋์ ํ๊ฑฐ๋ ๋ค๋ฅธ ์ํ๋ก ๊ฐ๋ ํ๋์ ํ ์ ์๋ค. ์ํ x=0์์ ๋ค์ ์๊ธฐ ์์ ์ผ๋ก ๋์์ค๋ฉด 1์ ๋ณด์์ ๋ฐ๊ณ ์ํ x=1์์ ์๊ธฐ ์์ ์ผ๋ก ๋์์ค๋ฉด 2์ ๋ณด์์ ๋ฐ๋๋ค. ๋ฐ๋ผ์ ๊ฒฐ๊ตญ optimal policy๋ ์ํ x=1์์ ๊ณ์ ์๊ธฐ ์์ ์ผ๋ก ๋์์ค๋ ํ๋์ ์ทจํ๋ ๊ฒ์ด๋ค. </p>\n<p><img src=\"https://www.dropbox.com/s/g1x9yknzsrip59i/Screenshot%202018-06-08%2023.06.50.png?dl=1\"></p>\n<p>๋ฌธ์ ๋ฅผ ์ข ์ด๋ ต๊ฒ ๋ง๋ค๊ธฐ ์ํด state distribution์ ๋ค์๊ณผ ๊ฐ์ด ์ค์ ํ๋ค. ์ฆ, ๋๋ถ๋ถ์ ๊ฒฝ์ฐ์ ์ํ x=0์์ ์์ด์ ํธ๊ฐ ์์ํ๋ ๊ฒ์ด๋ค. </p>\n<p>$$<br>\\rho(x=0)=0.8, \\rho(x=1)=0.2<br>$$</p>\n<p>์ผ๋ฐ์ ์ธ gradient ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ฉด ๋ค์๊ณผ ๊ฐ์ policy gradient ์์ ๋ฐ๋ผ์ ์
๋ฐ์ดํธ๋ฅผ ํ๊ฒ ๋๋ค. ์ด ๋, $$\\rho(s)$$๊ฐ gradient์ ๊ณฑํด์ง๋ฏ๋ก ์ํ์ ์ผ๋ก ์ํ 0์์์ gradient ๊ฐ์ด ์ปค์ง๊ฒ ๋๋ค. ๋ฐ๋ผ์ ์์ด์ ํธ๋ ์ํ 0์์์ gradient(์ํ 0์์ ์ค์ค๋ก์๊ฒ ๋์์ค๋ ํ๋์ ์ทจํ๋๋ก ์ ์ฑ
์ ์
๋ฐ์ดํธํ๋ gradient)๋ฅผ ๋ฐ๋ผ parameterized policy๋ฅผ updateํ๋ค. ๋ฐ๋ผ์ ์๋ ๊ทธ๋ฆผ์ ์ฒซ๋ฒ์งธ ๊ทธ๋ฆผ์์์ฒ๋ผ Reward๊ฐ 1์์ ์ค๋ ์๊ฐ๋์ ๋จธ๋ฌด๋ฅธ๋ค. ์ฆ, ์์ด์ ํธ๊ฐ ์ํ 0์์ self-loop๋ฅผ ๊ณ์ ๋๊ณ ์๋ค๋ ๊ฒ์ด๋ค. $$\\rho(x=0)$$๊ฐ $$10^{-7}$$๊น์ง ๋จ์ด์ง๋ค.</p>\n<p>$$\\nabla\\eta(\\theta)=\\sum_{s,a}\\rho^{\\pi}(s)\\nabla\\pi(a;s,\\theta)Q^{\\pi}(s,a)$$</p>\n<center><img src=\"https://www.dropbox.com/s/xtb77mfazbppnss/Screenshot%202018-06-08%2023.14.24.png?dl=1\" width=\"300px\"></center>\n\n<p>ํ์ง๋ง NPG๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ์๋ ํจ์ฌ ๋น ๋ฅด๊ฒ average reward๊ฐ 2์ ๋๋ฌํ๋ค. gradient ๋ฐฉ๋ฒ์ด $$1.7X10^(7)$$์ ๋์ ์๊ฐ๋ง์ 2์ ๋๋ฌํ ๋ฐ๋ฉด NPG๋ 2๋ง์ ๋๋ฌํ๋ค. ๋ํ $$\\rho(x=0)$$๊ฐ $$10^{-5}$$์ดํ๋ก ๋จ์ด์ง์ง ์๋๋ค.</p>\n<p>ํ ๊ฐ์ง ๊ทธ๋ํ๋ฅผ ๋ ์ดํด๋ณด์. ๋ค์ ๊ทธ๋ํ๋ parameter $$\\theta$$๊ฐ ์
๋ฐ์ดํธ ๋๋ ๊ณผ์ ์ ๋ณด์ฌ์ค๋ค. ์ด ๊ทธ๋ํ์์๋ parameter๊ฐ 2๊ฐ ์๋ ๊ฒ์ด๋ค. ์ผ๋ฐ์ ์ธ gradient๊ฐ ์๋ ๊ทธ๋ํ์์ ์ค์ ์ ํด๋นํ๋ค. ์ด ์ค์ ์ ๊ทธ๋ํ๋ ๋ณด๋ฉด ์ฒ์๋ถํฐ ์ค๋ฐ๊น์ง $$\\theta_i$$๋ง ๊ฑฐ์ ์
๋ฐ์ดํธํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค. ๊ทธ์ ๋นํด NPG๋ ๋ ๊ฐ์ parameter๋ฅผ ๊ท ๋ฑํ๊ฒ ์
๋ฐ์ดํธํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค. </p>\n<center><img src=\"https://www.dropbox.com/s/g7pazozw2k6rd7x/Screenshot%202018-06-08%2023.23.25.png?dl=1\" width=\"300px\"></center>\n\n<p>policy๊ฐ $$\\pi(a;s,\\theta)\\propto exp(\\theta_{sa})$$์ผ ๋, ๋ค์๊ณผ ๊ฐ์ด $$F_{-1}$$์ด gradient ์์ weight๋ก ๊ณฑํด์ง๋๋ฐ ์ด๊ฒ $$\\rho$$์๋ ๋ฌ๋ฆฌ ๊ฐ parameter์ ๋ํด ๊ท ๋ฑํ๋ค. ๋ฐ๋ผ์ ์ ๊ทธ๋ํ์์์ ๊ฐ์ด ๊ฐ parameter๋ ๋น์ทํ ๋น์จ๋ก ์
๋ฐ์ดํธ๊ฐ ๋๋ ๊ฒ์ด๋ค.</p>\n<p>$$\\bar{\\nabla}\\eta(\\theta) = F^{-1}\\nabla\\eta(\\theta)$$</p>\n<h3 id=\"7-3-Tetris\"><a href=\"#7-3-Tetris\" class=\"headerlink\" title=\"7.3 Tetris\"></a>7.3 Tetris</h3><p>NPG๋ฅผ ํ
์คํธํ tetris ์์ ๋ Neuro Dynamic Programming ์ฑ
์ ์๊ฐ๋์ด์๋ค. ๋ค์ ๊ทธ๋ฆผ์ tetris ์์ ๋ฅผ ๋ณด์ฌ์ค๋ค. ๋ณดํต ๊ทธ๋ฆผ์์์ ๊ฐ์ด state์ feature๋ฅผ ์ ํด์ค๋ค. <a href=\"http://slideplayer.com/slide/5215520/\" target=\"_blank\" rel=\"noopener\">๊ทธ๋ฆผ ์ถ์ฒ</a></p>\n<p><img src=\"https://www.dropbox.com/s/y1halso9yermy8s/Screenshot%202018-06-08%2023.44.34.png?dl=1\"></p>\n<p>์ด ์์ ์์๋ exponantial family๋ก policy๋ฅผ ํํํ๋ค. $$\\pi(a;s,\\theta) \\propto exp(\\theta^T\\phi_{sa})$$ ๋ก ํํํ๋ค.</p>\n<p>tetris๋ linear function approximator์ greedy policy iteration์ ์ฌ์ฉํ ๊ฒฝ์ฐ performance๊ฐ ๊ฐ์๊ธฐ ๋จ์ด์ง๋ ํ์์ด ์๋ค. ๋ฐ์ ๊ทธ๋ฆผ์์ A์ spike๊ฐ ์๋ ๊ทธ๋ํ๊ฐ ์ด ๊ฒฝ์ฐ์ด๋ค. ๊ทธ ๋ฐ์ ๋ฎ๊ฒ ๋์์๋ ๊ทธ๋ํ๋ ์ผ๋ฐ์ ์ธ policy gradient ๋ฐฉ๋ฒ์ด๋ค. ํ์ง๋ง Natural policy gradient๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ B ๊ทธ๋ฆผ์์ ์ค๋ฅธ์ชฝ ๊ทธ๋ํ์ ๊ฐ์ด ์ฑ๋ฅ๊ฐ์ ์ด ๋๋ ทํ๋ค. Policy Iteration ์ฒ๋ผ ์ฑ๋ฅ์ด ๋ ๋จ์ด์ง์ง ์๊ณ ์์ ์ ์ผ๋ก ์ ์งํ๋ค. ๋ํ ๊ทธ๋ฆผ C์์ ๋ณด๋ ๊ฒ์ฒ๋ผ ์ค๋ฅธ์ชฝ ๊ทธ๋ํ์ธ ์ผ๋ฐ์ ์ธ gradient ๋ฐฉ๋ฒ๋ณด๋ค ํจ์ฌ ๋น ๋ฅด๊ฒ ํ์ตํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค.</p>\n<p><img src=\"https://www.dropbox.com/s/pr6s2qrqaic0wyj/Screenshot%202018-06-08%2023.40.16.png?dl=1\"></p>\n<h2 id=\"8-Discussion\"><a href=\"#8-Discussion\" class=\"headerlink\" title=\"8. Discussion\"></a>8. Discussion</h2><hr>\n<ul>\n<li>natural gradient method๋ policy iteration์์์ ๊ฐ์ด greedy action์ ์ ํํ๋๋ก ํ์ต๋</li>\n<li>line search์ ํจ๊ป ์ฐ๋ฉด natural gradient method๋ ๋ policy iteration ๊ฐ์์ง</li>\n<li>greedy policy iteration์์์๋ ๋ฌ๋ฆฌ performance improvement๊ฐ ๋ณด์ฅ๋</li>\n<li>ํ์ง๋ง F(Fisher information matrix)๊ฐ asymtotically Hessian์ผ๋ก ์๋ ดํ์ง ์์. asymtotically conjugate gradient method(Hessian์ inverse๋ฅผ approx.๋ก ๊ตฌํ๋ ๋ฐฉ๋ฒ)๊ฐ ๋ ์ข์ ๋ณด์ผ ์ ์์</li>\n<li>ํ์ง๋ง Hessian์ด ํญ์ informativeํ์ง ์๊ณ (hessian์ด ์ด๋ค ์ ๋ณด๋ฅผ ์ฃผ๋ ค๋ฉด positive definite์ ๊ฐ์ ์ฑ์ง์ ๊ฐ์ ธ์ ํด๋น ํจ์๊ฐ convex์ธ ๊ฒ์ ์ ์ ์๋ค๋ ์ง์ ๊ฒฝ์ฐ๋ฅผ ์ด์ผ๊ธฐํ๋๋ฐ hessian์ด ํญ์ positive definite๊ฐ ์๋ ์ ์๋ค๋ ๊ฒ์ด๋ค) tetris์์ ๋ดค๋ฏ์ด natural gradient method๊ฐ ๋ ํจ์จ์ ์ผ ์ ์์(pushing the policy toward choosing greedy optimal actions)</li>\n<li>conjugate gradient method๊ฐ ์ข ๋ maximum์ ๋น ๋ฅด๊ฒ ์๋ ดํ์ง๋ง, performance๋ maximum์์ ๊ฑฐ์ ์๋ณํ๋ฏ๋ก ์ข๋ค๊ณ ๋งํ๊ธฐ ์ด๋ ค์(?). ์ด ๋ถ๋ถ์ ๋ํด์ ์ถ๊ฐ์ ์ธ ์ฐ๊ตฌ ํ์.</li>\n</ul>\n<p>amet, consectetur adipisicing elit. Vitae ipsum, voluptatem quis officiis inventore dolor totam deserunt, possimus similique eum, accusantium adipisci doloremque omnis excepturi quasi, suscipit repellendus quibusdam? Veritatis.</p>\n","site":{"data":{}},"excerpt":"","more":"<h1 id=\"A-Natural-Policy-Gradient-2001\"><a href=\"#A-Natural-Policy-Gradient-2001\" class=\"headerlink\" title=\"A Natural Policy Gradient [2001]\"></a>A Natural Policy Gradient [2001]</h1><p><img src=\"https://www.dropbox.com/s/it82tfhfmhg9uwp/Screenshot%202018-06-10%2010.58.52.png?dl=1\"></p>\n<ul>\n<li>๋
ผ๋ฌธ ์ ์: Sham Kakade</li>\n<li>๋
ผ๋ฌธ ๋งํฌ: <a href=\"https://papers.nips.cc/paper/2073-a-natural-policy-gradient.pdf\" target=\"_blank\" rel=\"noopener\">https://papers.nips.cc/paper/2073-a-natural-policy-gradient.pdf</a></li>\n<li>ํจ๊ป ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ: <ul>\n<li><a href=\"hhttps://papers.nips.cc/paper/1713-policy-gradient-methods-for-reinforcement-learning-with-function-approximation.pdf\" target=\"_blank\" rel=\"noopener\">Policy Gradient Methods for<br>Reinforcement Learning with Function<br>Approximation (2000)</a></li>\n<li><a href=\"http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.452.7280&rep=rep1&type=pdf\" target=\"_blank\" rel=\"noopener\">Natural Gradient Works Efficiently in Learning(1998)</a></li>\n</ul>\n</li>\n<li>๋
ผ๋ฌธ์ ๋ณด๋ ์ด์ : TRPO์ NPG๋ ๊ด๋ จ์ด ๋ง๊ธฐ ๋๋ฌธ์ TRPO๋ฅผ ๋ ์ ์ดํดํ๊ธฐ ์ํด ๋ด</li>\n</ul>\n<h2 id=\"1-Abstract\"><a href=\"#1-Abstract\" class=\"headerlink\" title=\"1. Abstract\"></a>1. Abstract</h2><hr>\n<ul>\n<li>natural gradient method๋ฅผ policy gradient์ ์ ์ฉ</li>\n<li>natural gradient๋ steepest descent direction์ ๊ฐ์ง</li>\n<li>gradient descent๋ parameter๋ฅผ ํ ๋ฒ์ ๋ง์ด update ํ ์ ์๋ ๋ฐ๋ฉด, natural gradient๋ ๊ฐ์ฅ ์ข์ action์ ๊ณ ๋ฅด๋๋ก ํ์ต์ด ๋ (sutton ๋
ผ๋ฌธ์์์ ๊ฐ์ด compatible value function์ ์ฌ์ฉํ ๊ฒฝ์ฐ policy iteration์์ policy improvement 1 step์ ๊ณผ์ ์์)</li>\n<li>simple MDP์ tetris MDP์์ ํ
์คํธํจ. ์ฑ๋ฅ์ด ๋ง์ด ํฅ์</li>\n</ul>\n<h2 id=\"2-Personal-Interpretation-and-Thinking\"><a href=\"#2-Personal-Interpretation-and-Thinking\" class=\"headerlink\" title=\"2. Personal Interpretation and Thinking\"></a>2. Personal Interpretation and Thinking</h2><p>(๊ฐ์ธ์๊ฐ) ๋ด๋ด๋ท์ ์ฌ์ฉํ ๊ฒฝ์ฐ gradient๊ฐ steepest direction์ด ์๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. ๋ด๋ด๋ท์ parameter space๊ฐ ์ฐ๋ฆฌ๊ฐ ๋ณดํต ์๊ฐํ๋ ์ง์ ์ผ๋ก ์ญ์ญ ๋ป์ด์๋ Euclidean space๊ฐ ์๋๋ค. ์ข ๋ ์ผ๋ฐ์ ์ผ๋ก๋ ๊ตฌ์ ํ๋ฉด๊ณผ ๊ฐ์ด ํ์ด์ ธ์๋ ๊ณต๊ฐ ์ฆ, ๋ฆฌ๋ง ๊ณต๊ฐ(Riemannian space)๋ก ํํํ ์ ์๋ค. ์ด์ ๊ฐ์ ๊ณต๊ฐ์์๋ natural gradient๊ฐ steepest direction์ด ๋๋ค๋ ์ฐ๊ตฌ๊ฐ ์ด๋ค์ง๊ณ ์์๋ค. ๊ฐํํ์ต์ policy gradient์ objective function์ gradient๋ฅผ ๋ฐ๋ผ policy๋ฅผ ์
๋ฐ์ดํธํ๋ค. ์ด ๋, policy๋ parameterized ๋๋๋ฐ ์ด ๊ฒฝ์ฐ์๋ gradient ๋์ ์ natural gradient๊ฐ ์ข๋ค๋ ๊ฒ์ ์คํํด๋ณด๋ ๋
ผ๋ฌธ์ด๋ค. </p>\n<p>gradient๊ฐ non-covariant ํด์ ์๊ธฐ๋ ๋ฌธ์ ๋ ๊ฐ๋จํ ๋งํ์๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. policy๊ฐ parameterized๋ ์ํฉ์์๋ ๊ฐ์ policy๋ผ๋ ๋ค๋ฅธ parameter๋ฅผ ๊ฐ์ง ์ ์๋ค. ์ด ๋, steepest direction์ ๋ ๊ฒฝ์ฐ์ ๊ฐ์ ๋ฐฉํฅ์ ๊ฐ๋ฆฌ์ผ์ผํ๋๋ฐ non-covariantํ ๊ฒฝ์ฐ ๊ทธ๋ ์ง ๋ชปํ๋ค. ์ด๊ฒ์ ๊ฒฐ๊ตญ ๋๋ฆฐ ํ์ต์ผ๋ก ์ฐ๊ฒฐ์ด ๋๋ค. </p>\n<p>๋
ผ๋ฌธ์์ 2์ฐจ๋ฏธ๋ถ ๋ฐฉ๋ฒ๋ก ๋ค๊ณผ ์งง๊ฒ ๋น๊ต๋ฅผ ํ๋ค. ํ์ง๋ง 2์ฐจ๋ฏธ๋ถ์ ์ด์ฉํ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค๊ณผ์ ๋น๊ต๊ฐ ์๊ฐ๋ณด๋ค ์๋ ์ ์ด ์์ฝ๋ค.(Hessian์ ์ด์ฉํ๋ค๊ฑฐ๋ conjugate gradient method๋ฅผ ์ด์ฉํ๋ค๊ฑฐ๋). ์คํ์ ํตํด FIM์ด hessian์ ์๋ ด์ํ๋ ๊ฑฐ๋ผ๋์ง Hessian ๋ฐฉ๋ฒ๋ก ์ด local maxima ๋ถ๊ทผ์์ ์๋นํ ๋๋ฆฌ๋ค๋์ง์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ์์ผ๋ฉด ์ข์์ ๊ฒ ๊ฐ๋ค. </p>\n<p>๋ํ natural gradient ๋ง์ผ๋ก ์
๋ฐ์ดํธํ๋ฉด policy์ improvement๋ณด์ฅ์ด ์๋ ์ ์๋ค. policy์ improvement๋ฅผ ๋ณด์ฅํ๊ธฐ ์ํด line search๋ ์จ์ผํ๋๋ฐ line search๋ฅผ ์ด๋ป๊ฒ ์ฐ๋์ง์ ๋ํ ์์ธํ ์ธ๊ธ์ด ์๋ค. ์ฆ, ์์ธํ algorithm ์ค๋ช
์ด ์๋ค.</p>\n<p>natural policy gradient ๋
ผ๋ฌธ์ natural gradient + policy gradient๋ฅผ ์ฒ์ ์ ์ฉํ๋ค๋๋ฐ ์์๊ฐ ์๋ค. ํ์ง๋ง ์ด ๋
ผ๋ฌธ์ด ๋ฌธ์ ์ผ์ gradient๋ non-covariantํ๋ค๋ผ๋ ๋ฌธ์ ๋ฅผ natural gradient๋ฅผ ํตํด ํด๊ฒฐํ์ง ๋ชปํ๋ค(Experiment๋ฅผ ํตํด covariant gradient๊ฐ ๋์ง ๋ชปํ๋ค๋ ๊ฒ์ด ๋ณด์ธ๋ค). NPG์ ๋ค๋ฅผ ์๋ ๋
ผ๋ฌธ์ด โcovariant policy searchโ์ โnatural actor-criticโ์์ covariantํ์ง ๋ชปํ๋ค๋ ๊ฒ์ ํด๊ฒฐํ๊ธฐ ์ํด Fisher Information Matrix๋ฅผ sample ํ๋ ํ๋์ ๋ํด์ ๊ตฌํ๋ ๊ฒ์ด ์๋๋ผ trajectory ์ ์ฒด์ ๋ํด์ ๊ตฌํ๋ค. </p>\n<p>๋ํ ๋
ผ๋ฌธ์ pg์ ๋ ๊ฐ์ง ์ธํ
์ค์ average-reward setting(infinite horizon)์์๋ง NPG๋ฅผ ๋ค๋ฃฌ๋ค. โcovariant policy searchโ ๋
ผ๋ฌธ์์๋ average-reward setting๊ณผ start-state setting ๋ชจ๋์ ๋ํด์ npg๋ฅผ ์ ์ฉํ๋ค. </p>\n<p>natural gradient + policy gradient๋ฅผ ์ฒ์ ์ ์ํ๋ค๋ ๊ฒ์ ์ข์ง๋ง npg ํ์ต์ ๊ณผ์ ์ ์์ธํ๊ฒ ์ค๋ช
ํ์ง ์์๊ณ ๋ค๋ฅธ 2์ฐจ ๋ฏธ๋ถ ๋ฐฉ๋ฒ๋ค๊ณผ ๋น๊ต๋ฅผ ๋ง์ด ํ์ง ์์ ์ ์ด ์์ฌ์ด ๋
ผ๋ฌธ์ด๋ค.</p>\n<h2 id=\"3-Introduction\"><a href=\"#3-Introduction\" class=\"headerlink\" title=\"3. Introduction\"></a>3. Introduction</h2><hr>\n<ul>\n<li>direct policy gradient method๋ future reward์ gradient๋ฅผ ๋ฐ๋ผ policy๋ฅผ updateํจ</li>\n<li>ํ์ง๋ง gradient descent๋ non-covariant</li>\n<li>์ด ๋
ผ๋ฌธ์์๋ covarient gradient๋ฅผ ์ ์ํจ = natural gradient</li>\n<li>natural gradient์ policy iteration์ ์ฐ๊ด์ฑ์ ์ค๋ช
ํ๊ฒ ์: natural policy gradient is moving toward choosing a greedy optimal action (์ด๋ฐ ์ฐ๊ฒฐ์ ์ ์๋ง๋ step-size๋ฅผ ๋ ์ ๊ฒฝ์ฐ๊ณ ์ถ์ด์ ๊ทธ๋ฐ๊ฒ ์๋๊ฐ ์ถ๋ค)</li>\n</ul>\n<p>๋
ผ๋ฌธ์ Introduction ๋ถ๋ถ์ ๋ค์ ๋ฉํธ๊ฐ ์๋ค. ์ด ๊ธ๋ง ๋ด์๋ ์ดํด๊ฐ ์๊ฐ๋๋ฐ Mackay ๋
ผ๋ฌธ์ ์ข ๋ ์์ธํ ๋์์๋ค.<br><img src=\"https://www.dropbox.com/s/41xhhr7lgfk24a1/Screenshot%202018-06-10%2011.45.18.png?dl=1\"></p>\n<p><a href=\"http://www.inference.org.uk/mackay/ica.pdf\" target=\"_blank\" rel=\"noopener\">Mackay</a>๋
ผ๋ฌธ์์๋ ๋ค์๊ณผ ๊ฐ์ด ์ธ๊ธํ๊ณ ์๋ค. Back-propagation์ ์ฌ์ฉํ ๊ฒฝ์ฐ์ learning rate๋ฅผ dimension์ 1/n๋ก ์ฌ์ฉํ๋ฉด ์๋ ดํ๋ค๋ ๊ฒ์ด ์ฆ๋ช
๋๋ค. ํ์ง๋ง ๋๋ฌด ๋๋ฆฌ๋ค.<br><img src=\"https://www.dropbox.com/s/us9ezc7vxgrkez6/Screenshot%202018-06-10%2011.47.21.png?dl=1\"></p>\n<h2 id=\"4-A-Natural-Gradient\"><a href=\"#4-A-Natural-Gradient\" class=\"headerlink\" title=\"4. A Natural Gradient\"></a>4. A Natural Gradient</h2><hr>\n<h3 id=\"4-1-ํ๊ฒฝ์-๋ํ-์ค์ \"><a href=\"#4-1-ํ๊ฒฝ์-๋ํ-์ค์ \" class=\"headerlink\" title=\"4.1 ํ๊ฒฝ์ ๋ํ ์ค์ \"></a>4.1 ํ๊ฒฝ์ ๋ํ ์ค์ </h3><p>์ด ๋
ผ๋ฌธ์์ ์ ์ํ๋ ํ์ต ํ๊ฒฝ์ ๋ค์๊ณผ ๊ฐ๋ค.</p>\n<ul>\n<li>MDP: tuple $$(S, s_0, A, R, P)$$</li>\n<li>$$S$$: a finite set of states</li>\n<li>$$s_0$$: a start state</li>\n<li>$$A$$: a finite set of actions</li>\n<li>$$R$$: reward function $$R: S \\times A -> [0, R_{max}]$$</li>\n<li>$$\\pi(a;s, \\theta)$$: stochastic policy parameterized by $$\\theta$$</li>\n<li>๋ชจ๋ ์ ์ฑ
$$\\pi$$๋ ergodic: stationary distribution $$\\rho^{\\pi}$$์ด ์ ์ ์๋์ด์์</li>\n<li>์ด ๋
ผ๋ฌธ์์๋ sutton์ pg ๋
ผ๋ฌธ์ ๋ ์ธํ
(start-state formulation, average-reward formulation) ์ค์ ๋ ๋ฒ์งธ์ธ average-reward formulation์ ๊ฐ์ </li>\n<li>performance or average reward: $$\\eta(\\pi)=\\sum_{s,a}\\rho^{\\pi}(s)\\pi(a;s)R(s,a)$$</li>\n<li>state-action value: $$Q^{\\pi}(s,a)=E_{\\pi}[\\sum_{t=0}^{\\infty}R(s_t, a_t)-\\eta(\\pi)\\vert s_0=s, a_0=a]$$</li>\n<li>์ ์ฑ
์ด $$\\theta$$๋ก parameterize๋์ด์์ผ๋ฏ๋ก performance๋ $$\\eta(\\pi_{\\theta})$$์ธ๋ฐ $$\\eta(\\theta)$$๋ก ์ธ๊ฑฐ์</li>\n</ul>\n<h3 id=\"4-2-Natural-Gradient\"><a href=\"#4-2-Natural-Gradient\" class=\"headerlink\" title=\"4.2 Natural Gradient\"></a>4.2 Natural Gradient</h3><h4 id=\"4-2-1-Policy-gradient-Theorem\"><a href=\"#4-2-1-Policy-gradient-Theorem\" class=\"headerlink\" title=\"4.2.1 Policy gradient Theorem\"></a>4.2.1 Policy gradient Theorem</h4><p>์ํผ pg ๋
ผ๋ฌธ์ policy gradient theorem์ ๋ฐ๋ผ exact gradient of the average reward๋ ๋ค์๊ณผ ๊ฐ๋ค. ๋ค์ ์์์ด ์ด๋ป๊ฒ ์ ๋๋์๋์ง, ์ด๋ค ์๋ฏธ์ธ์ง ๋ชจ๋ฅธ๋ค๋ฉด ์ํผ pg ๋
ผ๋ฌธ์ ํตํด ์ ๋๋ก ์ดํดํ๋ ๊ฒ์ด ์ข๋ค.</p>\n<p>$$\\nabla\\eta(\\theta)=\\sum_{s,a}\\rho^{\\pi}(s)\\nabla\\pi(a;s,\\theta)Q^{\\pi}(s,a)$$</p>\n<p>steepest descent direction of $$\\eta(\\theta)$$๋ $$\\eta(\\theta + d\\theta)$$๋ฅผ ์ต์ํํ๋ $$d\\theta$$๋ก ์ ์๋๋ค. ์ด ๋, $$\\vert d\\theta \\vert^2$$๊ฐ ์ผ์ ํฌ๊ธฐ ์ดํ์ธ ๊ฒ์ผ๋ก ์ ์ฝ์กฐ๊ฑด์ ์ค๋ค(held to small constant). Euclidian space์์๋ $$\\eta(\\theta)$$๊ฐ steepest direction์ด์ง๋ง Riemannian space์์๋ natural gradient๊ฐ steepest direction์ด๋ค. </p>\n<h4 id=\"4-2-2-Natural-gradient-์ฆ๋ช
\"><a href=\"#4-2-2-Natural-gradient-์ฆ๋ช
\" class=\"headerlink\" title=\"4.2.2 Natural gradient ์ฆ๋ช
\"></a>4.2.2 Natural gradient ์ฆ๋ช
</h4><p>Riemannian space์์ ๊ฑฐ๋ฆฌ๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค. $$G(\\theta)$$๋ ํน์ ํ ์์๋ก ์ด๋ฃจ์ด์ง matrix์ด๋ค.</p>\n<p>$$\\vert d\\theta \\vert^2=\\sum_{ij}(\\theta)d\\theta_id\\theta_i=d\\theta^TG(\\theta)d\\theta$$</p>\n<p>์ด ์์์ Natural Gradient Works Efficiently in Learning ๋
ผ๋ฌธ์์ ์ฆ๋ช
๋์ด์๋ค. ๋ค์์ natural gradient ์ฆ๋ช
์ด๋ค. </p>\n<p>steepest direction์ ๊ตฌํ ๋ $$\\theta$$์ ํฌ๊ธฐ๋ฅผ ์ ์ฝ์กฐ๊ฑด์ ์ค๋ค. ์ ์ฝ์กฐ๊ฑด์ ๋ค์๊ณผ ๊ฐ๋ค. </p>\n<p>$$\\vert d\\theta \\vert^2 = \\epsilon^2$$</p>\n<p>๊ทธ๋ฆฌ๊ณ steepest vector์ธ $$d\\theta$$๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ ์ ์๋ค. </p>\n<p>$$d\\theta = \\epsilon a$$</p>\n<p>$$\\vert a \\vert^2=a^TG(\\theta)a = 1$$</p>\n<p>์ด ๋, $$a$$๊ฐ steepest direction unit vector์ด ๋๋ ค๋ฉด ๋ค์ ์์์ ์ต์๋ก ๋ง๋ค์ด์ผ ํ๋ค. (์ด ์์์ ์ ๋ชจ๋ฅด๊ฒ ์ง๋ง $$\\theta$$์์์ 1์ฐจ๊ทผ์ฌ๋ฅผ ๊ฐ์ ํ๋๊ฒ ์๋๊ฐ ์ถ๋ค.</p>\n<p>$$\\eta(\\theta + d\\theta) = \\eta(\\theta) + \\epsilon\\nabla\\eta(\\theta)^Ta$$</p>\n<p>์ ์์์ด ์ ์ฝ์กฐ๊ฑด ์๋ ์ต์๊ฐ ๋๋ $$a$$๋ฅผ ๊ตฌํ๊ธฐ ์ํด Lagrangian method๋ฅผ ์ฌ์ฉํ๋ค. Lagrangian method๋ฅผ ๋ชจ๋ฅธ๋ค๋ฉด <a href=\"https://en.wikipedia.org/wiki/Lagrange_multiplier\" target=\"_blank\" rel=\"noopener\">์ํคํผ๋์</a>๋ฅผ ์ฐธ๊ณ ํ๋ ๊ฒ์ ์ถ์ฒํ๋ค. ์ ์์์ด ์ต์๋ผ๋ ๊ฒ์ $$\\nabla\\eta(\\theta)^Ta$$๊ฐ ์ต์๋ผ๋ ๊ฒ์ด๋ค. </p>\n<p>$$\\frac{\\partial}{\\partial a_i}(\\nabla\\eta(\\theta)^Ta - \\lambda a^TG(\\theta)a)=0$$</p>\n<p>๋ฐ๋ผ์ $$(\\nabla\\eta(\\theta)^Ta - \\lambda a^TG(\\theta)a)=0$$๋ ์์์ด๋ค. ์์๋ฅผ ๋ฏธ๋ถํ๋ฉด 0์ด๋ฏ๋ก ์ด ์์ $$a$$๋ก ๋ฏธ๋ถํ๋ค. ๊ทธ๋ฌ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. steepest direction์ ๊ตฌํ ๊ฒ์ด๋ค.</p>\n<p>$$\\nabla\\eta(\\theta) = 2 \\lambda G(\\theta)a$$</p>\n<p>$$a=\\frac{1}{2\\lambda}G^{-1}\\nabla\\eta(\\theta)$$</p>\n<p>์ด ๋, ๋ค์ ์์ natural gradient๋ผ๊ณ ์ ์ํ๋ค.</p>\n<p>$$\\bar{\\nabla}\\eta(\\theta) = G^{-1}\\nabla\\eta(\\theta)$$</p>\n<p>natural gradient๋ฅผ ์ด์ฉํ ์
๋ฐ์ดํธ๋ ๋ค์๊ณผ ๊ฐ๋ค. </p>\n<p>$$\\theta_{t+1}=\\theta_t - \\alpha_tG^{-1}\\nabla\\eta(\\theta)$$</p>\n<p>์ฌ๊ธฐ๊น์ง๋ natural gradient์ ์ฆ๋ช
์ด์๋ค. ์ด natural gradient๋ฅผ policy gradient์ ์ ์ฉํ ๊ฒ์ด natural policy gradient์ด๋ค. natural policy gradient๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.</p>\n<p>$$\\bar{\\nabla}\\eta(\\theta) = F^{-1}\\nabla\\eta(\\theta)$$</p>\n<p>$$G$$ ๋์ $$F$$๋ฅผ ์ฌ์ฉํ๋๋ฐ $$F$$๋ Fisher information matix์ด๋ค. ์์์ ๋ค์๊ณผ ๊ฐ๋ค.</p>\n<p>$$F(\\theta) = E_{\\rho^\\pi(s)}[F_s(\\theta)]$$</p>\n<p>$$F_s(\\theta)=E_{\\pi(a;s,\\theta)}[\\frac{\\partial log \\pi(a;s, \\theta)}{\\partial \\theta_i}\\frac{\\partial log \\pi(a;s, \\theta)}{\\partial\\theta_j}]$$</p>\n<p>์ G๊ฐ F๊ฐ ๋๋์ง๋ ์์ง ์ ๋ชจ๋ฅด๊ฒ ๋ค. ๊ฑฐ๋ฆฌ๋ผ๋ ๊ฐ๋
์ ํํํ๋ ค๋ฉด </p>\n<h2 id=\"5-The-Natural-Gradient-and-Policy-Iteration\"><a href=\"#5-The-Natural-Gradient-and-Policy-Iteration\" class=\"headerlink\" title=\"5. The Natural Gradient and Policy Iteration\"></a>5. The Natural Gradient and Policy Iteration</h2><hr>\n<h3 id=\"5-1-Theorem-1\"><a href=\"#5-1-Theorem-1\" class=\"headerlink\" title=\"5.1 Theorem 1\"></a>5.1 Theorem 1</h3><p>sutton pg ๋
ผ๋ฌธ์ ๋ฐ๋ผ $$Q^{\\pi}(s,a)$$๋ฅผ approximationํ๋ค. approximateํ๋ ํจ์ $$f^{\\pi}(s,a;w)$$๋ ๋ค์๊ณผ ๊ฐ๋ค.(compatible value function)</p>\n<p>$$f^{\\pi}(s,a;w)=w^T\\psi^{\\pi}(s,a)$$</p>\n<p>$$\\psi^{\\pi}(s,a) = \\nabla log\\pi(a;s,\\theta)$$</p>\n<p>$$w$$๋ ์๋ approximateํ๋ ํจ์ $$Q$$์ $$f$$์ ์ฐจ์ด๋ฅผ ์ค์ด๋๋ก ํ์ตํ๋ค(mean square error). ์๋ ดํ local minima์ $$w$$๋ฅผ $$\\bar{w}$$๋ผ๊ณ ํ๊ฒ ๋ค. ์๋ฌ๋ ๋ค์๊ณผ ๊ฐ์ ์์์ผ๋ก ๋ํ๋ธ๋ค. </p>\n<p>$$\\epsilon(w,\\pi)\\equiv\\sum_{s, a}\\rho^{\\pi}(s)\\pi(a;s,\\theta)(f^{\\pi}(s,a;w)-Q^{\\pi}(s,a))^2$$</p>\n<p>์ ์์ด local minima์ด๋ฉด ๋ฏธ๋ถ๊ฐ์ด 0์ด๋ค. $$w$$์ ๋ํด์ ๋ฏธ๋ถํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. </p>\n<p>$$\\sum_{s, a}\\rho^{\\pi}(s)\\pi(a;s,\\theta)\\psi^{\\pi}(s,a)(\\psi^{\\pi}(s,a)^T\\bar{w}-Q^{\\pi}(s,a))=0$$</p>\n<p>$$(\\sum_{s, a}\\rho^{\\pi}(s)\\pi(a;s,\\theta)\\psi^{\\pi}(s,a)\\psi^{\\pi}(s,a)^T)\\bar{w}=\\sum_{s, a}\\rho^{\\pi}(s)\\pi(a;s,\\theta)\\psi^{\\pi}(s,a)Q^{\\pi}(s,a))$$</p>\n<p>์ด ๋, ์ ์์ ์ฐ๋ณ์ $$\\psi$$์ ์ ์์ ์ํด policy gradient๊ฐ ๋๋ค. ๋ํ ์ผ์ชฝ ํญ์์๋ Fisher information matrix๊ฐ ๋์จ๋ค.</p>\n<p>$$F(\\theta)=\\sum_{s,a}\\pi(a;s,\\theta)\\psi^{\\pi}(s,a)\\psi^{\\pi}(s,a)=E_{\\rho^\\pi(s)}[F_s(\\theta)]$$</p>\n<p>๋ฐ๋ผ์ ๋ค์๊ณผ ๊ฐ๋ค.</p>\n<p>$$F(\\theta)\\bar{w}=\\nabla\\eta(\\theta)$$</p>\n<p>$$\\bar{w}=F(\\theta)^{-1}\\nabla\\eta(\\theta)$$</p>\n<p>์ด ์์ natural gradient ์๊ณผ ๋์ผํ๋ค. ์ด ์์ policy๊ฐ update ๋ ๋, value function approximator์ parameter ๋ฐฉํฅ์ผ๋ก ์ด๋ํ๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค. function approximation์ด ์ ํํ๋ค๋ฉด ๊ทธ parameter์ natural policy gradient์ inner product๊ฐ ์ปค์ผํ๋ค. </p>\n<h3 id=\"5-2-Theorem-2-Greedy-Polict-Improvement\"><a href=\"#5-2-Theorem-2-Greedy-Polict-Improvement\" class=\"headerlink\" title=\"5.2 Theorem 2: Greedy Polict Improvement\"></a>5.2 Theorem 2: Greedy Polict Improvement</h3><p>natural policy gradient๊ฐ ๋จ์ํ ๋ ์ข์ ํ๋์ ๊ณ ๋ฅด๋๋ก ํ์ตํ๋๊ฒ ์๋๋ผ ๊ฐ์ฅ ์ข์ (greedy) ํ๋์ ๊ณ ๋ฅด๋๋ก ํ์ตํ๋ค๋ ๊ฒ์ ์ฆ๋ช
ํ๋ ํํธ์ด๋ค. ์ด๊ฒ์ ์ผ๋ฐ์ ์ธ ํํ์ policy์ ๋ํด์ ์ฆ๋ช
ํ๊ธฐ ์ ์ exponential ํํ์ policy์ ๋ํด์ ์ฆ๋ช
ํ๋ ๊ฒ์ด Theorem 2์ด๋ค.</p>\n<p>policy๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ๋ค.</p>\n<p>$$\\pi(a;s,\\theta) \\propto exp(\\theta^T\\phi_{sa})$$</p>\n<p>$$\\bar{\\nabla}\\eta(\\theta)$$๊ฐ 0์ด ์๋๊ณ $$\\bar{w}$$๋ approximation error๋ฅผ ์ต์ํํ $$w$$๋ผ๊ณ ๊ฐ์ ํ๋ค. ์ด ์ํ์์ natural gradient update๋ฅผ ์๊ฐํด๋ณด์. policy gradient๋ gradient ascent์์ ๊ธฐ์ตํ์.</p>\n<p>$$\\theta_{t+1}=\\theta_t + \\alpha_t\\bar{\\nabla}\\eta(\\theta)$$</p>\n<p>์ด ๋ $$\\alpha$$๊ฐ learning rate๋ก parameter๋ฅผ ์ผ๋ง๋ ์
๋ฐ์ดํธํ๋์ง๋ฅผ ๊ฒฐ์ ํ๋ค. ์ด ๊ฐ์ ๋ฌดํ๋๋ก ๋๋ ธ์ ๋ policy๊ฐ ์ด๋ป๊ฒ ์
๋ฐ์ดํธ๋๋์ง ์๊ฐํด๋ณด์. </p>\n<p>$$\\pi_{\\infty}(a;s)=lim_{\\alpha\\rightarrow\\infty}\\pi(a;s,\\theta+\\alpha\\bar{\\nabla}\\eta(\\theta))-(1)$$</p>\n<p>function approximator๋ ๋ค์๊ณผ ๊ฐ๋ค. </p>\n<p>$$f^{\\pi}(s,a;w)=w^T\\psi^{\\pi}(s,a)$$</p>\n<p>Theorem 1์ ์ํด ์ ์์ ์๋์ ๊ฐ์ด ์ธ ์ ์๋ค.</p>\n<p>$$f^{\\pi}(s,a;w)=\\bar{\\nabla}\\eta(\\theta)^T\\psi^{\\pi}(s,a)$$</p>\n<p>$$\\theta$$์ ์ ์์ ์ํด $$\\psi$$๋ ๋ค์๊ณผ ๊ฐ๋ค.</p>\n<p>$$\\psi^{\\pi}(s,a)=\\phi_{sa}-E_{\\pi(aโ;s,\\theta)}[\\phi_{saโ}]$$</p>\n<p>function approximator๋ ๋ค์๊ณผ ๊ฐ์ด ๋ค์ ์ธ ์ ์๋ค.</p>\n<p>$$f^{\\pi}(s,a;w)=\\bar{\\nabla}\\eta(\\theta)^T(\\phi_{sa}-E_{\\pi(aโ;s,\\theta)}[\\phi_{saโ}])$$</p>\n<p>greedy policy improvement๊ฐ Q function ๊ฐ ์ค ๊ฐ์ฅ ํฐ ๊ฐ์ ๊ฐ์ง๋ action์ ์ ํํ๋ฏ์ด ์ฌ๊ธฐ์๋ function approximator์ ๊ฐ์ด ๊ฐ์ฅ ํฐ action์ ์ ํํ๋ ์ํฉ์ ๊ฐ์ ํด๋ณธ๋ค. ์ด ๋ function approximator์ argmax๋ ๋ค์๊ณผ ๊ฐ์ด ์ธ ์ ์๋ค.</p>\n<p>$$argmax_{aโ}f^{\\pi}(s,a)=argmax_{aโ}\\bar{\\nabla}\\eta(\\theta)^T\\phi_{saโ}$$</p>\n<p>(1) ์์ ๋ค์ ์ดํด๋ณด์. policy์ ์ ์์ ๋ฐ๋ผ ๋ค์๊ณผ ๊ฐ์ด ์ธ ์ ์๋ค. </p>\n<p>$$\\pi(a;s,\\theta + \\alpha\\bar{\\nabla}\\eta(\\theta)) \\propto exp(\\theta^T\\phi_{sa} + \\alpha\\bar{\\nabla}\\eta(\\theta)^T\\phi_{sa})$$</p>\n<p>$$\\bar{\\nabla}\\eta(\\theta) \\neq 0$$์ด๊ณ $$\\alpha\\rightarrow\\infty$$์ด๋ฉด exp์์ ํญ ์ค์์ ๋ค์ ํญ์ด dominateํ๊ฒ ๋๋ค. ์ฌ๋ฌ ํ๋ ์ค์ $$\\bar{\\nabla}\\eta(\\theta)^T\\phi_{sa}$$๊ฐ ๊ฐ์ฅ ํฐ ํ๋์ด ์๋ค๋ฉด ์ด ํ๋์ policy probability๊ฐ 1์ด ๋๊ณ ๋๋จธ์ง๋ 0์ด ๋๋ค. ๋ฐ๋ผ์ ๋ค์์ด ์ฑ๋ฆฝํ๋ค.</p>\n<p>$$\\pi_{\\infty}=0$$ </p>\n<p>if and only if </p>\n<p>$$a \\notin argmax_{aโ}\\bar{\\nabla}\\eta(\\theta)^T\\phi_{saโ}$$</p>\n<p>์ด ๊ฒฐ๊ณผ๋ก๋ถํฐ natural policy gradient๋ ๋จ์ง ๋ ์ข์ action์ด ์๋๋ผ best action์ ๊ณ ๋ฅด๋๋ก ํ์ต์ด ๋๋ค. ํ์ง๋ง non-covariant gradient(1์ฐจ๋ฏธ๋ถ) ์์๋ ๊ทธ์ ๋ ์ข์ action์ ๊ณ ๋ฅด๋๋ก ํ์ต์ด ๋๋ค. ํ์ง๋ง ์ด natural policy gradient์ ๋ํ ๊ฒฐ๊ณผ๋ infinite learning rate ์ธํ
์์๋ง ์ฑ๋ฆฝํจ. ์ข ๋ ์ผ๋ฐ์ ์ธ ๊ฒฝ์ฐ์ ๋ํด์ ์ดํด๋ณด์.</p>\n<h4 id=\"4-3-Theorem-3\"><a href=\"#4-3-Theorem-3\" class=\"headerlink\" title=\"4.3 Theorem 3\"></a>4.3 Theorem 3</h4><p>Theorem 2์์์๋ ๋ฌ๋ฆฌ ์ผ๋ฐ์ ์ธ policy๋ฅผ ๊ฐ์ ํ์(general parameterized policy). Theorem 3๋ ์ด ์ํฉ์์ natural gradient๋ฅผ ํตํ ์
๋ฐ์ดํธ๊ฐ best action๋ฅผ ๊ณ ๋ฅด๋ ๋ฐฉํฅ์ผ๋ก ํ์ต์ด ๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. </p>\n<p>natural gradien์ ๋ฐ๋ฅธ policy parameter์ ์
๋ฐ์ดํธ๋ ๋ค์๊ณผ ๊ฐ๋ค. $$\\bar{w}$$๋ approximation error๋ฅผ minimizeํ๋ $$w$$์ด๋ค.</p>\n<p>$$\\delta\\theta = \\thetaโ - \\theta = \\alpha\\bar{\\nabla}\\eta(\\theta)=\\alpha\\bar{w}$$</p>\n<p>policy์ ๋ํด์ 1์ฐจ๊ทผ์ฌ๋ฅผ ํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. </p>\n<p>$$\\pi(a;s,\\thetaโ)=\\pi(a;s,\\theta)+\\frac{\\partial\\pi(a;s,\\theta)^T}{\\partial\\theta}\\delta\\theta + O(\\delta\\theta^2)$$</p>\n<p>$$=\\pi(a;s,\\theta)(1+\\psi(s,a)^T\\delta\\theta) + O(\\delta\\theta^2)$$</p>\n<p>$$=\\pi(a;s,\\theta)(1+\\alpha\\psi(s,a)^T\\bar{w}) + O(\\delta\\theta^2)$$</p>\n<p>$$=\\pi(a;s,\\theta)(1+\\alpha f^{\\pi}(s,a;\\bar{w}) + O(\\delta\\theta^2)$$</p>\n<p>policy ์์ฒด๊ฐ function approximator์ ํฌ๊ธฐ๋๋ก ์
๋ฐ์ดํธ๊ฐ ๋๋ฏ๋ก localํ๊ฒ best action์ probability๋ ์ปค์ง๊ณ ๋ค๋ฅธ probability์ ํฌ๊ธฐ๋ ์์์ง ๊ฒ์ด๋ค. ํ์ง๋ง ๋ง์ฝ greedy improvement๊ฐ ๋๋คํ๋๋ผ๋ ๊ทธ๊ฒ performance์ improvement๋ฅผ ๋ณด์ฅํ๋ ๊ฒ์ ์๋๋ค. ํ์ง๋ง line search์ ํจ๊ป ์ฌ์ฉํ ๊ฒฝ์ฐ improvement๋ฅผ ๋ณด์ฅํ ์ ์๋ค. </p>\n<h2 id=\"6-Metrics-and-Curvatures\"><a href=\"#6-Metrics-and-Curvatures\" class=\"headerlink\" title=\"6. Metrics and Curvatures\"></a>6. Metrics and Curvatures</h2><hr>\n<p>๋ค์ ์์ ํด๋นํ๋ G๋ Fisher Information Matrix๋ง ์ฌ์ฉํ ์ ์๋ ๊ฒ์ด ์๋๋ค.</p>\n<p>$$\\vert d\\theta \\vert^2=\\sum_{ij}(\\theta)d\\theta_id\\theta_i=d\\theta^TG(\\theta)d\\theta$$</p>\n<p>์ด ํํธ์์๋ FIM๊ณผ ๋ค๋ฅธ metric ์ฌ์ด์ ๊ด๊ณ๋ฅผ ๋ค๋ฃฌ๋ค. </p>\n<ul>\n<li>In the different setting of parameter estimation, the Fisher information converges to the <code>Hessian</code>, so it is <a href=\"https://en.wikipedia.org/wiki/Efficiency_(statistics\" target=\"_blank\" rel=\"noopener\">asymptotically efficient</a>#Asymptotic_efficiency)</li>\n<li>์ด ๋
ผ๋ฌธ์ ๊ฒฝ์ฐ, ์๋ง๋ฆฌ ๋
ผ๋ฌธ์ โblind separation caseโ์ ์ ์ฌํ๋ฐ ์ด ๋๋ ๊ผญ asymtotically efficientํ์ง ์๋ค. ์ด ๋ง์ ์ฆ 2nd order ์๋ ด์ด ๋ณด์ฅ๋์ง ์๋๋ค๋ ๊ฒ์ด๋ค.</li>\n<li><a href=\"http://www.inference.org.uk/mackay/ica.pdf\" target=\"_blank\" rel=\"noopener\">Mackay</a> ๋
ผ๋ฌธ์์ hessian์์ data independantํ term์ metric์ผ๋ก ๊ฐ์ ธ์ค๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ๊ทธ๋์ performance๋ฅผ 2๋ฒ ๋ฏธ๋ถํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. ํ์ง๋ง ๋ค์ ์์์๋ ๋ชจ๋ ํญ์ด data dependentํ๋ค(Q๊ฐ ์์ผ๋๊น). ์ฒซ ๋ฒ์งธ ํญ์ด ๊ทธ๋๋ง FIM๊ณผ์ ๊ด๋ จ์ฑ์ด ์์ ์ ์์ง๋ง Q ๊ฐ์ด curvature์ weight๋ฅผ ์ฃผ๋ ๋ฐฉ์ ๋๋ฌธ์ ๋ค๋ฅด๋ค๊ณ ํ ์ ์๋ค.</li>\n</ul>\n<p>$$<br>\\nabla^2\\eta(\\theta)=\\sum_{sa}\\rho^{\\pi}(s)(\\nabla^2\\pi(a;s)Q^{\\pi}(s,a)+\\nabla\\pi(a;s)\\nabla Q^{\\pi}(s,a)^T+\\nabla Q^{\\pi}(s,a)\\nabla\\pi(a;s)^T)<br>$$</p>\n<ul>\n<li>hessian์ ๋ณดํต positive definite๊ฐ ์๋์๋ ์๋ค. ๋ฐ๋ผ์ local maxima๊ฐ ๋ ๋๊น์ง Hessian์ด ์ฌ์ฉํ๊ธฐ ๋ณ๋ก ์์ข๋ค. ๊ทธ๋ฆฌ๊ณ local maxima์์๋ Hessian๋ณด๋ค๋ Conjugate methods๊ฐ ๋ ํจ์จ์ ์ด๋ค. </li>\n</ul>\n<p>์ด ํํธ์์๋ ๋ฌด์์ ๋งํ๊ณ ์๋์ง ์๊ธฐ๊ฐ ์ด๋ ต๋ค. FIM๊ณผ Hessian์ด ๊ด๋ จ์ด ์๋ค๋ ๊ฒ์ ์๊ฒ ๋ค. ํ์ง๋ง asymtotically efficient์ ๊ฐ์ ๋ด์ฉ์ ๋ชจ๋ฅด๋ฏ๋ก ๋ด์ฉ์ ์ดํด๊ฐ ์ด๋ ค์ ๋ค.</p>\n<p>Mackay ๋
ผ๋ฌธ์์ ํด๋น ๋ถ๋ถ์ ๋ค์๊ณผ ๊ฐ๋ค. </p>\n<p><img src=\"https://www.dropbox.com/s/x4n6z6pdyi7xtb9/Screenshot%202018-06-10%2012.04.13.png?dl=1\"></p>\n<h2 id=\"7-Experiment\"><a href=\"#7-Experiment\" class=\"headerlink\" title=\"7. Experiment\"></a>7. Experiment</h2><hr>\n<p>๋
ผ๋ฌธ์์๋ natural gradient๋ฅผ simple MDP์ tetris MDP์ ๋ํด์ ํ
์คํธํ๋ค. practice์์๋ Fisher information matrix๋ ๋ค์๊ณผ ๊ฐ์ ์์ผ๋ก ์
๋ฐ์ดํธํ๋ค.</p>\n<p>$$f\\leftarrow f+\\nabla log \\pi(a_t; s_t, \\theta)\\nabla log \\pi(a_t; s_t, \\theta)^T$$</p>\n<p>T length trajectory์ ๋ํด์ f/T๋ฅผ ํตํด F์ estimate๋ฅผ ๊ตฌํ๋ค.</p>\n<h3 id=\"7-1-Linear-Quadratic-regulator\"><a href=\"#7-1-Linear-Quadratic-regulator\" class=\"headerlink\" title=\"7.1 Linear Quadratic regulator\"></a>7.1 Linear Quadratic regulator</h3><p>์์ด์ ํธ๋ฅผ ํ
์คํธํ ํ๊ฒฝ์ ๋ค์๊ณผ ๊ฐ์ dynamics๋ฅผ ๊ฐ์ง๊ณ ์๋ค. $$u(t)$$๋ control signal๋ก์ ์์ด์ ํธ์ ํ๋์ด๋ผ๊ณ ์๊ฐํ๋ฉด ๋๋ค. $$\\epsilon$$์ noise distribution์ผ๋ก ํ๊ฒฝ์ ๊ฐํด์ง๋ ๋
ธ์ด์ฆ์ด๋ค. ์์ด์ ํธ์ ๋ชฉํ๋ ์ ์ ํ $$u(t)$$๋ฅผ ํตํด<br>x(t)๋ฅผ 0์ผ๋ก ์ ์งํ๋ ๊ฒ์ด๋ค. ์ ์ด๋ถ์ผ์์์ LQR controller ๋ฌธ์ ์ด๋ค.</p>\n<p>$$<br>x(t+1) = 0.7x(t)+u(t)+\\epsilon(t)<br>$$</p>\n<p>x(t)๋ฅผ 0์ผ๋ก ์ ์งํ๊ธฐ ์ํด์ $$x(t)^2$$๋ฅผ cost๋ก ์ก๊ณ ์ด cost๋ฅผ ์ต์ํํ๋๋ก ํ์ตํ๋ค. ์ด ์์คํ
์ linear๋ผ๊ณ ๋ถ๋ฅด๋ ๊ฒ์ ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ์ ํ์ ํํ๋ฅผ ๋๊ธฐ ๋๋ฌธ์ด๋ค. ์ด ๋
ผ๋ฌธ์์ ์คํํ ๋๋ ์ด ๊ทธ๋ฆผ์์์ system์ noise๋ฅผ ๋ํด์ค ๊ฒ์ด๋ค. <a href=\"https://stanford.edu/class/ee363/lectures/dlqr.pdf\" target=\"_blank\" rel=\"noopener\">๊ทธ๋ฆผ ์ถ์ฒ</a></p>\n<p><img src=\"https://www.dropbox.com/s/vz0q97lcek4oti5/Screenshot%202018-06-08%2014.21.10.png?dl=1\"></p>\n<p>์ด ์คํ์์ ์ฌ์ฉํ parameterized policy๋ ๋ค์๊ณผ ๊ฐ๋ค. parameter๊ฐ $$\\theta_1$$๊ณผ $$\\theta_2$$ ๋ฐ์ ์๋ ์๋นํ ๊ฐ๋จํ policy์ด๋ค. </p>\n<p>$$<br>\\pi(u;x,\\theta) \\propto exp(\\theta_1 s_1 x^2 + \\theta_2 s_2 x)<br>$$</p>\n<p>์ด policy๋ฅผ ๊ฐ๋จํ numpy์ matplotlib๋ฅผ ์ด์ฉํด์ ๊ทธ๋ ค๋ดค๋ค. $$\\theta_1$$๊ณผ $$theta_2$$๋ฅผ (0.5, 0.5), (1, 0), (0, 1)๋ก ํ๊ณ $$s_1$$๊ณผ $$s_2$$๋ 1๋ก ๋์๋ค. x๋ -1์์ 1๊น์ง์ ๋ฒ์๋ก ๊ทธ๋ ธ๋ค. x๋ฅผ 0์ผ๋ก ์ ์งํ๋ ค๋ฉด u(t)๊ฐ -์ +๊ฐ ๋ ๋ค ๊ฐ๋ฅํด์ผํ ๊ฒ ๊ฐ์๋ฐ ์ ์์ผ๋ก๋ง ๋ด์๋ action์ด ํ๋์ด๊ณ ๊ทธ action์ผ ํ๋ฅ ์ ํ์ํ๋ ๊ฒ์ฒ๋ผ ๋์๋ค. ์๋ง -1๊ณผ +1์ด u(t)๊ฐ ๋ ์ ์๋๋ฐ ๊ทธ ์ค +1์ ์ ํํ ํ๋ฅ ์ด ์์ ๊ฐ์ด ๋๋๊ฒ ์๋๊ฐ ์ถ๋ค.</p>\n<center><img src=\"https://www.dropbox.com/s/v69qyrwn7zurk8c/Screenshot%202018-06-08%2014.57.07.png?dl=1\" width=\"500px\"></center>\n\n<p>๋ค์ ๊ทธ๋ฆผ์ 1-d LQR์ ํ์ตํ ๊ทธ๋ํ์ด๋ค. cost๊ฐ $$x^2$$์ด๊ธฐ ๋๋ฌธ์ cost๊ฐ 0์ผ๋ก ๊ฐ์๋ก agent๋ 0์์ ์์ ์ ์ผ๋ก ๋จธ๋ฌด๋ฅธ๋ค๊ณ ๋ณผ ์ ์๋ค. 6๊ฐ์ ์ ์ค์์ ์ค๋ฅธ์ชฝ ์ธ ๊ฐ๊ฐ ์ผ๋ฐ์ ์ธ gradient ๋ฐฉ๋ฒ์ ์ฌ์ฉํด์ ํ์ตํ ๊ฒฐ๊ณผ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ์ผ์ชฝ์ ์ธ ๊ฐ์ ์ ์ด natural policy gradient๋ฅผ ํตํด ํ์ตํ ํ์ต ๊ณก์ ์ด๋ค. ์ผ๋ฐ gradient ๋ฐฉ๋ฒ๋ณด๋ค natural gradient๊ฐ ํจ์ฌ ๋น ๋ฅด๊ฒ ํ์ตํ๋ค(time ์ถ์ด log scale์ธ ๊ฒ์ ๊ฐ์ํ์).</p>\n<p>ํ์ง๋ง ๋ฌธ์ ๊ฐ ์๋ค. npg๋ฅผ ํ์ตํ ์ธ ๊ฐ์ ๊ณก์ ์ $$\\theta$$๋ฅผ rescale ํ ๊ฒ์ด๋ค. $$\\theta$$์์ ๊ณฑํด์ง๋ ์ซ์์ ๋ฐ๋ผ ํ์ต์ ๊ณผ์ ์ด ๋ค๋ฅด๋ค. ์ด ๊ฒ์ coordinate์ ๋ฐ๋ผ steepest gradient๊ฐ ๋ค๋ฅด๊ฒ ์ธก์ ๋๋ค๋ ๊ฒ์ด๋ค. ์ฆ, covariant gradient๊ฐ ์๋๋ผ๋ ๋ป์ด๋ค. ์ด ๋
ผ๋ฌธ์์๋ natural gradient๋ฅผ ํตํด gradient๊ฐ covariantํ๋๋ก ๋ง๋ค๊ณ ์ถ์๋๋ฐ ์คํจํ ๊ฒ์ด๋ค. </p>\n<center><img src=\"https://www.dropbox.com/s/fhn8cgje0rdws0i/Screenshot%202018-06-08%2023.13.37.png?dl=1\" width=\"300px\"></center>\n\n<p>natural gradient๊ฐ covariantํ์ง ์์ ์ด์ ๋ Fisher Information Matrix๊ฐ ์์ํ๋ ๋ฐ์๋ ๋ฌ๋ฆฌ invariant metric์ด ์๋๊ธฐ ๋๋ฌธ์ด๋ค. ๋ํ FIM์ด invariant metric์ด ์๋ ์ด์ ๋ FIM์ ๊ณ์ฐํ ๋ $$\\rho_s$$๊ฐ ๊ณฑํด์ง๊ธฐ ๋๋ฌธ์ด๋ค(state distribution์ ๋ํ expectation. $$\\rho_s$$๊ฐ ๊ณฑํด์ง๋ ๊ฒ์ด invariant์ ๋ฏธ์น๋ ์ํฅ์ด ๋ฌด์์ธ์ง๋ ๋ชจ๋ฅด๊ฒ ๋ค). ํ์ง๋ง ์ฌ์ ํ ์์๊ฐ ์๋ ๊ฒ์ ๊ธฐ์กด gradient ๋ฐฉ๋ฒ๋ค๋ณด๋ค ํจ์ฌ ๋น ๋ฅด๊ฒ ํ์ตํ๋ค๋ ๊ฒ์ด๋ค.</p>\n<h3 id=\"7-2-simple-2-state-MDP\"><a href=\"#7-2-simple-2-state-MDP\" class=\"headerlink\" title=\"7.2 simple 2-state MDP\"></a>7.2 simple 2-state MDP</h3><p>์ด์ ๋ค๋ฅธ ์์ ์์ NPG๋ฅผ ํ
์คํธํ๋ค. 2๊ฐ์ state๋ง ๊ฐ์ง๋ MDP๋ฅผ ๊ณ ๋ คํด๋ณด์. <a href=\"http://repository.cmu.edu/cgi/viewcontent.cgi?article=1080&context=robotics\" target=\"_blank\" rel=\"noopener\">๊ทธ๋ฆผ์ถ์ฒ</a>. ๊ทธ๋ฆผ์ผ๋ก๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. x=0 ์ํ์ x=1 ์ํ ๋ ๊ฐ๊ฐ ์กด์ฌํ๋ค. ์์ด์ ํธ๋ ๊ฐ ์ํ์์ ๋ค์ ์์ ์ ์ํ๋ก ๋๋์์ค๋ ํ๋์ ํ๊ฑฐ๋ ๋ค๋ฅธ ์ํ๋ก ๊ฐ๋ ํ๋์ ํ ์ ์๋ค. ์ํ x=0์์ ๋ค์ ์๊ธฐ ์์ ์ผ๋ก ๋์์ค๋ฉด 1์ ๋ณด์์ ๋ฐ๊ณ ์ํ x=1์์ ์๊ธฐ ์์ ์ผ๋ก ๋์์ค๋ฉด 2์ ๋ณด์์ ๋ฐ๋๋ค. ๋ฐ๋ผ์ ๊ฒฐ๊ตญ optimal policy๋ ์ํ x=1์์ ๊ณ์ ์๊ธฐ ์์ ์ผ๋ก ๋์์ค๋ ํ๋์ ์ทจํ๋ ๊ฒ์ด๋ค. </p>\n<p><img src=\"https://www.dropbox.com/s/g1x9yknzsrip59i/Screenshot%202018-06-08%2023.06.50.png?dl=1\"></p>\n<p>๋ฌธ์ ๋ฅผ ์ข ์ด๋ ต๊ฒ ๋ง๋ค๊ธฐ ์ํด state distribution์ ๋ค์๊ณผ ๊ฐ์ด ์ค์ ํ๋ค. ์ฆ, ๋๋ถ๋ถ์ ๊ฒฝ์ฐ์ ์ํ x=0์์ ์์ด์ ํธ๊ฐ ์์ํ๋ ๊ฒ์ด๋ค. </p>\n<p>$$<br>\\rho(x=0)=0.8, \\rho(x=1)=0.2<br>$$</p>\n<p>์ผ๋ฐ์ ์ธ gradient ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ฉด ๋ค์๊ณผ ๊ฐ์ policy gradient ์์ ๋ฐ๋ผ์ ์
๋ฐ์ดํธ๋ฅผ ํ๊ฒ ๋๋ค. ์ด ๋, $$\\rho(s)$$๊ฐ gradient์ ๊ณฑํด์ง๋ฏ๋ก ์ํ์ ์ผ๋ก ์ํ 0์์์ gradient ๊ฐ์ด ์ปค์ง๊ฒ ๋๋ค. ๋ฐ๋ผ์ ์์ด์ ํธ๋ ์ํ 0์์์ gradient(์ํ 0์์ ์ค์ค๋ก์๊ฒ ๋์์ค๋ ํ๋์ ์ทจํ๋๋ก ์ ์ฑ
์ ์
๋ฐ์ดํธํ๋ gradient)๋ฅผ ๋ฐ๋ผ parameterized policy๋ฅผ updateํ๋ค. ๋ฐ๋ผ์ ์๋ ๊ทธ๋ฆผ์ ์ฒซ๋ฒ์งธ ๊ทธ๋ฆผ์์์ฒ๋ผ Reward๊ฐ 1์์ ์ค๋ ์๊ฐ๋์ ๋จธ๋ฌด๋ฅธ๋ค. ์ฆ, ์์ด์ ํธ๊ฐ ์ํ 0์์ self-loop๋ฅผ ๊ณ์ ๋๊ณ ์๋ค๋ ๊ฒ์ด๋ค. $$\\rho(x=0)$$๊ฐ $$10^{-7}$$๊น์ง ๋จ์ด์ง๋ค.</p>\n<p>$$\\nabla\\eta(\\theta)=\\sum_{s,a}\\rho^{\\pi}(s)\\nabla\\pi(a;s,\\theta)Q^{\\pi}(s,a)$$</p>\n<center><img src=\"https://www.dropbox.com/s/xtb77mfazbppnss/Screenshot%202018-06-08%2023.14.24.png?dl=1\" width=\"300px\"></center>\n\n<p>ํ์ง๋ง NPG๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ์๋ ํจ์ฌ ๋น ๋ฅด๊ฒ average reward๊ฐ 2์ ๋๋ฌํ๋ค. gradient ๋ฐฉ๋ฒ์ด $$1.7X10^(7)$$์ ๋์ ์๊ฐ๋ง์ 2์ ๋๋ฌํ ๋ฐ๋ฉด NPG๋ 2๋ง์ ๋๋ฌํ๋ค. ๋ํ $$\\rho(x=0)$$๊ฐ $$10^{-5}$$์ดํ๋ก ๋จ์ด์ง์ง ์๋๋ค.</p>\n<p>ํ ๊ฐ์ง ๊ทธ๋ํ๋ฅผ ๋ ์ดํด๋ณด์. ๋ค์ ๊ทธ๋ํ๋ parameter $$\\theta$$๊ฐ ์
๋ฐ์ดํธ ๋๋ ๊ณผ์ ์ ๋ณด์ฌ์ค๋ค. ์ด ๊ทธ๋ํ์์๋ parameter๊ฐ 2๊ฐ ์๋ ๊ฒ์ด๋ค. ์ผ๋ฐ์ ์ธ gradient๊ฐ ์๋ ๊ทธ๋ํ์์ ์ค์ ์ ํด๋นํ๋ค. ์ด ์ค์ ์ ๊ทธ๋ํ๋ ๋ณด๋ฉด ์ฒ์๋ถํฐ ์ค๋ฐ๊น์ง $$\\theta_i$$๋ง ๊ฑฐ์ ์
๋ฐ์ดํธํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค. ๊ทธ์ ๋นํด NPG๋ ๋ ๊ฐ์ parameter๋ฅผ ๊ท ๋ฑํ๊ฒ ์
๋ฐ์ดํธํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค. </p>\n<center><img src=\"https://www.dropbox.com/s/g7pazozw2k6rd7x/Screenshot%202018-06-08%2023.23.25.png?dl=1\" width=\"300px\"></center>\n\n<p>policy๊ฐ $$\\pi(a;s,\\theta)\\propto exp(\\theta_{sa})$$์ผ ๋, ๋ค์๊ณผ ๊ฐ์ด $$F_{-1}$$์ด gradient ์์ weight๋ก ๊ณฑํด์ง๋๋ฐ ์ด๊ฒ $$\\rho$$์๋ ๋ฌ๋ฆฌ ๊ฐ parameter์ ๋ํด ๊ท ๋ฑํ๋ค. ๋ฐ๋ผ์ ์ ๊ทธ๋ํ์์์ ๊ฐ์ด ๊ฐ parameter๋ ๋น์ทํ ๋น์จ๋ก ์
๋ฐ์ดํธ๊ฐ ๋๋ ๊ฒ์ด๋ค.</p>\n<p>$$\\bar{\\nabla}\\eta(\\theta) = F^{-1}\\nabla\\eta(\\theta)$$</p>\n<h3 id=\"7-3-Tetris\"><a href=\"#7-3-Tetris\" class=\"headerlink\" title=\"7.3 Tetris\"></a>7.3 Tetris</h3><p>NPG๋ฅผ ํ
์คํธํ tetris ์์ ๋ Neuro Dynamic Programming ์ฑ
์ ์๊ฐ๋์ด์๋ค. ๋ค์ ๊ทธ๋ฆผ์ tetris ์์ ๋ฅผ ๋ณด์ฌ์ค๋ค. ๋ณดํต ๊ทธ๋ฆผ์์์ ๊ฐ์ด state์ feature๋ฅผ ์ ํด์ค๋ค. <a href=\"http://slideplayer.com/slide/5215520/\" target=\"_blank\" rel=\"noopener\">๊ทธ๋ฆผ ์ถ์ฒ</a></p>\n<p><img src=\"https://www.dropbox.com/s/y1halso9yermy8s/Screenshot%202018-06-08%2023.44.34.png?dl=1\"></p>\n<p>์ด ์์ ์์๋ exponantial family๋ก policy๋ฅผ ํํํ๋ค. $$\\pi(a;s,\\theta) \\propto exp(\\theta^T\\phi_{sa})$$ ๋ก ํํํ๋ค.</p>\n<p>tetris๋ linear function approximator์ greedy policy iteration์ ์ฌ์ฉํ ๊ฒฝ์ฐ performance๊ฐ ๊ฐ์๊ธฐ ๋จ์ด์ง๋ ํ์์ด ์๋ค. ๋ฐ์ ๊ทธ๋ฆผ์์ A์ spike๊ฐ ์๋ ๊ทธ๋ํ๊ฐ ์ด ๊ฒฝ์ฐ์ด๋ค. ๊ทธ ๋ฐ์ ๋ฎ๊ฒ ๋์์๋ ๊ทธ๋ํ๋ ์ผ๋ฐ์ ์ธ policy gradient ๋ฐฉ๋ฒ์ด๋ค. ํ์ง๋ง Natural policy gradient๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ B ๊ทธ๋ฆผ์์ ์ค๋ฅธ์ชฝ ๊ทธ๋ํ์ ๊ฐ์ด ์ฑ๋ฅ๊ฐ์ ์ด ๋๋ ทํ๋ค. Policy Iteration ์ฒ๋ผ ์ฑ๋ฅ์ด ๋ ๋จ์ด์ง์ง ์๊ณ ์์ ์ ์ผ๋ก ์ ์งํ๋ค. ๋ํ ๊ทธ๋ฆผ C์์ ๋ณด๋ ๊ฒ์ฒ๋ผ ์ค๋ฅธ์ชฝ ๊ทธ๋ํ์ธ ์ผ๋ฐ์ ์ธ gradient ๋ฐฉ๋ฒ๋ณด๋ค ํจ์ฌ ๋น ๋ฅด๊ฒ ํ์ตํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค.</p>\n<p><img src=\"https://www.dropbox.com/s/pr6s2qrqaic0wyj/Screenshot%202018-06-08%2023.40.16.png?dl=1\"></p>\n<h2 id=\"8-Discussion\"><a href=\"#8-Discussion\" class=\"headerlink\" title=\"8. Discussion\"></a>8. Discussion</h2><hr>\n<ul>\n<li>natural gradient method๋ policy iteration์์์ ๊ฐ์ด greedy action์ ์ ํํ๋๋ก ํ์ต๋</li>\n<li>line search์ ํจ๊ป ์ฐ๋ฉด natural gradient method๋ ๋ policy iteration ๊ฐ์์ง</li>\n<li>greedy policy iteration์์์๋ ๋ฌ๋ฆฌ performance improvement๊ฐ ๋ณด์ฅ๋</li>\n<li>ํ์ง๋ง F(Fisher information matrix)๊ฐ asymtotically Hessian์ผ๋ก ์๋ ดํ์ง ์์. asymtotically conjugate gradient method(Hessian์ inverse๋ฅผ approx.๋ก ๊ตฌํ๋ ๋ฐฉ๋ฒ)๊ฐ ๋ ์ข์ ๋ณด์ผ ์ ์์</li>\n<li>ํ์ง๋ง Hessian์ด ํญ์ informativeํ์ง ์๊ณ (hessian์ด ์ด๋ค ์ ๋ณด๋ฅผ ์ฃผ๋ ค๋ฉด positive definite์ ๊ฐ์ ์ฑ์ง์ ๊ฐ์ ธ์ ํด๋น ํจ์๊ฐ convex์ธ ๊ฒ์ ์ ์ ์๋ค๋ ์ง์ ๊ฒฝ์ฐ๋ฅผ ์ด์ผ๊ธฐํ๋๋ฐ hessian์ด ํญ์ positive definite๊ฐ ์๋ ์ ์๋ค๋ ๊ฒ์ด๋ค) tetris์์ ๋ดค๋ฏ์ด natural gradient method๊ฐ ๋ ํจ์จ์ ์ผ ์ ์์(pushing the policy toward choosing greedy optimal actions)</li>\n<li>conjugate gradient method๊ฐ ์ข ๋ maximum์ ๋น ๋ฅด๊ฒ ์๋ ดํ์ง๋ง, performance๋ maximum์์ ๊ฑฐ์ ์๋ณํ๋ฏ๋ก ์ข๋ค๊ณ ๋งํ๊ธฐ ์ด๋ ค์(?). ์ด ๋ถ๋ถ์ ๋ํด์ ์ถ๊ฐ์ ์ธ ์ฐ๊ตฌ ํ์.</li>\n</ul>\n<p>amet, consectetur adipisicing elit. Vitae ipsum, voluptatem quis officiis inventore dolor totam deserunt, possimus similique eum, accusantium adipisci doloremque omnis excepturi quasi, suscipit repellendus quibusdam? Veritatis.</p>\n"}],"PostAsset":[],"PostCategory":[{"post_id":"cjieprvwi0000lu8atkpbre1x","category_id":"cjiemg90n0000fn8a7atojdwq","_id":"cjieprvwp0002lu8ay5z4ggk1"}],"PostTag":[{"post_id":"cjieprvwi0000lu8atkpbre1x","tag_id":"cjieprvwm0001lu8aa21drkz8","_id":"cjieprvwr0004lu8a49xfbu0u"},{"post_id":"cjieprvwi0000lu8atkpbre1x","tag_id":"cjieprvwq0003lu8apq3pfwze","_id":"cjieprvwr0005lu8aiybckrco"}],"Tag":[{"name":"RLKorea์๊ฐ","_id":"cji9l7q4f0003vkae8fg05dli"},{"name":"๋ฅ๋ฌ๋","_id":"cji9l7q4j0008vkaep3lkk00c"},{"name":"๋จธ์ ๋ฌ๋","_id":"cji9l7q4l000cvkaev0humnc0"},{"name":"๋ฅ๋ฌ๋์
๋ฌธ","_id":"cji9l7q4n000fvkae37uaxjar"},{"name":"๋ฅ๋ฌ๋๊ธฐ์ด","_id":"cji9l7q4n000hvkaevd2r8hgt"},{"name":"์ํ์ค๋ชฉ","_id":"cjiemg90p0001fn8a8y5uiytr"},{"name":"ํ๋ก์ ํธ","_id":"cjieprvwm0001lu8aa21drkz8"},{"name":"ํผ์ง์ฌํ","_id":"cjieprvwq0003lu8apq3pfwze"}]}}