Изменения на 7:00 23 июля

Теперь есть три интерфейса для ale:

ale_python_interface -- коробочный на libale_c.so не используйте его.
custom_ale_interface -- коробочный с небольшими изменениями, для наибольшего соответствия с pipe-версией
pipe_ale_interface -- socket-ный интерфейс для работы с удаленным ALE

Запуск обучения, дообучения и тестирования

Все так же как и было run_nips -> launcher.launch -> ale_experiment Нужно стремиться использовать custom_ale_interface, он будет говорить при использовании non-pipe функций

Запуск тестирования в турнире

По данным на 04:00 23 июля, ожидается, что каждый агент поиграет 30 раз в каждую из предложенных игр, это может превратиться в пачку часов, так что нужен игровой автомат.

run_solution -> launcher.launch_game -> gamer Появился gamer -- сильно упрощенный запуск агента, понимающий DIE сигнал с сервера и переподключающийся.

Потенциальные проблемы

Num_actions -- кажется я до нее не дошел
Жизни можно вернуть в использование для обучения, это будет работать если использовать custom_ale_interface
Часть параметров прокинута как есть, код можно прилично отрефакторить.

Как запустить какой-нибудь прогон посмотреть

Если без ничего, тогда в gamer.py выставить строчку 43-44

ale = custom_ale_interface.CustomALEInterface(rom=self.rom)

А затем в консоли набрать

python run_solution.py --nn-file nf_nips.pkl --rom gopher

Если на сервере (локальном или удаленном) в gamer.py на 43-44:

ale = pipe_ale_interface.PipeALEInterface(rom=self.rom)

Запустить сервер (или знать что он запущен) затем в консоли набрать:

python run_solution.py --nn-file nf_nips.pkl --rom gopher

Если сервер не запущен, тогда запустить его (репа с тим раннером)[https://github.com/gerrich/ale_team_runner], предварительно почекав настройки.

Что стоит сделать?

Вынести загрузку нейронной сети перед запуском/коннектом с ALE, этому мешала необходимость знать количество действий, теперь когда мы расширили их до максимума, это можно сделать.
Прокидывать настройки снаружи:

какой интерфейс
показывать на экране или нет (только для custom_ale_interface, для pipe решается настройкой сервера)
host, port, loging, passw -- для pipe интерфейса

Поглядеть на процесс обучения и вернуть lives()
Обратить внимание на параметр FRAME_SKIP - для обучения он 4, при тестировании будет 1, не поломает ли это чего?
Проверить, что интерфейсы не различаются с точки зрения входов-выходов нейронки.

Droptableusers

How to install on mac some issues: http://playittodeath.ru/running-theano-based-deepmind-dqn-on-mac/

ALE hoststart (NEW)

download this: https://github.com/sin-mike/ale_team_runner

but use this instead of original ale_team_runner: https://github.com/sin-mike/ale_team_runner

and read HOW_TO_RUN.md

for submitting use team_6,Ly2vyAs port 17006 ip 93.175.18.243

Continue learning from pickled state of network

Look at the code in launcher, params will used from initial defaults. But agent will start from pre-trained nn

./run_nips.py --rom gopher --nn-file ./gopher_07-21-11-27_0p0002_0p95/network_file_8.pkl

Evaluation run..

Not working properly:

lag on start

python run_pretrained_nature.py --rom gopher --nn-file nf_nips.pkl

Introduction

This package provides a Lasagne/Theano-based implementation of the deep Q-learning algorithm described in:

Playing Atari with Deep Reinforcement Learning Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller

and

Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning." Nature 518.7540 (2015): 529-533.

Here is a video showing a trained network playing breakout (using an earlier version of the code):

http://youtu.be/SZ88F82KLX4

Dependencies

A reasonably modern NVIDIA GPU
Cython
OpenCV
Theano (https://github.com/Theano/Theano)
Lasagne (https://github.com/Lasagne/Lasagne
Pylearn2 (https://github.com/lisa-lab/pylearn2)
Arcade Learning Environment (https://github.com/mgbellemare/Arcade-Learning-Environment)

The script dep_script.sh can be used to install all dependencies under Ubuntu.

Running

Use the scripts run_nips.py or run_nature.py to start all the necessary processes:

$ ./run_nips.py --rom breakout

$ ./run_nature.py --rom breakout

The run_nips.py script uses parameters consistent with the original NIPS workshop paper. This code should take 2-4 days to complete. The run_nature.py script uses parameters consistent with the Nature paper. The final policies should be better, but it will take 6-10 days to finish training.

Either script will store output files in a folder prefixed with the name of the ROM. Pickled version of the network objects are stored after every epoch. The file results.csv will contain the testing output. You can plot the progress by executing plot_results.py:

$ python plot_results.py breakout_05-28-17-09_0p00025_0p99/results.csv

After training completes, you can watch the network play using the ale_run_watch.py script:

$ python ale_run_watch.py breakout_05-28-17-09_0p00025_0p99/network_file_99.pkl

Performance Tuning

Theano Configuration

Setting allow_gc=False in THEANO_FLAGS or in the .theanorc file significantly improves performance at the expense of a slight increase in memory usage on the GPU.

Getting Help

The deep Q-learning web-forum can be used for discussion and advice related to deep Q-learning in general and this package in particular.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Изменения на 7:00 23 июля

Запуск обучения, дообучения и тестирования

Запуск тестирования в турнире

Потенциальные проблемы

Как запустить какой-нибудь прогон посмотреть

Что стоит сделать?

Droptableusers

ALE hoststart (NEW)

Continue learning from pickled state of network

Evaluation run..

Introduction

Dependencies

Running

Performance Tuning

Theano Configuration

Getting Help

See Also

Files

README.md

Latest commit

History

README.md

File metadata and controls

Изменения на 7:00 23 июля

Запуск обучения, дообучения и тестирования

Запуск тестирования в турнире

Потенциальные проблемы

Как запустить какой-нибудь прогон посмотреть

Что стоит сделать?

Droptableusers

ALE hoststart (NEW)

Continue learning from pickled state of network

Evaluation run..

Introduction

Dependencies

Running

Performance Tuning

Theano Configuration

Getting Help

See Also