Теперь есть три интерфейса для ale:
-
ale_python_interface
-- коробочный наlibale_c.so
не используйте его. -
custom_ale_interface
-- коробочный с небольшими изменениями, для наибольшего соответствия с pipe-версией -
pipe_ale_interface
-- socket-ный интерфейс для работы с удаленным ALE
Все так же как и было
run_nips -> launcher.launch -> ale_experiment
Нужно стремиться использовать custom_ale_interface
, он будет говорить при использовании non-pipe
функций
По данным на 04:00 23 июля, ожидается, что каждый агент поиграет 30 раз в каждую из предложенных игр, это может превратиться в пачку часов, так что нужен игровой автомат.
run_solution -> launcher.launch_game -> gamer
Появился gamer -- сильно упрощенный запуск агента, понимающий DIE сигнал с сервера и переподключающийся.
Num_actions
-- кажется я до нее не дошел- Жизни можно вернуть в использование для обучения, это будет работать если использовать
custom_ale_interface
- Часть параметров прокинута как есть, код можно прилично отрефакторить.
Если без ничего, тогда в gamer.py
выставить строчку 43-44
ale = custom_ale_interface.CustomALEInterface(rom=self.rom)
А затем в консоли набрать
python run_solution.py --nn-file nf_nips.pkl --rom gopher
Если на сервере (локальном или удаленном) в gamer.py
на 43-44:
ale = pipe_ale_interface.PipeALEInterface(rom=self.rom)
Запустить сервер (или знать что он запущен) затем в консоли набрать:
python run_solution.py --nn-file nf_nips.pkl --rom gopher
Если сервер не запущен, тогда запустить его (репа с тим раннером)[https://github.com/gerrich/ale_team_runner], предварительно почекав настройки.
- Вынести загрузку нейронной сети перед запуском/коннектом с ALE, этому мешала необходимость знать количество действий, теперь когда мы расширили их до максимума, это можно сделать.
- Прокидывать настройки снаружи:
- какой интерфейс
- показывать на экране или нет (только для
custom_ale_interface
, дляpipe
решается настройкой сервера) - host, port, loging, passw -- для
pipe
интерфейса
- Поглядеть на процесс обучения и вернуть
lives()
- Обратить внимание на параметр
FRAME_SKIP
- для обучения он 4, при тестировании будет 1, не поломает ли это чего? - Проверить, что интерфейсы не различаются с точки зрения входов-выходов нейронки.
How to install on mac some issues: http://playittodeath.ru/running-theano-based-deepmind-dqn-on-mac/
download this: https://github.com/sin-mike/ale_team_runner
but use this instead of original ale_team_runner: https://github.com/sin-mike/ale_team_runner
and read HOW_TO_RUN.md
for submitting use team_6,Ly2vyAs port 17006 ip 93.175.18.243
Look at the code in launcher, params will used from initial defaults. But agent will start from pre-trained nn
./run_nips.py --rom gopher --nn-file ./gopher_07-21-11-27_0p0002_0p95/network_file_8.pkl
Not working properly:
- lag on start
python run_pretrained_nature.py --rom gopher --nn-file nf_nips.pkl
This package provides a Lasagne/Theano-based implementation of the deep Q-learning algorithm described in:
Playing Atari with Deep Reinforcement Learning Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller
and
Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning." Nature 518.7540 (2015): 529-533.
Here is a video showing a trained network playing breakout (using an earlier version of the code):
- A reasonably modern NVIDIA GPU
- Cython
- OpenCV
- Theano (https://github.com/Theano/Theano)
- Lasagne (https://github.com/Lasagne/Lasagne
- Pylearn2 (https://github.com/lisa-lab/pylearn2)
- Arcade Learning Environment (https://github.com/mgbellemare/Arcade-Learning-Environment)
The script dep_script.sh
can be used to install all dependencies under Ubuntu.
Use the scripts run_nips.py
or run_nature.py
to start all the necessary processes:
$ ./run_nips.py --rom breakout
$ ./run_nature.py --rom breakout
The run_nips.py
script uses parameters consistent with the original
NIPS workshop paper. This code should take 2-4 days to complete. The
run_nature.py
script uses parameters consistent with the Nature
paper. The final policies should be better, but it will take 6-10
days to finish training.
Either script will store output files in a folder prefixed with the
name of the ROM. Pickled version of the network objects are stored
after every epoch. The file results.csv
will contain the testing
output. You can plot the progress by executing plot_results.py
:
$ python plot_results.py breakout_05-28-17-09_0p00025_0p99/results.csv
After training completes, you can watch the network play using the
ale_run_watch.py
script:
$ python ale_run_watch.py breakout_05-28-17-09_0p00025_0p99/network_file_99.pkl
Setting allow_gc=False
in THEANO_FLAGS
or in the .theanorc
file
significantly improves performance at the expense of a slight increase
in memory usage on the GPU.
The deep Q-learning web-forum can be used for discussion and advice related to deep Q-learning in general and this package in particular.
-
https://sites.google.com/a/deepmind.com/dqn
This is the code DeepMind used for the Nature paper. The license only permits the code to be used for "evaluating and reviewing" the claims made in the paper.
-
https://github.com/muupan/dqn-in-the-caffe
Working Caffe-based implementation. (I haven't tried it, but there is a video of the agent playing Pong successfully.)
-
https://github.com/kristjankorjus/Replicating-DeepMind
Defunct? As far as I know, this package was never fully functional. The project is described here: http://robohub.org/artificial-general-intelligence-that-plays-atari-video-games-how-did-deepmind-do-it/
-
https://github.com/brian473/neural_rl
This is an almost-working implementation developed during Spring 2014 by my student Brian Brown. I haven't reused his code, but Brian and I worked together to puzzle through some of the blank areas of the original paper.