Stable Baseline 3

強化学習

2023.11.27

目次

Documents
Environment(学習環境)

Documents

以下が公式ドキュメント(2023年11月時点)

Stable-Baselines3 Docs - Reliable Reinforcement Learning Implementations — Stable Baselines3 2.5.0a0 documentation

Environment(学習環境)

GitHub - DLR-RM/rl-baselines3-zoo: A training framework for Stable Baselines3 reinforcement learning agents, with hyperparameter optimization and pre-trained agents included.

A training framework for Stable Baselines3 reinforcement learning agents, with hyperparameter optimization and pre-trained agents included. - DLR-RM/rl-baseline...

Classic Control Environments

有名なCartPole(倒立振子)等が用意されている．

末尾の”-v0”は各環境のバージョンを指しているらしい．

恐らく実験の再現性を考慮している．

RL Algo	CartPole-v1	MountainCar-v0	Acrobot-v1	Pendulum-v1	MountainCarContinuous-v0
ARS	✔️	✔️	✔️	✔️	✔️
A2C	✔️	✔️	✔️	✔️	✔️
PPO	✔️	✔️	✔️	✔️	✔️
DQN	✔️	✔️	✔️	N/A	N/A
QR-DQN	✔️	✔️	✔️	N/A	N/A１１
DDPG	N/A	N/A	N/A	✔️	✔️
SAC	N/A	N/A	N/A	✔️	✔️
TD3	N/A	N/A	N/A	✔️	✔️
TQC	N/A	N/A	N/A	✔️	✔️
TRPO	✔️	✔️	✔️	✔️	✔️

Box2D Environments

RL Algo	BipedalWalker-v3	LunarLander-v2	LunarLanderContinuous-v2	BipedalWalkerHardcore-v3	CarRacing-v0
ARS		✔️		✔️
A2C	✔️	✔️	✔️	✔️
PPO	✔️	✔️	✔️	✔️
DQN	N/A	✔️	N/A	N/A	N/A
QR-DQN	N/A	✔️	N/A	N/A	N/A
DDPG	✔️	N/A	✔️
SAC	✔️	N/A	✔️	✔️
TD3	✔️	N/A	✔️	✔️
TQC	✔️	N/A	✔️	✔️
TRPO		✔️	✔️

Lunar Lander

Atari Games

RL Algo	BeamRider	Breakout	Enduro	Pong	Qbert	Seaquest	SpaceInvaders
A2C	✔️	✔️	✔️	✔️	✔️	✔️	✔️
PPO	✔️	✔️	✔️	✔️	✔️	✔️	✔️
DQN	✔️	✔️	✔️	✔️	✔️	✔️	✔️
QR-DQN	✔️	✔️	✔️	✔️	✔️	✔️	✔️

Atari Games

タイトルとURLをコピーしました