Online RL

States

SAC

python train_online.py --env_name=HalfCheetah-v2

Pixels

DrQ

MUJOCO_GL=egl XLA_PYTHON_CLIENT_PREALLOCATE=false python train_online_pixels.py --env_name=cheetah-run-v0

Offline RL

States

BC

python train_offline.py --config=configs/offline_config.py:bc --config.model_config.distr=unitstd_normal --env_name=halfcheetah-expert-v2

%BC

python train_offline.py --config=configs/offline_config.py:bc --config.model_config.distr=unitstd_normal --env_name=halfcheetah-medium-expert-v2 --filter_percentile=10

fBC (filtered BC)

python train_offline.py --config=configs/offline_config.py:bc --config.model_config.distr=unitstd_normal --env_name=antmaze-large-play-v2 --filter_threshold=0.5

BC (Autoregressive Policy)

python train_offline.py --config=configs/offline_config.py:bc --config.model_config.distr=ar --env_name=halfcheetah-expert-v2

IQL

AntMaze

python train_offline.py --config=configs/offline_config.py:iql_antmaze --env_name=antmaze-large-play-v2 --eval_interval=100000 --eval_episodes=100

Locomotion

python train_offline.py --config=configs/offline_config.py:iql_mujoco --env_name=halfcheetah-medium-expert-v2 --eval_interval=100000 --eval_episodes=100

Pixels

Collect data

MUJOCO_GL=egl XLA_PYTHON_CLIENT_PREALLOCATE=false python train_online_pixels.py --env_name=cheetah-run-v0 --save_buffer

PixelBC

MUJOCO_GL=egl XLA_PYTHON_CLIENT_PREALLOCATE=false python train_offline_pixels.py --env_name=cheetah-run-v0 --config=configs/offline_pixels_config.py:bc

PixelIQL

MUJOCO_GL=egl XLA_PYTHON_CLIENT_PREALLOCATE=false python train_offline_pixels.py --env_name=cheetah-run-v0 --config=configs/offline_pixels_config.py:iql

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Online RL

States

SAC

Pixels

DrQ

Offline RL

States

BC

%BC

fBC (filtered BC)

BC (Autoregressive Policy)

IQL

AntMaze

Locomotion

Pixels

Collect data

PixelBC

PixelIQL

Files

README.md

Latest commit

History

README.md

File metadata and controls

Online RL

States

SAC

Pixels

DrQ

Offline RL

States

BC

%BC

fBC (filtered BC)

BC (Autoregressive Policy)

IQL

AntMaze

Locomotion

Pixels

Collect data

PixelBC

PixelIQL