ChatGPU · ChatGPU · May 27, 2026 · May 27, 2026
diff --git a/labs/rl_decision/lab_cql_offline_minigrid/assets/ablation_alpha_traj.png b/labs/rl_decision/lab_cql_offline_minigrid/assets/ablation_alpha_traj.png
diff --git a/labs/rl_decision/lab_cql_offline_minigrid/notebook.ipynb b/labs/rl_decision/lab_cql_offline_minigrid/notebook.ipynb
diff --git a/labs/world_models/lab_dreamer_cartpole_pixels/src/policy.py b/labs/world_models/lab_dreamer_cartpole_pixels/src/policy.py
@@ -60,14 +60,14 @@ class PolicyConfig:
 
     # Actor-critic
     ac_hidden: int = 200
-    actor_lr: float = 1e-4
+    actor_lr: float = 3e-4
     critic_lr: float = 3e-4
     imagine_horizon: int = 12
     imagine_batch: int = 32           # number of trajectories imagined per AC update
     ac_updates_per_cycle: int = 50    # gradient steps on actor+critic each cycle
     gamma: float = 0.99
     lambda_: float = 0.95             # GAE/lambda-return mixing
-    actor_entropy: float = 0.005
+    actor_entropy: float = 0.05       # high entropy: WM dynamics are noisy enough that
 
     # Init epsilon for the first cycle - actions are uniform random before any AC training.
     initial_random_steps: int = 500