PPOTrainer¶
- class torchrl.trainers.algorithms.PPOTrainer(*args, **kwargs)[原始碼]¶
PPO(Proximal Policy Optimization,近端策略最佳化)訓練器實現。
警告
這是一個實驗性/原型功能。API 在未來版本中可能會發生變化。請報告任何問題或反饋,以幫助改進此實現。
此訓練器實現了 PPO 演算法來訓練強化學習代理。它透過 PPO 特有的功能(包括策略最佳化、價值函式學習和熵正則化)擴充套件了基礎的 Trainer 類。
PPO 通常會在同一批資料上進行多個 epoch 的最佳化。此訓練器預設設定為 4 個 epoch,這是 PPO 實現中的常見選擇。
該訓練器包括全面的日誌記錄功能,用於監控訓練進度:- 訓練獎勵(平均值、標準差、最大值、總值)- 動作統計(範數)- 劇集完成率- 觀測統計(可選)
可以透過建構函式引數配置日誌記錄,以啟用/停用特定指標。
示例
>>> # Basic usage with manual configuration >>> from torchrl.trainers.algorithms.ppo import PPOTrainer >>> from torchrl.trainers.algorithms.configs import PPOTrainerConfig >>> from hydra import instantiate >>> config = PPOTrainerConfig(...) # Configure with required parameters >>> trainer = instantiate(config) >>> trainer.train()
注意
此訓練器需要可配置的環境設定。有關配置選項,請參閱
configs模組。警告
這是一個實驗性功能。API 在未來版本中可能會發生變化。我們歡迎反饋和貢獻,以幫助改進此實現!