PPOTrainer¶

class torchrl.trainers.algorithms.PPOTrainer(*args, **kwargs)[原始碼]¶

PPO（Proximal Policy Optimization，近端策略最佳化）訓練器實現。

警告

這是一個實驗性/原型功能。API 在未來版本中可能會發生變化。請報告任何問題或反饋，以幫助改進此實現。

此訓練器實現了 PPO 演算法來訓練強化學習代理。它透過 PPO 特有的功能（包括策略最佳化、價值函式學習和熵正則化）擴充套件了基礎的 Trainer 類。

PPO 通常會在同一批資料上進行多個 epoch 的最佳化。此訓練器預設設定為 4 個 epoch，這是 PPO 實現中的常見選擇。

該訓練器包括全面的日誌記錄功能，用於監控訓練進度：- 訓練獎勵（平均值、標準差、最大值、總值）- 動作統計（範數）- 劇集完成率- 觀測統計（可選）

可以透過建構函式引數配置日誌記錄，以啟用/停用特定指標。

示例

>>> # Basic usage with manual configuration
>>> from torchrl.trainers.algorithms.ppo import PPOTrainer
>>> from torchrl.trainers.algorithms.configs import PPOTrainerConfig
>>> from hydra import instantiate
>>> config = PPOTrainerConfig(...)  # Configure with required parameters
>>> trainer = instantiate(config)
>>> trainer.train()

注意

此訓練器需要可配置的環境設定。有關配置選項，請參閱 configs 模組。

警告

這是一個實驗性功能。API 在未來版本中可能會發生變化。我們歡迎反饋和貢獻，以幫助改進此實現！

load_from_file(file: str | pathlib.Path, **kwargs) → Trainer¶

載入檔案及其 state-dict 到訓練器中。

關鍵字引數將傳遞給 load() 函式。

PPOTrainer¶

文件

教程

資源