快捷方式

PPOTrainer

class torchrl.trainers.algorithms.PPOTrainer(*args, **kwargs)[原始碼]

PPO(Proximal Policy Optimization,近端策略最佳化)訓練器實現。

警告

這是一個實驗性/原型功能。API 在未來版本中可能會發生變化。請報告任何問題或反饋,以幫助改進此實現。

此訓練器實現了 PPO 演算法來訓練強化學習代理。它透過 PPO 特有的功能(包括策略最佳化、價值函式學習和熵正則化)擴充套件了基礎的 Trainer 類。

PPO 通常會在同一批資料上進行多個 epoch 的最佳化。此訓練器預設設定為 4 個 epoch,這是 PPO 實現中的常見選擇。

該訓練器包括全面的日誌記錄功能,用於監控訓練進度:- 訓練獎勵(平均值、標準差、最大值、總值)- 動作統計(範數)- 劇集完成率- 觀測統計(可選)

可以透過建構函式引數配置日誌記錄,以啟用/停用特定指標。

示例

>>> # Basic usage with manual configuration
>>> from torchrl.trainers.algorithms.ppo import PPOTrainer
>>> from torchrl.trainers.algorithms.configs import PPOTrainerConfig
>>> from hydra import instantiate
>>> config = PPOTrainerConfig(...)  # Configure with required parameters
>>> trainer = instantiate(config)
>>> trainer.train()

注意

此訓練器需要可配置的環境設定。有關配置選項,請參閱 configs 模組。

警告

這是一個實驗性功能。API 在未來版本中可能會發生變化。我們歡迎反饋和貢獻,以幫助改進此實現!

load_from_file(file: str | pathlib.Path, **kwargs) Trainer

載入檔案及其 state-dict 到訓練器中。

關鍵字引數將傳遞給 load() 函式。

文件

訪問全面的 PyTorch 開發者文件

檢視文件

教程

為初學者和高階開發者提供深入的教程

檢視教程

資源

查詢開發資源並讓您的問題得到解答

檢視資源