快捷方式

AdditiveGaussianModule

class torchrl.modules.AdditiveGaussianModule(*args, **kwargs)[原始碼]

加性高斯 PO 模組。

引數:
  • spec (TensorSpec) – 用於取樣動作的 spec。取樣動作將在探索後投影到有效的動作空間。

  • sigma_init (標量, 可選) – 初始 epsilon 值。預設值:1.0

  • sigma_end (標量, 可選) – 最終 epsilon 值。預設值:0.1

  • annealing_num_steps (int, 可選) – sigma 達到 sigma_end 值所需的步數。預設值:1000

  • mean (float, 可選) – 每個輸出元素的正態分佈的均值。預設值:0.0

  • std (float, 可選) – 每個輸出元素的正態分佈的標準差。預設值:1.0

關鍵字引數:
  • action_key (NestedKey, 可選) – 如果策略模組有多個輸出鍵,則其輸出 spec 的型別將是 Composite。需要知道在哪裡找到動作 spec。預設值:“action”

  • safe (bool) – 如果為 True,則給定的動作 spec 之外的動作將使用 TensorSpec.project 的啟發式方法投影到該空間內。預設值:False

  • device (torch.device, 可選) – 需要儲存緩衝區的裝置。

注意

在訓練迴圈中加入對 step() 的呼叫對於更新探索因子至關重要。由於不容易捕獲此遺漏,如果省略,將不會引發任何警告或異常!

forward(tensordict: TensorDictBase) TensorDictBase[原始碼]

定義每次呼叫時執行的計算。

所有子類都應重寫此方法。

注意

儘管前向傳播的實現需要在此函式中定義,但您應該在之後呼叫 Module 例項而不是此函式,因為前者會處理註冊的鉤子,而後者則會靜默忽略它們。

step(frames: int = 1) None[原始碼]

sigma 衰減的一步。

在呼叫此方法 self.annealing_num_steps 次後,呼叫將不再產生任何效果。

引數:

frames (int) – 自上一步以來的幀數。預設為 1

文件

訪問全面的 PyTorch 開發者文件

檢視文件

教程

為初學者和高階開發者提供深入的教程

檢視教程

資源

查詢開發資源並讓您的問題得到解答

檢視資源