快捷方式

OnlineDTLoss

class torchrl.objectives.OnlineDTLoss(*args, **kwargs)[原始碼]

TorchRL 對線上決策 Transformer 損失的實現。

“Online Decision Transformer” <https://arxiv.org/abs/2202.05607> 中介紹

引數:

actor_network (ProbabilisticActor) – 隨機策略

關鍵字引數:
  • alpha_init (float, optional) – 初始熵乘數。預設為 1.0。

  • min_alpha (float, optional) – alpha 的最小值。預設為 None(無最小值)。

  • max_alpha (float, optional) – alpha 的最大值。預設為 None(無最大值)。

  • fixed_alpha (bool, 可選) – 如果為 True,則 alpha 將固定為其初始值。否則,alpha 將被最佳化以匹配“target_entropy”值。預設為 False

  • target_entropy (float 或 str, 可選) – 隨機策略的目標熵。預設為“auto”,此時目標熵計算為 -prod(n_actions)

  • samples_mc_entropy (int) – 估計熵的樣本數量

  • reduction (str, optional) – 指定應用於輸出的約簡:"none" | "mean" | "sum""none":不應用約簡,"mean":輸出的總和將除以輸出中的元素數量,"sum":將對輸出進行求和。預設為 "mean"

default_keys

別名:_AcceptedKeys

forward(tensordict: TensorDictBase = None) TensorDictBase[原始碼]

計算 Online Decision Transformer 的損失。

文件

訪問全面的 PyTorch 開發者文件

檢視文件

教程

為初學者和高階開發者提供深入的教程

檢視教程

資源

查詢開發資源並讓您的問題得到解答

檢視資源