DreamerActorLoss¶

class torchrl.objectives.DreamerActorLoss(*args, **kwargs)[原始碼]¶

Dreamer Actor Loss（Dreamer Actor 損失）。

計算 Dreamer Actor 的損失。Actor 損失計算為負的平均 lambda 回報。

參考： https://arxiv.org/abs/1912.01603。

引數:

actor_model (TensorDictModule) – actor 模型。
value_model (TensorDictModule) – value 模型。
model_based_env (DreamerEnv) – 基於模型的環境。
imagination_horizon (int, optional) – unroll 模型的步數。預設為 15。
discount_loss (bool, optional) – 如果 True，則損失會用 gamma 折扣因子進行折扣。預設為 False。

default_keys¶: 別名：_AcceptedKeys

forward(tensordict: TensorDict) → tuple[tensordict._td.TensorDict, tensordict._td.TensorDict][原始碼]¶

它旨在讀取一個輸入的 TensorDict 並返回另一個包含名為“loss*”的損失鍵的 tensordict。

將損失分解為其組成部分可以被訓練器用於在訓練過程中記錄各種損失值。輸出 tensordict 中存在的其他標量也將被記錄。

引數:: tensordict – 一個輸入的 tensordict，包含計算損失所需的值。
返回:: 一個沒有批處理維度的新 tensordict，其中包含各種損失標量，這些標量將被命名為“loss*”。重要的是，損失必須以這個名稱返回，因為它們將在反向傳播之前被訓練器讀取。

make_value_estimator(value_type: Optional[ValueEstimators] = None, **hyperparams)[原始碼]¶

值函式建構函式。

如果需要非預設值函式，必須使用此方法構建。

引數:

value_type (ValueEstimators) – 一個 ValueEstimators 列舉型別，指示要使用的值函式。如果未提供，將使用儲存在 default_value_estimator 屬性中的預設值。生成的估值器類將註冊在 self.value_type 中，以便將來進行改進。
**hyperparams – 用於值函式的超引數。如果未提供，將使用 default_value_kwargs() 中指示的值。

示例

>>> from torchrl.objectives import DQNLoss
>>> # initialize the DQN loss
>>> actor = torch.nn.Linear(3, 4)
>>> dqn_loss = DQNLoss(actor, action_space="one-hot")
>>> # updating the parameters of the default value estimator
>>> dqn_loss.make_value_estimator(gamma=0.9)
>>> dqn_loss.make_value_estimator(
...     ValueEstimators.TD1,
...     gamma=0.9)
>>> # if we want to change the gamma value
>>> dqn_loss.make_value_estimator(dqn_loss.value_type, gamma=0.9)

DreamerActorLoss¶

文件

教程

資源