快捷方式

DistributionalDQNLoss

class torchrl.objectives.DistributionalDQNLoss(*args, **kwargs)[原始碼]

一個分散式的 DQN 損失類。

分散式的 DQN 使用一個價值網路,該網路輸出一個離散支援的折扣回報的價值分佈(與常規 DQN 不同,後者僅輸出折扣回報的單個點預測)。

有關分散式的 DQN 的更多詳細資訊,請參閱“從分佈角度看強化學習”,“https://arxiv.org/pdf/1707.06887.pdf

引數:
  • value_network (DistributionalQValueActornn.Module) – 分散式 Q 值運算元。

  • gamma (標量) –

    用於計算回報的折扣因子。 .. note

    Unlike :class:`DQNLoss`, this class does not currently support
    custom value functions. The next value estimation is always
    bootstrapped.
    

  • delay_value (bool) – 是否將價值網路複製到一個新的目標價值網路以建立雙 DQN

  • priority_key (str, optional) – [已棄用,請改用 .set_keys(priority_key=priority_key)] 當 sampler 型別為 PrioritizedSampler 時,假定優先順序儲存在新增到此 ReplayBuffer 的 TensorDict 中的鍵。預設為 "td_error"

  • reduction (str, optional) – 指定應用於輸出的約簡:"none" | "mean" | "sum""none":不應用約簡,"mean":輸出的總和將除以輸出中的元素數量,"sum":將對輸出進行求和。預設為 "mean"

default_keys

別名:_AcceptedKeys

forward(input_tensordict: TensorDictBase) TensorDict[原始碼]

它旨在讀取一個輸入的 TensorDict 並返回另一個包含名為“loss*”的損失鍵的 tensordict。

將損失分解為其組成部分可以被訓練器用於在訓練過程中記錄各種損失值。輸出 tensordict 中存在的其他標量也將被記錄。

引數:

tensordict – 一個輸入的 tensordict,包含計算損失所需的值。

返回:

一個沒有批處理維度的新 tensordict,其中包含各種損失標量,這些標量將被命名為“loss*”。重要的是,損失必須以這個名稱返回,因為它們將在反向傳播之前被訓練器讀取。

make_value_estimator(value_type: Optional[ValueEstimators] = None, **hyperparams)[原始碼]

值函式建構函式。

如果需要非預設值函式,必須使用此方法構建。

引數:
  • value_type (ValueEstimators) – 一個 ValueEstimators 列舉型別,指示要使用的值函式。如果未提供,將使用儲存在 default_value_estimator 屬性中的預設值。生成的估值器類將註冊在 self.value_type 中,以便將來進行改進。

  • **hyperparams – 用於值函式的超引數。如果未提供,將使用 default_value_kwargs() 中指示的值。

示例

>>> from torchrl.objectives import DQNLoss
>>> # initialize the DQN loss
>>> actor = torch.nn.Linear(3, 4)
>>> dqn_loss = DQNLoss(actor, action_space="one-hot")
>>> # updating the parameters of the default value estimator
>>> dqn_loss.make_value_estimator(gamma=0.9)
>>> dqn_loss.make_value_estimator(
...     ValueEstimators.TD1,
...     gamma=0.9)
>>> # if we want to change the gamma value
>>> dqn_loss.make_value_estimator(dqn_loss.value_type, gamma=0.9)

文件

訪問全面的 PyTorch 開發者文件

檢視文件

教程

為初學者和高階開發者提供深入的教程

檢視教程

資源

查詢開發資源並讓您的問題得到解答

檢視資源