快捷方式

reward2go

class torchrl.objectives.value.functional.reward2go(reward, done, gamma, *, time_dim: int = - 2)[原始碼]

計算給定多個軌跡和回合結束的獎勵的折扣累積和。

引數:
  • reward (torch.Tensor) – 一個張量,包含在多個軌跡的每個時間步接收到的獎勵。

  • done (Tensor) – 回合結束的布林標誌。與 truncated 不同,truncated 是回合未結束但被中斷。

  • gamma (float, optional) – 用於計算獎勵折扣累積和的折扣因子。預設為 1.0。

  • time_dim (int) – 時間展開的維度。預設為 -2。

返回:

一個形狀為 [B, T] 的張量,包含每個時間步的折扣累積

獎勵(reward-to-go)。

返回型別:

torch.Tensor

示例

>>> reward = torch.ones(1, 10)
>>> done = torch.zeros(1, 10, dtype=torch.bool)
>>> done[:, [3, 7]] = True
>>> reward2go(reward, done, 0.99, time_dim=-1)
tensor([[3.9404],
        [2.9701],
        [1.9900],
        [1.0000],
        [3.9404],
        [2.9701],
        [1.9900],
        [1.0000],
        [1.9900],
        [1.0000]])

文件

訪問全面的 PyTorch 開發者文件

檢視文件

教程

為初學者和高階開發者提供深入的教程

檢視教程

資源

查詢開發資源並讓您的問題得到解答

檢視資源