RewardScaling¶
- class torchrl.envs.transforms.RewardScaling(loc: float | torch.Tensor, scale: float | torch.Tensor, in_keys: Sequence[NestedKey] | None = None, out_keys: Sequence[NestedKey] | None = None, standard_normal: bool = False)[原始碼]¶
獎勵的仿射變換。
獎勵根據以下公式進行轉換:
\[reward = reward * scale + loc\]- 引數:
loc (數字或torch.Tensor) – 仿射變換的位置
scale (數字或torch.Tensor) – 仿射變換的縮放比例
standard_normal (bool, optional) –
如果為
True,則變換為:\[reward = (reward-loc)/scale\]正如標準化一樣。預設為 False。
- transform_reward_spec(reward_spec: TensorSpec) TensorSpec[原始碼]¶
轉換獎勵的 spec,使其與變換對映匹配。
- 引數:
reward_spec (TensorSpec) – 變換前的 spec
- 返回:
轉換後的預期規範