IndependentNormal¶
- class torchrl.modules.IndependentNormal(loc: Tensor, scale: Tensor, upscale: float = 5.0, tanh_loc: bool = False, event_dim: int = 1, **kwargs)[原始碼]¶
實現帶位置縮放的正態分佈。
位置縮放可以防止位置“離 0”太遠,這最終會導致不穩定的樣本和糟糕的梯度計算(例如梯度爆炸)。實際上,位置根據以下公式計算:
\[loc = tanh(loc / upscale) * upscale.\]透過關閉 tanh_loc 引數(如下所示)可以停用此行為。
- 引數:
loc (torch.Tensor) – 正態分佈位置引數
scale (torch.Tensor) – 正態分佈 sigma 引數(方差的平方根)
upscale (torch.Tensor 或 number, optional) –
公式中的“a”縮放因子
\[loc = tanh(loc / upscale) * upscale.\]預設為 5.0
tanh_loc (bool, optional) – 如果為
False,則上述公式用於位置縮放,否則保留原始值。預設為False;
- property mode¶
返回分佈的眾數。