OnlineDTLoss¶
- class torchrl.objectives.OnlineDTLoss(*args, **kwargs)[原始碼]¶
TorchRL 對線上決策 Transformer 損失的實現。
在 “Online Decision Transformer” <https://arxiv.org/abs/2202.05607> 中介紹
- 引數:
actor_network (ProbabilisticActor) – 隨機策略
- 關鍵字引數:
alpha_init (
float, optional) – 初始熵乘數。預設為 1.0。min_alpha (
float, optional) – alpha 的最小值。預設為 None(無最小值)。max_alpha (
float, optional) – alpha 的最大值。預設為 None(無最大值)。fixed_alpha (bool, 可選) – 如果為
True,則 alpha 將固定為其初始值。否則,alpha 將被最佳化以匹配“target_entropy”值。預設為False。target_entropy (
float或 str, 可選) – 隨機策略的目標熵。預設為“auto”,此時目標熵計算為-prod(n_actions)。samples_mc_entropy (int) – 估計熵的樣本數量
reduction (str, optional) – 指定應用於輸出的約簡:
"none"|"mean"|"sum"。"none":不應用約簡,"mean":輸出的總和將除以輸出中的元素數量,"sum":將對輸出進行求和。預設為"mean"。
- default_keys¶
別名:
_AcceptedKeys