DistributionalDQNnet¶
- class torchrl.modules.DistributionalDQNnet(*args, **kwargs)[原始碼]¶
分佈深度 Q 網路 softmax 層。
此層應放置在預測動作值和作用於 logit 值的分佈之間的常規模型之間。
- 引數:
in_keys (list of str or tuples of str) – log-softmax 操作的輸入鍵。預設為
["action_value"]。out_keys (list of str or tuples of str) – log-softmax 操作的輸出鍵。預設為
["action_value"]。
示例
>>> import torch >>> from tensordict import TensorDict >>> net = DistributionalDQNnet() >>> td = TensorDict({"action_value": torch.randn(10, 5)}, batch_size=[10]) >>> net(td) TensorDict( fields={ action_value: Tensor(shape=torch.Size([10, 5]), device=cpu, dtype=torch.float32, is_shared=False)}, batch_size=torch.Size([10]), device=None, is_shared=False)