LMHeadActorValueOperator¶
- class torchrl.modules.tensordict_module.LMHeadActorValueOperator(*args, **kwargs)[source]¶
從類 huggingface 的 *LMHeadModel 構建 Actor-Value 操作器。
此方法
接收一個類 huggingface 的 *LMHeadModel 作為輸入
提取最後的線性層,將其用作 actor_head 的基礎層,並新增取樣層
使用通用的 transformer 作為公共模型
新增一個線性 critic
- 引數:
base_model – 一個由 .transformer 模型和 .lm_head 線性層組成的 torch 模型