ConstantKLController¶ class torchrl.data.ConstantKLController(*, kl_coef: float | None = None, model: nn.Module | None = None)[source]¶ Constant KL Controller。 此控制器在收到更新值時保持固定的係數,無論其值如何。 關鍵字引數: kl_coef(float)– 在計算獎勵時用於乘以 KL 的係數。 model(nn.Module, optional)– 需要控制的包裝模型。必須具有 "kl_coef" 屬性。如果提供,則 "kl_coef" 將就地更新。