WorldModelWrapper¶ class torchrl.modules.tensordict_module.WorldModelWrapper(*args, **kwargs)[原始碼]¶ 世界模型包裝器。 此模組將一個過渡模型和一個獎勵模型包裝在一起。過渡模型用於預測一個假想的世界狀態。獎勵模型用於預測假想過渡的獎勵。 引數: transition_model (TensorDictModule) – 一個生成新世界狀態的過渡模型。 reward_model (TensorDictModule) – 一個獎勵模型,它讀取世界狀態並返回獎勵。 get_reward_operator() → TensorDictModule[原始碼]¶ 返回一個將世界狀態對映到獎勵的獎勵運算子。 get_transition_model_operator() → TensorDictModule[原始碼]¶ 返回一個過渡運算子,該運算子將觀察對映到世界狀態,或將世界狀態對映到下一個世界狀態。