API 參考¶
- torchrl.collectors 包
- torchrl.data 包
- 回放緩衝區
- 可組合回放緩衝區
- TorchRL 劇集資料格式 (TED)
- 資料集
- TensorSpec
- TensorSpec
- 二元
- Bounded
- Categorical
- Composite
- MultiCategorical
- MultiOneHot
- NonTensor
- OneHot
- Stacked
- StackedComposite
- Unbounded
- UnboundedContinuous
- UnboundedDiscrete
- BinaryDiscreteTensorSpec
- BoundedTensorSpec
- CompositeSpec
- DiscreteTensorSpec
- LazyStackedCompositeSpec
- LazyStackedTensorSpec
- MultiDiscreteTensorSpec
- MultiOneHotDiscreteTensorSpec
- NonTensorSpec
- OneHotDiscreteTensorSpec
- UnboundedContinuousTensorSpec
- UnboundedDiscreteTensorSpec
- 樹和森林
- 大型語言模型和人類反饋強化學習 (RLHF)
- 工具
- torchrl.envs 包
- 環境規範:鎖定和批處理大小
- 環境方法
- 部分步驟和部分重置
- 向量化環境
- 非同步環境
- 自定義原生 TorchRL 環境
- 多智慧體環境
- 自動重置環境
- 動態規範
- 變換
- 帶掩碼動作的環境
- 記錄器
- 助手
- 特定領域
- 庫
- BraxEnv
- BraxWrapper
- DMControlEnv
- DMControlWrapper
- GymEnv
- GymWrapper
- HabitatEnv
- IsaacGymEnv
- IsaacGymWrapper
- IsaacLabWrapper
- JumanjiEnv
- JumanjiWrapper
- MeltingpotEnv
- MeltingpotWrapper
- MOGymEnv
- MOGymWrapper
- MultiThreadedEnv
- MultiThreadedEnvWrapper
- OpenMLEnv
- OpenSpielWrapper
- OpenSpielEnv
- PettingZooEnv
- PettingZooWrapper
- RoboHiveEnv
- SMACv2Env
- SMACv2Wrapper
- UnityMLAgentsEnv
- UnityMLAgentsWrapper
- VmasEnv
- VmasWrapper
- gym_backend
- set_gym_backend
- register_gym_spec_conversion
- LLM 介面
- torchrl.modules 包
- torchrl.objectives 包
- torch.vmap 和隨機性
- 訓練價值函式
- DQN
- DDPG
- SAC
- REDQ
- CrossQ
- IQL
- CQL
- GAIL
- DT
- TD3
- TD3+BC
- PPO
- A2C
- 強化
- Dreamer
- 多智慧體目標
- 返回
- ValueEstimatorBase
- TD0Estimator
- TD1Estimator
- TDLambdaEstimator
- GAE
- td0_return_estimate
- td0_advantage_estimate
- td1_return_estimate
- vec_td1_return_estimate
- td1_advantage_estimate
- vec_td1_advantage_estimate
- td_lambda_return_estimate
- vec_td_lambda_return_estimate
- td_lambda_advantage_estimate
- vec_td_lambda_advantage_estimate
- generalized_advantage_estimate
- vec_generalized_advantage_estimate
- reward2go
- 工具
- torchrl.trainers 包
- torchrl._utils 包
- TorchRL 配置系統