make_mlgym¶
- class torchrl.envs.llm.make_mlgym(*, task: Literal['prisonersDilemma'] | None = None, tasks: list[Literal['prisonersDilemma']] | None = None, tokenizer: transformers.AutoTokenizer | str | None = None, device='cpu', reward_wrong_format: float | None = None)[原始碼]¶
將 MLGymEnv 包裝成一個 TorchRL 環境。
附加的轉換將確保資料在 LLM 的輸出(對於 env.step 的輸出)和 MLGym API 的輸入(對於 env.step 的輸入)格式正確。
- 關鍵字引數:
task (str) –
要包裝的任務。與 tasks 引數互斥。
注意
正確的格式只是任務名稱,例如 “prisonersDilemma”。
tasks (List[str]) –
該環境可用的任務。與 task 引數互斥。
注意
正確的格式只是任務名稱,例如 “prisonersDilemma”。
tokenizer (transformers.AutoTokenizer 或 str, optional) – 用於標記化資料的轉換器。如果傳入字串,它將被轉換為 transformers.AutoTokenizer。
device (str, optional) – 要設定為環境的裝置。預設為“cpu”。
reward_wrong_format (float, optional) – 錯誤格式動作的獎勵(負罰款)。預設為 None(無罰款)。