make_mlgym¶

class torchrl.envs.llm.make_mlgym(*, task: Literal['prisonersDilemma'] | None = None, tasks: list[Literal['prisonersDilemma']] | None = None, tokenizer: transformers.AutoTokenizer | str | None = None, device='cpu', reward_wrong_format: float | None = None)[原始碼]¶

將 MLGymEnv 包裝成一個 TorchRL 環境。

附加的轉換將確保資料在 LLM 的輸出（對於 env.step 的輸出）和 MLGym API 的輸入（對於 env.step 的輸入）格式正確。

關鍵字引數:

task (str) –
要包裝的任務。與 tasks 引數互斥。

注意

正確的格式只是任務名稱，例如 “prisonersDilemma”。
tasks (List[str]) –
該環境可用的任務。與 task 引數互斥。

注意

正確的格式只是任務名稱，例如 “prisonersDilemma”。
tokenizer (transformers.AutoTokenizer 或 str, optional) – 用於標記化資料的轉換器。如果傳入字串，它將被轉換為 transformers.AutoTokenizer。
device (str, optional) – 要設定為環境的裝置。預設為“cpu”。
reward_wrong_format (float, optional) – 錯誤格式動作的獎勵（負罰款）。預設為 None（無罰款）。

make_mlgym¶

文件

教程

資源