快捷方式

make_mlgym

class torchrl.envs.llm.make_mlgym(*, task: Literal['prisonersDilemma'] | None = None, tasks: list[Literal['prisonersDilemma']] | None = None, tokenizer: transformers.AutoTokenizer | str | None = None, device='cpu', reward_wrong_format: float | None = None)[原始碼]

將 MLGymEnv 包裝成一個 TorchRL 環境。

附加的轉換將確保資料在 LLM 的輸出(對於 env.step 的輸出)和 MLGym API 的輸入(對於 env.step 的輸入)格式正確。

關鍵字引數:
  • task (str) –

    要包裝的任務。與 tasks 引數互斥。

    注意

    正確的格式只是任務名稱,例如 “prisonersDilemma”

  • tasks (List[str]) –

    該環境可用的任務。與 task 引數互斥。

    注意

    正確的格式只是任務名稱,例如 “prisonersDilemma”

  • tokenizer (transformers.AutoTokenizerstr, optional) – 用於標記化資料的轉換器。如果傳入字串,它將被轉換為 transformers.AutoTokenizer

  • device (str, optional) – 要設定為環境的裝置。預設為“cpu”。

  • reward_wrong_format (float, optional) – 錯誤格式動作的獎勵(負罰款)。預設為 None(無罰款)。

文件

訪問全面的 PyTorch 開發者文件

檢視文件

教程

為初學者和高階開發者提供深入的教程

檢視教程

資源

查詢開發資源並讓您的問題得到解答

檢視資源