快捷方式

make_async_vllm_engine

class torchrl.modules.llm.make_async_vllm_engine(model_name: str, num_devices: int | None = None, num_replicas: int = 1, verbose: bool = True, compile: bool = True, **kwargs)[原始碼]

建立一個非同步 vLLM 引擎服務。

引數:
  • model_name (str) – 要傳遞給 vLLM 的模型名稱。

  • num_devices (int, optional) – 要使用的裝置數量,每個副本一個。

  • num_replicas (int) – 要建立的引擎副本數量。

  • verbose (bool, optional) – 是否啟用帶有吞吐量統計資訊的詳細日誌記錄。預設為 True。

  • compile (bool, optional) – 是否啟用模型編譯以獲得更好的效能。預設為 True。

  • **kwargs – 傳遞給 AsyncEngineArgs 的其他引數。

返回:

已啟動的引擎服務。

返回型別:

AsyncVLLM

丟擲:
  • RuntimeError – 如果沒有可用的 CUDA 裝置。

  • ValueError – 如果提供了無效的裝置配置。

示例

>>> # Create a single-GPU async engine
>>> service = make_async_vllm_engine("Qwen/Qwen2.5-3B")
>>>
>>> # Create a 2-GPU tensor parallel async engine with 2 replicas
>>> service = make_async_vllm_engine("Qwen/Qwen2.5-3B", num_devices=2, num_replicas=2)
>>> # Generate text
>>> result = service.generate("Hello, world!", sampling_params)

文件

訪問全面的 PyTorch 開發者文件

檢視文件

教程

為初學者和高階開發者提供深入的教程

檢視教程

資源

查詢開發資源並讓您的問題得到解答

檢視資源