評價此頁

★ ★ ★ ★ ★

beginner/ddp_series_intro

在 Google Colab 中執行

下載 Notebook

在 GitHub 上檢視

簡介 || 什麼是 DDP || 單節點多 GPU 訓練 || 容錯 || 多節點訓練 || minGPT 訓練

PyTorch 分散式資料並行 - 影片教程#

創建於：2022 年 9 月 27 日 | 最後更新：2024 年 11 月 15 日 | 最後驗證：2024 年 11 月 5 日

作者： Suraj Subramanian

跟隨下面的影片或在 YouTube 上觀看。

本系列影片教程將透過 DDP 帶您瞭解 PyTorch 中的分散式訓練。

本系列從一個簡單的非分散式訓練任務開始，最終結束於在叢集中的多臺機器上部署訓練任務。在此過程中，您還將瞭解用於容錯分散式訓練的 torchrun。

本教程假定您對 PyTorch 中的模型訓練有基本瞭解。

執行程式碼#

您需要多個 CUDA GPU 才能執行教程程式碼。通常，這可以在具有多個 GPU 的雲實例上完成（教程使用了具有 4 個 GPU 的 Amazon EC2 P3 例項）。

教程程式碼託管在此 GitHub 倉庫中。克隆倉庫並跟著學習！

教程章節#

簡介（本頁）
什麼是 DDP？溫和地介紹 DDP 的內部工作原理
單節點多 GPU 訓練使用單個機器上的多個 GPU 訓練模型
容錯分散式訓練使用 torchrun 使您的分散式訓練任務更具魯棒性
多節點訓練使用多個機器上的多個 GPU 訓練模型
使用 DDP 訓練 GPT 模型使用 DDP 訓練 minGPT 模型的“真實世界”示例

文件

訪問全面的 PyTorch 開發者文件

教程

為初學者和高階開發者提供深入的教程

資源

查詢開發資源並讓您的問題得到解答