評價此頁

簡介 || 什麼是 DDP || 單節點多 GPU 訓練 || 容錯 || 多節點訓練 || minGPT 訓練

PyTorch 分散式資料並行 - 影片教程#

創建於:2022 年 9 月 27 日 | 最後更新:2024 年 11 月 15 日 | 最後驗證:2024 年 11 月 5 日

作者: Suraj Subramanian

跟隨下面的影片或在 YouTube 上觀看。

本系列影片教程將透過 DDP 帶您瞭解 PyTorch 中的分散式訓練。

本系列從一個簡單的非分散式訓練任務開始,最終結束於在叢集中的多臺機器上部署訓練任務。在此過程中,您還將瞭解用於容錯分散式訓練的 torchrun

本教程假定您對 PyTorch 中的模型訓練有基本瞭解。

執行程式碼#

您需要多個 CUDA GPU 才能執行教程程式碼。通常,這可以在具有多個 GPU 的雲實例上完成(教程使用了具有 4 個 GPU 的 Amazon EC2 P3 例項)。

教程程式碼託管在此 GitHub 倉庫 中。克隆倉庫並跟著學習!

教程章節#

  1. 簡介(本頁)

  2. 什麼是 DDP? 溫和地介紹 DDP 的內部工作原理

  3. 單節點多 GPU 訓練 使用單個機器上的多個 GPU 訓練模型

  4. 容錯分散式訓練 使用 torchrun 使您的分散式訓練任務更具魯棒性

  5. 多節點訓練 使用多個機器上的多個 GPU 訓練模型

  6. 使用 DDP 訓練 GPT 模型 使用 DDP 訓練 minGPT 模型的“真實世界”示例