簡介 || 什麼是 DDP || 單節點多 GPU 訓練 || 容錯 || 多節點訓練 || minGPT 訓練
PyTorch 分散式資料並行 - 影片教程#
創建於:2022 年 9 月 27 日 | 最後更新:2024 年 11 月 15 日 | 最後驗證:2024 年 11 月 5 日
跟隨下面的影片或在 YouTube 上觀看。
本系列影片教程將透過 DDP 帶您瞭解 PyTorch 中的分散式訓練。
本系列從一個簡單的非分散式訓練任務開始,最終結束於在叢集中的多臺機器上部署訓練任務。在此過程中,您還將瞭解用於容錯分散式訓練的 torchrun。
本教程假定您對 PyTorch 中的模型訓練有基本瞭解。
執行程式碼#
您需要多個 CUDA GPU 才能執行教程程式碼。通常,這可以在具有多個 GPU 的雲實例上完成(教程使用了具有 4 個 GPU 的 Amazon EC2 P3 例項)。
教程程式碼託管在此 GitHub 倉庫 中。克隆倉庫並跟著學習!
教程章節#
簡介(本頁)
什麼是 DDP? 溫和地介紹 DDP 的內部工作原理
單節點多 GPU 訓練 使用單個機器上的多個 GPU 訓練模型
容錯分散式訓練 使用 torchrun 使您的分散式訓練任務更具魯棒性
多節點訓練 使用多個機器上的多個 GPU 訓練模型
使用 DDP 訓練 GPT 模型 使用 DDP 訓練 minGPT 模型的“真實世界”示例