torch.cuda.comm.reduce_add_coalesced#

torch.cuda.comm.reduce_add_coalesced(inputs, destination=None, buffer_size=10485760)[來源]#

從多個 GPU 求和張量。

將小張量先合併到一個緩衝區中，以減少同步次數。

引數

返回

一個張量元組，其中包含每組輸入的逐元素和，放置在 destination 裝置上。

文件

訪問全面的 PyTorch 開發者文件

檢視文件

為初學者和高階開發者提供深入的教程

檢視教程

查詢開發資源並讓您的問題得到解答

檢視資源