評價此頁

torch.cuda.comm.reduce_add_coalesced#

torch.cuda.comm.reduce_add_coalesced(inputs, destination=None, buffer_size=10485760)[來源]#

從多個 GPU 求和張量。

將小張量先合併到一個緩衝區中,以減少同步次數。

引數
  • inputs (Iterable[Iterable[Tensor]]) – 包含來自單個裝置上的張量的可迭代物件。

  • destination (int, optional) – 輸出將被放置的裝置(預設為當前裝置)。

  • buffer_size (int) – 用於合併的最大緩衝區大小

返回

一個張量元組,其中包含每組輸入的逐元素和,放置在 destination 裝置上。