Pytorch并行计算：nn.parallel.replicate, scatter, gather, parallel_apply__pytorch并行计算

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

讲道义的水桶 · 2023年618哪一款手机性价比高？手机推荐 ...· 3 月前 ·

高大的豌豆 · 镇魂街最新话：贪狼的真正身份揭晓，难怪坎大人 ...· 1 年前 ·

捣蛋的土豆 · 湖南省公安厅常务副厅长沦为“长沙赌王”马仔— ...· 1 年前 ·

瘦瘦的钢笔 · 后悔买taycan是为什么？保时捷电动车ta ...· 1 年前 ·

爱听歌的刺猬 · 我前老板欠钱百万，该怎么处理？_经济纠纷_资讯· 1 年前 ·

def data_parallel(module, input, device_ids, output_device=None): if not device_ids: return module(input) if output_device is None: output_device = device_ids[0] replicas = nn.parallel.replicate(module, device_ids) print(f"replicas:{replicas}") inputs = nn.parallel.scatter(input, device_ids) print(f"inputs:{type(inputs)}") for i in range(len(inputs)): print(f"input {i}:{inputs[i].shape}") replicas = replicas[:len(inputs)] outputs = nn.parallel.parallel_apply(replicas, inputs) print(f"outputs:{type(outputs)}") for i in range(len(outputs)): print(f"output {i}:{outputs[i].shape}") result = nn.parallel.gather(outputs, output_device) return result model = DataParallelModel() x = torch.rand(16,10) result = data_parallel(model.cuda(),x.cuda(), [0,1]) print(f"result:{type(result)}")

最后输出为

replicas:[DataParallelModel(
  (block1): Linear(in_features=10, out_features=20, bias=True)
), DataParallelModel(
  (block1): Linear(in_features=10, out_features=20, bias=True)
inputs:input 0:torch.Size([8, 10])
input 1:torch.Size([8, 10])
outputs:output 0:torch.Size([8, 20])
output 1:torch.Size([8, 20])
result: torch.Size([16, 20])

可以看到整个流程如下：

replicas : 将模型复制若干份，这里只有两个GPU，所以复制两份
scatter : 将输入数据若干等分，这里划分成了两份，会返回一个tuple。因为batch size=16，所以刚好可以划分成8和8，那如果是15怎么办呢？没关系，它会自动划分成8和7，这个你自己可以做实验感受一下。
parallel_apply : 现在模型和数据都有了，所以当然就是并行化的计算咯，最后返回的是一个list，每个元素是对应GPU的计算结果。
gather ：每个GPU计算完了之后需要将结果发送到第一个GPU上进行汇总，可以看到最终的tensor大小是[16,20],这符合预期。

MARSGGBO ♥ 原创 2019-9-17

MARSGGBO ♥ 原创

2019-9-17