返回当前进程组的排名

torch.distributed.get_rank() # 返回当前进程组的排名

同步进程

参考 GitHub

        # if torch.distributed.get_rank() == 0:
        #     torch.distributed.barrier()  # Make sure only the first process in distributed training will download model

不同步问题解决方案

其实最省事省力的方法就是retry, 参考 pypi

from retrying import retry
@retry(stop_max_attempt_number=5)
Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐