megengine.distributed

>>> import megengine.distributed as dist

backend

获取或设置集合通信后端。

分组(Group)

Server

用于分布式训练的分布式服务器。

Group

包含运行集群通信的排名节点 (看 distributed).

init_process_group

初始化分布式进程组,并且指定在当前进程中使用的设备。

new_group

构造一个包含特定序号的子通信组。

group_barrier

阻止调用,直到组中的所有进程达到这个障碍点。

override_backend

重定义分布式后端

is_distributed

如果分布式进程组已完成初始化则返回True。

get_backend

获取字符串形式表示的后端。

get_client

获取 python XML RPC 服务器的客户端。

get_mm_server_addr

获取 C++ mm_server 的主机IP和端口。

get_py_server_addr

获取 python XML RPC 服务器的主机IP和端口。

get_rank

返回当前进程的 Rank(进程序号)。

get_world_size

获取的参与任务的进程总数。

运行器(Launcher)

launcher

Decorator for launching multiple processes in single-machine/multi-machine multi-gpu training.

辅助功能(Helper)

bcast_list_

在指定通信组间广播张量列表。

synchronized

装饰器。

make_allreduce_cb

alias of megengine.distributed.helper.AllreduceCallback

helper.AllreduceCallback

具有张量融合优化的 Allreduce 回调函数。

helper.param_pack_split

按照 offsetsshapes 的描述拆分输入 Tensor,并返回拆分后的 Tensor 列表,仅用于 parampack

helper.param_pack_concat

返回拼接后的 Tensor,仅用于 ParamPack。

helper.pack_allreduce_split