Load and run Python 接口#

Python 版 Load and Run 的主要功能和用法与 C++ 版本 基本一致。

命令行中输入以下命令可以看到全部参数的列表与介绍:

python -m megengine.tools.load_network_and_run --help

参数列表及简介如下:

net

必需参数 ,指定 mge graph 文件路径

--output-name [OUTPUT_NAME [OUTPUT_NAME ...]]

指定用于测速的网络输出数据节点的名字,可用空格分隔指定多个,不指定则为网络编译 dump 时的输出

--load-input-data LOAD_INPUT_DATA

指定用作输入的 inputs data 文件路径,内容应该为 pickle 化的 numpy array 或者含 np array 的 dict,key 为 inputs 节点名

--input-desc INPUT_DESC

对于未指定 –load-input-data 的情况,会根据的 INPUT_DESC 指定的 shape 来随机生成数据,如果不指定,则会根据图中节点的 shape 来生成

--batchsize BATCHSIZE

类似 –input-desc,但是只指定 batchsize

--seed SEED

指定生成随机 inputs 数据的随机数种子

--rng RNG

指定生成随机数的配置,包括范围、大小等,也可用 python function 指定,指定大小时应确保与 inputs shape 一致

--profile PROFILE

开启后使用 GraphProfiler 记录 profile 信息,并将结果的 json 内容写到 PROFILE 文件路径中,可后续用于 profile_analyze.py 分析

--focused-nvprof

会在最后额外跑一个用 pycuda.driver profiler 包起来的 iter,用于外部 nvprof 进行测速

--warm-up

在开始测速前,先跑一个迭代,减少设备缓存等因素带来的性能影响

--iter ITER

正式运行测速的迭代数

--calc-output-rms

在运行日志中附带 outputs RMS(root meam square) 值的结果,用于快速比较两次输出结果是否一致

--device

(目前无效)指定 mge graph 加载时使用的 device,等同于 MGE_DEFAULT_DEVICE 环境变量

--fast-run

设置网络中 conv、matmul 等支持修改 execution strategy 选项的算子的执行算法,开启后会对当前平台的多个算法进行运行测速,选出最快的算法

--reproducible

影响 –fast-run 选项中的算法选择,开启后只选择带”reproducible”标签的算法进行比较

--optimize-for-inference 以及配套的 --enable-xxx 参数

对 mge graph 进行优化,会导致图节点被替换、修改,可参考 推理优化选项表

--embed-input

是否将 inputs data 作为 SharedDeviceTensor 嵌入网络中替换 Host2Device 节点,以兼容 C++ 版 load-and-run, 不开启时 h2d 会被替换为 InputCallback 节点以支持 set_value

--dump-cpp-model DUMP_CPP_MODEL

在依次做完fast-run修改、optimize、embed-inputs等操作后,添加output callback前,将网络进行 dump

--verbose, -v

设置 log level 为 DEBUG,输出更多信息(包括 fast-run 测速过程等)

--log LOG

指定 log 输出的保存路径,不指定则不保存