发布时间

TracedModule: 更友好的模型表示方案,模型训练到部署的桥梁

TracedModule 是 MegEngine 中的一种模型格式,用于脱离模型源码对模型进行训练、量化、图手术和模型转换,它是模型训练到部署之间的桥梁。

MegEngine Inference 卷积优化之 Im2col 和 winograd 优化

在 CV 领域中,卷积计算是扩充像素的感受野的有效方法,模型大多数的计算量都是卷积操作贡献的。因此在 CV 模型的推理性能优化中,最重要的一项工作是对卷积的优化。本文介绍了 Im2col 和 winograd 卷积计算优化的方法。

MegPeak——让你更懂你的处理器

在这个算力需求爆炸的大背景下,如何评估我们程序发挥了处理器几成的算力,以及进一步优化空间和优化方向? MegEngine 团队开发了一个工具 MegPeak,可以帮助开发人员进行性能评估,开发指导等。

ARM 算子性能优化上手指南

做 arm 侧算子开发时,不能不关心的就是性能。本文主要就是介绍 arm 算子性能优化的常用思路,做为一个入门级的参考。文章以 ARM Cortex a55 上的 GaussianBlur 优化为例展开,并在文末对 arm 性能优化思路做了一个总结。

全局图优化:提升 MegEngine 模型推理性能的又一神器

深度学习模型的推理性能通常是大家关注的重要指标,这其中 Tensor 的 Layout Format 又是一个高度影响性能的因素。如果能通过从整体上优化 Tensor Format 来提升模型整体推理性能,会怎么样?通过本文,一起来看看 MegEngine 实现的全局图优化功能。

实录 | MegEngine 大 Kernel 卷积工程优化实践

本篇整理自 3.19 日 “Large Kernel Makes CNN Great Again” 专题 Meetup 中《MegEngine 大 Kernel 卷积工程优化实践》分享。

圆桌实录 | 为什么不约而同选择了大 Kernel

在 3.19 日的 “Large Kernel Makes CNN Great Again” 专题 Meetup 中,我们组织了一次圆桌讨论,希望能通过讨论一些比较有共性的问题,碰撞出更多新想法。本篇为文字实录,enjoy~

凭什么 31x31 大小卷积核的耗时可以和 9x9 卷积差不多?| 文末附 meetup 回顾

卷积网络的 kernel size 可以多大?答案是:25x25 就很好,31x31 甚至更好。

MegEngine Windows Python wheel 包减肥之路

本文将重点讲述在支持 MegEngine Windows Python wheel 过程中遇到的问题以及解决问题的流程。此文最后的解决方法可能不是最优,欢迎留言指正。