发布时间

ARM 算子性能优化上手指南

做 arm 侧算子开发时,不能不关心的就是性能。本文主要就是介绍 arm 算子性能优化的常用思路,做为一个入门级的参考。文章以 ARM Cortex a55 上的 GaussianBlur 优化为例展开,并在文末对 arm 性能优化思路做了一个总结。

全局图优化:提升 MegEngine 模型推理性能的又一神器

深度学习模型的推理性能通常是大家关注的重要指标,这其中 Tensor 的 Layout Format 又是一个高度影响性能的因素。如果能通过从整体上优化 Tensor Format 来提升模型整体推理性能,会怎么样?通过本文,一起来看看 MegEngine 实现的全局图优化功能。

实录 | MegEngine 大 Kernel 卷积工程优化实践

本篇整理自 3.19 日 “Large Kernel Makes CNN Great Again” 专题 Meetup 中《MegEngine 大 Kernel 卷积工程优化实践》分享。

圆桌实录 | 为什么不约而同选择了大 Kernel

在 3.19 日的 “Large Kernel Makes CNN Great Again” 专题 Meetup 中,我们组织了一次圆桌讨论,希望能通过讨论一些比较有共性的问题,碰撞出更多新想法。本篇为文字实录,enjoy~

凭什么 31x31 大小卷积核的耗时可以和 9x9 卷积差不多?| 文末附 meetup 回顾

卷积网络的 kernel size 可以多大?答案是:25x25 就很好,31x31 甚至更好。

MegEngine Windows Python wheel 包减肥之路

本文将重点讲述在支持 MegEngine Windows Python wheel 过程中遇到的问题以及解决问题的流程。此文最后的解决方法可能不是最优,欢迎留言指正。

MegEngine 端上训练:让 AI 懂你,更能保护你

如何让 AI 算法更精准地理解用户喜好又能保证用户数据安全呢?一个直观的想法就是直接在手机上进行模型训练,这样既避免了数据传输可能带来的泄露风险,又能不断提升模型性能。MegEngine 既可以在 GPU 上进行训练,又可以在移动设备上进行推理,那两者结合一下,是不是可以在移动设备上进行训练呢?答案是肯定的。

深入理解混合精度训练:从 Tensor Core 到 CUDA 编程

本文以混合精度训练为切入点,深入挖掘了其背后的 Tensor Core 的原理,并从 CUDA 接口层面和深度学习框架开发两个层面介绍了如何利用 Tensor Core 进行计算加速,最终回归到混合精度训练本身,期望能帮助缺乏 CUDA 编程背景知识的读者对混合精度训练底层逻辑乃至 GPU 加速这个“黑箱”有更深入的理解。

Web 上运行深度学习框架模型 - MegEngine.js

看社区开发者如何以一人之力, 3 个月完成 MegEngine javascript 版本,实现在 javascript 环境中快速部署 MegEngine 模型~