megengine.optimizer

>>> import megengine.optimizer as optim

Optimizer

所有优化器的基类。

常见优化器

SGD

实现随机梯度下降。

AdamW

Implements the AdamW algorithm proposed in "Decoupled Weight Decay Regularization".

Adam

实现 "Adam: A Method for Stochastic Optimization" 中提出的Adam算法。

Adagrad

Implements Adagrad algorithm proposed in "Adaptive Subgradient Methods for Online Learning and Stochastic Optimization".

Adadelta

Implements Adadelta algorithm proposed in "ADADELTA: An Adaptive Learning Rate Method".

LAMB

实现 LAMB 算法。

LAMBFp16

学习率调整

LRScheduler

所有学习率调度器的基类。

MultiStepLR

以gamma为倍率阶梯式衰减各参数组的学习率

梯度处理

clip_grad_norm

使用norm方式裁剪梯度

clip_grad_value

通过给定的上下界裁剪梯度