megengine.functional.vision.roi_pooling¶

roi_pooling(inp, rois, output_shape, mode='max', scale=1.0)[源代码]¶

对输入进行 roi pooling。

参数

inp (Tensor) – 表示输入特征的张量，形为 (N, C, H, W) 的图片。
rois (Tensor) – 形为(K，5)的box。第一列是N的索引，其它4列分别是xyxy。
output_shape (Union[int, tuple, list]) – 输出 rois 特征的形状， (height, width)。
mode (str) – “max” 或者 “average”, 像使用最大/平均池化一样使用 max/average pooling。默认： “max”
scale (float) – 使用这个数值放缩输入框。默认：1.0

返回类型

Tensor

返回

rois 的特征，形为 (K, C, output_shape[0], output_shape[1])。

例如：

import numpy as np
from megengine import tensor
import megengine.functional as F

np.random.seed(42)
inp = tensor(np.random.randn(1, 1, 128, 128))
rois = tensor(np.random.random((4, 5)))
y = F.vision.roi_pooling(inp, rois, (2, 2))
print(y.numpy()[0].round(decimals=4))

输出：

[[[-0.1383 -0.1383]
  [-0.5035 -0.5035]]]

megengine.functional.vision.warp_perspective megengine.functional.vision.roi_align