center 区域经常完全被遮挡万博ManBetX手机版客户端

当前位置:万博体育ManBetX官网 > 万博ManBetX手机版客户端 > center 区域经常完全被遮挡万博ManBetX手机版客户端
作者: 万博体育ManBetX官网|来源: http://www.mancamk.com|栏目:万博ManBetX手机版客户端

文章关键词:万博体育ManBetX官网,卷积

  在近来研究人员热衷于探索 Transformer 用于目标检测的尝试时,这篇论文提出了一种全新的观点,即利用全卷积网络也可以实现良好的端到端目标检测效果。

  目标检测是计算机视觉领域的一个基础研究主题,它利用每张图像的预定义类标签来预测边界框。大多数主流检测器使用的是基于锚的标签分配和非极大值抑制(NMS)等手动设计。近来,很多研究者提出方法通过距离感知和基于分布的标签分类来消除预定义的锚框集。尽管这些方法取得了显著的进展和优越的性能,但抛弃手动设计的 NMS 后处理可能阻碍完全的端到端训练。

  基于这些问题,研究人员相继提出了 Learnable NMS、Soft NMS 和 CenterNet 等,它们能够提升重复删除效果,但依然无法提供有效的端到端训练策略。之后,Facebook AI 研究者提出的 DETR 将 Transformer 用到了目标检测任务中,还取得了可以媲美 Faster R-CNN 的效果。但是,DETR 的训练时间却大大延长,在小目标上的性能也相对较低。

  所以,在本文中,来自旷视科技和西安交通大学的研究者提出了一个新颖问题:全卷积网络是否可以实现良好的端到端目标检测效果?并从标签分配和网络架构两个方面回答并验证了这一问题。

  此外,研究者还提出了 3D Max Filtering 以增强 feature 在 local 区域的表征能力,并提出用 one-to-many auxiliary loss 加速收敛。本文方法基本不修改模型结构,不需要更长的训练时间,可以基于现有 dense prediction 方法平滑过渡。本文方法在无 NMS 的情况下,在 COCO 数据集上达到了与有 NMS 的 FCOS 相当的性能;在代表了密集场景的 CrowdHuman 数据集上,本文方法的 recall 超越了依赖 NMS 方法的理论上限。

  自 anchor-free 方法出现以来,NMS 作为网络中最后一个 heuristic 环节,一直是实现 E2E dense prediction 的最大阻碍。但其实可以发现,从 RPN、SSD、RetinaNet 等开始,大家一直遵循着这样一个流程:先对每个目标生成多个预测(one-to-many),再将多个预测去重(many-to-one)。所以,如果不对前一步 label assignment 动刀,就必须要保留去重的环节,即便去重的方法不是 NMS,也会是 NMS 的替代物(如 RelationNet,如 CenterNet 的 max pooling)。

  那直接做 one-to-one assignment 的方法是否存在呢?其实是有的。上古时代有一个方法叫 MultiBox,对每个目标和每个预测做了 bipartite matching,DETR 其实就是将该方法的网络换成了 Transformer。此外还有一个大家熟知的方法:YOLO,YOLO 也是对每个目标只匹配一个 grid[1] ,只不过它是采用中心点做的匹配,而且有 ignore 区域。

  于是接下来的问题就是,在 dense prediction 上能不能只依赖 one-to-one label assignment,比较完美地去掉 NMS?研究者首先基于去掉 centerness 分支的 FCOS,统一网络结构和训练方法,用 Focal Loss + GIoU Loss,做了如下分析实验:

  研究者设计了两种 hand-crafted one-to-one assignment 方法,分别模仿 RetinaNet(基于 anchor box)和 FCOS(基于 center 点),尽可能做最小改动,发现已经可以将有无 NMS 的 mAP 差距缩小到 4 个点以内。

  但他们知道,loss 和 metrics 往往并不一致,它常常要为优化问题做一些妥协(比如做一些加权等等)。也就是说,loss 并不一定是 bipartite matching 的最佳 cost。因而研究者提出了一个非常简单的 cost:

  看起来稍微有点复杂,但其实就是用网络输出的 prob 代表分类,网络输出和 gt 的 IoU 代表回归,做了加权几何平均,再加一个类似于 inside gt box 的空间先验。加权几何平均和空间先验在后面都分别做了 ablation。

  这就是研究者提出的 POTO 策略,它进一步地提升了无 NMS 下的性能,也侧面验证了 loss 并不一定是最好的 cost[3]。但从 Table 1 中也发现了,POTO 的性能依旧不能匹敌 one-to-many+NMS 组合。研究者认为问题出在两个方面:

  如 Figure 3 所示,这个模块只采用了卷积、插值、max pooling 3d,速度非常快,也不需要写 cuda kernel。

  最主要的实验结果已经在 Table 1 中呈现了,此外还有一些 ablation 实验。

  α越低,分类权重越大,有无 NMS 的差距越小,但绝对性能也会降低 [4];α太高也不好,后续所有实验用α=0.8;

  在α合理的情况下,空间先验不是必须的,但空间先验能够在匹配过程中帮助排除不好的区域,提升绝对性能;研究者在 COCO 实验中采用 center sampling radius=1.5,在 CrowdHuman 实验中采用 inside gt box[5];

  去掉 NMS 的最大收益其实是 crowd 场景,这在 COCO 上并不能很好地体现出来。所以又在 CrowdHuman 上做了实验如下:

  请注意 CrowdHuman 的 ground-truth 做 NMS threshold=0.6,只有 95.1% 的 Recall,这也是 NMS 方法的理论上限。而本文方法没有采用 NMS,于是轻易超越了这一上限。

  经过以上改进,研究者成功把 one-to-one 的性能提升到了与 one-to-many+NMS 方法 comparable 的水平。此外还可视化了 score map,可以发现 FCN 是有能力学出非常 sharp 的表示的,这也是很让研究者惊奇的一点。

  结果图中比较明显的改善出现在多峰 case 上。比如两个物体有一定的 overlap(但又没有特别重合),这个时候 one-to-many+NMS 方法经常出现的情况是,万博ManBetX手机版客户端除了两个物体分别出了一个框之外,在两个物体中间也出了一个框,这个框与前两个框的 IoU 不足以达到 NMS threshold,但置信度又比较高。万博ManBetX手机版客户端这类典型的多峰问题在 POTO 中得到了较大的缓解。

  如果有人感兴趣的话,可以在 YOLO 上去掉 NMS 尝试一下,可以接近 30mAP。

  其实这里可以有一个脑洞留给大家,因为 cost 是不需要求导的,所以甚至是可以直接算 AP 当 cost 的。

  理由很简单,CrowdHuman 的遮挡问题太严重,center 区域经常完全被遮挡。

  事实上加权几何平均数的负对数就是 CE+IoU Loss,加权算术平均数则没有明显的物理含义。

  「WAVE SUMMIT+2020 深度学习开发者峰会」由深度学习技术及应用国家工程实验室与百度联合主办,来自行业内的人工智能专家和开发者们将分享 AI 时代的最新技术发展和产业应用经验,诸多顶级高校人工智能专家将就 AI 人才培养展开对话,AI 开源产品及社区专家也将共话开源趋势。

  本次峰会既有干货满满的分享、讨论,又有丰富多彩的展示、体验、互动,为开发者打造专属的 AI Party。

  12 月 20 日,北京 798 艺术园区 751 罐,点击阅读原文,参与报名。

网友评论

我的2016年度评论盘点
还没有评论,快来抢沙发吧!