ModelScope 视觉检测&关键点系列模型与应用介绍

导读： 本文主要介绍了 ModelScope 在视觉检测方面以及关键点方面系列模型与相关的应用。

本次分享主要分四个部分：

ModelScope-CV 模型概览
视觉检测系列模型与应用
视觉关键点系列模型与应用
未来计划&展望

分享嘉宾｜路吾（花名）博士达摩院算法专家

编辑整理｜张少华信雅达科技

出品社区｜DataFun

01/ModelScope-CV 模型概览

ModelScope 是一个"模型即服务"的平台。针对的用户包括初级开发者、应用开发者、开源贡献者等。ModelScope 平台上可以一站式地完成包括模型的管理、模型下载、调优训练，以及最后推理部署应用等全链路的工作。底层的模型包括达摩院的一些大模型，NLP、CV 等 SOTA 模型，以及开源伙伴和社区提供的一些模型。

模型探索方面，大家可以在模型卡片中去看需要什么样的模型。之后可以下载到本地，在本地进行快捷安装，也可以在云端 Notebook 上面直接体验模型的效果。模型推理方面，根据提供的 SDK，可以实现一行代码执行推理。平台同时支持使用自己的训练集进行模型微调。部署方式多种多样，包括在云端、本地化以及设备端上面都可以做相关部署。

目前开放的 CV 模型大概有 100 个左右。主要包括图像理解类、图像生成编辑类，以及视频任务类模型等，后续还在持续迭代增加中。

本文主要分享检测和视觉理解类的模型，另外还有分类识别、语义分割、抠图等视觉理解类模型可以在 ModelScope 上面体验使用。当前这些开源的模型有些是目前业界最先进 SOTA 模型，也有些是比较流行的模型，还有是通过我们业务实践检验过的效率比较高的模型。

视觉检测模型大致可以按照图片、视频、3D 三个方向分类。其中图片类相关模型还可以分为通用目标检测和垂类高性能检测模型。通用目标检测 包括图片通用目标检测、高性能通用检测、实时目标检测、显著性目标检测以及伪装目标检测等。垂类高性能检测包含人体检测、人脸检测、车辆检测、烟雾检测、口罩检测及安全帽检测等产业热门应用模型。视频方面包括目标检测、目标跟踪、动作识别等。3D 领域有一些通用的目标检测和自动驾驶方面的检测，如 BEV-3D 目标检测。

1. VitDet 图像目标检测

首先绍一个较为经典的模型，VitDet 图像目标检测模型。它只用 ViT 做骨干网络（不使用 FPN）的检测模型，不需要重新设计层次结构借助 ViT 的预训练，骨干网络的设计不受目标检测任务的约束。使用 MAE 进行 ViT 预训练，在 COCO 数据集上取得很好的结果。

2. YOLOX 实时目标检测

第二个模型是一个实时检测模型：YOLOX。模型特点是自动优化 GT 分配，分类回归头解耦、数据增强等。它的应用较为广泛，比如目标检测与定位、目标计数等。另外这类模型多部署在边缘端和移动端。

3. res2net 伪装色目标检测

第三个模型 res2net 是一个伪装色目标检测模型。用途以下图为例，输入一张图片，找到里边的一些伪装目标。这类模型在农业领域应用较多，如病虫害检测等。

伪装色目标检测主要有三个难点，第一，数据集前景目标分辨率尺度分布广；第二，前景目标和背景统计信息（颜色、纹理）的视觉差异比较小；第三，数据缺乏，需要精细的标注，标注成本大，人为标注+交叉验证图像 60min。

我们针对这几个难点提出了我们自研的模型，目前达到了 SOAT 效果。

整个步骤就是先通过模拟人视觉定位的过程，由粗定位到精细定位识别，然后通过粗定位边界即区域定位，边界与粗定位区域补充学习，最后通过 edge-guidance 和 mask-attention 精细预测。

这个模型与其他模型对比，在各个数据集上达到了最好的效果。

下图为一个伪装色目标检测结果的可视化示例。

伪装色目标检测算法可以迁移到显著性目标检测模型。

4. 人体检测

上述介绍的是一些通用模型，接下来介绍一些垂类的模型，比如人体检测模型。人体检测模型训练使用的数据会比较多一些，比如 COCO，object 365、互联网数据，以及业务监控数据等。模型方面选用 FasterRCNN，同时引入了 dynamic head 并进行了一些改造，最终模型效果还不错，尤其是在监控户外夜晚且光线比较弱的一些困难场景。

5. MogFace 检测模型

人脸检测模型 MogFace，在 Wider Face 上获得六项冠军。可以应用于拥挤场景的人脸检测，检测精度高。

6. 实时目标检测-自动驾驶场景

这是一个车辆检测的模型，此模型采用目前公开的一些数据集，还有我们自己收集的一些车辆方面数据集，包括监控、自动驾驶场景等。背后的自研模型 YOLOX-PAI 检测效果要比 YOLOv5/v6 效果好。从下图可以看到在遮挡包括小目标模糊的场景情况下，车辆检测也很准确。

7. 实时视频目标检测

上面介绍的是图片维度的模型，在视频维度方面开源了实时视频目标检测 Stream YOLO 模型，通过学习历史帧和当前帧，预测视频目标未来帧的位置。

8. 视频单目标跟踪

单目标跟踪 SOTA 模型 OSTrack，可以跟踪指定的单个目标，即使中间有遮挡或者相似目标，都可以有比较好的 tracking 效果。

03/视觉关键点系列模型与应用

目前主要包括 2D 和 3D 系列关键点模型，其中上线的 2D 关键点模型，包括人体、人脸、手部以及全身的关键点模型，3D 的关键点检测模型主要是人体和手部的相关模型。

1. HRNet 人体关键点-2D

先介绍人体关键点 2D 模型：HRNet。训练数据不仅包括 COCO、MPII、互联网数据，还加入了一些健身场景的数据。模型方面基于 HRNet 改进的骨干网络，对浅层、深层特征进行了不同方向的融合，训练的时候引入了人体随机裁剪数据增强策略，同时对不同的一些关键点做了不同的 loss 权重的更新。并在体育健身计数和打分场景下的遮挡、多姿态等做了深度优化，未来计划上线移动端小模型，在千元机上可达到 25~30 FPS。

下图为关键点检测的部分应用场景：如俯卧撑、开合跳、深蹲、仰卧起坐等十几种动作，以及检测其他的一些健身动作是否标准等。

对于运动计数以及动作比对，已经上线到三个产品中，分别是智能健身镜以及乐动力 APP，还有钉钉中的运动功能。

2. 人脸关键点

人脸关键点自研模型通过对 MobileNet 系列模型在不同阶段使用，使得模型最终达到参数量小，推理速度快，并可以部署在移动端进行实时检测。

人脸关键点检测可以广泛应用于美颜美妆等特效和人脸驱动场景。

3. 手部 2D 关键点

手部 2D 关键点检测模型 litehrnet-w18，采用 HRNetv2+DarkPose 组合，基于 heatmap 的关键点检测方法在编码和解码阶段引入误差，并基于 heatmap 的一阶导数和二阶导数来计算偏移方向，并对预测的 heatmap 进行平滑处理，从而保证解码的准确性，可应用于端侧实时检测。