张枫：计算机视觉技术在虎牙直播中的实践

分享嘉宾：张枫虎牙计算机视觉算法工程师出品平台：DataFunTalk

导读： 大家好，我是张枫，来自虎牙公司内容安全组。虎牙公司作为国内知名的直播平台，在直播游戏化技术、虚实融合内容生产方面积累了丰富经验，为了给观众创造绿色安全的网络环境，计算机视觉技术在虎牙得到了广泛的应用。本文将从内容安全方面作为切入点，跟大家交流计算机视觉技术在虎牙直播中的实践经验，内容将围绕以下四方面进行阐述：

项目背景
常见内容风险
图像识别算法实践
未来展望

01 项目背景

在直播和短视频平台，图像相关的业务场景非常丰富多样，主要包括头像类、视频类、直播类、聊天图类等。上述业务每天会生产丰富的音视频内容，不可避免地会出现一些不适合直播的内容，如音频、视频、图像中的涉政红线、涉黄低俗、暴恐敏感、广告版权、其他违规等。我们通过精细化标签，对风险内容进行快速召回。亿级别量级的数据，全违规覆盖，我们做到了秒级别的响应。

以图像为例。业界内容安全审核方式主要有3种：滞后审核、实时拦截、实时屏蔽。

第一种，滞后审核指由机器发现高危图像，继而推送给人审， 最终由人审执行处罚 。其优点为人审处罚避免机器误杀；缺点为响应速度较慢，一般取决于人审的响应速度。

第二种，实时拦截指 由机器发现高危图像后，直接进行处罚。 其优点是响应速度快，减少不良信息暴露的风险；缺点是误杀影响用户体验。

第三种，实时屏蔽， 机器发现高危图像，并对图像中违规的区域进行打码模糊 。其优点为响应速度快，用户无感知；缺点是对算法要求高。

02 常见内容风险

常见内容风险很多，ppt罗列了几种典型的风险。如涉政类，包含涉政人物、涉政标志、涉政事件、涉政文字等。涉黄类、涉恐类、违禁类、广告类等如下所示。每个大类的违规细类别种类繁多，单一技术方案无法全覆盖，一般需要图像识别、图像检测、人脸识别、logo识别、文字识别，以及其他技术综合处理。

以涉黄低俗类为例，大家一起看下常见案例。

常规案例 ，特点是低俗主体明显，处于中间位置，占图像面积比例较大。
困难案例 ，特点是低俗主体隐晦，目标区域较小，图像内容复杂。
其他违规类别也大同小异，复杂多样的违规案例，给我们带来了很多挑战。

03 图像识别算法实践

下面将为大家介绍我们的图像识别算法实践，以及工作过程中遇到的一些难点。

在单帧图像维度，我们希望做到精准识别，不断提升召回，降低误报，对badcase能快速召回。在业务维度，我们希望做到通过通用算子的编排能力，快速满足各个业务需求。

为了完成上述目标和挑战，打击上述各类风险，我们构建了Skyeye天眼系统 。本图为天眼系统整体的系统框架图。

当业务接入天眼时，我们获取到具体的业务数据，一般为图像或者视频。由数据处理模块，进行截图拉流、视频分片、图像处理、业务分流等操作；再经过特定业务入口输入算子流程，输出对应的识别标签，按规则推送至对应业务出口，一般为人工审核、实时审核、实时打码三种。这就是一个普通业务上线的总体流程。

上述流程的核心是算子构建与算子编排 。当业务方提出需求时，先评估现有算子是否满足要求，若不满足，则积累业务数据，进行算子构建。待该算子效果评估通过后，结合其他现有算子进行算子编排，拟定适合特定业务的算子流程。灰度数据进行数据验证，若满足要求则开始推送，不满足则反馈迭代，进而形成闭环。

以上是天眼的系统框框架介绍。下面将介绍一些算子的构建方法。

目前，涉黄低俗类为主要打击对象。 我们对样例进行分析，大致分为两种 ：第一种图像主体明显，一般采用 【多标签+多分支】 的方法。而第二种，图像主体隐晦，以画中画、小框图、表情包等形式出现，一般采用 【检测+分类+搜索】 的方法。

针对常规样例，我们采用 【多标签+多分支分类】 的方法。

①由于涉黄低俗类属于小样本，我们会人工扩充部分样例。业务数据+爬虫数据。

②单张图，我们为其打多个标签。例如样例1，性感、腿部、人体前景框、人体掩膜等。分类标签采用人工标注与机器打标方式进行，而人体前景框与掩膜区域采用预训练模型进行打标。

③模型结构采用的主干网络+注意力模块的形式，经试验发现，注意力模块热力图更聚焦于身体部位。

④模型推理时，可同时输出多个标签，综合多个标签输出结果，这种方式在一定程度上增加了识别准确率。例如，一级标签属于大类，图像一致性较弱，对应的召回率高，但准确率较低；二级标签属于细粒度标签，图像一致性强，准确率较高，召回率较低。当一级分类标签与二级分类标签不冲突时，才作为类别命中。以上就是常规样例的技术方案。

针对困难样例，我们采用 【检测+分类+搜索】 的方法。

①我们需要多阶段构建算子，训练检测网络与抽特征网络，建立特征索引库。

②采用检测算子筛选候选框，去除了多余的背景干扰，使后续抽特征算子更易于聚焦目标抽取特征。

③抽特征算子同时输出分类类别（有泛化性）与特征向量，特征向量与搜索库比对，输出索引类别。多输出进行逻辑组合，输出最终类别，这也是模型集成的思想。

④构建搜索库的优势是，特征可以快速入库，处理误召或者漏召案例。

相比于涉黄低俗类数据，涉政、暴恐类数据更少，某些特定类别只有几百的原始数据。我们在实际应用中，发现部分类别在跨域识别的表现极差。原本在业务A表现良好，迁移到业务B上表现不好。分析原因是由于，训练样本少且业务倾向性较强。针对上述问题，我们采用了多任务形式构建分类算子。

⑤训练时，分类任务我们一般用backbone + attention作为主干网络，同时多个任务共用一个主干网络，扩大主干网络的训练数据量。

⑥假设，需要对任务1进行微调，则只需微调分支网络，可快速迭代。

⑦模型部署时，共用主干网络，便于单卡多模型部署。

⑧推理时，对多个输出进行综合判断，提升单帧图像的准召。

某些标签难以用单一方法进行召回，如游行图像。我们尝试过上述方案，准召情况不理想。后分析具体数据，我们发现 可以通过综合图像多个元素，进行逻辑组合确认游行类别 。如图一，单一分类模型将赶集图像命中为游行图像。图二，为召回游行案例，我们通过对单帧图像进行多维度理解，输出游行标签。即命中多人聚集标签，且命中敏感旗帜标签，即为游行。

我们统一了各类算子的接口，实现在整体流程中即插即用的功能 。下面以一个具体业务的例子来说明天眼系统的实际应用。

该典型案例是，某业务需对军装类、禁播游戏类、软色情类等数据进行拦截。分析业务场景与需召回的违规样例，使用到了以下算子：流量算子、场景分类算子、图像缩放算子、禁播游戏算子、软色情算子、涉政军算子、逻辑脚本算子。经算子编排，如上右图所示。

每个业务均有一个固定的业务流量入口。

流量算子 ：用于控制流量大小，同时可对品类信息，地域信息等进行过滤。
场景分类算子 ：输出不同场景，如游戏类、影视类、户外类、窗口类等多个类别。举个例子，大家可以看下上图左下角这个样例，它实际是该业务必须要找回的一个禁播游戏的案例，若命中游戏类，则数据流向左边，进行图像缩放到适合下个算子的大小，最终由禁播游戏算子命中某类游戏，进而上报高危类。

上述方案优势为 ：节省资源（不需要并行过所有违规），多维度理解提升准召；通过算子编排，快速满足各个业务需求。