兴趣搜索在腾讯看点的探索与实践

摘要：随着推荐技术成熟以及信息流业务极速扩张，用户与内容的交互模式逐渐从“人找内容--搜索”往“内容找人--推荐”迁移，并且这种趋势仍在扩大它的外延边界，大有“万物皆可推荐”的架势。但搜索作为人与内容交互的一种重要方式，它的作用并没有削弱，用户在推荐场景的沉浸消费反而会激发出新的搜索需求。从本质上看，搜索与推荐这两个飞轮咬合的轴心点是用户兴趣，因此如何在当前内容分发场景中更好满足用户兴趣是搜索技术精进的一个重要命题。经过两年的技术锤炼与业务实践，我们在兴趣搜索领域积累了一些心得和成果，汇总成文，分享于斯。

一. 兴趣搜索概述

推荐与搜索是人与内容交互的一体两面，其中推荐基于对用户兴趣的精准刻画，通过“投喂”的方式不断满足用户的兴趣“high”点。但人拥有极强的主观能动性，即使在沉浸式消费中亦会激发出新的兴趣并进行探索，而此时搜索则成了最有效率的探索方式，业界经典案例如抖音在自然增长下搜索QV轻松达到上亿。随着内容平台在新时期的不断演进，在用户兴趣刻画技术不断精进的润滑下搜索与推荐这两个飞轮会更加快速飞转，而如何更好的满足和承接用户兴趣搜索也将会是新一代搜索技术的重要内核。

另一方面，用户兴趣的表达往往是多模态的，不仅有显示的文字表达如搜索query词，也有隐式的视觉刻画如选中的图像。针对复杂的多模兴趣输入，通过两年的技术积累，我们在腾讯看点业务场景下对兴趣搜索进行了比较细致的探索与实践。对于显示表达的文字搜索，通过建设全面的兴趣刻画知识体系，我们实现了对搜索query词进行语义解析和兴趣精准识别，并通过兴趣点聚合搜索结果页的形式满足用户主需求。对于隐式刻画的视觉兴趣搜索，我们则通过图像理解以及图片向量检索技术手段，实现以图搜剧以及视频合集满足用户对于泛娱乐类内容的兴趣消费。注：本文所讲述的兴趣搜索主要针对短视频领域，但技术框架仍适用于各种内容形态（图文、直播、商品等）。

二. 文字域搜索

兴趣的定义与挖掘

作为用户的主动输入，搜索query词往往蕴含用户的兴趣点，但如何从中识别抽取出准确的兴趣点，仍然存在不小的技术难度。通过对线上搜索流量分析以及融合知识图谱先验知识，我们预定义了一种兴趣描述schema，即领域 (domain)、兴趣点 (interest)、槽位 (slot)，简称DIS；其中槽位用来对兴趣点进行更细致的分面刻画。例如当搜索query词为“王者荣耀李白五杀”，基于前述的DIS schema，可以映射成：domain--游戏、interest--游戏攻略、slot--{‘游戏名’：王者荣耀，‘角色’：李白，‘技巧’：五杀}，非常清晰且精准地完成对用户搜索兴趣的刻画。如下图，我们也详细对比了兴趣搜索与通用搜索的差异。在统一的兴趣点刻画体系下，需要分别对搜索词以及视频资源进行兴趣点槽位理解，并通过兴趣槽位域精准召回的方式完成兴趣搜索功能。

槽位理解

通过对搜索词进行理解和分析，精准识别出其中蕴含的兴趣点在技术层面并无成熟方案。根据结构化粒度粗细进行分类，兴趣槽位理解技术方案可以分为如下图所示几类。此处我们选用序列标注融合模版匹配的技术方案，并且在序列标注方案的选型上，采用了机器阅读理解框架（MRC）。

为何采用MRC模型进行兴趣槽位理解呢？首要原因是MRC模型在融合大规模预训练语言模型后在知识抽取和语义理解方面表现出强大的性能以及对于下游任务的高泛化性，除此之外，MRC模型还优雅地解决了在实践中遇到的兴趣点槽位嵌套问题，比如在美食领域，菜名与食材槽位交叉重叠比例为57%；菜名与做法槽位交叉重叠比例为13.3%。例如“山药炒木耳怎样做才好吃”，其中的“山药炒木耳”是美食兴趣点--菜名，而“山药”和“木耳”是美食兴趣点--食材，“炒”则是美食兴趣点--做法，如此嵌套的短文本，对于通用序列标注模型难以同时应对。因此，我们把序列标注抽象为一种阅读理解任务，通过构造问题query，识别出对应兴趣点的槽位词；比如对于“食材”，我们通过百科定义以及举例的方式构造出对应query，对“做法”同样如此。对于不同兴趣点的槽位序列可通过回答不同问题query来进行标注，对嵌套序列问题非常有效，同时问题query的构造可以融合更多先验知识，有助于提升模型泛化性以及减轻对标注数据的依赖。

视频多模理解

相对于图文资源，视频内容理解的难度更大，需要融合音频、视觉等各个模态信号，才能突破视频元数据的限制，同时也能覆盖更多优质UGC内容。通过对比分析，我们发现ASR，也就是音频转文本能够获得段落/篇章级别的语义信息；OCR则适用于视频主题挖掘以及段落内容分析；视觉分析则能够获取更为细粒度的内容特征，包括人物和目标物体识别。

用户兴趣点对于影视、游戏等泛娱乐类内容，一般还包含动作、场景和风格类型，而此类兴趣槽位则需要对视频进行片段级理解才能完成精准挖掘。例如，用户在消费影视类短视频时，对于视频资源会有“高甜”、“吻戏”、“鬼畜”等兴趣点。通过多模态视频理解能力，融合视频标题、音频以及抽帧内容，可实现对此类兴趣点标签精准分类。

精准帧搜索产品应用

通过对搜索流量下钻分析，发现影视综IP关联的query包含丰富的经典台词及剧情消费需求。在视频多模态理解技术基础上，结合腾讯系优质版权长视频资源，我们打造了业界独具特色的视频智能化搜索产品--视频精准帧搜索。基于对长视频的多模语义结构化理解，融合台词、人物、场景以及知识图谱，并结合对影视搜索query槽位理解能力，通过精准跳转长视频对应剧情片段来智能化满足泛娱乐搜索需求。

剧情精准帧搜索（打开QQ浏览器搜索“雍正王朝八王议政”）

台词精准帧搜索（打开QQ浏览器搜索“伪装者经典台词”）

三. 视觉域搜索

看图识剧

除了通过输入文字的方式显示表达兴趣外，在信息流场景中用户还可以通过选择或关注图像的方式来刻画自己的兴趣，例如在浏览信息流文章时，看到某张感兴趣的图则会激发出查看图片出处视频或相关视频的延伸阅读兴趣。通过搭建大规模以图搜图检索系统，集成多种粒度的视觉语义特征，最终实现看图识剧top1召回准确率98%+。

看点图搜视频最大挑战在于视频帧索引规模大，且对检索结果准确率要求高。小数据集下比较有效的图像检索和重复图片检测方法，在10亿量级的向量索引下会暴露出严重的问题；为实现大规模检索下准确的图搜视频，不仅需要对图片提取的embedding在长度和精度上进行优化，还需要结合关键帧选取，图片分类，视频分类，人脸embedding，局部特征点匹配，语义匹配的方式保证准确率和召回率。

图像刻画

图片向量化即图像embedding，根据使用场景可以偏重语义与风格、整体与局部、形状与纹理等。常规的图像embedding在表现上更像是一个黑盒，杂糅了各类维度和各种粒度的信息，在下游任务，尤其是图像检索任务中难以迎合业务和产品策略迭代；一次模型升级往往意味着全量刷库，费时费力。经过图像检索业务长期洗礼，我们实现了图像向量表示结构化，拆分为语义与风格embedding、全局与局部embedding、形状与纹理embedding以及人脸&物体embedding，能够有效地对视觉类兴趣表达进行层次刻画。

视频合集

在视频多模态理解基础上，通过对视频资源进行兴趣槽位理解，并将同一兴趣点下的视频进行聚合形成视频合集，在满足用户兴趣搜索同时也提供了用户延伸消费线索（如下图中的各个筛选词），有效提升大盘时长以及辅助用户兴趣探索。

四. 总结及展望

以用户兴趣为核心转子，搜索与推荐这两个飞轮加速旋转，成为当前内容分发最高效的方式。无论从推荐场景激发用户切入兴趣搜索，还是在搜索场景俘获用户兴趣点转入信息流推荐留存，搜索query词以及内容资源的兴趣槽位理解已成为打造优秀兴趣搜索引擎的重要基石。通过两年的探索与实践，我们建设了一套完善的兴趣搜索技术体系，覆盖多模态兴趣刻画，包含文字搜索词以及兴趣图片。对于文字类搜索词，基于MRC模型精准抽取兴趣点并应用于检索结果；而对于视觉类兴趣输入，则通过多模态检索提供满足用户需求的图片与视频。随时未来移动交互设备革新以及5G技术发展，视觉类表达可能会成为搜索的重要流量入口，如何对视觉图像进行精准语义理解以及兴趣刻画在技术实践层面仍存在巨大挑战。