图片

导读 本文系统介绍了得物如何将大模型技术深度应用于社区搜索场景,实现了从搜索相关性判别、用户兴趣挖掘、Query 自动生成到多模态商品内容表征的全链路智能化升级。

得物作为国内领先的潮流电商平台,其独特之处在于构建了"商品+内容"双轮驱动的社区生态。用户不仅在平台上购买商品,更会主动搜索商品相关的种草内容、购买决策参考以及售后维护信息。这种复杂的业务场景对搜索系统提出了更高的技术要求,传统的 BERT 模型已难以满足业务发展需求。

本文将从四个维度深入剖析大模型在得物搜索中的实践经验:社区搜索业务架构、大模型相关性判别、智能 Query 生成以及多模态统一表征。通过千万级数据标注、推理式模型训练、数据飞轮迭代等创新方法,得物在搜索准确率、用户体验和算法效率上取得了显著突破,为行业提供了宝贵的落地参考。

主要内容包括以下几个部分:

  1. 得物社区搜索:商品与内容融合的独特挑战

  2. 大模型重构搜索相关性:从千万标注到智能蒸馏

3. Query 生成:打破信息茧房的智能引擎

  1. 多模态统一表征:商品与内容的语义融合

分享嘉宾|赵君豪 得物社区 AI搜索负责人 

内容校对|郭慧敏

出品社区|DataFun


01

得物社区搜索:商品与内容融合的独特挑战

图片

图片

得物的搜索业务架构与主流内容平台类似,主要分为主搜搜索增长两大板块。主搜板块涵盖搜索双列展示、商品阿拉丁卡片、视频内流搜索、用户搜索,算法团队的核心目标是提升用户主动搜索的承接效率。搜索增长板块则包括底纹推荐、猜你想搜、相关搜索、大家都在搜等功能模块,通过主动推词的方式激发用户的搜索需求,从而扩大平台的整体搜索规模。

得物与其他电商或内容平台的最大差异在于,它不是纯内容或纯商品平台,而是一个商品与内容深度融合的潮流生态。用户在得物不仅购买商品,更会在购买前搜索种草内容和测评参考,购买中进行商品对比和尺码选择,购买后寻找维护方法和使用技巧。这种贯穿消费全链路的内容需求,要求搜索系统必须同时理解商品属性和内容语义,实现跨域的精准匹配。

以"labubu"为例,这是得物 2025 年夏季的热门搜索词之一。用户搜索时可能想要查看商品详情,也可能希望看到搭配分享、真假对比、背景故事等内容。搜索系统需要准确理解用户意图,并在商品与内容之间做出智能分发。

1. 搜索评价指标体系

图片

从算法层面看,得物搜索的核心评价指标包括相关性、内容质量、时效性和个性化四个维度。相关性判断搜索词与文档在语义层面的客观匹配度,这是搜索的基础。内容质量评估动态是否清晰全面、是否有用且符合事实,有效区分标题党和引流等低价值内容。时效性识别查询词的时效性意图,返回最新且价值未衰减的信息。个性化则根据用户的年龄、性别、购买力和品类偏好等特征进行排序优化。

从业务层面,关键指标涵盖搜索日活、搜索渗透率(搜索日活/社区日活)、搜索次日留存、QVCTR(有点击的搜索次数/总搜索次数)、Top4 有点比(点击发生在首屏 Top4 的比例)以及换词率等。这些指标共同构成了衡量搜索体验和效率的完整体系。

2. 搜索算法链路

图片

得物搜索的算法链路遵循经典的"Query 理解-召回-排序"架构。Query 理解模块负责意图识别、实体识别、类目预测和 Query 纠错改写,为后续环节提供基础特征支撑。召回阶段采用传统的 BM25 倒排索引召回(高准确率)与双塔 BERT 向量语义召回(长尾效果好)相结合的策略,从上亿候选中筛选出相关文档。排序阶段分为粗排和精排两步,粗排采用浅层交互 BERT 处理几千候选,精排使用深度交互 BERT 从几百候选中选出最终结果,整个过程融合了相关性、质量、时效性等多个目标。此外,文档理解模块通过实体抽取、OCR/ASR 识别和 LLM 内容提炼等技术,为召回和排序提供更丰富的特征输入。

02

大模型重构搜索相关性:从千万标注到智能蒸馏

图片

搜索相关性的本质是判断文档内容是否满足用户 Query 的需求,即计算 Query 和返回文档之间的相关程度。在得物社区场景下,相关性判别更加复杂——不仅要评估 Query 与动态内容(图片、文字)的匹配度,还要综合判断动态下挂商卡(商品卡片)的相关性。这是得物独有的技术挑战。

图片

得物构建了一套精细化的相关性标准体系:包含 40+个细分 Query 意图(如类目、品牌、系列、穿搭、测评、送礼、娱乐、生活常识、鉴别、上身上脸等)、上万个商品三级类目(跑步鞋、篮球鞋、Polo 衫、咖啡机、防晒衣等)、几十个商品属性(品牌、品类、系列、人群、颜色、材质、款式、风格、规格、价格、IP 等),以及四档相关性分级(完全匹配、较多匹配、部分匹配、不匹配),并向五档相关性迁移。

1. 传统方案的困境

图片

传统的相关性模型以 BERT 为主,采用召回阶段的双塔结构和排序阶段的单塔交互结构。然而,这种方案面临三大痛点:资源消耗巨大——依赖上千万数据的人工标注,粗略估计标注 1000 万数据需要几十人不间断工作一年;泛化性差——训练好的模型受限于自身能力,对新品类和长尾 Query 识别能力弱,用户搜索鞋服效果好,但搜索旅行攻略、美食景点等新领域时效果明显下降;扩展性弱——遇到标准变更或新增需求时,往往需要重新进行大规模标注,难以快速响应业务调整。

2. 大模型相关性的突破

图片

大模型的引入为相关性判别带来了质的飞跃。相比传统 BERT,大模型具有三大优势:模型天花板更高——拥有更多参数,在众多 NLP Benchmark 上已验证其优越性;泛化性更强——采用互联网所有语料进行预训练,具备丰富的开放世界知识,在新品发现和诊断上能力更优;数据需求更少——得益于良好的泛化性,仅需几万标注数据即可达到传统千万级数据的训练效果。

图片

得物设计了一套创新的二阶段相关性判别流程。第一阶段,大模型对 Query 进行属性抽取,识别其中的品牌、类目、IP、颜色、人群等核心属性;第二阶段,模型结合第一阶段抽取的属性,综合参考动态内容(封面图、正文、商卡信息),分别判断品类、类目、人群等维度是否与 Query 匹配,最终输出相关性分档及具体的分档理由。这种设计大幅降低了模型识别难度,大盘准确率+5.95%,中长尾+2.98%;

3.  R1 推理范式的革新

图片

25 年初,得物快速引入了 DeepSeek R1 的推理范式。R1 通过模拟人类思考过程,生成思考链(Chain of Thought),实现分步推理解决相关性问题。数据准备阶段,团队利用开源模型进行 COT few-shot 生成,经过结果一致性校验和人工清洗,筛选出高质推理数据。训练阶段,将高质 COT 数据与非 COT 数据进行混合训练,在少量 COT 标注样本的情况下,让模型的相关性判别能力获得显著提升。引入 R1 后,大盘准确率+1.15%,中长尾提升更显著+4.47%;

典型案例:用户搜索"生日礼物送女朋友库洛米",模型能够准确识别出 Query 的关键属性——IP 为库洛米、使用场景为生日、人群为女朋友。在评估动态内容时,模型发现"动态中的礼物是帕狗,不是库洛米",因此判定 IP 不匹配,最终输出零分(不相关),并给出明确理由:"IP 不匹配,用户想要库洛米相关礼物,但内容展示的是帕狗"。另一个案例中,模型还能结合商品售价、属性等信息,对价格区间和类目进行综合判断,展现出强大的多维度推理能力。

4. 系统化的消融实验

图片

团队进行了全方位的消融实验,验证了各项技术改进的有效性。流程设计方面,通过动态 Prompt 和二阶段流程设计,有效减少指令长度从 8K 降至 1.2K,提升了模型的指令遵循能力。数据策略方面,包括属性难样本挖掘(颜色、季节等)、精细档位配比(0/1/2/3 分档)、意图配比(多商卡数据、送礼意图等),带来 3.5 个百分点的提升。训练设置方面,采用课程学习(训练输入由短到长)提升 1-2 个百分点,调整输出格式(先标签后分数)提升 1 个百分点。R1 思路(COT 训练、非 COT 推理)贡献了 3 个百分点的增益。模型尺寸扩展方面,从 7B 扩展到 14B,大盘和中长尾均有提升;继续扩展到 32B 时,大盘增长但中长尾有所下降,仍需更多实验验证。

对比实验显示,相较 BERT 基线,R1 微调模型在准确率和 F1 值上有显著提升。特别值得关注的是,在小档位(1 分+21.5%、2 分+32.6%)的判别上,大模型的优势更加明显,充分体现了其在中长尾数据上的泛化能力。

5. 业务落地与未来展望

在业务层面,大模型相关性方案已实现规模化落地。团队利用大模型自动打标千万量级相关性数据,推全了多版基于大模型的数据 & logits 蒸馏策略。25.Q2 的线上模型相比24.Q4,在 acc(+9.6%)、F1(+10.9%)等核心指标上均取得显著提升,线上 Badcase 率尤其是中长尾 Query 的问题率明显降低。更重要的是,团队将大模型能力沉淀到相关性问题发现、解决的全流程中,包括新词诊断、每日 Badcase 监控与回流、GSB 自动化评估等环节,大幅提升了算法迭代效率。

未来工作重点聚焦于 NDCG 能力优化。当前大模型的分档能力很强,但排序能力相对较弱。团队计划引入 pairwise 和 listwise DPO,提升大模型在同 Query 下多 Item 的排序能力。具体做法是将输入从[query, item] pair 转化为[query, item_list],单 Query 单 Item 是同 Query 多 Item 的极简情况。Reward 基于 NDCG 公式计算,省去了训练 Reward Model 的复杂过程。训练时采样 N 个 response,当 N=2 时退化为 pairwise DPO,当 N>2 时则为 listwise 学习,从而系统性提升排序效果。

03

Query 生成:打破信息茧房的智能引擎

1. 信息茧房的困境

图片

无论是推荐系统还是搜索系统,信息茧房都是亟待解决的核心问题。推荐系统主要基于用户行为数据学习,无法真正理解内容本身的语义,导致用户只能看到与现有兴趣高度相关的内容,对潜在兴趣的探索空间严重不足。长此以往,内容推荐的同质化会影响用户在平台的心智认知和长期留存。

搜索场景同样存在类似问题。在底纹、猜搜、相关搜、大家都在搜等搜索增长场景中,推荐的搜索词大都来自用户主动搜索且后验效率较高的候选词库,这进一步加剧了信息茧房效应。平台内存在大量新颖的优质内容,却无法在社区内充分展现形成良性循环。

2. 大模型驱动的兴趣延展

图片

得物借助大模型丰富的开放世界知识和推理能力,基于用户在站内的全域行为,推导出延展兴趣点。这种推导从三个维度展开:动态维度——当用户对内容有深度交互时,如点赞、收藏、转发等;商品维度——当用户购买或收藏商品时;画像维度——基于用户的年龄、性别、历史搜索词等基础信息。

比如用户收藏了主题为"网球技巧"的动态,说明用户最近可能在练习网球,那么"网球装备"、"网球穿搭"可能是其感兴趣的话题。用户对"微胖穿搭"的动态感兴趣,说明用户可能偏胖,对"大体重运动鞋"、"减肥"等主题有潜在需求。再如,一位 25 岁的男性用户,历史搜索过"强风2 pro"(专业级竞速跑步鞋),说明其可能对户外运动、专业装备感兴趣,那么"跑步心率手环"、"马拉松训练计划"、"运动恢复冰袋"等都是其潜在兴趣点。

图片

基于画像延展的 Framework 采用了 DeepSeek 进行推理。左侧展示用户画像(男性、36岁),右侧显示用户最近收藏和购买的商品。系统根据站内行为设置核心中转根节点,例如用户购买过自行车,通过自行车节点可以推理出 2 跳甚至 3 跳的物理关系,生成相关的运动装备、骑行路线、维护工具等延展兴趣词。

图片

图片

基于内容的延展,以"送男朋友的万元礼物"为例,第一列是推导维度(从哪个方面推导),第二列和第三列分别是生成的内容词和商品词。模型还会直接输出自信度分数,确保推荐的可靠性。另一个穿搭风格案例展示了模型对抽象概念的理解能力,能够从风格、场景、搭配等多个角度生成延展 Query。

3. 双场景落地:搜索增长与推荐系统

图片

延展兴趣 Query 的落地分为两个核心场景。搜索增长场景中,将挖掘和生成的延展兴趣 Query 在相关搜、猜搜、底纹等模块进行主动推荐。例如,用户浏览了一篇川西旅游的内容,系统可以从专业登山、户外生活方式、川西旅游冲锋衣等多个角度生成内容词和商品词。一旦用户对该内容有深度交互行为(如点赞、收藏),这些延展 Query 就会在其后续的猜搜、相关搜场景中透出,有效拓展用户的兴趣探索空间。

推荐场景中,将延展 Query 作为召回渠道,从社区内部检索相关的内容和商品信息。例如,推测用户可能对"登山靴"感兴趣,就检索出所有与登山靴相关的内容动态以及商品详情信息,将这些作为召回渠道送入推荐系统。推荐侧接入后,在时长、点击率、曝光量、类目数等核心指标上均实现显著提升,充分验证了大模型兴趣延展的业务价值。

4. Doc2Query:内容理解的智能提炼

图片

得物社区存在大量视频内容、长文本内容以及用户个性化表达的小众内容。Doc2Query 的目标是对站内内容进行智能提炼,生成符合用户搜索习惯的 Query,丰富文档侧信息,提升搜索召回效果。评估维度包括三个方面:相关性——生成的 Query 使用线上相关性模型打分,过滤不相关的 Query-Doc pair;多样性——每个 Doc 至少生成 3 个 Query,生成 Query 类型不能只聚集在头部词;扩展性——生成的 Query 对 Doc 有新词扩展,分词后有新 Term 出现。

Prompt 设计注重实用性:生成的 Query 需符合站内核心搜索意图和用户搜索表达习惯;搜索语句需反映动态主题或提炼某一重要侧重点;如果动态中有商品、明星、地名相关实体词,需准确提取;生成词长度控制在 15 字以内,配合 Few-shot 示例提升生成质量。

技术实现上,团队通过 SFT + KTO 方式训练 1.5B 模型,实现线上部署。具体 Case 包括:用户表达"想要一件上身不臃肿的衣服",模型提炼为"显瘦";对于非常长的文本内容,模型能够提取核心信息,生成简洁的搜索词,帮助搜索系统更好地理解内容语义。

5. 内容词生成:扩展搜索心智

图片

图片

得物用户的商品搜索心智较强,但内容型 Query 相对较少。团队希望借助大模型生成高质量的内容向搜索词,扩充词库规模,在下拉、猜搜、相关搜等场景透出,扩展用户的搜索心智。

离线阶段,从站内挖掘大量优质的 qD pair,经过 sft+dpo 训练,分垂类进行内容词建设。评估指标包括:质量——生成的词本身不能有语病或不通顺;重要性——需要涵盖多种商品特性和多个用户关心的决策点;供给——生成的词在平台内必须有充分的内容支撑;覆盖面——确保生成词可覆盖站内高热内容。在线阶段,对生成词经过质量判别、供给检验,最终跟内容配对。

生成数据源覆盖全站多个渠道,比如商品评论区、讨论区,这些场景准确刻画了用户对某件商品的疑惑点或关键决策点。

04

多模态统一表征:商品与内容的语义融合

1. 行业进展与技术基础

图片

多模态表征技术在学术界和工业界已有丰富积累。21 年 OpenAI 发布的 CLIP 和 24 年 Meta 发布的 Meta CLIP 是两篇里程碑式的工作。两篇论文共同揭示了一个核心规律:更好的模型效果=更大参数量×更多高质量训练数据×更多训练 Budget。尽管还有许多技术方向的研究支线,如基于多模态大模型的对齐等,但数据、算力、模型规模这三要素始终是决定性因素。

2. 模型基座选择

图片

得物在模型基座选择上进行了充分探索,搭建了两套模型架构。CLIP 架构基于 ViT 和 BERT,通过对比学习实现图文对齐;QFormer 架构基于 32×768 的 Learnable Query,采用更精细的跨模态交互机制。两套架构各有优势,团队根据不同场景需求灵活选用。

3. 数据飞轮:得物特色的数据建设

图片

得物基于自身特色的内容-商卡数据形态,建设了一套统一内容、商卡、Query 的图文表征体系,使模型在搜索和推荐全场景具备良好泛化性。数据建设分为单域建模跨域建模长文本建模三个层次。

单域建模利用天然的弱相关性数据。内容本身的封面与标题具有天然相关性、用户搜索 Query 与 Top 高点击内容的封面具有相关性、商品的封面与标题同样具有相关性。这些数据为模型提供了基础的图文对齐能力。

跨域建模是得物的独特优势。在每个动态下面,用户通常会挂载相关的商卡,这形成了内容与商品的天然连接。团队将动态封面与商卡标题进行对齐,将商卡封面与动态标题进行对齐,构建了跨域的语义表征能力。此外,团队专门收集了一批长文本数据,提升模型在长文本场景下的对齐能力。

团队采用 ******Iterative Training(迭代训练)******策略:数据训练模型→模型过滤优质数据→更优数据训练更好模型→循环迭代。实验数据显示,站内自然图文相关性在 70%-80% 区间。经过一轮迭代后,使用不同精度训练的模型效果差异明显。V0 代表初始模型,V1-P80 表示用精度80%的数据过滤训练,V1-P90 表示用精度 90% 的数据训练。在 Recall@10 指标上,P90 模型相比 P80(+1.96%)和初始模型(+2.86%)都有明显提升,充分验证了数据飞轮的有效性。

4. Scaling Law 验证与效果展示

团队在站内进行了系统的 Scaling Law 验证。对比开源 CNClip 模型和自研模型在不同数据规模下的表现,发现开源模型存在明显的 Domain 差异,在得物场景下效果不佳(R@10 -49.84%)。自研模型随着数据规模从 100 万、1000 万到 1 亿级别的增长,Recall@10(+36%)、Recall@100(+48%)、Recall@1K(+52%)等指标呈现稳定的上升趋势,充分验证了数据规模对模型能力的决定性作用。

图片

图片

可视化检索案例直观展示了数据规模的影响。文本输入"空军白黄"(耐克的一款具体配色),1000 万数据训练的模型虽然能召回空军一号鞋款,但对"白黄"这种细粒度配色特征的理解偏弱,召回的鞋款配色多样。而 1 亿数据训练的模型则能精准识别白黄配色特征,召回的鞋款配色高度一致。

另一个案例是"耐克 312 高帮"。1000 万数据的模型对"高帮"属性理解较弱,召回的鞋款既有高帮也有低帮,虽然都属于 312 系列。而 1 亿数据的模型则能准确识别高帮特征,召回结果几乎全部为高帮款式。当然,实验中也存在 Badcase,需要持续优化。

5. 应用落地与持续优化

训练策略上,团队还采用了多种优化技术,包括属性替换(增强模型对关键属性的理解)、课程学习(由易到难的训练顺序)、学习率退火(动态调整学习率)、Momentum Encoder(扩大训练 batch size)、温度系数缩放(调整对比学习的敏感度)等。

应用层面,多模态图文表征已在搜索相关性、个性化场景中通过权重热启、特征融合等方式落地,带来了搜索体验和效率的双重提升。此外,推荐场景也成功落地了基于大模型的多模态协同表征能力,为用户提供更精准的内容和商品推荐。

总结与展望

得物社区搜索中的大模型落地实践,为行业提供了极具价值的参考范式。从搜索相关性的智能判别、用户兴趣的延展挖掘、Query 的自动生成到多模态的统一表征,大模型在每个环节都展现出传统方法难以企及的能力。

核心技术亮点包括:二阶段相关性判别流程显著降低了模型识别难度,R1 推理范式的引入让模型具备了分步思考的能力;延展兴趣挖掘基于用户全域行为和大模型推理,有效打破了信息茧房;Doc2Query 和内容词生成提升了内容理解和词库丰富度;数据飞轮迭代和 Scaling Law 验证为多模态表征能力的持续提升奠定了坚实基础。

业务成效同样显著。相关性模型准确率+9.6%,千万级自动标注管线大幅降低了人工成本,算法迭代效率得到质的飞跃。推荐侧接入延展 Query 后,在时长、点击、曝光等核心指标上实现显著增长;

未来,团队将持续深化大模型在搜索场景的应用。相关性方向将重点优化排序能力,引入 listwise DPO 提升同 Query 下多 Item 的排序效果;多模态方向将引入更多站内协同数据和模型参数扩展,进一步提升细粒度属性对齐能力;Query 生成方向将拓展更多垂类和场景,丰富用户搜索心智。

得物的实践证明,大模型不仅是技术创新的工具,更是业务增长的引擎。在商品与内容深度融合的社区生态中,大模型正在重塑搜索体验,为用户创造更精准、更丰富、更智能的发现之旅。

以上就是本次分享的内容,谢谢大家。

图片

分享嘉宾

INTRODUCTION

图片

****赵君豪


图片

得物社区

图片

AI搜索负责人

图片

长期负责内容理解在搜推、审核、创作等场景落地,目前负责大模型跟搜索系统结合,提升相关性、质量、被动搜索等目标。

图片