大模型在得物社区搜索的落地实践

导读本文系统介绍了得物如何将大模型技术深度应用于社区搜索场景，实现了从搜索相关性判别、用户兴趣挖掘、Query 自动生成到多模态商品内容表征的全链路智能化升级。

得物作为国内领先的潮流电商平台，其独特之处在于构建了"商品+内容"双轮驱动的社区生态。用户不仅在平台上购买商品，更会主动搜索商品相关的种草内容、购买决策参考以及售后维护信息。这种复杂的业务场景对搜索系统提出了更高的技术要求，传统的 BERT 模型已难以满足业务发展需求。

本文将从四个维度深入剖析大模型在得物搜索中的实践经验：社区搜索业务架构、大模型相关性判别、智能 Query 生成以及多模态统一表征。通过千万级数据标注、推理式模型训练、数据飞轮迭代等创新方法，得物在搜索准确率、用户体验和算法效率上取得了显著突破，为行业提供了宝贵的落地参考。

主要内容包括以下几个部分：

得物社区搜索：商品与内容融合的独特挑战
大模型重构搜索相关性：从千万标注到智能蒸馏

3. Query 生成：打破信息茧房的智能引擎

多模态统一表征：商品与内容的语义融合

分享嘉宾｜赵君豪得物社区 AI搜索负责人

内容校对｜郭慧敏

出品社区｜DataFun

得物社区搜索：商品与内容融合的独特挑战

得物的搜索业务架构与主流内容平台类似，主要分为主搜和搜索增长两大板块。主搜板块涵盖搜索双列展示、商品阿拉丁卡片、视频内流搜索、用户搜索，算法团队的核心目标是提升用户主动搜索的承接效率。搜索增长板块则包括底纹推荐、猜你想搜、相关搜索、大家都在搜等功能模块，通过主动推词的方式激发用户的搜索需求，从而扩大平台的整体搜索规模。

得物与其他电商或内容平台的最大差异在于，它不是纯内容或纯商品平台，而是一个商品与内容深度融合的潮流生态。用户在得物不仅购买商品，更会在购买前搜索种草内容和测评参考，购买中进行商品对比和尺码选择，购买后寻找维护方法和使用技巧。这种贯穿消费全链路的内容需求，要求搜索系统必须同时理解商品属性和内容语义，实现跨域的精准匹配。

以"labubu"为例，这是得物 2025 年夏季的热门搜索词之一。用户搜索时可能想要查看商品详情，也可能希望看到搭配分享、真假对比、背景故事等内容。搜索系统需要准确理解用户意图，并在商品与内容之间做出智能分发。

1. 搜索评价指标体系

从算法层面看，得物搜索的核心评价指标包括相关性、内容质量、时效性和个性化四个维度。相关性判断搜索词与文档在语义层面的客观匹配度，这是搜索的基础。内容质量评估动态是否清晰全面、是否有用且符合事实，有效区分标题党和引流等低价值内容。时效性识别查询词的时效性意图，返回最新且价值未衰减的信息。个性化则根据用户的年龄、性别、购买力和品类偏好等特征进行排序优化。

从业务层面，关键指标涵盖搜索日活、搜索渗透率（搜索日活/社区日活）、搜索次日留存、QVCTR（有点击的搜索次数/总搜索次数）、Top4 有点比（点击发生在首屏 Top4 的比例）以及换词率等。这些指标共同构成了衡量搜索体验和效率的完整体系。

得物搜索的算法链路遵循经典的"Query 理解-召回-排序"架构。Query 理解模块负责意图识别、实体识别、类目预测和 Query 纠错改写，为后续环节提供基础特征支撑。召回阶段采用传统的 BM25 倒排索引召回（高准确率）与双塔 BERT 向量语义召回（长尾效果好）相结合的策略，从上亿候选中筛选出相关文档。排序阶段分为粗排和精排两步，粗排采用浅层交互 BERT 处理几千候选，精排使用深度交互 BERT 从几百候选中选出最终结果，整个过程融合了相关性、质量、时效性等多个目标。此外，文档理解模块通过实体抽取、OCR/ASR 识别和 LLM 内容提炼等技术，为召回和排序提供更丰富的特征输入。

大模型重构搜索相关性：从千万标注到智能蒸馏

搜索相关性的本质是判断文档内容是否满足用户 Query 的需求，即计算 Query 和返回文档之间的相关程度。在得物社区场景下，相关性判别更加复杂——不仅要评估 Query 与动态内容（图片、文字）的匹配度，还要综合判断动态下挂商卡（商品卡片）的相关性。这是得物独有的技术挑战。

得物构建了一套精细化的相关性标准体系：包含 40+个细分 Query 意图（如类目、品牌、系列、穿搭、测评、送礼、娱乐、生活常识、鉴别、上身上脸等）、上万个商品三级类目（跑步鞋、篮球鞋、Polo 衫、咖啡机、防晒衣等）、几十个商品属性（品牌、品类、系列、人群、颜色、材质、款式、风格、规格、价格、IP 等），以及四档相关性分级（完全匹配、较多匹配、部分匹配、不匹配），并向五档相关性迁移。

1. 传统方案的困境

传统的相关性模型以 BERT 为主，采用召回阶段的双塔结构和排序阶段的单塔交互结构。然而，这种方案面临三大痛点：资源消耗巨大——依赖上千万数据的人工标注，粗略估计标注 1000 万数据需要几十人不间断工作一年；泛化性差——训练好的模型受限于自身能力，对新品类和长尾 Query 识别能力弱，用户搜索鞋服效果好，但搜索旅行攻略、美食景点等新领域时效果明显下降；扩展性弱——遇到标准变更或新增需求时，往往需要重新进行大规模标注，难以快速响应业务调整。

2. 大模型相关性的突破

大模型的引入为相关性判别带来了质的飞跃。相比传统 BERT，大模型具有三大优势：模型天花板更高——拥有更多参数，在众多 NLP Benchmark 上已验证其优越性；泛化性更强——采用互联网所有语料进行预训练，具备丰富的开放世界知识，在新品发现和诊断上能力更优；数据需求更少——得益于良好的泛化性，仅需几万标注数据即可达到传统千万级数据的训练效果。

得物设计了一套创新的二阶段相关性判别流程。第一阶段，大模型对 Query 进行属性抽取，识别其中的品牌、类目、IP、颜色、人群等核心属性；第二阶段，模型结合第一阶段抽取的属性，综合参考动态内容（封面图、正文、商卡信息），分别判断品类、类目、人群等维度是否与 Query 匹配，最终输出相关性分档及具体的分档理由。这种设计大幅降低了模型识别难度，大盘准确率+5.95%，中长尾+2.98%；

3. R1 推理范式的革新

25 年初，得物快速引入了 DeepSeek R1 的推理范式。R1 通过模拟人类思考过程，生成思考链（Chain of Thought），实现分步推理解决相关性问题。数据准备阶段，团队利用开源模型进行 COT few-shot 生成，经过结果一致性校验和人工清洗，筛选出高质推理数据。训练阶段，将高质 COT 数据与非 COT 数据进行混合训练，在少量 COT 标注样本的情况下，让模型的相关性判别能力获得显著提升。引入 R1 后，大盘准确率+1.15%，中长尾提升更显著+4.47%；

典型案例：用户搜索"生日礼物送女朋友库洛米"，模型能够准确识别出 Query 的关键属性——IP 为库洛米、使用场景为生日、人群为女朋友。在评估动态内容时，模型发现"动态中的礼物是帕狗，不是库洛米"，因此判定 IP 不匹配，最终输出零分（不相关），并给出明确理由："IP 不匹配，用户想要库洛米相关礼物，但内容展示的是帕狗"。另一个案例中，模型还能结合商品售价、属性等信息，对价格区间和类目进行综合判断，展现出强大的多维度推理能力。

4. 系统化的消融实验

团队进行了全方位的消融实验，验证了各项技术改进的有效性。流程设计方面，通过动态 Prompt 和二阶段流程设计，有效减少指令长度从 8K 降至 1.2K，提升了模型的指令遵循能力。数据策略方面，包括属性难样本挖掘（颜色、季节等）、精细档位配比（0/1/2/3 分档）、意图配比（多商卡数据、送礼意图等），带来 3.5 个百分点的提升。训练设置方面，采用课程学习（训练输入由短到长）提升 1-2 个百分点，调整输出格式（先标签后分数）提升 1 个百分点。R1 思路（COT 训练、非 COT 推理）贡献了 3 个百分点的增益。模型尺寸扩展方面，从 7B 扩展到 14B，大盘和中长尾均有提升；继续扩展到 32B 时，大盘增长但中长尾有所下降，仍需更多实验验证。

对比实验显示，相较 BERT 基线，R1 微调模型在准确率和 F1 值上有显著提升。特别值得关注的是，在小档位（1 分+21.5%、2 分+32.6%）的判别上，大模型的优势更加明显，充分体现了其在中长尾数据上的泛化能力。

5. 业务落地与未来展望

在业务层面，大模型相关性方案已实现规模化落地。团队利用大模型自动打标千万量级相关性数据，推全了多版基于大模型的数据 & logits 蒸馏策略。25.Q2 的线上模型相比24.Q4，在 acc（+9.6%）、F1（+10.9%）等核心指标上均取得显著提升，线上 Badcase 率尤其是中长尾 Query 的问题率明显降低。更重要的是，团队将大模型能力沉淀到相关性问题发现、解决的全流程中，包括新词诊断、每日 Badcase 监控与回流、GSB 自动化评估等环节，大幅提升了算法迭代效率。

未来工作重点聚焦于 NDCG 能力优化。当前大模型的分档能力很强，但排序能力相对较弱。团队计划引入 pairwise 和 listwise DPO，提升大模型在同 Query 下多 Item 的排序能力。具体做法是将输入从[query, item] pair 转化为[query, item_list]，单 Query 单 Item 是同 Query 多 Item 的极简情况。Reward 基于 NDCG 公式计算，省去了训练 Reward Model 的复杂过程。训练时采样 N 个 response，当 N=2 时退化为 pairwise DPO，当 N>2 时则为 listwise 学习，从而系统性提升排序效果。

03 Query 生成：打破信息茧房的智能引擎

1. 信息茧房的困境

无论是推荐系统还是搜索系统，信息茧房都是亟待解决的核心问题。推荐系统主要基于用户行为数据学习，无法真正理解内容本身的语义，导致用户只能看到与现有兴趣高度相关的内容，对潜在兴趣的探索空间严重不足。长此以往，内容推荐的同质化会影响用户在平台的心智认知和长期留存。

搜索场景同样存在类似问题。在底纹、猜搜、相关搜、大家都在搜等搜索增长场景中，推荐的搜索词大都来自用户主动搜索且后验效率较高的候选词库，这进一步加剧了信息茧房效应。平台内存在大量新颖的优质内容，却无法在社区内充分展现形成良性循环。

2. 大模型驱动的兴趣延展

得物借助大模型丰富的开放世界知识和推理能力，基于用户在站内的全域行为，推导出延展兴趣点。这种推导从三个维度展开：动态维度——当用户对内容有深度交互时，如点赞、收藏、转发等；商品维度——当用户购买或收藏商品时；画像维度——基于用户的年龄、性别、历史搜索词等基础信息。

比如用户收藏了主题为"网球技巧"的动态，说明用户最近可能在练习网球，那么"网球装备"、"网球穿搭"可能是其感兴趣的话题。用户对"微胖穿搭"的动态感兴趣，说明用户可能偏胖，对"大体重运动鞋"、"减肥"等主题有潜在需求。再如，一位 25 岁的男性用户，历史搜索过"强风2 pro"（专业级竞速跑步鞋），说明其可能对户外运动、专业装备感兴趣，那么"跑步心率手环"、"马拉松训练计划"、"运动恢复冰袋"等都是其潜在兴趣点。

基于画像延展的 Framework 采用了 DeepSeek 进行推理。左侧展示用户画像（男性、36岁），右侧显示用户最近收藏和购买的商品。系统根据站内行为设置核心中转根节点，例如用户购买过自行车，通过自行车节点可以推理出 2 跳甚至 3 跳的物理关系，生成相关的运动装备、骑行路线、维护工具等延展兴趣词。

基于内容的延展，以"送男朋友的万元礼物"为例，第一列是推导维度（从哪个方面推导），第二列和第三列分别是生成的内容词和商品词。模型还会直接输出自信度分数，确保推荐的可靠性。另一个穿搭风格案例展示了模型对抽象概念的理解能力，能够从风格、场景、搭配等多个角度生成延展 Query。

3. 双场景落地：搜索增长与推荐系统

延展兴趣 Query 的落地分为两个核心场景。搜索增长场景中，将挖掘和生成的延展兴趣 Query 在相关搜、猜搜、底纹等模块进行主动推荐。例如，用户浏览了一篇川西旅游的内容，系统可以从专业登山、户外生活方式、川西旅游冲锋衣等多个角度生成内容词和商品词。一旦用户对该内容有深度交互行为（如点赞、收藏），这些延展 Query 就会在其后续的猜搜、相关搜场景中透出，有效拓展用户的兴趣探索空间。

推荐场景中，将延展 Query 作为召回渠道，从社区内部检索相关的内容和商品信息。例如，推测用户可能对"登山靴"感兴趣，就检索出所有与登山靴相关的内容动态以及商品详情信息，将这些作为召回渠道送入推荐系统。推荐侧接入后，在时长、点击率、曝光量、类目数等核心指标上均实现显著提升，充分验证了大模型兴趣延展的业务价值。

4. Doc2Query：内容理解的智能提炼

得物社区存在大量视频内容、长文本内容以及用户个性化表达的小众内容。Doc2Query 的目标是对站内内容进行智能提炼，生成符合用户搜索习惯的 Query，丰富文档侧信息，提升搜索召回效果。评估维度包括三个方面：相关性——生成的 Query 使用线上相关性模型打分，过滤不相关的 Query-Doc pair；多样性——每个 Doc 至少生成 3 个 Query,生成 Query 类型不能只聚集在头部词；扩展性——生成的 Query 对 Doc 有新词扩展，分词后有新 Term 出现。

Prompt 设计注重实用性：生成的 Query 需符合站内核心搜索意图和用户搜索表达习惯；搜索语句需反映动态主题或提炼某一重要侧重点；如果动态中有商品、明星、地名相关实体词，需准确提取；生成词长度控制在 15 字以内，配合 Few-shot 示例提升生成质量。

技术实现上，团队通过 SFT + KTO 方式训练 1.5B 模型，实现线上部署。具体 Case 包括：用户表达"想要一件上身不臃肿的衣服"，模型提炼为"显瘦"；对于非常长的文本内容，模型能够提取核心信息，生成简洁的搜索词，帮助搜索系统更好地理解内容语义。

5. 内容词生成：扩展搜索心智

得物用户的商品搜索心智较强，但内容型 Query 相对较少。团队希望借助大模型生成高质量的内容向搜索词，扩充词库规模，在下拉、猜搜、相关搜等场景透出，扩展用户的搜索心智。

离线阶段，从站内挖掘大量优质的 qD pair，经过 sft+dpo 训练，分垂类进行内容词建设。评估指标包括：质量——生成的词本身不能有语病或不通顺；重要性——需要涵盖多种商品特性和多个用户关心的决策点；供给——生成的词在平台内必须有充分的内容支撑；覆盖面——确保生成词可覆盖站内高热内容。在线阶段，对生成词经过质量判别、供给检验，最终跟内容配对。

生成数据源覆盖全站多个渠道，比如商品评论区、讨论区，这些场景准确刻画了用户对某件商品的疑惑点或关键决策点。

多模态统一表征：商品与内容的语义融合

1. 行业进展与技术基础

多模态表征技术在学术界和工业界已有丰富积累。21 年 OpenAI 发布的 CLIP 和 24 年 Meta 发布的 Meta CLIP 是两篇里程碑式的工作。两篇论文共同揭示了一个核心规律：更好的模型效果=更大参数量×更多高质量训练数据×更多训练 Budget。尽管还有许多技术方向的研究支线，如基于多模态大模型的对齐等，但数据、算力、模型规模这三要素始终是决定性因素。

2. 模型基座选择

得物在模型基座选择上进行了充分探索，搭建了两套模型架构。CLIP 架构基于 ViT 和 BERT，通过对比学习实现图文对齐；QFormer 架构基于 32×768 的 Learnable Query，采用更精细的跨模态交互机制。两套架构各有优势，团队根据不同场景需求灵活选用。

3. 数据飞轮：得物特色的数据建设

得物基于自身特色的内容-商卡数据形态，建设了一套统一内容、商卡、Query 的图文表征体系，使模型在搜索和推荐全场景具备良好泛化性。数据建设分为单域建模、跨域建模和长文本建模三个层次。

单域建模利用天然的弱相关性数据。内容本身的封面与标题具有天然相关性、用户搜索 Query 与 Top 高点击内容的封面具有相关性、商品的封面与标题同样具有相关性。这些数据为模型提供了基础的图文对齐能力。

跨域建模是得物的独特优势。在每个动态下面,用户通常会挂载相关的商卡，这形成了内容与商品的天然连接。团队将动态封面与商卡标题进行对齐，将商卡封面与动态标题进行对齐，构建了跨域的语义表征能力。此外，团队专门收集了一批长文本数据，提升模型在长文本场景下的对齐能力。

团队采用 ******Iterative Training（迭代训练）******策略：数据训练模型→模型过滤优质数据→更优数据训练更好模型→循环迭代。实验数据显示，站内自然图文相关性在 70%-80% 区间。经过一轮迭代后，使用不同精度训练的模型效果差异明显。V0 代表初始模型，V1-P80 表示用精度80%的数据过滤训练，V1-P90 表示用精度 90% 的数据训练。在 Recall@10 指标上，P90 模型相比 P80（+1.96%）和初始模型（+2.86%）都有明显提升，充分验证了数据飞轮的有效性。

4. Scaling Law 验证与效果展示

团队在站内进行了系统的 Scaling Law 验证。对比开源 CNClip 模型和自研模型在不同数据规模下的表现，发现开源模型存在明显的 Domain 差异，在得物场景下效果不佳（R@10 -49.84%）。自研模型随着数据规模从 100 万、1000 万到 1 亿级别的增长，Recall@10（+36%）、Recall@100（+48%）、Recall@1K（+52%）等指标呈现稳定的上升趋势，充分验证了数据规模对模型能力的决定性作用。

可视化检索案例直观展示了数据规模的影响。文本输入"空军白黄"（耐克的一款具体配色），1000 万数据训练的模型虽然能召回空军一号鞋款，但对"白黄"这种细粒度配色特征的理解偏弱，召回的鞋款配色多样。而 1 亿数据训练的模型则能精准识别白黄配色特征，召回的鞋款配色高度一致。

另一个案例是"耐克 312 高帮"。1000 万数据的模型对"高帮"属性理解较弱，召回的鞋款既有高帮也有低帮，虽然都属于 312 系列。而 1 亿数据的模型则能准确识别高帮特征，召回结果几乎全部为高帮款式。当然，实验中也存在 Badcase，需要持续优化。

5. 应用落地与持续优化

训练策略上，团队还采用了多种优化技术，包括属性替换（增强模型对关键属性的理解）、课程学习（由易到难的训练顺序）、学习率退火（动态调整学习率）、Momentum Encoder（扩大训练 batch size）、温度系数缩放（调整对比学习的敏感度）等。

应用层面，多模态图文表征已在搜索相关性、个性化场景中通过权重热启、特征融合等方式落地，带来了搜索体验和效率的双重提升。此外，推荐场景也成功落地了基于大模型的多模态协同表征能力，为用户提供更精准的内容和商品推荐。

总结与展望

得物社区搜索中的大模型落地实践，为行业提供了极具价值的参考范式。从搜索相关性的智能判别、用户兴趣的延展挖掘、Query 的自动生成到多模态的统一表征，大模型在每个环节都展现出传统方法难以企及的能力。

核心技术亮点包括：二阶段相关性判别流程显著降低了模型识别难度，R1 推理范式的引入让模型具备了分步思考的能力；延展兴趣挖掘基于用户全域行为和大模型推理，有效打破了信息茧房；Doc2Query 和内容词生成提升了内容理解和词库丰富度；数据飞轮迭代和Scaling Law 验证为多模态表征能力的持续提升奠定了坚实基础。

业务成效同样显著。相关性模型准确率+9.6%，千万级自动标注管线大幅降低了人工成本，算法迭代效率得到质的飞跃。推荐侧接入延展 Query 后，在时长、点击、曝光等核心指标上实现显著增长；

未来，团队将持续深化大模型在搜索场景的应用。相关性方向将重点优化排序能力，引入 listwise DPO 提升同 Query 下多 Item 的排序效果；多模态方向将引入更多站内协同数据和模型参数扩展，进一步提升细粒度属性对齐能力；Query 生成方向将拓展更多垂类和场景，丰富用户搜索心智。

得物的实践证明，大模型不仅是技术创新的工具，更是业务增长的引擎。在商品与内容深度融合的社区生态中，大模型正在重塑搜索体验，为用户创造更精准、更丰富、更智能的发现之旅。

以上就是本次分享的内容，谢谢大家。

分享嘉宾

INTRODUCTION

****赵君豪

得物社区

AI搜索负责人

长期负责内容理解在搜推、审核、创作等场景落地，目前负责大模型跟搜索系统结合，提升相关性、质量、被动搜索等目标。