快手OneSearch-V2全量上线，生成式搜索进入「懂你」时代

针对生成式检索范式在电商搜索场景下面临的复杂查询理解不足、用户潜在意图挖掘乏力、奖励系统易过拟合历史窄偏好等落地瓶颈，快手技术团队在已规模化部署的工业级生成式搜索框架OneSearch基础上，发布了一篇系统性升级的研究论文，正式推出新一代框架OneSearch-V2。该论文详尽阐述了以潜空间推理增强与自蒸馏训练为核心的端到端演进方案，创新性地提出了思维增强的复杂查询理解、推理内化的自蒸馏训练pipeline，以及基于真实用户行为反馈的偏好对齐优化体系的原生化设计。目前，该系统已在快手电商搜索平台全量上线，在不增加任何推理成本与服务时延的前提下，取得了商品CTR提升3.98%、买家数提升2.07%、订单量提升2.11%的显著业务收益，并有效缓解了搜索系统长期存在的信息茧房与长尾稀疏问题。

论文标题：《OneSearch-V2: The Latent Reasoning Enhanced Self-distillation Generative Search Framework》
论文地址：https://arxiv.org/abs/2603.24422
代码地址：https://github.com/benchen4395/onesearch-family

一、背景

1.1 OneSearch V1回顾与成果

OneSearch V1通过端到端生成式架构在显著降低推理成本的同时，大幅提升了中高频query的在线效果与转化效率，尤其是针对中高频的query和中长尾用户偏好的推理能力有着比较显著的提升（OneSearch：电商搜索端到端生成式建模）。

1.2 V1仍存在的核心瓶颈

随着用户偏好日趋多样化、搜索query日益复杂，我们识别出制约OneSearch进一步提升的三个关键限制：

复杂query的理解不足：大量短query未指定具体商品（如“室内健身器材”可能是跑步机或哑铃，但不应是山地车），长尾query则存在显著词汇差异（如否定型“缓解疲劳，不要保健品”或问答型“游泳需要准备什么”）。这类复杂query在平台占总PV约1/3，却仅贡献8%的转化，V1难以处理这种泛/弱意图。
用户上下文的个性化意图推理不足：模型过度依赖历史共现模式和日志拟合，导致浅层匹配。例如对花粉过敏的用户搜索“当季鲜花”，模型无法推理出应规避致敏品种。
脆弱的奖励系统与分布偏差：多阶段更新的混合排序框架（依赖独立Reward Model）更新迟缓，易受采样偏差影响，过拟合于狭窄的历史偏好。

1.3 OneSearch V2的核心思路

针对上述瓶颈，OneSearch V2提出Latent Reasoning Enhanced Self-distillation（基于自蒸馏隐式推理增强）框架：

Thought-augmented Query Understanding（思维增强的query理解）：利用LLM生成紧凑的关键词级CoT（keyword-based CoT），在提升信息密度的同时避免长文本开销，作为SFT对齐语料和后续蒸馏的“教师端”特权输入。
Reasoning-internalized Self-distillation（推理内化的自蒸馏）：无需引入额外参数，通过信息不对称的自蒸馏机制，将显式推理能力直接编码进模型权重中，转化为“直觉”。
Behavior Feedback Preference Alignment（行为反馈偏好对齐）：抛弃独立Reward Model，引入直接用户交互反馈。提出TPMA-GRPO（Token-Position Marginal Advantage），针对SID序列的层次因果结构，实现基于生成位置的精准信用分配。

二、实验方案

2.1 编码方案（沿用V1）

OneSearch-V2中沿用V1的编码方案KHQE+RQ-OPQ。

近期研究将SID编码方法分为单模态与多模态两类。不同于推荐系统，搜索引擎需在统一分词体系下对齐query与商品，保障语义约束的鲁棒性，这对单模态query与多模态商品（含文本、多视角图片、讲解视频）间的表征差异提出精细建模要求。V1采用Qwen-VL从多源信息中提取商品核心关键词，构建统一文本表征；其他方法则尝试联合输入或多模态分别编码后拼接。但多图易呈现互斥属性（如连衣裙不同颜色），冗余属性（如T恤纽扣数量/位置）易引入偏差，导致关键属性被淹没。为此，V2开展大量实验，系统评估不同编码范式在电商生成式搜索中的适用性。

为全面比较多模态与单模态embedding的效果，我们在多种模型配置下开展了对比实验，包括：

仅使用文本描述的单模态编码；
多模态编码，涵盖统一编码（联合处理）和分别编码后拼接两种方式；
OneSearch的关键词层次量化方案KHQE（使用单模态表征多模态信息）。

为简化实验，我们收集约500万条线上点击的<query, item>对，商品输入仅含标题和两张主图；所有embedding统一采用RQ-OPQ分词。结果表明：单模态方法显著优于多模态（如小规模bge-base优于大规模Qwen3-VL），主因跨模态表征差异与冗余属性削弱了多模态编码有效性；“先分离后拼接”策略表现最差，进一步验证该挑战；KHQE效果最佳，兼具强关键属性提取与层级表征能力，且模型轻量，支持实时query处理，在性能与效率间取得良好平衡。结论指出：电商搜索编码需聚焦两大关键——缓解跨模态差异、增强关键信息。

2.2 Thought-augmented Query Understanding（思维增强的 query 理解）

2.2.1 动机

电商搜索引擎日均处理海量query，用户意图复杂：头部query（如“室内健身器材”）表达模糊、意图发散，导致候选过宽；尾部query类型多样（问答/推荐/排行榜/知识/否定/平替等），语义约束强、行为信号稀疏，意图识别与商品匹配难度高。在快手商城，此类复杂query占PV约1/3，但转化率仅8%，效率偏低。OneSearch-V1通过表征对齐与增强缓解语义鸿沟，但CTR增益呈“倒U型”，头部与尾部提升有限——头部瓶颈在于“检索哪个”，尾部在于“能检索什么”。显式CoT虽提升可解释性，但输出冗长、小模型难复现；SID与文本CoT异构性强；且电商更需聚焦意图对齐的关键词，而非全链路推理。亟需轻量、高效、意图导向的语义增强方法。

2.2.2 思维增强pipeline

我们基于Qwen3-32B在语义约束下生成精准CoT，提取高信息密度关键词（确保意图、类目、属性一致），作为训练阶段的补充语义信号，提升query意图识别与用户偏好校准；同时以关键词驱动CoT，显著降低推理开销。整体采用三步推理Pipeline。

Step 1. query分析。包含四个组成部分：

意图理解，识别主要检索目标（即商品、店铺或直播主播）；
类目识别，按从粗到细的粒度进行层级类目匹配；
属性识别，从query中抽取属性类型及其对应值；
话题推荐，推测满足用户需求的潜在候选话题。

Step 2. 关键词提取。针对商品检索意图的query，从分析结果中提取关键词，并施加意图、类目与属性一致性约束；再经同义合并与冗余剔除，最终按商品热度降序输出；其余意图query由专用引擎处理，Pipeline直接终止。

Step 3. 偏好校准。基于用户画像与历史行为（如搜索词、交互商品序列），LLM动态感知偏好，对关键词集合进行个性化过滤或增补；训练时注入当前会话已交互商品作为强信号，确保关联真实标注商品的关键词被保留或显式引入。

2.2.3 部署方式

上述第二步和第三步构建<query, keywords>和<query, user, keywords>训练语料；设计4个CoT任务，融入OneSearch-V1 SFT第一阶段（语义对齐），使模型超越日志学习query知识，并结合用户偏好挖掘其感兴趣的商品话题，提升复杂性与个性化推理能力；在线部署时，关键词驱动的CoT生成异步执行，结果用于流式训练与近线推理；相同query或<query, user>可复用缓存，显著降低算力开销且零延迟。

注："+" 表示在前一行模型基础上累加新组件（逐步叠加），"+" 表示在CoT tasks完成后的模型上单独添加组件。

结果显示：在规模相当时，单模态显著优于多模态（即使小规模的bge-base也优于更大规模的Qwen3-VL），这源于跨模态表征差异与冗余属性；先分离后拼接策略表现最差，进一步印证上述挑战。KHQE取得最佳结果，展现出卓越的核心属性提取与层级表征能力；其较小规模还支持实时处理query，在性能与效率间达成良好平衡。这也印证了电商搜索编码的两个关键点：缓解跨模态差异、增强关键信息。

2.3 Reasoning-internalized Self-distillation（推理内化的自蒸馏）

2.3.1 动机：保留推理增益，消除推理开销

直觉方案（OneSearch 先生成推理关键词再生成SID）因离散SID与文本关键词表征异质性强，小模型难以建模，实验显示显式CoT推理反而显著降低性能，甚至不如baseline。替代方案（将关键词作为query补充信息+RAG）虽提升检索与排序效果，但需在线调用thought-augmented query understanding模块，带来不可接受的延迟，不满足电商搜索严苛的实时性要求；且关键词覆盖有限，易导致模型仅聚焦于关键词显式涵盖的商品，泛化能力受限。

核心问题：能否保留甚至进一步增强推理带来的性能增益，同时不承担推理带来的开销？

2.3.2 自蒸馏的核心机制

我们提出推理内化自蒸馏机制，将关键词引导的深思型CoT推理能力直接编码至模型参数，转化为快速直觉式推理；无需修改架构、不增参数、不加推理token，仅通过定制化蒸馏将推理能力注入原模型权重。

信息不对称的自蒸馏公式

自蒸馏基于信息不对称原则：教师观察到比学生严格更丰富的输入，而学生在信息劣势下被训练去匹配教师的输出分布。关键地，教师和学生共享相同的模型权重 $\mathcal{M}_\theta$ ，无需独立的教师网络。具体而言，教师接收包含关键词级CoT的完整输入：

x^{(T)} = (\text{uid}, q, \text{SID}q, \text{Seq}q, \text{Seq}_{short}, \text{Seq}^{emb}_{long}, \textbf{keyword})

学生接收不含关键词的相同输入：

x^{(S)} = (\text{uid}, q, \text{SID}q, \text{Seq}q, \text{Seq}_{short}, \text{Seq}^{emb}_{long})

两者对目标标签序列 $y = (y_1, \ldots, y_L)$ 产生输出logits：

z^{(T)} = \mathcal{M}_\theta(y | x^{(T)}), \quad z^{(S)} = \mathcal{M}_\theta(y | x^{(S)})

由于 $\theta$ 共享， $z^{(T)}$ 和 $z^{(S)}$ 的差异完全来自输入中关键词信息的有无。蒸馏目标鼓励学生缩小这一差距：

\mathcal{L}_{KL} = \frac{1}{|\mathcal{V}|} \sum{t \in \mathcal{V}}_ \text{KL}\left(\text{softmax}\left(\frac{z_t^{(T)}}{\tau}\right) \bigg| \text{softmax}\left(\frac{z_t^{(S)}}{\tau}\right)\right) \cdot \tau^2

其中 $\mathcal{V} = {t : y_t \neq -100}$ 为有效（非padding）token位置集合， $\tau$ 为蒸馏温度。教师的logits从计算图中detach（torch.no_grad()），KL梯度仅更新学生的前向路径。

基础训练目标将标准交叉熵损失与蒸馏信号结合：

\mathcal{L}_{base} = \mathcal{L}_{CE}(z^{(S)}, y) + \alpha_{KL} \cdot \mathcal{L}_{KL}

为验证自蒸馏相对于其他推理内化方案的优越性，对比了四种替代策略：

特殊token蒸馏，在学生输入中插入专用标记token；
CODI风格隐状态对齐，通过连续思维向量和L1损失对齐隐层表征；
EMA教师模式，教师权重为学生的指数移动平均；
联合训练模式，教师与学生双向互学习共同更新。

缓解表征不稳定性

教师与学生之间的信息不对称引入根本性挑战：学生必须从严格更少信息的输入中产生同样自信的预测，这迫使损失曲面在关键词缺失输入的邻域变尖锐：嵌入空间的微小扰动可能导致输出分布不成比例的大变化。我们识别出两种互补失败模式，并用针对性正则化应对：

预测一致性：R-Drop。缺乏关键词引导时，学生对语义歧义query的内部表征对dropout的随机扰动敏感，对同一输入的两次前向可能产生不一致分布。我们对独立dropout mask下的两次前向 $z_1^{(S)}$ , $z_2^{(S)}$ 最小化其散度：

\mathcal{L}_{R\text{-}Drop} = \frac{1}{2}\left[\text{KL}(P_1 | P_2) + \text{KL}(P_2 | P_1)\right]

输入鲁棒性：FGM对抗扰动。补充R-Drop的输出空间正则化，我们对输入嵌入空间应用FGM。第一次反向传播后，沿梯度方向扰动共享嵌入层：

r_{adv} = \epsilon \cdot \frac{\nabla_e \mathcal{L}_{base}}{|\nabla_e \mathcal{L}_{base}|_2}

在扰动嵌入 $e + r_{adv}$ 上进行第二次前向-反向传播得到 $\mathcal{L}_{adv}$ ，其梯度累积后恢复e。为隔离各组件贡献并观察它们与自蒸馏的协同效应，我们分别在baseline与自蒸馏模型上逐一叠加R-Drop、FGM与Focal Loss。

总优化目标

\mathcal{L}_{SDFT} = \mathcal{L}_{CE} + \alpha_{KL} \cdot \mathcal{L}_{KL} + \alpha_R \cdot \mathcal{L}_{R\text{-}Drop} + \mathcal{L}_{adv}

此外，用focal loss替换标准交叉熵，缓解SID词表中的长尾类别不均衡问题。

2.3.3 关键实验结论

自蒸馏是主要性能驱动：单项最大提升（Order HR@10 +1.17%，Click HR@10 +1.67%）；
Self-Distill (S)优于Base (T)：即使推理时从未观察到关键词，自蒸馏后的学生仍持续优于使用关键词增强训练与评估的教师，证实推理能力已被编码进模型权重；
self-mode优于所有替代方案：相比special-token、CODI式隐状态对齐、EMA-mode、joint-mode，完全共享权重 + 输入层信息不对称是最有效的范式；
三种正则化协同增效：R-Drop+FGM+focal loss的组合效果超过各自贡献之和，表明信息不对称导致的表征不稳定是多维度的。

2.4 Behavior Feedback Preference Alignment（行为反馈偏好对齐）

2.4.1 动机：替换独立 Reward Model，直接利用用户行为反馈

OneSearch-V2以直接行为反馈替代独立Reward Model，构建偏好对齐系统：

设计复合奖励，兼顾query-item相关性与多阶转化目标；
引入Token-Position Marginal Advantage（TPMA）机制，按SID序列位置差异分配信用，适配其粗→细的层次因果结构；
支持流式更新与灵活业务干预。

2.4.2 复合奖励设计

对每个rollout $o_i$ （生成的 SID 序列），计算标量奖励 $R_i$ ，聚合三个互补信号：

相关性奖励 $R_{Rel}$ ：利用现有相关性系统，将生成商品分为四档奖励：3、2、1、0。
后验转化奖励 $R_{CTR}$ ：使用校准后的后验CTR作为稠密反馈信号，裁剪至 (0, 1) 范围，防止高CTR但缺乏真实相关性的商品主导。
点击与下单奖励 $R_{C\&O}$ ：直接奖励用户实际点击或购买的SID：

其中 $V_o=3$ , $V_c=4$ ，购买反映比点击更强的偏好信号。最终复合奖励： $R_{item}(o_i) = R_{C\&O}(o_i) + R_{CTR}(o_i) + R_{Rel}(o_i)$ 。加性设计避免了奖励稀疏问题，同时平衡相关性和转化约束。

2.4.3 标准 GRPO 及其局限

GRPO通过组内advantage归一化消除critic网络。对每个输入prompt $x_u$ ，当前策略 $\pi_\theta$ 生成 $G$ 个 rollout $\{o_i\}_{i=1}^{G}$ ，序列级advantage为：

\hat{A}_i = \frac{R_i - \text{mean}_{j \in [G]}(R_j)}{\text{std}_{j \in [G]}(R_j) + \delta}

核心问题：标准GRPO对rollout中每个token位置赋予相同的 $\hat{A}_i$ 。但SID生成具有严格的层次因果结构：第一个token编码最粗粒度的类目，后续token逐步细化到更细粒度的属性。正确的前缀+错误的后缀，与完全错误的前缀，具有本质不同的含义。均匀的信用分配混淆了这些不同的位置贡献，削弱了学习信号。

2.4.4 TPMA-GRPO：Token-Position Marginal Advantage

为解决信用分配问题，提出TPMA-GRPO，将序列级奖励分解为位置级边际贡献，并基于前缀正确性门控梯度流。

前缀奖励（Prefix Reward）

对每个 rollout $o_i$ 生成的 $L$ 个SID token，定义位置 $l$ 处的前缀奖励为与任意ground-truth目标SID的最大累积匹配：

R_{i,l} = \max_{t \in \mathcal{T}} \sum_{k=1}^{l} [o_i^k = t^k] \cdot \Delta R_{i,l}

其中 $\mathcal{T} = \mathcal{S}_{click} \cup \mathcal{S}_{order}$ 。边际贡献 $\Delta R_{i,l}$ 设计为 $\Delta R_{i,l} = [l < 3] \cdot 2 + [3 \le l < L] \cdot 1$ 。因子 2 表示前部共享的层次特征编码（位置 $l<3$ ）应获得更多关注，相比后部的唯一特征量化（位置 $3 \le l < L$ ）。GR模型应优先生成符合query语义内容的商品。

位置级advantage ：在G个rollout内对每个位置 $l$ 独立归一化边际贡献：

\hat{A}_{i,l} = \frac{\Delta R_{i,l} - \text{mean}_{j \in [G]}(\Delta R_{j,l})}{\text{std}_{j \in [G]}(\Delta R_{j,l}) + \delta}

确保位置 $l$ 的advantage仅与其他rollout的相同位置比较，实现精确的跨层次信用分配。

前缀门控（Prefix Gate）

关键洞察：后续位置的梯度信号仅在前缀正确时才有意义。引入前缀门控 $g_{i,l}$ ，基于前缀精度调制梯度幅度：

g_{i,l} = [l=1] \cdot 1 + [l \geq 2] \cdot \frac{R_{i,l-1}}{l-1}

前缀完全匹配（ $R_{i,l-1} = l-1$ ）时，门控打开；
前缀完全错误（ $R_{i,l-1} = 0$ ）时，门控关闭，有效抑制下游token的梯度。

该机制自然实现了层次化课程学习：模型先学习生成正确的粗粒度token，再训练细粒度token。

组合Advantage 结合商品级奖励 $R_{item}$ 的转化信息：

\hat{A}_i^{item} = \frac{R_{item}(o_i) - \text{mean}_{j \in [G]}(R_{item}(o_j))}{\text{std}_{j \in [G]}(R_{item}(o_j)) + \delta}

最终 advantage： $\hat{A}_{i,l}^{final} = \hat{A}_{i,l} + w_{item} \cdot \hat{A}_i^{item}$

使模型同时学习生成什么（通过 TPMA）和生成的价值（通过商品级奖励）。

TPMA-GRPO Loss

\mathcal{L}_{TPMA} = -\frac{1}{G}\sum_{i=1}^{G} \frac{1}{L}\sum_{l=1}^{L} g_{i,l} \cdot r_{i,l} \cdot \hat{A}_{i,l}^{final}

前缀门控已提供天然的正则化机制：当 $g_{i,l} \to 0$ 时，位置 l 的有效梯度消失，防止梯度爆炸问题。同时在训练目标中也额外引入SFT辅助训练以确保模型保持稳定。

三、效果评测

3.1 离线效果评测

3.1.1 主实验

我们从用户搜索日志中选取30,000个有有效交互的PV作为测试集，包含30,000次点击与7,229次下单。对每个PV提取Top-10生成商品进行公平对比，所有模型基于相同原始预训练模型训练，采用HitRate@10与MRR@10评估。离线实验分为SFT阶段逐步优化、RL阶段对齐优化、以及最终完整模型三部分。

注："+" 表示在前一行模型基础上累加新组件（逐步叠加），"+" 表示在 SFT 完成后的模型上单独添加对齐任务。最优结果加粗。

离线实验分析：

OneSearch (baseline)：V1基线模型，作为所有实验对照基准。
- CoT tasks：SFT Stage 1引入四项CoT任务后Order HR@10 +0.48%，验证关键词级 CoT对query语义歧义的有效缓解。
- self-distill：单项最大提升（Order HR@10 +1.17%，Click HR@10 +1.67%），确认将推理能力编码进权重是主要驱动。
- R-Drop：MRR@10由0.1017升至0.1045，预测一致性约束有效缓解信息不对称导致的输出分布波动。
- FGM：Order HR@10升至0.2180，Click HR@10升至0.2422，输入鲁棒性进一步增强。
- focal loss：缓解SID长尾类别不均衡，Order HR@10达0.2214，Click HR@10达0.2471，三种正则化组合效果超过各自贡献之和，SFT阶段收尾。
- PARS：V1原有自适应奖励系统作RL基线，Click HR@10 0.2538，但Order MRR@10相对偏低。
- GRPO：替换PARS后Order HR@10 0.2248、MRR@10 0.1106，验证复合奖励与组相对优化。
- TPMA：Order MRR@10进一步升至0.1136，体现层次化信用分配对细粒度token生成的增益。
OneSearch-V2：Listwise DPO + TPMA-GRPO联合优化，达全指标最优（Order HR@10 0.2314，Click HR@10 0.2568），相比baseline平均HR@10 +2.68%、MRR@10 +1.66%。DPO学基础偏好拟合、TPMA平衡多维奖励与泛化，二者互补达到最佳效果。

3.1.2 消融实验（自蒸馏模型 vs. 独立训练的教师/学生模型）

为验证自蒸馏是否真正将推理能力内化进模型权重（而非仅依赖关键词输入），我们对比三种配置：Base(S)不含关键词训练+评估的学生模型，Base(T)含关键词训练+评估的教师模型，以及自蒸馏模型分别在教师端与学生端的评估结果。

† Student模型：不含关键词训练和评估。‡ Teacher模型：含关键词增强数据训练和评估。

消融实验分析：

Base (S)：不含关键词的基线学生，仅依赖原始query与用户特征推理，作为信息劣势下的性能下界。
Base (T)：含关键词增强的基线教师，蒸馏前全面优于Base(S)，符合"更多信息带来更好性能"的直觉。
Self-Distill (T)：自蒸馏后在教师端（含关键词）评估，相比Base(T) 仍有提升，但略低于Self-Distill(S)。原因是self-mode下教师与学生共享参数，梯度完全由学生损失驱动（含鼓励从截断输入准确预测的KL约束），优化方向偏向信息缺失条件下的鲁棒性。
Self-Distill (S)：自蒸馏后在学生端（不含关键词）评估，在推理时从未观察到关键词的情况下仍持续优于Base(T)，有力证实推理能力已被编码进模型权重、内化为"直觉"式推理。

3.2 在线 A/B 测试

为了验证线下收益能否转化为实际的生产价值，我们将OneSearch-V2与V1进行了严格的A/B测试。在关键业务指标方面，OneSearch-V2取得了统计学意义上的显著提升（p < 0.05）：商品点击率提升3.98%，页面点击率提升1.17%，页面转化率提升2.90%，买家数提升2.07%，订单量提升2.11%。三个逐步启用的部署版本（V2_RAG、V2_Reason、V2(full)）也呈现清晰的单调递增趋势。

OneSearch V1 🆚 OneSearch V2

3.3 人工 GSB 评测

对3,200个q-i查询项对进行人工评估，进一步证实了搜索体验的提升，具体表现为：页面良好率提高了1.37%，商品质量提高了0.55%，q-i相关性提高了1.65%。

OneSearch V1 🆚 OneSearch V2

四、深入分析

4.1 分用户/query 频次/商品冷启动维度下探

在所有用户群体、query频率类别和item热度级别上，OneSearch-V2均展现出持续且显著的CTR提升，体现了模型的鲁棒性和泛化性。
对于低活用户和冷启商品，OneSearch-V2的提升尤为显著。
从query频率维度分析，相较于V1的倒U型曲线，V2呈现出U型曲线，弥补了V1在头部、长尾query上的理解不足，这表明了基于CoT的思维增强在处理模糊或罕见query方面的突出能力。

4.2 分行业 CTR 增益分析

几乎所有行业的CTR都得到了提升，平均增益为3.98%，其中排名前十、中间十和后十的行业的CTR相对增益，如下图所示。
另一个有趣的发现是，在标题内容丰富但存在歧义的query类别中，例如服装、鞋类、化妆品和五金电器，CTR的提升更为显著，这表明新模型具有更准确的语义理解和更个性化的预测能力。

4.3 CoT 关键词覆盖率下钻

CoT keyword是论文关键信号来源，但其覆盖质量直接影响self-distillation效果。
在线部署中，我们对线上实时query采用近线推理的方式更新到语料库中。我们下钻了2026年3月复杂query的CoT覆盖率，整体覆盖率持续上涨，保证了自蒸馏的稳定更新。

4.4 相关性和转化率的Trade-off

针对电商搜索中相互制衡的相关性和转化率两大目标，OneSearch V2中TPMA-GRPO设计了符合复合奖励（相关性奖励 $R_{Rel}$ +后验转化奖励 $R_{CTR}$ +点击与下单奖励 $R_{C\&O}$ ），以平衡体验目标与转化目标之间的潜在冲突。我们进一步实验下钻发现：

OneSearch_V2_RAG/FULL的相关性和转化指标都显著高于OneSearch_V1；
比较有趣的是，OneSearch_V2_FULL 的相关性、ctr均低于OneSearch_V2_RAG，但最终的ctcvr转化指标却大幅提升（0.231% -> 0.242%）。这与我们设计自蒸馏隐式推理的出发点一致，模型应该学习的是推理的能力，而非推理的结果。RAG虽然能提升模型的相关性指标，但却缩小了潜在商品空间，不利于最终的order目标。

4.5 TPMA的灵活目标调节能力（3.18 大促实验）

如何针对动态优化目标进行实时干预和自适应训练，一直是生成式检索系统面临的长期挑战。
这里针对特定的行业需求进行了初步探索。在快手平台的3.18全球购物节期间，新兴商家需要额外的流量支持来提升其曝光度和竞争力。我们在OneSearch-V2框架内实施了一项针对性的干预策略。具体而言，对于同一query中检索到的新兴商家的商品，我们赋予其更高的相关性奖励（ $R_{rel}^{new}=R_{rel}^{ori}+1$ ）。结果，相应的商品排名显著提升。此外，商品发布者的点击率（CTR）越高，排名通常也越高。这种灵活性对于工业部署具有显著的实际优势，因为工业部署中的业务目标经常会随着市场动态、促销活动和战略重点的变化而变化。

五、下一步计划

未来方向应遵循三大核心原则：业务需求、场景多样性和以用户为中心的需求。我们发现了几个值得进一步研究的有前景的方向：

对于历史交互数据有限的长尾query，我们应该设计更有效的超越日志（Beyond Logs）的训练策略来解决样本不足的问题。
电子商务平台的内容形式日益多样化，包括视频、直播和传统商品列表。一个根本性的挑战是如何构建一个统一的SID编码方案，既能有效地表示异构内容类型，又能保留它们的独特特征和跨模态关系。
向智能体搜索系统（Agentic Search Systems）的演进是另一个充满前景的前沿领域。这种范式转变需要高效的在线学习机制的创新，以便在不影响系统延迟或稳定性的前提下实时更新模型行为。

团队介绍

【我们是谁】

我们是快手社区科学线的电商策略算法部，是快手核心推荐算法团队之一，负责快手整个电商包括to B和to C两大块业务的算法优化工作，包括电商直播间、电商短视频、买家首页、货架猜你喜欢等推荐业务场景，覆盖快手主站精选页，极速版发现页，以及关注页等核心用户场景。

我们致力于用技术优化提升电商业务的推荐效果，为快手老铁们打造极致的电商购物体验。团队技术氛围浓厚，研究兴趣广泛，在RecSyS，CIKM，KDD等顶级会议上有多篇论文发表，在大规模深度学习，在线学习，迁移学习，对比学习，强化学习等领域都有所涉及。

【团队优势】

团队一直坚持学术与业务并向发展的方式，目前在CVPR、WWW、AAAI、EMNLP、SIGIR等会议发表论文多篇 (其中一篇Shared Task Best Paper, 一篇Outstanding Paper)，并在国内知名赛事与榜单荣获过多项Top2成绩；内部提供充分的交流讨论，现有正式员工与实习同学均来自国内/全球顶尖学校；在这里你会有专业的Mentor实时指导技术创新与业务落地。我们团队的 OneSug、OneSearch、OneSearchV2等相关工作受到业界广泛关注。

我们电商AI搜索与多模态理解团队，致力于构建文本大模型、视觉大模型、多模态搜索、User Agent新系统，应用于多种电商场景（如快手搜索Query改写/生成/意图识别、搜索相关性、拍照搜同款、图文相似款等)。团队紧随技术潮流，不断技术/商业创新，期待与优秀的同学一道，进一步扩大影响力。

招聘岗位

【招聘岗位】

电商直播推荐算法工程师
电商短视频推荐算法专家
电商推荐算法工程师-【B端算法】
电商推荐算法-【流量策略方向】
电商增长&激励算法工程师/专家
电商资深推荐算法工程师
电商搜索算法工程师
电商AI搜索算法工程师
推荐算法实习生-【电商】
AI搜索LLM算法实习生-【电商】

【岗位职责】

参与亿级用户规模的电商搜索/推荐优化，提升电商搜索/推荐场景的GMV、购买用户数、点击率、转化率等核心指标，提升用户电商搜索购物体验，促进生态良性发展；
参与机器学习与深度学习算法的核心研发工作，对搜索/推荐全链路进行建模优化，包括但不限于召回、相关性、粗排、精排、机制等，深度进行序列建模、迁移学习、强化学习、对比学习、多模态大模型等的算法和系统研发；
针对海量用户行为数据，提供基于分布式计算的算法解决方案，大幅提升算法计算规模和性能；
参与搜索推荐机制的顶层设计，结合业务战略，优化电商流量结构和GMV结构，促进电商生态的健康发展。

【任职要求】

硕士及以上学历，计算机、数学或统计学相关专业，出色的分析问题、解决问题的能力，有强烈的技术热情，有皮实乐观、不畏挫折的心态；
熟悉Linux环境、C++和Python语言，良好的逻辑思维能力，优秀的编码能力，扎实的数据结构和算法功底；
具有机器学习、数据挖掘、搜索系统、推荐系统或者自然语言理解等相关领域知识；有工业界相关业务与技术方向的实践经验者，或在ACM或数据挖掘/机器学习类竞赛中取得优异名次者优先；
具备良好的文献阅读能力和快速学习能力，优秀的分析和解决问题的能力，良好的沟通协作能力；
在SIGIR、SIGKDD、ICML、NIPS、WWW、AAAI KM、ACL、RECSYS、CVPR、ICCV、ECCV、ICLR等顶级计算机学术会议或期刊上发表过论文者优先。

【投递方式】

扫描下方二维码投递，或将简历发送至邮箱：qiuyuyang05@kuaishou.com

快手OneSearch-V2全量上线，生成式搜索进入「懂你」时代

评论 (0)