一、概述
相比于传统模型,大语言模型(LLM)有如下优势:「语义理解能力」、「个性化推理能力」「模型表达能力」。因此,我们希望在电商的世界知识下,构建基于LLM的个性化生成式推理模型,通过对用户属性(User profile)、搜索词(Query)、行为序列(Item seq)的深入理解分析,进行更加准确的用户意图推断,并直接生成最后的检索商品(Item)。所谓一生二,二生三,三生万物(User profile✖️Query✖️Item seq——>Item)。
优化方案:以LLM为基底,构建用户&查询&序列->商品语义id的生成式任务。从语义ID「Taosid2.0+EM」,PreSFT「各维度能力激发」,SFT「排序能力及推理能力的引入」三个维度进行优化,并采用新增一路召回的方式,构造「用户理解模型」+「个性化生成式模型」的线上服务链路。
效果摘要:线上AB效果,自然商品PV-0.01%,IPV+0.14%,成交笔数+0.62%,成交金额+0.53%。
二、整体框架&基础信息

整体如图所示分成4个部分:语义ID理解阶段、Pre-SFT阶段、CoT阶段及SFT阶段。其中语义ID理解阶段负责语义ID与大模型的相互适配,经过适配后得到更加适合电商任务的语义ID;Pre-SFT阶段通过构造各种异构任务,激发LLM不同维度的能力,得到更加适合电商任务的模型;同时,CoT阶段通过推理LLM模型得到用户画像等个性化推理信息,并输入到最终的SFT模型中,承接最终的生成语义ID任务。

三、语义ID
1. 语义ID选型
语义ID(Sid)是个性化生成式召回的基石,决定了整个模型的上限。因此,语义ID的选择相当重要。
- 基于先验的分层聚类ID,该方案在先验信息的约束下,对商品表征进行层次聚类得到语义索引树。
- 基于RQ-VAE的taosid 2.0[1]
两者的主要差异在于基于RQ-VAE的ID在粒度上显著小于分层聚类ID,依照实验结果,最终选用taosid 2.0来进行最终版本的上线。
2. 大模型与语义ID的适配
语义ID对于大模型来说属于“外来物种”,模型本身对其并无理解能力。因此,需要进行大模型与语义ID的对齐,即:输入为商品标题,让大模型学习去预测其对应的语义ID。在一些摸底的实验结果中,我们可以发现语义ID对下游能产生较大影响,且大模型对语义id的预测准确度越高,下游SFT的表现越好。
基于基础实验发现的现象,我们认为既然下游任务如此依赖“语义ID的预测准度”,是不是可以在初始语义ID的基础上,尝试着去相信大模型的预测结果,用大模型来纠正初始语义ID。 因此,我们设计了EM算法实现大模型与语义ID的迭代更新,提高模型对语义id的预测准度,产出更适配大模型的语义ID。算法流程及实验结果如下所示:

初始大模型M_{origin},语义id Sid_0
For i=0,1,2...n:
通过Sid_i来构造item2sid及SFT任务,训练M_{origin}得到M_i
使用M_i来预测上述item2sid任务,预测结果为Sid_{i+1}
计算预测结果与Sid_i的分位准确率Acc_i;通过Sid_i来构造下游sft任务,训练M_i并评估其Hitrate_i
多轮迭代后取Hitrate_i最优结果,并观察Hitrate_i与Acc_i是否呈一致趋势通过EM算法,我们进行了大模型与语义ID的多轮对齐,即循环进行「利用语义ID去对齐大模型」和「利用大模型去纠正语义ID」这两个阶段。需要注意的是,EM算法只产出最终的语义ID,中间过程训练的模型在完成流程后即可被“遗弃”。
为了能进一步让大模型产出更适配电商场景的语义ID,我们探索是否能通过更多电商信息的加入来实现每个路径下挂商品的控制**。在item2sid任务的输入侧加入先后验信息指导大模型更好的理解:**加入的先验内容信息包括品类名称、同款下的其他商品标题/主体;加入的后验协同过滤信息包括i2i trigger的标题/主体。

经过充分的实验对比后,我们最终采用了i2i推理的方式来引入电商信息。通过EM算法以及电商信息的引入,我们可以针对任意初始化语义ID进行调整,从而产生适合下游任务的ID。
四、Pre-SFT
大模型的一大优势在于仅通过输入侧的修改就能包容住各种异构数据。遵循大语言模型多阶段的训练范式,我们认为可以引入Pre-SFT阶段,将SFT任务拆解为如下子任务(基于商品预测语义ID的对齐任务、基于Query预测语义ID的生成式检索任务、基于用户信息+序列预测语义ID的推荐任务),进行较大样本量的学习进行各维度能力的激发,从而简化下游SFT任务的学习难度与学习成本。

五、SFT
SFT阶段的目标是承接住搜索场域内的个性化需求,在这个阶段,主要需要解决两方面的问题,一个是细粒度的个性化排序能力,另一个基于大模型的能力通过用户的行为捕获/推理用户的个性化需求。
1. 排序能力的引入
由于生成式范式的损失函数是对每个位置的全空间softmax,所以无需进行随机负采样。然而该范式下只能提升唯一正样本的打分,难以捕获到成交>点击>曝光>随机样本这样的序信息。在考虑序的情况下,我们希望每一层能按照用户的偏好进行打分,如在第二层,成交的Sid>点击的Sid>负样本的Sid。在单层的情况下,仅需对成交/点击等正例赋予不同的权重即可,然而,由于每个商品是由3层Sid组成的,且当前层Sid的输出依赖于上一层的输出,难以解藕开来进行约束。因此,我们设计了基于共同前缀的多正例优化约束:只有在前缀相同的情况下进行约束(前缀相同时触发公式加粗部分):

需要注意的是,SFT模型在实际应用中会通过beam search生成N个语义ID(即末层beam size=N),为了保证语义ID的合法,我们采用了受限beam search的方案。然后,通过N个语义ID我们可以映射成M个具体的商品,为了保证召回量不过大,我们使用海选的办法,通过团队内产出的商品质量分进行topK截断,其中K<M。最终K个商品作为召回结果,参与到后链路的打分中。
2. 个性化推理能力的引入
从整个搜索系统的角度来看,当前召回链路对用户的即时行为「翻页,换词,点击/无点击」难以进行有效的个性化需求理解与推理;从个性化生成式大模型的角度来看,难以承接住超长序列的建模,缺乏一种基于序列总结用户画像的能力对序列进行压缩。因此,我们决定基于CoT的方法来提高SFT模型的推理能力并利用其序列总结能力。
2.1 基于序列总结用户画像
主要分为推理能力获取与推理信息应用两部分:前者是通过Prompt工程通过大模型(如Qwen3-32B)获得个性化推理结果,并通过知识蒸馏技术,使得小模型也能拥有可靠的推理能力,且具备上线的条件;后者是直接将推理结果如用户画像或成交商品标签输入SFT模型,从而激发大模型固有的文本理解和推理能力,提升下游任务的表现。

2.2 翻页/换词行为理解
当前召回链路缺乏对用户实时反馈更深层次的分析及推理,如对于翻页、换词等用户纠结型即时请求维度,难以捕获其实时正**负反馈(无点击)**并进行个性化需求分析。
翻页行为:现有模型在存在翻页行为的场景内用户上表现一般。因此,对于有翻页行为的用户,我们在模型中加入了更即时的用户行为及其分析,包括前几页的翻页未点击商品、翻页点击商品、以及对应的用户购买偏好(推理模型产出的CoT)。
换词行为:用户的换词行为体现了用户层级式的思想转化,因此,如果能理解到用户换词的本质,便能在该query演进中获取用户最在意的意图。然而,直接引入换词特征效果并不明显。分析发现由于无法对于“换词行为”进行严格的界定,通过类目过滤的方案筛选出的广义换词行为中**「包含大量的非换词噪声数据」**,以下展示几个case:

**基于CoT的换词行为理解:**基于前述讨论,我们发现训练集中包含了许多的噪声换词数据,直接引入对模型性能增益不大。为此,我们利用大模型(Qwen-32B)对来整理得到的换词行为进行两步推理:
stage1: 判断输入的历史同意图query序列和当前搜索是否为同一主线;
stage2: 若stage1判断结果为是,则进行用户偏好意图总结,否则输出“无”
可以看出,借由大模型进行推理,可以有效的滤除掉原本训练集中的部分噪声数据。同时cot的引入丰富了query的表示,从换词序列及换词时的点击/曝光商品中归纳外推出了用户在当前搜索中可能的购物偏好。
六、类Agent(双LLM)线上部署方式

整体架构分为用户理解模型「产出CoT特征」和个性化生成式模型「基于各类特征生成语义ID」,本期先以新增一路召回的方式全量个性化生成式模型(图中蓝色部分所示),其中CoT部分以对应的行为序列进行替代。
七、主要实验结果
1. 线上实验
2%流量下观察19天,线上AB实验效果如下:
- 大盘:PV-0.01%,IPV+0.12%,成交笔数+0.32%,成交金额+0.29%
- 自然商品(影响部分):IPV+0.14%,成交笔数+0.62%,成交金额+0.53%
2. 消融实验
由于篇幅有限,本节消融实验仅汇报关键数据及结论。注意:部分实验采用早期ID,因此指标的绝对值会有所不同。
2.1 语义ID
2.1.1 语义ID选型
主要关注语义ID粒度的粗细对下游表现的影响,结论如下:
1) 细粒度ID需要更多的数据训练
2) 在通过控制beam size来控商品召回量的设置下,ID的粒度越细,hitrate越高,相关性越低
3) 粗粒度ID可以通过扩大beam size+商品质量分截断的方式,来提升hitrate,接近细粒度ID的表现
4) 基于质量分的商品topk截断等价于ID的打散,区别仅仅是后处理还是前置打散
2.1.2 大模型与语义ID的适配
在线上推理压力较大时(限制动态beam search的前两层size=50),EM算法的效果更明显。

2.2 Pre-SFT
从混合任务可以看出,样本的多样性比样本的数量更重要。

2.3 SFT
2.3.1 排序能力的引入
使用共同前缀的样本做多正例学习可以明显提升模型能力,且多正例的质量比数量重要(点击>曝光)。

2.3.2 个性化推理能力的引入
基于序列总结用户画像
我们尝试将LLM推理得到的用户画像及成交商品标签等信息加入SFT模型中,以增强其表现。

实验信息:
1) 蒸馏后的模型存在推理能力,能为下游SFT任务提供有益信息,带来了指标的上升。且优于原始qwen3-32b模型,可能原因是蒸馏后得到的模型融合了两种模型的知识库。
2) gt指导蒸馏相比于无gt的蒸馏模型并没有带来额外收益,可能原因是加入gt生成的推理信息包含模型幻觉,这部分幻觉将输入的最终成交商品视作用户的交互商品序列,导致蒸馏模型难以学习。
翻页/换词行为理解

实验信息:
1) 实时能力:当前Session下的实时点击/曝光可以提供更即时的用户兴趣,从而带来翻页行为下的模型表现。
2) 推理能力:基于翻页行为的CoT个性化意图偏好可以带来模型增益,侧面说明个性化推理能力对该任务是有益的。

实验信息:
1) 简单的引入换词序列会给模型带来负面影响,因为模型难以从中提取**换词间的差异化信息(难以做减法/否定),**而可能会将整个query序列作为积极信号。
2) 引入更为正向的信号,如基于COT产抽取出换词间的关联关系,突出用户的意图;用户在换词序列中的点击信号,确实能够为模型带来信息增益。
八、未来规划
本项目是个性化生成式检索在淘宝主搜索场景的首次落地,完成了大体的框架设计,迈出了从零到一的关键一步。我们成功证明了生成式召回范式的潜力,并给当前召回系统带来了可观的增量。当然,本系统目前还有不少需要优化的点,在我们的计划中,仍然需要对以下方面进行努力:
- 双LLM架构的上线,给模型带来真正的个性化推理能力,以及可以尝试的策略调控能力。
- 相比于业界其他工作,我们在RL方面的进展甚浅,尤其是联动精排作为reward model,我们希望其能够进一步提升模型能力。
- 当前SFT模型缺乏同时进行文本推理和语义ID推理的能力,我们将探索多头或者MOE的方式来解决此问题,并应用于:
- 真正的COT能力,先thinking再输出语义ID。
- 文本+语义ID混合索引,打造同时具备精准匹配和模糊匹配能力的检索模型。
参考文献
[1] Fu, Kairui et al. “FORGE: Forming Semantic Identifiers for Generative Retrieval in Industrial Datasets.” ArXiv abs/2509.20904 (2025): n. pag.
🏷 关于我们
我们是淘宝主搜算法团队,淘宝搜索是阿里巴巴亿级用户交易的核心引擎,也是全球电商领域技术的风向标。在这里,你将:
- 深度参与大模型与电商搜索的全场景融合:推动大模型技术(LLM、MLLM、RL、Agent等)在搜索全链路(包括但不限于检索、推荐、内容理解、AIUI、AI搜等)的落地应用。
- 定义电商搜索的技术范式:探索电商搜索下生成式检索、个性化生成式检索、推荐大模型、相关性大模型、Query理解大模型、商品理解大模型、超大规模索引等技术的突破,探索技术无人区。
- 打造亿级用户产品:你的代码将直接影响数亿消费者的购物体验与千亿级GMV的达成。
——加入我们,开创下一代智能搜索引擎
目前淘宝主搜算法Query理解、相关性、召回、个性化、混排、内容理解等方向都有社招和26届校招岗位,base北京/杭州。
有兴趣的同学,欢迎投递简历到邮箱:liujiao.liu@taobao.com。
校招同学也可直接扫描下方二维码投递:

关注「淘天集团算法技术」,一起成长~
推荐阅读
