
一、国际化搜索业务特点、挑战和大模型的机会
1、国际化多语言特点和挑战
·业务背景**:**阿里巴巴国际数字商业集团运营多个国际化电商平台,包括AliExpress、Lazada、Daraz、Mirivia、TaoJP、淘宝海外版等多个业务,覆盖全球100多个国家,使用超过30种以上语种的用户提供在线购物服务。由于用户使用语言的复杂性,如何解决用户「多语言Query理解」和「多语言精准匹配能力」是提升国际化电商搜索体验和效率最重要的课题之一。
**·挑战:**用户搜索语种繁多,同时有大量中小语种,而我们的工程师、产品、评测绝大部分是中国人,缺乏对于每个语言的专业理解能力。
·解决方案:




2、搜索多任务 X 多语言,让困难加剧

·但由于电商搜索引擎在召回/相关性/排序等不同阶段都涉及各种不同的NLP任务,包括Query理解(翻译/语种识别/NER词性识别/Query类目预测/改写)、商品理解(CPV理解/标签/NER词性识别/标题扩展)、匹配(相关性模型)等任务。每个任务如果采用传统NLP方法则需要大量人工标注,对于国际化业务而言更是面临更大的挑战:

3、解决思路
当前Qwen/Llama等多语言LLM具有强大多语言语义表示、Zero/Few-Shot、全网多语言知识等能力,非常适合作为基座解决多语言搜索全链路多语言任务繁多、标注数据稀疏、知识缺乏等问题;
**·**一方面,我们利用多语言LLM重构传统电商搜索Query理解、商品理解、匹配召回、相关性等环节的各个任务,全链路提升搜索各个环节的多语言能力;
·此外,现有开源LLM已学习各领域丰富知识,但对于电商领域知识仍然有待提升,以及尤其是多语言电商领域,例如:许多各个国家本地品牌相关知识较匮乏、搜索各个任务相关标准和知识。因此,我们基于开源模型构建多语言电商基座模型ME-LLM(Multilingual E-Commerce LLM)应用在搜索各个任务,能进一步提升效果。本文首先将以多语言语义相关性、多语言Query改写两个典型任务,介绍如何利用大模型重构这些任务,最后再介绍如何在开源LLM基础上进行多语言电商领域增强,以及在下游任务上的提升。
二、多语言语义相关性应用
语义相关性模型是搜索链路中核心模块:对用户输入Query计算与商品标题的语义匹配程度,业界已经有非常多相关工作。如何充分应用大模型语义理解与推理能力,来提升语义相关性模型性能也是最近两年业界研究热点。由于多语言LLM大模型具有丰富多语言知识以及强大推理能力,对多语言语义相关性有更显著提升。我们在这方面的探索包括:1.基于生成式语义相关性模型
我们首先将判别式相关性模型改造成基于生成式语义相关性模型:
**·**对人工标注Query-商品相关性数据,构造Prompt组合多语言Query和商品标题作为输入,输出回答是否相关Label;在多语言LLM上进行SFT,相比采用Roberta等多语言Bert类模型效果有显著提升;而采用多语言电商领域知识对开源多语言LLM增强后的基座模型ME-LLM,效果会有进一步提升。

**·**LLM Base相关性模型取得了更好的效果,但因为模型规模变大很多,计算消耗大,难以直接用于搜索相关性线上服务。线上仍采用Bert类小模型Serving,通过海量日志上蒸馏Teacher模型内部知识,能极大减少Student与Teacher模型直接的效果差异。

·实验数据以AE搜索相关性实验为例:将基座模型从Roberta迁移到Qwen,由于模型多语言能力的提升,在相关性任务上有显著提升,同时,多语言电商基座模型ME-LLM经过电商领域知识增强,能进一步提升相关性任务效果。

2.相关性推理模型探索
人工在Query-Item是否相关判断时,会有一系列逻辑推理的过程,包括对理解用户Query的品类、品牌、属性等意图,和对商品品类、属性等特征,然后判断Query与商品在各个意图维度语义或者字面是否匹配。我们期望大模型能模拟人工推理过程,提升相关性准确率,并能给出精准解释。
·整体方案:

·模型训练流程


·实验结论:在困难数据集上,具备推理能力的CoT模型显著优于非推理模型三、RLSF多语言Query改写应用****1、Query改写背景和演进历程
**·Query改写:**搜索引擎检索的其中一个主要方式是通过Query文本和商品文本做关键词匹配,但Query用户语言存在多种不同描述,以及与商品文本描述是卖家语言存在表达不一致问题。Query改写就是解决这两者之间语义鸿沟方式之一。

·改写技术演进历程

2. Query改写LLM-QR-RLSF(RL from Search System Feedback)
**·**整个改写的架构如下,分为了三个阶段:

·LLM-QR-SFT模型
采用人工标注
**·**基于搜索系统增益反馈训练QR-RM(Reward Model)
采样Query使用LLM-QR-SFT模型生成TopN个结果,并对生成Query改写结果综合考虑改写相关性、召回增益等维度打分排序,构造QQ Pairwise数据训练QR-RM,其中召回增益 Sdelt_recall 通过在线查询召回引擎判断改写Query能带来相关商品召回增量计算

偏好数据示意:

·RLSF(Reinforcement Learning from Search System Feedback)训练改写模型对齐搜索系统偏好
采用PPO算法框架,以QR-RM输出综合奖励值,迭代优化QR-LLM,使得改写结果更加符合AE搜索召回线上系统偏好。训练中: 随着训练的step增加,reward持续增长,并趋于平稳。

**·**改写结果离线评估:召唤商品的相关性与召回增量都有显著提升

四、多语言电商大模型ME-LLM(Multilingual E-commerce LLM)
如上所述,多语言LLM在搜索的Query理解、商品理解、相关性等任务上应用重构整个搜索链路,带来显著收益。但同时,我们在许多任务中也发现开源多语言LLM,在多语言电商领域知识仍然有待提升。
**总体方案:**在通用基座模型(主要是QWen系列模型)上通过增加多语言和电商Continue Pretrain构建适合AIDC的「多语言电商大模型」,提升多语言电商领域知识,广泛服务于各个业务,当前的优先级主要还是支持多语言搜索业务为主,并逐渐拓展至更多多语言任务场景。

1.多语言电商领域语料构建与CPT
**·**为了增强开源LLM多语言电商领域相关能力,通过站内行为日志、商品数据、领域任务数据合成、站外电商内容网页数据抓起等方式,清洗、挖掘和构建多语言电商领域语料共几百B token,在Qwen Base系列模型基座上进行CPT训练。
语料类型分布

语种分布

2.多语言电商基座模型能力评测
**·**我们收集了各业务搜索链路、商品理解相关任务数据,主要偏语言理解任务(分类/NER/匹配等),构建了一个电商领域多语言理解数据集eMMLU(ecommerce Multilingual Multitask Language Understanding);V0.1版本:包含了AE/LZD搜索、商品理解、导购、知识图谱等30多个语种的5大场景、19个任务千万数据集。

**·**每个任务采用训练集对ME-LLM-Base基座模型进行SFT微调,评估模型在该任务测试集上效果。
采用电商领域数据持续预训练相比 Qwen3-14B-Base 模型在绝大多数电商任务上可获得指标提升

3.多语言电商基座模型AIDC各业务线上应用效果
在AE/LZD/Daraz/Miravia/Tao搜索多语言语义相关性/类目预测/召回等任务中得到广泛应用,迭代多个版本并已经全量。在AE、LZD搜索等多个场景相关性提升5-10pt,通过Query或者标题扩展带来GMV提升4-5%。
五、关于我们
我们是阿里国际-智能技术-AE搜索算法团队,负责AE/淘海外/Tao日本等业务搜索场景。将大模型技术应用与国际化电商搜索,包括多语言电商大模型构建,基于LLM全链路升级电商搜索引擎(多语言Query理解及相关性、端到端生成式召回等),以及探索AI搜索在国际化电商导购应用。近年来在CIKM、WWW、AAAI、KDD等多个学术会议上发表了多篇论文。欢迎感兴趣的同学加入我们。
📩简历投递邮箱:intelligent_tech@aidc.alibaba.com

点击上方名片,关注我们吧~
