图片

一、国际化搜索业务特点、挑战和大模型的机会

1、国际化多语言特点和挑战

·业务背景**:**阿里巴巴国际数字商业集团运营多个国际化电商平台,包括AliExpress、Lazada、Daraz、Mirivia、TaoJP、淘宝海外版等多个业务,覆盖全球100多个国家,使用超过30种以上语种的用户提供在线购物服务。由于用户使用语言的复杂性,如何解决用户「多语言Query理解」和「多语言精准匹配能力」是提升国际化电商搜索体验和效率最重要的课题之一。

**·挑战:**用户搜索语种繁多,同时有大量中小语种,而我们的工程师、产品、评测绝大部分是中国人,缺乏对于每个语言的专业理解能力。

·解决方案:

图片

图片

图片

image.png

2、搜索多任务 X 多语言,让困难加剧

image.png

·但由于电商搜索引擎在召回/相关性/排序等不同阶段都涉及各种不同的NLP任务,包括Query理解(翻译/语种识别/NER词性识别/Query类目预测/改写)、商品理解(CPV理解/标签/NER词性识别/标题扩展)、匹配(相关性模型)等任务。每个任务如果采用传统NLP方法则需要大量人工标注,对于国际化业务而言更是面临更大的挑战:

图片

3、解决思路

当前Qwen/Llama等多语言LLM具有强大多语言语义表示、Zero/Few-Shot、全网多语言知识等能力,非常适合作为基座解决多语言搜索全链路多语言任务繁多、标注数据稀疏、知识缺乏等问题;

**·**一方面,我们利用多语言LLM重构传统电商搜索Query理解、商品理解、匹配召回、相关性等环节的各个任务,全链路提升搜索各个环节的多语言能力;

·此外,现有开源LLM已学习各领域丰富知识,但对于电商领域知识仍然有待提升,以及尤其是多语言电商领域,例如:许多各个国家本地品牌相关知识较匮乏、搜索各个任务相关标准和知识。因此,我们基于开源模型构建多语言电商基座模型ME-LLM(Multilingual E-Commerce LLM)应用在搜索各个任务,能进一步提升效果。本文首先将以多语言语义相关性多语言Query改写两个典型任务,介绍如何利用大模型重构这些任务,最后再介绍如何在开源LLM基础上进行多语言电商领域增强,以及在下游任务上的提升。

二、多语言语义相关性应用

语义相关性模型是搜索链路中核心模块:对用户输入Query计算与商品标题的语义匹配程度,业界已经有非常多相关工作。如何充分应用大模型语义理解与推理能力,来提升语义相关性模型性能也是最近两年业界研究热点。由于多语言LLM大模型具有丰富多语言知识以及强大推理能力,对多语言语义相关性有更显著提升。我们在这方面的探索包括:1.基于生成式语义相关性模型

我们首先将判别式相关性模型改造成基于生成式语义相关性模型:

**·**对人工标注Query-商品相关性数据,构造Prompt组合多语言Query和商品标题作为输入,输出回答是否相关Label;在多语言LLM上进行SFT,相比采用Roberta等多语言Bert类模型效果有显著提升;而采用多语言电商领域知识对开源多语言LLM增强后的基座模型ME-LLM,效果会有进一步提升。

图片

**·**LLM Base相关性模型取得了更好的效果,但因为模型规模变大很多,计算消耗大,难以直接用于搜索相关性线上服务。线上仍采用Bert类小模型Serving,通过海量日志上蒸馏Teacher模型内部知识,能极大减少Student与Teacher模型直接的效果差异。

image.png

·实验数据以AE搜索相关性实验为例:将基座模型从Roberta迁移到Qwen,由于模型多语言能力的提升,在相关性任务上有显著提升,同时,多语言电商基座模型ME-LLM经过电商领域知识增强,能进一步提升相关性任务效果。

图片

2.相关性推理模型探索

人工在Query-Item是否相关判断时,会有一系列逻辑推理的过程,包括对理解用户Query的品类、品牌、属性等意图,和对商品品类、属性等特征,然后判断Query与商品在各个意图维度语义或者字面是否匹配。我们期望大模型能模拟人工推理过程,提升相关性准确率,并能给出精准解释。

·整体方案:

图片

·模型训练流程

图片

image.png

·实验结论:在困难数据集上,具备推理能力的CoT模型显著优于非推理模型三、RLSF多语言Query改写应用****1、Query改写背景和演进历程

**·Query改写:**搜索引擎检索的其中一个主要方式是通过Query文本和商品文本做关键词匹配,但Query用户语言存在多种不同描述,以及与商品文本描述是卖家语言存在表达不一致问题。Query改写就是解决这两者之间语义鸿沟方式之一。

图片

·改写技术演进历程

图片

2. Query改写LLM-QR-RLSF(RL from Search System Feedback)

**·**整个改写的架构如下,分为了三个阶段:

image.png

·LLM-QR-SFT模型

采用人工标注标注正样本数据对ME-LLM底座模型进行SFT,得到LLM-QR-SFT模型。已经具备了改写能力,但仍有部分语义不相关以及召回增益较低等问题。

**·**基于搜索系统增益反馈训练QR-RM(Reward Model)

采样Query使用LLM-QR-SFT模型生成TopN个结果,并对生成Query改写结果综合考虑改写相关性、召回增益等维度打分排序,构造QQ Pairwise数据训练QR-RM,其中召回增益 Sdelt_recall 通过在线查询召回引擎判断改写Query能带来相关商品召回增量计算

图片

偏好数据示意:

图片

·RLSF(Reinforcement Learning from Search System Feedback)训练改写模型对齐搜索系统偏好

采用PPO算法框架,以QR-RM输出综合奖励值,迭代优化QR-LLM,使得改写结果更加符合AE搜索召回线上系统偏好。训练中: 随着训练的step增加,reward持续增长,并趋于平稳。

图片

**·**改写结果离线评估:召唤商品的相关性与召回增量都有显著提升

图片

四、多语言电商大模型ME-LLM(Multilingual E-commerce LLM)

如上所述,多语言LLM在搜索的Query理解、商品理解、相关性等任务上应用重构整个搜索链路,带来显著收益。但同时,我们在许多任务中也发现开源多语言LLM,在多语言电商领域知识仍然有待提升。

**总体方案:**在通用基座模型(主要是QWen系列模型)上通过增加多语言和电商Continue Pretrain构建适合AIDC的「多语言电商大模型」,提升多语言电商领域知识,广泛服务于各个业务,当前的优先级主要还是支持多语言搜索业务为主,并逐渐拓展至更多多语言任务场景。

image.png

1.多语言电商领域语料构建与CPT

**·**为了增强开源LLM多语言电商领域相关能力,通过站内行为日志、商品数据、领域任务数据合成、站外电商内容网页数据抓起等方式,清洗、挖掘和构建多语言电商领域语料共几百B token,在Qwen Base系列模型基座上进行CPT训练。

语料类型分布

图片

语种分布

language_distribution_with_percentage.png

2.多语言电商基座模型能力评测

**·**我们收集了各业务搜索链路、商品理解相关任务数据,主要偏语言理解任务(分类/NER/匹配等),构建了一个电商领域多语言理解数据集eMMLU(ecommerce Multilingual Multitask Language Understanding);V0.1版本:包含了AE/LZD搜索、商品理解、导购、知识图谱等30多个语种的5大场景、19个任务千万数据集。

图片

**·**每个任务采用训练集对ME-LLM-Base基座模型进行SFT微调,评估模型在该任务测试集上效果。

采用电商领域数据持续预训练相比 Qwen3-14B-Base 模型在绝大多数电商任务上可获得指标提升

图片

3.多语言电商基座模型AIDC各业务线上应用效果

在AE/LZD/Daraz/Miravia/Tao搜索多语言语义相关性/类目预测/召回等任务中得到广泛应用,迭代多个版本并已经全量。在AE、LZD搜索等多个场景相关性提升5-10pt,通过Query或者标题扩展带来GMV提升4-5%。

五、关于我们

我们是阿里国际-智能技术-AE搜索算法团队,负责AE/淘海外/Tao日本等业务搜索场景。将大模型技术应用与国际化电商搜索,包括多语言电商大模型构建,基于LLM全链路升级电商搜索引擎(多语言Query理解及相关性、端到端生成式召回等),以及探索AI搜索在国际化电商导购应用。近年来在CIKM、WWW、AAAI、KDD等多个学术会议上发表了多篇论文。欢迎感兴趣的同学加入我们。

📩简历投递邮箱:intelligent_tech@aidc.alibaba.com

图片

点击上方名片,关注我们吧~