基于大模型技术的多语言电商搜索

一、国际化搜索业务特点、挑战和大模型的机会

1、国际化多语言特点和挑战

·业务背景**：**阿里巴巴国际数字商业集团运营多个国际化电商平台，包括AliExpress、Lazada、Daraz、Mirivia、TaoJP、淘宝海外版等多个业务，覆盖全球100多个国家，使用超过30种以上语种的用户提供在线购物服务。由于用户使用语言的复杂性，如何解决用户「多语言Query理解」和「多语言精准匹配能力」是提升国际化电商搜索体验和效率最重要的课题之一。

·挑战： 用户搜索语种繁多，同时有大量中小语种，而我们的工程师、产品、评测绝大部分是中国人，缺乏对于每个语言的专业理解能力。

·解决方案：

2、搜索多任务 X 多语言，让困难加剧

·但由于电商搜索引擎在召回/相关性/排序等不同阶段都涉及各种不同的NLP任务，包括Query理解（翻译/语种识别/NER词性识别/Query类目预测/改写）、商品理解（CPV理解/标签/NER词性识别/标题扩展）、匹配（相关性模型）等任务。每个任务如果采用传统NLP方法则需要大量人工标注，对于国际化业务而言更是面临更大的挑战：

3、解决思路

当前Qwen/Llama等多语言LLM具有强大多语言语义表示、Zero/Few-Shot、全网多语言知识等能力，非常适合作为基座解决多语言搜索全链路多语言任务繁多、标注数据稀疏、知识缺乏等问题；

**·**一方面，我们利用多语言LLM重构传统电商搜索Query理解、商品理解、匹配召回、相关性等环节的各个任务，全链路提升搜索各个环节的多语言能力；

·此外，现有开源LLM已学习各领域丰富知识，但对于电商领域知识仍然有待提升，以及尤其是多语言电商领域，例如：许多各个国家本地品牌相关知识较匮乏、搜索各个任务相关标准和知识。因此，我们基于开源模型构建多语言电商基座模型ME-LLM（Multilingual E-Commerce LLM）应用在搜索各个任务，能进一步提升效果。本文首先将以多语言语义相关性、多语言Query改写两个典型任务，介绍如何利用大模型重构这些任务，最后再介绍如何在开源LLM基础上进行多语言电商领域增强，以及在下游任务上的提升。

二、多语言语义相关性应用

语义相关性模型是搜索链路中核心模块：对用户输入Query计算与商品标题的语义匹配程度，业界已经有非常多相关工作。如何充分应用大模型语义理解与推理能力，来提升语义相关性模型性能也是最近两年业界研究热点。由于多语言LLM大模型具有丰富多语言知识以及强大推理能力，对多语言语义相关性有更显著提升。我们在这方面的探索包括：1.基于生成式语义相关性模型

我们首先将判别式相关性模型改造成基于生成式语义相关性模型：

**·**对人工标注Query-商品相关性数据，构造Prompt组合多语言Query和商品标题作为输入，输出回答是否相关Label；在多语言LLM上进行SFT，相比采用Roberta等多语言Bert类模型效果有显著提升；而采用多语言电商领域知识对开源多语言LLM增强后的基座模型ME-LLM，效果会有进一步提升。

**·**LLM Base相关性模型取得了更好的效果，但因为模型规模变大很多，计算消耗大，难以直接用于搜索相关性线上服务。线上仍采用Bert类小模型Serving，通过海量日志上蒸馏Teacher模型内部知识，能极大减少Student与Teacher模型直接的效果差异。

·实验数据以AE搜索相关性实验为例：将基座模型从Roberta迁移到Qwen，由于模型多语言能力的提升，在相关性任务上有显著提升，同时，多语言电商基座模型ME-LLM经过电商领域知识增强，能进一步提升相关性任务效果。

2.相关性推理模型探索

人工在Query-Item是否相关判断时，会有一系列逻辑推理的过程，包括对理解用户Query的品类、品牌、属性等意图，和对商品品类、属性等特征，然后判断Query与商品在各个意图维度语义或者字面是否匹配。我们期望大模型能模拟人工推理过程，提升相关性准确率，并能给出精准解释。

·整体方案：

·模型训练流程

·实验结论： 在困难数据集上，具备推理能力的CoT模型显著优于非推理模型三、RLSF多语言Query改写应用****1、Query改写背景和演进历程

·Query改写： 搜索引擎检索的其中一个主要方式是通过Query文本和商品文本做关键词匹配，但Query用户语言存在多种不同描述，以及与商品文本描述是卖家语言存在表达不一致问题。Query改写就是解决这两者之间语义鸿沟方式之一。

·改写技术演进历程

2. Query改写LLM-QR-RLSF（RL from Search System Feedback）

**·**整个改写的架构如下，分为了三个阶段：

·LLM-QR-SFT模型

采用人工标注标注正样本数据对ME-LLM底座模型进行SFT，得到LLM-QR-SFT模型。已经具备了改写能力，但仍有部分语义不相关以及召回增益较低等问题。

**·**基于搜索系统增益反馈训练QR-RM（Reward Model）

采样Query使用LLM-QR-SFT模型生成TopN个结果，并对生成Query改写结果综合考虑改写相关性、召回增益等维度打分排序，构造QQ Pairwise数据训练QR-RM，其中召回增益 Sdelt_recall 通过在线查询召回引擎判断改写Query能带来相关商品召回增量计算

偏好数据示意：

·RLSF（Reinforcement Learning from Search System Feedback）训练改写模型对齐搜索系统偏好

采用PPO算法框架，以QR-RM输出综合奖励值，迭代优化QR-LLM，使得改写结果更加符合AE搜索召回线上系统偏好。训练中：随着训练的step增加，reward持续增长，并趋于平稳。

**·**改写结果离线评估：召唤商品的相关性与召回增量都有显著提升

四、多语言电商大模型ME-LLM（Multilingual E-commerce LLM）

如上所述，多语言LLM在搜索的Query理解、商品理解、相关性等任务上应用重构整个搜索链路，带来显著收益。但同时，我们在许多任务中也发现开源多语言LLM，在多语言电商领域知识仍然有待提升。

总体方案： 在通用基座模型（主要是QWen系列模型）上通过增加多语言和电商Continue Pretrain构建适合AIDC的「多语言电商大模型」，提升多语言电商领域知识，广泛服务于各个业务，当前的优先级主要还是支持多语言搜索业务为主，并逐渐拓展至更多多语言任务场景。

1.多语言电商领域语料构建与CPT

**·**为了增强开源LLM多语言电商领域相关能力，通过站内行为日志、商品数据、领域任务数据合成、站外电商内容网页数据抓起等方式，清洗、挖掘和构建多语言电商领域语料共几百B token，在Qwen Base系列模型基座上进行CPT训练。

语料类型分布

语种分布

2.多语言电商基座模型能力评测

**·**我们收集了各业务搜索链路、商品理解相关任务数据，主要偏语言理解任务（分类/NER/匹配等），构建了一个电商领域多语言理解数据集eMMLU(ecommerce Multilingual Multitask Language Understanding)；V0.1版本：包含了AE/LZD搜索、商品理解、导购、知识图谱等30多个语种的5大场景、19个任务千万数据集。

**·**每个任务采用训练集对ME-LLM-Base基座模型进行SFT微调，评估模型在该任务测试集上效果。

采用电商领域数据持续预训练相比 Qwen3-14B-Base 模型在绝大多数电商任务上可获得指标提升

3.多语言电商基座模型AIDC各业务线上应用效果

在AE/LZD/Daraz/Miravia/Tao搜索多语言语义相关性/类目预测/召回等任务中得到广泛应用，迭代多个版本并已经全量。在AE、LZD搜索等多个场景相关性提升5-10pt，通过Query或者标题扩展带来GMV提升4-5%。

五、关于我们

我们是阿里国际-智能技术-AE搜索算法团队，负责AE/淘海外/Tao日本等业务搜索场景。将大模型技术应用与国际化电商搜索，包括多语言电商大模型构建，基于LLM全链路升级电商搜索引擎（多语言Query理解及相关性、端到端生成式召回等），以及探索AI搜索在国际化电商导购应用。近年来在CIKM、WWW、AAAI、KDD等多个学术会议上发表了多篇论文。欢迎感兴趣的同学加入我们。

📩简历投递邮箱：intelligent_tech@aidc.alibaba.com

点击上方名片，关注我们吧～

基于大模型技术的多语言电商搜索

一、国际化搜索业务特点、挑战和大模型的机会

五、关于我们

相似文章推荐

评论 (0)