高德生成式推荐大模型｜如何更准猜出用户想去哪？

专题介绍

回首过去，高德作为业界先进的地图app，承载着10亿用户的出行需求，让出行更美好。

面向未来，高德要将二十年沉淀的数据与现代大模型能力结合，把地图从 “静态底图 + 被动规划”，升级为 “动态认知 + 主动决策”。

随着AI的发展，用户已经不满足一个静态的地图，更需要一张具有“思考”能力的"活地图"。

创新推荐团队-A组
G-where：“猜你去哪”基于大模型智能推荐出行目的地。
G-action：“猜你做啥”结合实时时空语境，智能预测出行需求，提供多元化出行建议推荐。
G-plan：具有思考能力的大模型，整合AI agent能力，把碎片需求拼成完整日程展示在首页，真正省时省心。
创新推荐团队-B组
人地时空大模型预训练：基于大量去标识化的APP使用行为数据，先学会城市的呼吸节奏；
人地时空大模型后训练：把“通才”大模型快速变成“领域专家”，让每一次推荐都精确符合你的需求与习惯。
创新推荐团队-C组
内容主题推荐：结合世界知识，对用户兴趣点进行聚合，发掘意料之外的惊喜 -- 长隆亲子一日游，情侣私密氛围咖啡厅。

接下来，就让我们深入细节，看看高德如何用生成式大模型，把“懂你”写进每一次推荐。

本期导读

高德首页推荐在用户出行体验的AI智能化升级中扮演着核心角色。出行推荐任务（下称“猜你去哪”）基于高德遵循隐私协议已获取用户授权的信息和时空信息，预测其出行需求，并主动规划下一步行程。近年来，大模型技术在推荐领域取得了突破性进展，在现有的召回排序架构的基础上，开辟了一条Scaling Law的新道路。

为此，创新推荐团队探索性的将大模型能力整合到首页推荐的各个环节上，推荐用户猜你去哪（Guess where you go），猜你行动（Guess your action ），以及猜你行程规划（Guess your plan）。构建高德独有的，基于人时地背景的G系列生成式推荐范式。

**一句话解释首页出行推荐任务：**根据用户偏好和时空信息，为其推荐下一站目的地和出行方式。 产品形态如下，图中场景为高德首页推荐，图中展示卡片为出行卡。目前出行卡已日均为5000w用户提供便捷的出行体验。

出行推荐

出行类推荐任务，与传统内容/商品推荐不同。出行类推荐要能及时捕捉用户的精准出行需求，这需要推荐系统的主要目标，从List AUC转移到TOP1 ACC。同时推荐需符合用户行为偏好、场景要求和时空认知。

用户实际的出行表现有明显的时、空、个性化差异:

地理维度
常驻区域行为更稳定；非常驻区域以短期出行需求为主。
时间维度
高峰呈规律性，非高峰偏即时需求，假期/休闲时段偏休闲活动类需求。
用户维度
短期、周期性与长期偏好并存，推荐需兼顾时效与历史趋势。

个性化（具体的POIID）	本地熟悉地	本地非熟悉地	异地
工作日通勤时间
工作日非通勤时间
节假日早中
节假日晚夜

基于传统推荐方法（Retrival-Rank）的出行推荐框架，已经能为用户推荐出大部分高频的出行目的地，但还存在一些问题。

规则情况下，早上只能推荐用户去公司，晚上推荐用户回家。

召排模型推荐情况下，由于用户常交互的poiid只有家，一天都会推荐用户回家，我们会限制用户在家，则不推荐家。但是还是只能推荐用户经常交互的poiid。

1、传统召回存在信息茧房和SSB现象，越推荐越点击，越点击越推荐。

2、以CTR为目标的精排模型，时空感知能力弱，很难区分本异地、时间的差异，需要诸多后链路处理。

3、传统多链路漏斗给推荐准确率的提升带来瓶颈。

4、无法学到长期规律性行为和短期单次行为的差异性，容易被短期行为带偏。

基于此背景，创新推荐团队提出G-Where（Guess Where you go）生成式出行目的地预估框架。该框架包含 offline training 和 online serving两部分。

offline training部分，主要包括sid生成和后训练(post-training) 两个部分，其中（1）创新性的提出了一种适用于LBS场景的语义ID生成方式SIMCIT（https://arxiv.org/pdf/2506.16683）和（2）适用于高德领域的出行推荐大模型CoAST（https://arxiv.org/abs/2510.14702）。

online serving部分，由于预估token少，且仅需要pointwise贪心打分，不涉及session内的listwise排序和复杂的reward设计，目前RT99可以控制在50ms以下。

G-Where架构

主要流程如下，主要分为两个阶段：

Item 量化

对所有的POI做token，基于高德LBS推荐场景的特点，构建了POI地理数据多模态对齐的Item tokenization方法，能很好的将poi之间的地理关系建模到多级token的表示中。
LLM后训练**（Post-Training****）**
1.继续预训练（CPT）： 目的是让模型了解“猜你去哪”任务的推荐语料库，基于两方面：
语义对齐**：**在步骤一获得的token，注入大模型的tokenizer后，是随机初始化的。需要将这部分的token的语义embedding和原大模型token的embedding做语义对齐。
序列预测**：**在序列推荐任务中，最难的任务是序列预测，即根据用户的历史行为序列预测下一个行为item是什么。这部分的核心能力是希望模型的召回能力能有大幅度的提升。
2.指令微调（SFT）： 这步的目的是基于以上已经具备了初步的预训练模型在定制化的任务做微调。通常预训练是在全域数据上做的，但是为了在“猜你去哪”上应用，需要在用户的导航行为上进行微调。注意，这一步的训练指令一般和线上inference的指令一致**。**
3.对齐(DPO/KTO)： 这步的目的是为了做排序或偏好对齐。以上步骤获得的模型通常获得不错的召回能力，这一步是希望引入负样本获得排序能力或者认知对齐能力。

Amap ID：基于POI的多模态地理信息的Semantic ID生成

基于大模型的训练范式，目前主流的生成式推荐模型也是基于next token prediction进行训练的，即在词表中找到下一个可能的token。因此这对于大规模的推荐系统提出了一个挑战：需要将item进行量化以降低总token的数量。

为什么要做高德场景的sid？

高德poi量级过亿，需要将poi进行量化以降低总token的数量。

目前已经有不少方法做过item tokenization的尝试，最常用的是RQ-VAE。其依赖一个VAE的基本架构和残差量化（Residual Quantizaion）的表征学习模块。通过优化其某一模态embedding的重构损失，使得不同的Item具备相似的token，并且由粗到细的学习其token表征。

然而，相比于电商/短视频推荐场景，传统的方法在高德这样的LBS场景下很难发挥其能力。主要存在以下问题：

多模态信息的融入和对齐：生成式推荐模型的最终目标，是基于用户的画像信息及历史序列，从所有的候选token中检索出最可能的下一个（如下公式）。因此，如何将文本、图像、空间关系和协同过滤信号等多种模态数据有效整合，提升item之间的丰富语义关系的建设，能很好的提高模型在冷启物料的效果以及模型的训练收敛效果。尤其是在高德的LBS场景下，用户的check-ins在统计上通常呈现出与距离的负指数分布，POI之间的空间graph关系对于LBS场景推荐的成功是至关重要的。
Item Token表征的判别性**：推荐要做的是记忆性和泛化性的平衡。传统的召排推荐系统因为使用了one-hot编码，通常记忆性很好，但是也带来了马太效应/冷启动等其他问题。生成式推荐的多级token因为本身是有语义的，通常能缓解冷启**的问题，但是带来记忆性差的问题，这也是生成式推荐的难以推全的一个主要瓶颈。因此，如何在tokenization中学到item的各自的特点，提升item token的判别性，可能会让生成式推荐的效果上升一个台阶。

然而，熟悉自监督学习的应该清楚，自监督表征学习在过去十年经历过不少发展阶段，通常认为Auto-Encoder（如VAE）到对比学习（如SIMCLR）是一个巨大的跳跃，尤其对于表征的判定性能力的学习。举例：在常见的视觉数据分类任务中，如CIFAR，VAE的分类准确率上限在70%左右，而对比学习能够比较轻松的达到90%以上的准确率。因此，考虑到对比学习能够带来的较好的判别性能力，提出了一个完全基于对比学习的Item Tokenization方法**。**

模型的步骤如下：

1)获取多模态的表征（通常>=1种）。例如图片，文本，CF信号以及空间Graph Embedding表征。

2)多模态表征融合。融合的方式是一个attention layer。可以理解为一个可训练的多模态之间的加权组合。

3)残差量化。逐码本检索类中心，和其他方法无异。

4)码本与多模态表征的对齐。这一步通过码本和各模态的InfoNCEloss来实现，完整的损失函数如下。这个目标函数与VAE-based的模型差异很大，不再需要commitment loss等其他正则项loss，整个架构和损失函数非常干净。

模型收敛之后，发现码本之间呈现出非常好的层级聚类表现，即从粗到细的学到了item之间的聚类关系：

LLM后训练：高德本域的推荐LLM

相比onerec从头开始训练的方案，我们倾向于在一个大模型的基础之上做后训练，希望模型能够将“世界知识/场景知识”等注入到推荐中。

在当前的方案中，在将POI进行token化以后，须将这些token注入到大模型的tokenizer中。因为这些新增的token训练时是随机初始化的（通常是原来token的平均值），大模型是无法理解的，需要进行大规模的后训练。

后训练的主要流程分为以下几部分：
继续预训练： 目的是让模型了解“猜你去哪”的推荐语料库和新增token的语义对齐。
指令微调： 在特定推荐场景下进行场景微调。场景对齐和输出格式对齐。
偏好对齐： 这部分主要是学习时空场景偏好以及学习模型的排序能力。

A.继续预训练

基于QWEN，继续预训练的目的是为了使得大模型了解“猜你去哪”的场景和语料库。训练语料来自于POI侧的描述和用户（User）的行为序列。

经过继续预训练之后，模型通常“理解”了本域的知识库，“理解”了POI和User的出行逻辑，后续再做相关场景微调的时候可快速收敛。

B.指令微调

指令微调的目的是为了基于以上已经具备了初步的预训练模型在定制化的任务做微调。是在全域用户导航行为上进行微调。注意，这一步的训练指令一般和线上inference的指令一致。

你是一个推荐专家，请根据以下指令给出准确的推荐结果。 Instruction: 根据用户的个人画像：{ user-profile }，以及他的历史POI的访问记录：{ check-ins }。现在时间是 { time }，他位置为 { user-location }，并且天气是 { weather }，请推荐该用户可能期望的下一个POI。 Response: <a_1><b_2><c_3>

相比于预训练语料，在指令微调的指令中，我们引入了很多的用户画像和当前请求的场景描述。其中画像分为以下几个方面：

基础画像：（如出行频次、常用出行时段、出行方式偏好）、出行距离/半径偏好、目的地类型偏好等。

长期偏好：主要是用户长期的的高频访问POI，目标是为了压缩输入token的数量。
tag类偏好：主要是行业的一些长期的行为统计。

用户画像可以理解为外挂的一个memory知识库，目标是压缩输入token的总量，提升线上inference的效率。这样，用户的访问记录（check-ins）部分就可以仅输入近期的行为序列。

C.偏好对齐

在预训练和指令微调过程中，仅用了全域或者单场景下的正样本，模型获得了一定的召回能力。这个时候上线已经拿到了较好的线上收益。但是背景提到的时空认知和短期行为还需要一个强化学习的阶段。

具体来说，我们希望模型能够通过学习用户直接反馈，获得排序和认知推荐的能力。

******排序能力：******学习自然曝光样本的。
认知推荐能力：能够更多的给予具有时间一致性/空间一致性/行为一致性的poi。
时间一致性：预测输出的POI是否符合行为时间上的认知规律
空间一致性：POI是否符合用户当前的位置空间场景信息
行为一致性：POI是否符合用户的基本画像信息

采样链路：使用用户的直接反馈来强化模型的学习，从推荐的线上真实的展点数据中进行采样。

评估方案及收益

离线评估

使用以下几个评估方式来衡量模型效果。

Acc@1: 仅曝光top1的POI，选择top1的准确率作为衡量指标
时间一致性：预测的POI符合行为时间上的认知规律的比例
空间一致性：预测的POI符合用户当前的位置空间场景信息的比例
行为一致性：预测的POI符合用户的画像的比例

不同基座的离线效果如下：

从0.5B到7B，效果来看，展现出了一定的scaling law，随着模型参数增多，模型各项离线效果指标均有增加。

预训练阶段对于结果的影响：

经过一个长周期的继续预训练阶段，微调阶段模型能够很快收敛到一个更好的结果。如图中橙色所示，相比于没有预训练，经过预训练之后对场景内的信息学习的更充分，预测准确率更高。

其他几个部分对结果的影响**：**

对于生成式推荐，继续预训练流程和画像对于结果的影响较大，尤其是预训练阶段。
消融画像数据：指令微调时，去除画像数据。准确率 (Acc@1) 下降 2.0pp，画像数据在提升推荐整体质量上有一定作用。
消融AmapID：base使用AmapID，消融使用RQ-VAE，准确率 (Acc@1) 降幅最大，下降4.6pp。AmapID作为核心特征，对推荐的精准度起着至关重要的作用。
消融CPT模块：去掉CPT模块，Acc、时间一致性、空间一致性都有大幅的下跌，其中准确率 (Acc@1)下降2.9pp，时间一致性、空间一致性和行为一致性也分别下降了 7.6pp, 6.3pp, 5.1pp。
消融DPO模块：去掉DPO模块，准确率 (Acc@1) 仅下降 0.1pp，几乎可以忽略不计。DPO 的核心目标是优化一致性，而非直接提升单点推荐的准确性。因此时间一致性、空间一致性和行为一致性下降明显。

在线收益

（1）效果提升

大盘整体uv-ctr****+4.64%，场景上拉率+1.2% 上拉态uv-ctr+3.88%****

通勤卡uv-ctr****+6.48%****，uv曝光+14.9%，uv点击+21.86%

（2）不同排序模块推荐结果Case对比（多用户行为混合展示，已脱敏）

对比之前策略，我们发现生成式模型推荐结果更泛化，如下图所示：早上用户在家，推荐前一天点击的羽毛球馆和公司目的地，中午推荐前一天点击的中餐馆，下午推荐回家，晚上推荐前一天点击的中餐馆。

针对规则和召排的局限性，生成式推荐有以下优势：

1、之前的策略只能推荐用户高频交互的poiid（家和公司）。生成式推荐泛化出不同时间点用户感兴趣的终点，从而避免了推荐内容的单一化。

2、之前的推荐不能区分时间和空间的差异，晚上会推荐咖啡，不分时间地点推荐家或者公司，只能通过后处理的方式减少类似推荐。生成式推荐能推出符合时空认知的目的地，如在晚上8点推荐夜宵。

3、之前的策略学不到周期意图，生成式推荐能推荐出用户周期性导航过的羽毛球馆。

（3）上线耗时

我们在不同大小的Qwen-2.5模型上进行尝试，压测结果（h20/100qps/p99）如下：0.5B：~30ms, 1.5B：~50ms, 3B：~60ms, 7B：~140ms。随着模型参数增加，耗时也随之增长。

总结

基于QS“猜你去哪”推荐场景的深入探索和实践，我们对生成式推荐模型在实际应用中的潜力有了更清晰的认识。“猜你去哪”大模型任务的成功上线，充分验证了Scaling Law在推荐系统中的有效性，它能够有力地突破传统召回-排序（召排）模型在信息茧房和样本选择偏差（SSB）等方面的固有局限。通过端到端的学习机制，大模型在捕捉用户意图和提升推荐结果质量方面展现出强大能力，使推荐结果在多维度上（时间、空间、用户偏好）均有显著提升。

本次提出的“G-Where”生成式推荐框架，具有良好的通用性，也为我们构建更强大的推荐系统奠定了基础。这意味着我们能够以一种更系统化、标准化的方式，将大模型的强大能力延伸至更广泛的高德内部的推荐场景。

展望未来，我们希望以大模型为入口，在推荐场景进行更加深入的探索，通过持续优化模型架构、扩展数据维度以及深化在线实验，在未来取得更显著的效果提升，并在此基础上开展更多开创性的工作，帮助“高德地图”成为一张具有“思考”能力的“活地图”。

让地图真正“懂你”，首先需要让模型真正理解地图数据。敬请期待下一篇内容，我们将深入揭示高德如何通过“人地时空大模型预训练”，为这一切打下坚实基础。