智能时空思考 Agent｜告别“搜与推”：高德如何用Proactive Agent 重塑 LBS 主动服务？

专题导读

回首过去，传统的需求理解往往停留在"静态规则匹配"的阶段，常常只能"看见请求"却难以"读懂需求"。面向大模型时代，用户产生需求时，需要的不再是被动响应的定位工具，而是具备"时空思考"能力、能敏锐洞察需求的智能助手。

为了实现从"被动响应"到"主动服务"的跨越，本系列文章将带你走进"智能时空思考 Agent"的背后，看看我们是如何逐一击破三大核心挑战的（需求建模 → 科学度量 → 主动决策，这是本系列三篇的递进关系）：

篇章一｜需求感知 Agent 刻画，让 AI 秒懂场景信号。 面对海量、碎片化的长序列请求信号，我们将其极致压缩为面向 AI 推理的语义化上下文。通过将时空场景信号转化为大模型能高效理解的语言（向量化、图表示等），我们为规模化的匿名化信息流建立了结构化的数字化 Agent 模型，在保留完整决策逻辑与溯源能力的同时，夯实了"懂需求"的第一步基础。
篇章二｜ LBS-Intent Benchmark —— 统一标尺，让系统能力持续进化。 没有准确的衡量就无法优化。为了科学评估系统的"思考能力"，我们为意图识别任务量身定制了一套专业"考卷"。通过构建标准化数据集与统一评价体系，这把"游标卡尺"让算法的每一次迭代都有据可依，真正转动体验持续升级的飞轮。
篇章三｜场景推理与解决方案 —— 主动服务，全面感知真实需求。 为了突破仅依赖端内数据的局限，我们将场景化需求与外部真实世界的丰富供给、全局时空状态相融合。通过将前沿的时空推理引擎接入真实业务场景，我们力求全方位感知真实需求，在开口前就提供量身定制的主动决策与贴心服务。

接下来，就让我们进入篇章三，看高德如何把传统的"搜与推"升级为会思考、会主动决策的 Agent，让地图在你开口之前，就备好量身定制的贴心服务。

【声明】本文涉及的数据、案例与流程均基于经过去标识化 / 匿名化处理的公开数据、公开知识或模拟示例进行说明，不涉及可识别个人身份的信息；文中用户对话、地名、时间戳等均为技术表达所需的模拟案例。数据采集、处理和使用严格遵守个人信息保护法、数据安全法等相关法律法规。

一、一个普通用户的观察：

AI时代，我们到底想要什么样的App？

你是不是会有这样的感受？

打开打车软件时，我会想：它已经陪我上下班一年多了，是不是其实可以更懂我一点？

让 AI 帮我订一张高铁票，它认真地回了一段文字，告诉我"建议您打开 12306"——那一刻我有点恍惚：如果最后还是要我自己点开 App、自己一步步操作，AI帮我做了什么呢？

出门前，手机里其实已经有我的日历、位置、常去的地方，但天气、路况、出门时间，还是要我自己一个个去查。我并不觉得这是问题，只是隐隐觉得：这些信息它都有，是不是可以更主动一点？

这些细小的"不太顺手"，是传统 App 的通病：****不够主动，不够懂我。****面向 AI 时代，我们真正期待的体验跃迁，可以归结为三个“转变”：

1. 从“人找功能”，到“服务找人”

传统动线是“点图标-找入口-点按钮”。未来比拼的不再是界面多精美，而是****“时机捕获能力”****。无需繁琐操作，合适的服务就能在恰当的时机主动浮现。

2. 从“听指令”，到“懂状态”

系统能基于 Where（空间）- When（时间）- Who（用户）的时空上下文，精准感知你的当前状态。它推送的可能是一条避堵路线，也可能只是一句问候。更重要的是，懂得克制，不乱打扰。

3. 从“静态页面”，到“动态生成 (GenUI)”

界面不再是写死的代码，而是随场景“实时生成”。AI 交付的不再是干瘪的文字，而是可直接确认的卡片、一键执行的动作。

这些期待——服务找人、状态感知、界面随动——并非遥不可及的科幻设想。从“给出一堆候选项”到“直接给出一个确定的答案”，这正是我们当前在线上全力推进的一次架构演进。

二、技术破局：为什么大模型让“主动服务”成为可能？

既然用户苦“被动响应”久矣，为什么直到今天，我们才敢真正去啃“主动推送（Proactive）”这块硬骨头？

答案在于底层引擎的范式跃迁：传统搜推系统（RecSys）本质上是对用户行为的“有损压缩”，而大模型（LLM）实现了对时空信号的“无损放大”。

1. 传统搜推的困境：对意图的“收窄”与“有损压缩”

在过去的架构中，无论算法多复杂，其核心逻辑依然是统计学上的“猜你喜欢”。

当一个用户在周五晚上 6 点，站在高德地图的某个商圈定位点时，传统系统会提取标签（Tag）、计算向量（Embedding），然后去历史数据库里匹配点击率（CTR）最高的地点。这个过程，是对用户鲜活行为的有损压缩。系统过滤掉了场景中的情绪、常识和隐式逻辑，把一个“劳累了一周、正逢下雨、想找个安静地方吃饭”的活人，压缩成了“餐饮”、“消费水平 100-200元”的干瘪标签。它只能顺着历史轨迹不断收窄推荐范围（你点过咖啡，就给你推一万家咖啡馆），根本无力支撑跨场景的“主动预判”。

2. 大模型的降维打击：对时空信号的“放大”与“深层理解”

大模型带来的最大红利，不是生成文本，而是它自带的世界知识（World Knowledge）与常识推理能力。

当我们将 Where（空间）- When（时间）- Who（用户快照 Sub-Soul）这三个维度的稀疏信号喂给大模型时，它能做的是放大：

****输入信号：****周五 18:30 + 异地出差定位在高铁站 + 刚下雨 + 用户喜欢“安静/高品质”。
****LLM 放大后的深层理解：****用户刚结束长途旅行，处于疲惫状态（状态推演）；当前下雨，打车排队可能很长（环境常识）；他大概率需要一辆能快速响应的专车直达预定的酒店，并且今晚不会去喧闹的街区，更需要酒店附近的高品质简餐（Next POI 预测）。大模型没有收窄用户的选择，而是像一个真正的人类助理一样，通过常识把几个孤立的数据点，放大并还原成了一个完整的、具有逻辑连贯性的出行故事。

3. 范式跃迁：把“推荐”升级为“会思考的 Agent”

“理解”只是第一步。如果我们用大模型做完“信号放大”，最后端给用户的依然是一个“猜你喜欢”的 POI 列表，那依然没有跳出旧时代的窠臼。

我们要把传统的“推荐”，彻底升级为一个“会思考的 Agent”。

推荐系统给的是“候选项（Options）”，把选择的负担留给用户；而 Agent 能够交付确定性的“决策与行动（Actions）”。这种质变，源于我们的 Proactive Agent 具备了三大核心能力：

第一，全局感知（Global Perception）：打破传统单一场景的孤岛。Agent 以Where（空间）- When（时间）- Who（用户需求）为感知触角，不再只盯着你刚才点了什么，而是将你的当前环境、时间节点与深层需求融合成一个全局的动态上下文。
第二，不重不漏的需求预估（Comprehensive Prediction）：不再是基于概率的“瞎猜”，而是基于全局上下文的严密推演。它能像人类助理一样，把你的出行当作一个完整的生命周期来管理，确保每一个潜在的痛点和意图都被提前计算，做到需求预判的“不重不漏”。
第三，闭环的主动服务（Proactive Service）：将思考转化为实际的干预动作。它不再等待你点开搜索框输入指令，而是直接跨越交互鸿沟，把服务主动“递”到你手边。

三、架构总览：Proactive Agent运转全链路

要让 AI 从“等你开口”走向“懂你未言”，我们需要一个会观察、会思考、会动手、也会复盘的智能体。结合高德的业务场景，我们的 Agent 系统由五个核心模块构成，形成了一个完整的“感知-推理-行动-进化”闭环：

1. Context (感知层)：Agent 的工作记忆与环境输入

这是 Agent 思考的起点，由需求感知 Agent主导，解决“你是谁”与“你在哪”。Agent 并不直接感知物理世界，而是接收系统组装好的高维 Context：

环境状态 (Where-When)：系统实时注入用户当前的物理时空节点与外部事件（如：周五 23:00，异地机场，正在下雨）。
需求快照 (Who)：通过需求感知Agent（详见篇章一：智能时空思考Agent｜面向LBS场景的需求感知Agent构建实践。）以“行为锐度”量化行为价值、以“场景聚合”重建真实意图并预测未来需求，通过大模型提炼出高维需求特征。
****外部事件（Event）：****同时，我们还通过为用户监控高频的需求 query，来获取真实物理世界中，和用户高度相关的外部事件。

2. Agent-Core (推理层)：基于 MECE 框架的思考中枢与工具闭环

解决“你需要什么”。基于 MECE（不重不漏）思考框架，Agent 结合时空触发器进行主动的逻辑推演，完成从需求感知到粒度决策的多约束求解。详见下方4.1节。

3. Action (行动层)：多维工具编排与 GenUI 动态渲染

解决“如何交付”。Agent 不仅进行多维工具的深度编排以解决复杂需求，还会输出“方案+UI样式”的结构化指令（GenUI）。前端据此在 Timeline 上动态组装出用户此刻最需要的服务，覆盖三类核心决策：触发即时行为、挂载长期任务、推荐后续行为（Next POI）。详见下方4.2节。

4. Memory (多级缓存)：系统的加速引擎

为了支撑 Agent 在高德海量并发场景下的实时响应，系统在左侧旁路设计了多级 Memory 缓存机制，用于双向加速“感知”与“推理”环节。通过个体/群体需求、思维链（CoT）与工具结果的多级缓存机制，保障海量并发下的实时响应。详见下方4.3节。

5. EVAL 与自进化：离线校准与能力迭代

在系统的底层，我们构建了专属的评测与进化模块：

LBS-IntentBench + LLM Judge：在篇章二：智能时空思考Agent｜首个真实出行隐式意图评测基准LBS-IntentBench正式开源中，我们已经开源了LBS-IntentBench作为意图推理任务的公共评测基准。在本项目里，我们把 Agent 的输出拆解成可观测的决策链（Trace），并基于四个评估目标，设计了一套分层的评测方案：

闭环反馈：Eval 模块的评估结果会反哺给 Agent-Core，持续优化其 MECE 求解的准确率和工具调用的成功率，让系统越用越聪明。

四、三处关键设计：让这套架构在线上真正跑通

在篇章一和篇章二中，我们已经详细探讨了系统如何做“需求感知（Context）”与“评测进化（Eval）”。因此，本节我们将目光完全聚焦于系统最核心的执行引擎。

为了让这套架构真正落地，我们重点攻克了以下三大核心设计：

1. Agent Core（推理中枢）：基于 MECE 框架的场景多约束求解

当系统通过前置模块获取了Where（空间）、****When（时间）以及Who（用户需求快照）****的高维上下文后，Agent Core 就需要像一个真正的人类助理一样，回答“用户此刻需要什么”。

为了避免大模型“胡思乱想”或“挂一漏万”，我们引入了****MECE（相互独立，完全穷尽）****思考框架，让 Agent 进行严密的主动推演。整个推理过程分为三层：

****感知层（保证“不漏”）：****尽可能完整地枚举当前时空状态下，用户潜在的所有需求。
****自检层（保证“不重”）：****对枚举出的候选方案进行去重、合并与合理性校验。比如识别出用户其实处于“行前规划期”，就会过滤掉那些看似合理但实际打扰的偶发推荐。
****决策层（粒度合理）：****从筛选后的候选里，精准推演出下一站的意图（Next POI Generation），并选出执行粒度最合适的最终方案。

这三层正好对应需求预估中常见的三类问题：意图遗漏、重复推荐、粒度漂移。

实战案例：用户身在北京风雪夜，但最近一周高频检索 "成都 W 酒店"——一次"当下场景 + 行前意图"叠加的真实推理过程。

感知层（不漏）

自检层（不重）

决策层（粒度合理）

列出 8 个候选

风雪夜的“避峰”社交晚餐
成都旅游行程制定与完善
车辆“雪地模式”与冬季露营可行性评估
雪后古都的“文化摄影”路线
滑雪后周期的身体修复（SPA）
暖冬味蕾：高端顺德菜/羊肉局
爱车冬季深度养护
年底家庭礼赠与仪式感筹备

缩减为 4 个

1、风雪夜的“避峰”社交晚餐

2、成都旅游行程制定与完善

3、滑雪后周期的身体修复 (SPA)

4、暖冬味蕾：高端顺德菜/羊肉局

选出1个

"成都旅游行程制定与完善": { "desc": "捕捉到用户跨城前往成都的明确出行意图，近期高频检索“成都某酒店”。行为特征显示用户正处于攻略整合与路线串联的关键期，建议聚合必玩景点与地道美食，提供可视化的行程规划参考。",

"tools": [ "城市必玩榜单": {}, "小红书": {},

"poi周边搜查询": {"火锅","大熊猫繁育研究基地","春熙路",]}]}

感知层→ 自检层 → 决策层背后的判断：

用户此刻正身处北京的风雪夜，但系统捕捉到他最近一周高频检索"成都某酒店"——"当下场景"与"行前意图"叠加，Agent Core 在毫秒间完成三层推演：

感知层（不漏）：发散出 8 个候选，既包含风雪夜的避峰晚餐、雪地露营、滑雪后 SPA 等即时行为，也包含成都行程规划等长期任务。
自检层（不重）：调取用户需求特征做证据链校验，发现无自驾史、无摄影需求，果断剔除露营、摄影等 4 个伪需求，压缩为 4 个高内聚方案。
决策层（粒度合理）：判断"跨城出行规划"的长期意图优先级高于"风雪夜吃顿热乎的"即时需求，最终锁定"成都旅游行程制定"，自动聚合城市榜单、小红书种草与 POI 检索，直接端出一份包含火锅、大熊猫基地、春熙路的三天两夜可视化行程。

关键能力：在用户开口之前，已能预判出此刻可能想做、也值得做的事。

2. Action（动态交付）：让内容决定UI

传统推荐系统的痛点在于“削足适履”——无论大模型生成的内容多丰富，最后都会被压扁塞进预先写死的几种卡片样式里。

我们的做法是让内容决定UI：Agent 在输出方案时，会根据要呈现的内容逻辑（对比清单 / 时间轴 /种草图文……），从前端组件库中_挑选并指定_最合适的组件，前端再按这套指定方案渲染。同一个服务，不同用户、不同场景，看到的布局和交互可以完全不同。

为了适配不同的 summary 表述风格与前端展示要求，我们设计了一套动态拼装 prompt 框架。通过这种动态UI，Agent能够完美承载用户的三类核心决策：

****预测的即时行为：****例如雨天刚下高铁，直接浮现“一键呼叫专车”的确认卡片。
****长期的任务管理：****例如周末成都三日游，以可视化的时间轴或清单形式挂载行程规划。
****推荐的后续行为：****基于 Next POI 预测，在你吃完火锅后，顺势推一张周边采耳或散步路线的卡片。

选择前端样式后的输出

前端展现

[{ "card_type": "small_title_card",

"title": "成都旅游行程制定与完善", "picture_list": "",

"content": "你对出行品质向来有高要求，锁定“成都W酒店”意味着这趟旅程注定是摩登与舒适并存的...为您规划元旦假期成都三天两夜行程" },

{"card_type": "list_vertical_card",

"items": [{

"title": "Day 1：潮流与古韵的碰撞",

"content": "入住W酒店后，首站直抵太古里与春熙路。在川西风格建筑群中探寻黑珍珠餐厅，夜游锦江感受蓉城烟火，完美开启成都初印象。",

"picture": "[图片:成都太古里夜景_DAY1]", "schema": "[普通跳链:成都太古里行程_DAY1]", "button": "" ]}]

关键能力：内容决定形式——同样的服务，会以这一次最适合的样子，呈现给用户。

3. Memory（多级缓存）：平衡“深度思考”与“秒级响应”

深度推理成本高、延迟大，这是把 Agent 推向规模化 LBS 业务的最大障碍。用户站在路口等推荐，不可能忍受大模型转圈思考几秒钟。

为此，我们在架构旁路设计了****“四级缓存 + 自动回流”****机制，作为系统的加速引擎：

一个例子

高质量的方案一旦被大量采纳，就会从“在线推理”降维沉淀到缓存中。用户用得越多，算力消耗越低，响应越快。

写在最后

回到本文开篇的三个期待——服务找人、状态感知、界面随动——这套 Agent 框架，是我们在这条路上交出的一次答卷。

但它从来不是一个孤立的工程。回头看，这个系列的三篇文章，正好对应专题导读里那条递进主线——需求建模 → 科学度量 → 主动决策：

篇章一：把碎片化的行为序列压成 AI 能"读懂"的语义上下文，让 Agent的感知从"标签匹配"升级为"状态理解"。
篇章二：开源 LBS-IntentBench，把"AI到底有没有懂"变成可度量、可对照、可持续优化的科学问题。
篇章三：把前两步沉淀的"理解力"和"度量力"，组装成一个能在用户开口之前就主动接住需求的 Agent 系统。

这套系统远未完美。许多场景下，预判仍会出错；许多用户的"未言"，我们暂时还读不懂。但比起继续在"你搜什么、我推什么"的循环里打转，我们更愿意去解这道更难、也更有意思的题：让 AI 真正懂你的时空、懂你的状态，也懂你那些没有说出口的需要。

如果未来某一天，你打开手机时不再需要费力地"找入口"，而是发现那个最合时宜的服务恰好出现在那里——那就是我们正在朝向的样子。