专题导读
回首过去,传统的需求理解往往停留在"静态规则匹配"的阶段,常常只能"看见请求"却难以"读懂需求"。面向大模型时代,用户产生需求时,需要的不再是被动响应的定位工具,而是具备"时空思考"能力、能敏锐洞察需求的智能助手。
为了实现从"被动响应"到"主动服务"的跨越,本系列文章将带你走进"智能时空思考 Agent"的背后,看看我们是如何逐一击破三大核心挑战的(需求建模 → 科学度量 → 主动决策,这是本系列三篇的递进关系):
- 篇章一 | 需求感知 Agent 刻画,让 AI 秒懂场景信号。 面对海量、碎片化的长序列请求信号,我们将其极致压缩为面向 AI 推理的语义化上下文。通过将时空场景信号转化为大模型能高效理解的语言(向量化、图表示等),我们为规模化的匿名化信息流建立了结构化的数字化 Agent 模型,在保留完整决策逻辑与溯源能力的同时,夯实了"懂需求"的第一步基础。
- 篇章二 | LBS-Intent Benchmark —— 统一标尺,让系统能力持续进化。 没有准确的衡量就无法优化。为了科学评估系统的"思考能力",我们为意图识别任务量身定制了一套专业"考卷"。通过构建标准化数据集与统一评价体系,这把"游标卡尺"让算法的每一次迭代都有据可依,真正转动体验持续升级的飞轮。
- 篇章三 | 场景推理与解决方案 —— 主动服务,全面感知真实需求。 为了突破仅依赖端内数据的局限,我们将场景化需求与外部真实世界的丰富供给、全局时空状态相融合。通过将前沿的时空推理引擎接入真实业务场景,我们力求全方位感知真实需求,在开口前就提供量身定制的主动决策与贴心服务。
接下来,就让我们进入篇章三,看高德如何把传统的"搜与推"升级为会思考、会主动决策的 Agent,让地图在你开口之前,就备好量身定制的贴心服务。
【声明】本文涉及的数据、案例与流程均基于经过去标识化 / 匿名化处理的公开数据、公开知识或模拟示例进行说明,不涉及可识别个人身份的信息;文中用户对话、地名、时间戳等均为技术表达所需的模拟案例。数据采集、处理和使用严格遵守个人信息保护法、数据安全法等相关法律法规。
一、一个普通用户的观察:
AI时代,我们到底想要什么样的App?
你是不是会有这样的感受?
打开打车软件时,我会想:它已经陪我上下班一年多了,是不是其实可以更懂我一点?
让 AI 帮我订一张高铁票,它认真地回了一段文字,告诉我"建议您打开 12306"——那一刻我有点恍惚:如果最后还是要我自己点开 App、自己一步步操作,AI帮我做了什么呢?
出门前,手机里其实已经有我的日历、位置、常去的地方,但天气、路况、出门时间,还是要我自己一个个去查。我并不觉得这是问题,只是隐隐觉得:这些信息它都有,是不是可以更主动一点?
这些细小的"不太顺手",是传统 App 的通病:****不够主动,不够懂我。****面向 AI 时代,我们真正期待的体验跃迁,可以归结为三个“转变”:
1. 从“人找功能”,到“服务找人”
传统动线是“点图标-找入口-点按钮”。未来比拼的不再是界面多精美,而是****“时机捕获能力”****。无需繁琐操作,合适的服务就能在恰当的时机主动浮现。
2. 从“听指令”,到“懂状态”
系统能基于 Where(空间)- When(时间)- Who(用户) 的时空上下文,精准感知你的当前状态。它推送的可能是一条避堵路线,也可能只是一句问候。更重要的是,懂得克制,不乱打扰。
3. 从“静态页面”,到“动态生成 (GenUI)”
界面不再是写死的代码,而是随场景“实时生成”。AI 交付的不再是干瘪的文字,而是可直接确认的卡片、一键执行的动作。
这些期待——服务找人、状态感知、界面随动——并非遥不可及的科幻设想。从“给出一堆候选项”到“直接给出一个确定的答案”,这正是我们当前在线上全力推进的一次架构演进。

二、技术破局:为什么大模型让“主动服务”成为可能?
既然用户苦“被动响应”久矣,为什么直到今天,我们才敢真正去啃“主动推送(Proactive)”这块硬骨头?
答案在于底层引擎的范式跃迁:传统搜推系统(RecSys)本质上是对用户行为的“有损压缩”,而大模型(LLM)实现了对时空信号的“无损放大”。
1. 传统搜推的困境:对意图的“收窄”与“有损压缩”
在过去的架构中,无论算法多复杂,其核心逻辑依然是统计学上的“猜你喜欢”。
当一个用户在周五晚上 6 点,站在高德地图的某个商圈定位点时,传统系统会提取标签(Tag)、计算向量(Embedding),然后去历史数据库里匹配点击率(CTR)最高的地点。这个过程,是对用户鲜活行为的有损压缩。 系统过滤掉了场景中的情绪、常识和隐式逻辑,把一个“劳累了一周、正逢下雨、想找个安静地方吃饭”的活人,压缩成了“餐饮”、“消费水平 100-200元”的干瘪标签。它只能顺着历史轨迹不断收窄推荐范围(你点过咖啡,就给你推一万家咖啡馆),根本无力支撑跨场景的“主动预判”。

2. 大模型的降维打击:对时空信号的“放大”与“深层理解”
大模型带来的最大红利,不是生成文本,而是它自带的世界知识(World Knowledge)与常识推理能力。
当我们将 Where(空间)- When(时间)- Who(用户快照 Sub-Soul) 这三个维度的稀疏信号喂给大模型时,它能做的是放大:
- ****输入信号:****周五 18:30 + 异地出差定位在高铁站 + 刚下雨 + 用户喜欢“安静/高品质”。
- ****LLM 放大后的深层理解:****用户刚结束长途旅行,处于疲惫状态(状态推演);当前下雨,打车排队可能很长(环境常识);他大概率需要一辆能快速响应的专车直达预定的酒店,并且今晚不会去喧闹的街区,更需要酒店附近的高品质简餐(Next POI 预测)。 大模型没有收窄用户的选择,而是像一个真正的人类助理一样,通过常识把几个孤立的数据点,放大并还原成了一个完整的、具有逻辑连贯性的出行故事。
3. 范式跃迁:把“推荐”升级为“会思考的 Agent”
“理解”只是第一步。如果我们用大模型做完“信号放大”,最后端给用户的依然是一个“猜你喜欢”的 POI 列表,那依然没有跳出旧时代的窠臼。
我们要把传统的“推荐”,彻底升级为一个“会思考的 Agent”。
推荐系统给的是“候选项(Options)”,把选择的负担留给用户;而 Agent 能够交付确定性的“决策与行动(Actions)”。这种质变,源于我们的 Proactive Agent 具备了三大核心能力:
- 第一,全局感知(Global Perception):打破传统单一场景的孤岛。Agent 以
Where(空间)- When(时间)- Who(用户需求)为感知触角,不再只盯着你刚才点了什么,而是将你的当前环境、时间节点与深层需求融合成一个全局的动态上下文。 - 第二,不重不漏的需求预估(Comprehensive Prediction):不再是基于概率的“瞎猜”,而是基于全局上下文的严密推演。它能像人类助理一样,把你的出行当作一个完整的生命周期来管理,确保每一个潜在的痛点和意图都被提前计算,做到需求预判的“不重不漏”。
- 第三,闭环的主动服务(Proactive Service):将思考转化为实际的干预动作。它不再等待你点开搜索框输入指令,而是直接跨越交互鸿沟,把服务主动“递”到你手边。
三、架构总览:Proactive Agent运转全链路
要让 AI 从“等你开口”走向“懂你未言”,我们需要一个会观察、会思考、会动手、也会复盘的智能体。结合高德的业务场景,我们的 Agent 系统由五个核心模块构成,形成了一个完整的“感知-推理-行动-进化”闭环:

1. Context (感知层):Agent 的工作记忆与环境输入
这是 Agent 思考的起点,由需求感知 Agent主导,解决“你是谁”与“你在哪”。Agent 并不直接感知物理世界,而是接收系统组装好的高维 Context:
- 环境状态 (Where-When):系统实时注入用户当前的物理时空节点与外部事件(如:周五 23:00,异地机场,正在下雨)。
- 需求快照 (Who):通过需求感知Agent(详见篇章一:智能时空思考Agent|面向LBS场景的需求感知Agent构建实践。)以“行为锐度”量化行为价值、以“场景聚合”重建真实意图并预测未来需求,通过大模型提炼出高维需求特征。
- ****外部事件(Event):****同时,我们还通过为用户监控高频的需求 query,来获取真实物理世界中,和用户高度相关的外部事件。
2. Agent-Core (推理层):基于 MECE 框架的思考中枢与工具闭环
解决“你需要什么”。基于 MECE(不重不漏)思考框架,Agent 结合时空触发器进行主动的逻辑推演,完成从需求感知到粒度决策的多约束求解。详见下方4.1节。
3. Action (行动层):多维工具编排与 GenUI 动态渲染
解决“如何交付”。Agent 不仅进行多维工具的深度编排以解决复杂需求,还会输出“方案+UI样式”的结构化指令(GenUI)。前端据此在 Timeline 上动态组装出用户此刻最需要的服务,覆盖三类核心决策:触发即时行为、挂载长期任务、推荐后续行为(Next POI)。详见下方4.2节。
4. Memory (多级缓存):系统的加速引擎
为了支撑 Agent 在高德海量并发场景下的实时响应,系统在左侧旁路设计了多级 Memory 缓存机制,用于双向加速“感知”与“推理”环节。通过个体/群体需求、思维链(CoT)与工具结果的多级缓存机制,保障海量并发下的实时响应。详见下方4.3节。
5. EVAL 与自进化:离线校准与能力迭代
在系统的底层,我们构建了专属的评测与进化模块:
- LBS-IntentBench + LLM Judge:在篇章二:智能时空思考Agent|首个真实出行隐式意图评测基准LBS-IntentBench正式开源中,我们已经开源了LBS-IntentBench作为意图推理任务的公共评测基准。在本项目里,我们把 Agent 的输出拆解成可观测的决策链(Trace),并基于四个评估目标,设计了一套分层的评测方案:

- 闭环反馈:Eval 模块的评估结果会反哺给 Agent-Core,持续优化其 MECE 求解的准确率和工具调用的成功率,让系统越用越聪明。

四、三处关键设计:让这套架构在线上真正跑通
在篇章一和篇章二中,我们已经详细探讨了系统如何做“需求感知(Context)”与“评测进化(Eval)”。因此,本节我们将目光完全聚焦于系统最核心的执行引擎。
为了让这套架构真正落地,我们重点攻克了以下三大核心设计:
1. Agent Core(推理中枢):基于 MECE 框架的场景多约束求解
当系统通过前置模块获取了Where(空间)、****When(时间)以及Who(用户需求快照)****的高维上下文后,Agent Core 就需要像一个真正的人类助理一样,回答“用户此刻需要什么”。
为了避免大模型“胡思乱想”或“挂一漏万”,我们引入了****MECE(相互独立,完全穷尽)****思考框架,让 Agent 进行严密的主动推演。整个推理过程分为三层:
- ****感知层(保证“不漏”):****尽可能完整地枚举当前时空状态下,用户潜在的所有需求。
- ****自检层(保证“不重”):****对枚举出的候选方案进行去重、合并与合理性校验。比如识别出用户其实处于“行前规划期”,就会过滤掉那些看似合理但实际打扰的偶发推荐。
- ****决策层(粒度合理):****从筛选后的候选里,精准推演出下一站的意图(Next POI Generation),并选出执行粒度最合适的最终方案。
这三层正好对应需求预估中常见的三类问题:意图遗漏、重复推荐、粒度漂移。

实战案例:用户身在北京风雪夜,但最近一周高频检索 "成都 W 酒店"——一次"当下场景 + 行前意图"叠加的真实推理过程。
感知层(不漏)
自检层(不重)
决策层(粒度合理)
列出 8 个候选
- 风雪夜的“避峰”社交晚餐
- 成都旅游行程制定与完善
- 车辆“雪地模式”与冬季露营可行性评估
- 雪后古都的“文化摄影”路线
- 滑雪后周期的身体修复(SPA)
- 暖冬味蕾:高端顺德菜/羊肉局
- 爱车冬季深度养护
- 年底家庭礼赠与仪式感筹备
缩减为 4 个
1、风雪夜的“避峰”社交晚餐
2、成都旅游行程制定与完善
3、滑雪后周期的身体修复 (SPA)
4、暖冬味蕾:高端顺德菜/羊肉局
选出1个
"成都旅游行程制定与完善": { "desc": "捕捉到用户跨城前往成都的明确出行意图,近期高频检索“成都某酒店”。行为特征显示用户正处于攻略整合与路线串联的关键期,建议聚合必玩景点与地道美食,提供可视化的行程规划参考。",
"tools": [ "城市必玩榜单": {}, "小红书": {},
"poi周边搜查询": {"火锅","大熊猫繁育研究基地","春熙路",]}]}
感知层→ 自检层 → 决策层 背后的判断:
用户此刻正身处北京的风雪夜,但系统捕捉到他最近一周高频检索"成都某酒店"——"当下场景"与"行前意图"叠加,Agent Core 在毫秒间完成三层推演:
- 感知层(不漏):发散出 8 个候选,既包含风雪夜的避峰晚餐、雪地露营、滑雪后 SPA 等即时行为,也包含成都行程规划等长期任务。
- 自检层(不重):调取用户需求特征做证据链校验,发现无自驾史、无摄影需求,果断剔除露营、摄影等 4 个伪需求,压缩为 4 个高内聚方案。
- 决策层(粒度合理):判断"跨城出行规划"的长期意图优先级高于"风雪夜吃顿热乎的"即时需求,最终锁定"成都旅游行程制定",自动聚合城市榜单、小红书种草与 POI 检索,直接端出一份包含火锅、大熊猫基地、春熙路的三天两夜可视化行程。
关键能力:在用户开口之前,已能预判出此刻可能想做、也值得做的事。
2. Action(动态交付):让内容决定UI
传统推荐系统的痛点在于“削足适履”——无论大模型生成的内容多丰富,最后都会被压扁塞进预先写死的几种卡片样式里。
我们的做法是让内容决定UI:Agent 在输出方案时,会根据要呈现的内容逻辑(对比清单 / 时间轴 /种草图文……),从前端组件库中_挑选并指定_最合适的组件,前端再按这套指定方案渲染。同一个服务,不同用户、不同场景,看到的布局和交互可以完全不同。

为了适配不同的 summary 表述风格与前端展示要求,我们设计了一套动态拼装 prompt 框架。通过这种动态UI,Agent能够完美承载用户的三类核心决策:
- ****预测的即时行为:****例如雨天刚下高铁,直接浮现“一键呼叫专车”的确认卡片。
- ****长期的任务管理:****例如周末成都三日游,以可视化的时间轴或清单形式挂载行程规划。
- ****推荐的后续行为:****基于 Next POI 预测,在你吃完火锅后,顺势推一张周边采耳或散步路线的卡片。

选择前端样式后的输出
前端展现
[{ "card_type": "small_title_card",
"title": "成都旅游行程制定与完善", "picture_list": "",
"content": "你对出行品质向来有高要求,锁定“成都W酒店”意味着这趟旅程注定是摩登与舒适并存的...为您规划元旦假期成都三天两夜行程" },
{"card_type": "list_vertical_card",
"items": [{
"title": "Day 1:潮流与古韵的碰撞",
"content": "入住W酒店后,首站直抵太古里与春熙路。在川西风格建筑群中探寻黑珍珠餐厅,夜游锦江感受蓉城烟火,完美开启成都初印象。",
"picture": "[图片:成都太古里夜景_DAY1]", "schema": "[普通跳链:成都太古里行程_DAY1]", "button": "" ]}]

关键能力:内容决定形式——同样的服务,会以这一次最适合的样子,呈现给用户。
3. Memory(多级缓存):平衡“深度思考”与“秒级响应”
深度推理成本高、延迟大,这是把 Agent 推向规模化 LBS 业务的最大障碍。用户站在路口等推荐,不可能忍受大模型转圈思考几秒钟。
为此,我们在架构旁路设计了****“四级缓存 + 自动回流”****机制,作为系统的加速引擎:

- 一个例子

高质量的方案一旦被大量采纳,就会从“在线推理”降维沉淀到缓存中。用户用得越多,算力消耗越低,响应越快。
写在最后
回到本文开篇的三个期待——服务找人、状态感知、界面随动——这套 Agent 框架,是我们在这条路上交出的一次答卷。
但它从来不是一个孤立的工程。回头看,这个系列的三篇文章,正好对应专题导读里那条递进主线——需求建模 → 科学度量 → 主动决策:
- 篇章一:把碎片化的行为序列压成 AI 能"读懂"的语义上下文,让 Agent的感知从"标签匹配"升级为"状态理解"。
- 篇章二:开源 LBS-IntentBench,把"AI到底有没有懂"变成可度量、可对照、可持续优化的科学问题。
- 篇章三 :把前两步沉淀的"理解力"和"度量力",组装成一个能在用户开口之前就主动接住需求的 Agent 系统。
这套系统远未完美。许多场景下,预判仍会出错;许多用户的"未言",我们暂时还读不懂。但比起继续在"你搜什么、我推什么"的循环里打转,我们更愿意去解这道更难 、也更有意思的题:让 AI 真正懂你的时空、懂你的状态,也懂你那些没有说出口的需要。
如果未来某一天,你打开手机时不再需要费力地"找入口",而是发现那个最合时宜的服务恰好出现在那里——那就是我们正在朝向的样子。
