智能时空思考Agent｜首个真实出行隐式意图评测基准LBS-IntentBench正式开源

专题导读

回首过去，传统的需求理解往往停留在"静态规则匹配"的阶段，常常只能"看见请求"却难以"读懂需求"。面向大模型时代，用户产生需求时，需要的不再是被动响应的定位工具，而是具备"时空思考"能力、能敏锐洞察需求的智能助手。

为了实现从"被动响应"到"主动决策"的跨越，本系列文章将带你走进"智能时空思考Agent"的背后，看看我们是如何逐一击破三大核心挑战的：

篇章一 | 需求感知Agent刻画，让AI秒懂场景信号。

面对海量、碎片化的长序列请求信号，我们将其极致压缩为面向AI推理的语义化上下文。通过将时空场景信号转化为大模型能高效理解的语言（向量化、图表示等），我们为规模化的匿名化信息流建立了结构化的数字化Agent模型，在保留完整决策逻辑与溯源能力的同时，夯实了"懂需求"的第一步基础。

篇章二 | LBS-Intent Benchmark —— 统一标尺，让系统能力持续进化。

没有准确的衡量就无法优化。为了科学评估系统的“思考能力”，我们为意图识别任务量身定制了一套专业“考卷”。通过构建标准化数据集与统一评价体系，这把“游标卡尺”让算法的每一次迭代都有据可依，真正转动体验持续升级的飞轮。

篇章三 | 场景推理与解决方案 —— 主动服务，全面感知真实需求。

为了突破仅依赖端内数据的局限，我们将场景化需求与外部真实世界的丰富供给、全局时空状态相融合。通过将前沿的时空推理引擎接入真实业务场景，我们力求全方位感知真实需求，在开口前就提供量身定制的主动决策与贴心服务。

接下来，就让我们进入篇章二，看看如何构建起层层递进的评价体系，客观丈量大模型处理隐式意图和时空推理的真实边界。

声明：本文所涉及的所有数据均基于经过去标识化/匿名化处理的公开数据，不涉及可识别个人身份的信息；文中案例均为模拟案例。数据采集、处理和使用严格遵守个人信息保护法、数据安全法等相关法律法规。模型评测过程在境内完成，不涉及数据出境。开源数据集禁止任何尝试重新识别个人身份的行为。

一、为什么我们需要一个“隐式”出行意图Benchmark？

大语言模型正在推动推荐系统从“特征匹配驱动的被动排序”迈向“语义理解与逻辑推理驱动的生成式决策”。这一变化在LBS场景中尤为关键。与电商或内容推荐不同，LBS 决策与时空上下文、物理约束及实时环境深度耦合。

目前，业界已有的出行规划类Benchmark虽然显著提升了模型在复杂约束下的执行能力，但它们普遍预设了一个理想前提：用户会通过显式的自然语言指令明确告知目的地（例如：“帮我规划一条去徐家汇的路线”）。

然而，真实的LBS推荐场景远比这复杂——用户往往不会显式表达需求。真实的难点从来都不是“如何到达一个已知的目的地”，而是“如何为用户推断出最合适的目的地”。这意味着，模型面对的不再是执行明确指令，而是要在海量、碎片化的长序列交互信号（如点击、搜索、导航与到达）中，精准推理出符合时空约束、个性化与物理现实的深层意图，并据此给出恰当的推荐。

为了填补这一评估空白，我们正式提出LBS-IntentBench。该基准基于大规模真实匿名化出行数据构建，专门用于评估大模型在真实场景中的隐式意图理解与时空推理能力。它将LBS领域的评估范式从“遵循显式指令”彻底转变为“依赖上下文且受物理约束的隐式意图推理”，真正考验并量化模型是否具备“懂你”的时空思考能力。

图1:LBS-IntentBench架构总览

********LBS-IntentBench是首个基于大规模匿名化真实出行数据构造的用户隐式意图预估 benchmark。********区别于主动式出行规划类评测集和LBS推荐的单点预测评测集，它不仅仅是一套数据集，而是一套针对大模型“隐式意图理解”与“时空常识推理”的立体评测系统。该基准从认知链路、数据规模、测试题型到模型生态四个维度，全面、精细地量化评估大模型在LBS场景下的“隐式意图理解”与“时空常识推理”能力。

1.评测维度：“事实-决策-意图”的完整认知闭环

真实的出行决策是一个复杂的推理链条。为了真实还原并评估这一过程，LBS-IntentBench将评测模块解构为三个层层递进的维度，完整覆盖从底层感知到顶层决策的认知链路：

Task 3：通用出行任务（General Mobility Tasks,GMT）——事实与认知层：包含基础事实理解（POI语义、事实检索）、序列建模（下一步预测、时空推理）和出行归纳推理（偏好归纳、理由推断、异常识别）3个层次的7个子任务。****检验模型是否具备理解真实世界出行常识、处理长序列时空数据、识别反事实异常的基础认知能力。****它回答的是“模型是否理解物理世界的约束与规律”。
Task 2：上下文约束推断（Contextual Constraint Inference,CCI）——决策分析层：在理解事实的基础上，考验模型能否结合用户的时空上下文约束与物理规则，对复杂情境进行逻辑辨析。通过植入“时序违背”、“因果倒置”等干扰项，****检验模型能否排除迷惑、做出符合用户真实决策逻辑的准确判断。****它回答的是“模型能否基于事实做出正确分析”。
Task 1：出行意图推断（Mobility Intent Inference,MII）：在认知与分析的基础上，最终考验模型**从海量隐式信号（点击、搜索、导航片段）中，精准识别并排序用户潜在意图的能力。**它回答的是“模型能否最终推断出用户此刻最想要什么”。

这三层架构既可独立评测特定能力模块，又可组合成完整的“感知→分析→决策”层层递进的测评体系。

2.评测数据：真实匿名化数据与宏观知识的全景覆盖

为了支撑多维度的评测，LBS-IntentBench的底层数据实现了对真实世界全景式的覆盖：

****微观行为序列：****包含“用户意图基础数据集”与“用户出行基础数据集”，深度刻画了不同活跃度的用户在真实时空上下文中的序列请求与隐式信号。所有数据均经过匿名化处理，包括用户匿名化、POI匿名化、时间随机扰动和噪声添加等。
宏观物理常识： 引入“真实世界POI知识库”，涵盖全国34个省份的公共POI（包含省市区、类型及描述），为模型提供坚实的物理世界知识锚点。

3.评测题型：针对不同认知深度的精细化量化

为了更科学地测量模型能力，LBS-IntentBench针对不同的评估目标，设计了多维度的题型矩阵：

****排序题：****同一时空背景下，用户可能同时持有多个合理的潜在需求，且其优先级受多种因素影响。Task 1采用排序题，要求模型输出潜在意图的优先级序列。采用“Exact Match”（全排序正确）和“Top-1 Acc”（首位准确率）评判结果。
****选择题：****Task 2通过系统性植入“时序违背”、“因果倒置”等高迷惑性陷阱，量化评估模型的逻辑辨析与纠错硬实力。
****开放问答题：****无选项提示，要求模型直接基于数据提取事实、预测目的地等。这是最能真实反映模型感知精度、识别“幻觉”严重程度的“试金石”。针对不同任务采用 Acc、F1 score、Hit@5评判结果。

4.评测模型：13款主流大模型

为了测评当下大模型在LBS场景下的能力边界，LBS-IntentBench评测了包括Gemini-3.1-Pro，Claude-Opus-4.6，GPT-5.4等顶级闭源模型以及Qwen3.5系列、DeepSeek、Kimi等前沿开源模型共13种。评测模型涵盖了不同尺寸和架构，在探究模型能力边界的同时寻求LBS工业落地的“性价比”方案。

三、我们如何获取真实的用户意图与约束？

3.1出行意图推断 (MII)

用户在真实LBS场景中的出行意图具有多义性与概率性：同一时空背景下，用户可能同时持有多个合理的潜在需求，且其优先级受多种因素影响。因此，我们将Task 1定义为意图排序任务，按"当前时刻用户接下来最可能发生的意图"输出优先级排序，跟专家标注排序结果进行比较。那么，如何准确地得到用户真实需求呢，构建评测任务呢？

1. 意图的结构化归因与聚合：

意图归因：采用“环境—证据—动机”三元组，对用户进行结构化语义标注，提取时空属性、到达/意向信号及潜在决策偏好。
意图聚合：将具有时空连续性、服务于同一目标的请求信号合并为同一需求，并为每个需求附加时间状态（执行期/决策期/已结束）与兴趣热度标注。

2. 候选项与系统化陷阱设计：

每道题包含3-4个候选意图场景进行排序：

候选项设计（梯度设计）：基于时空合法性、行为证据强度与因果连贯性，将候选项划分为“高、中、低”三个相关性档位，重点考察模型在多个相互竞争的意图中进行细粒度辨析与全局偏好排序的能力。
干扰项设计（系统化陷阱）：针对大模型常见失误路径，系统性植入三类低符合干扰项：

时序错位类：沉寂意图或时间错位意图，考察时序衰减建模能力。（沉寂意图当成近期偏好）
约束违背类：生成与用户核心属性冲突的意图，考察对个体约束的感知能力。（给单身用户推亲子娱乐）
因果倒置类：把已经发生的意图当作未发生或违背时空常识的意图，考察深层因果推理能力。（给已下班用户推通勤意图）

3. 真值的严苛审核流水线：

为了保证排序真值的客观性，我们设计了“双阶段共识机制”。每个样本首先由6个独立的LLM裁判在统一协议下进行评判；获得全票共识（6/6）的样本直接保留；对于5/6共识的样本，引入5名领域专家进行盲审，只有达到 ≥80%（4/5）专家共识的样本才被采纳，其余一律废弃。这种机制确保了基准数据的极高置信度。

3.2上下文约束推断 (CCI)

用户的真实决策并非对孤立偏好的简单映射，而是受时空约束、决策风格与心理权衡共同驱动的因果系统。为此，我们将Task 2定义为上下文约束推断任务：要求模型从候选选项中准确识别驱动用户出行的深层决策逻辑，涵盖三个层面：行为动机归因的正确性、时空窗口的物理合法性，以及决策优先级的排序合理性。

该任务与Task 1共享“环境—证据—动机”三元组与出行意图，题目采用混合单选题与多选题形式，多选题强制模型必须对每一个候选项进行独立的真伪判定，杜绝了“蒙对一个就停止”的捷径。干扰项的设计沿着三条正交维度展开：

****(a) 时空有效性陷阱：****故意错置行为发生的时空窗口（如将周末家庭聚餐错置为工作日午间），或复活已沉寂的历史场景。该陷阱要求模型不能仅做静态的偏好匹配，必须具备动态的时空联合校验能力。
****(b) 意向-到达混淆陷阱：****篡改行为的证据置信度。例如将弱意向信号（如仅浏览或未转化的点击）伪装成具有高到达比重的稳定偏好（如捏造“多次实际到达记录”）。此举旨在考察模型对证据强度的精准校准能力。
****(c) 语境归因陷阱：****引入违背用户固有决策风格、颠倒偏好优先级或完全误读真实动机的解释（即全局错误）。例如用异地旅游的偶发性五星级酒店住宿，错误推导其在本地的日常餐饮消费降级/升级，以此考察模型的复杂因果推理与常识泛化能力。

最后真值同样采用“双阶段共识机制”评判。

3.3通用出行任务 (GMT)

Task 3包含七项子任务，覆盖POI语义理解、事实检索、下一步出行预测、位置—时间推理、出行偏好归纳、出行理由推断与反事实异常识别。该模块用于系统评估模型在出行场景中的基础认知与推理能力。

各任务真值基于真实数据构造并经过严格过滤筛选，确保真值的准确与客观。

图2:LBS-IntentBench中各评测任务简述

四、测评结果

我们对Gemini-3.1系列、Claude-4.6系列、GPT系列、Qwen系列、DeepSeek、Kimi、MiniMax等13款主流开源和闭源大模型进行了全面评测：

关键发现：

1. 闭源模型仍领先，但开源小模型展现出极大潜力

在绝大部分任务上，头部的闭源模型（如 Gemini-3.1-Pro，Claude-Opus-4.6）依然确立了目前的SOTA。然而更值得关注的是，Qwen3.5系列等开源模型在多项基础时空感知任务中展现出强劲的性价比优势。

特别是在POI语义理解与事实检索等子任务中，轻量化模型（如Qwen3.5-35B-A3B）不仅逼近甚至部分超越了顶级闭源模型的表现。这一数据揭示了，将轻量化模型应用于车机或移动端本地运行，以实现低延迟和隐私保护，具备可行性与乐观的发展前景。

2.猜得中首选，排不对全局：隐式意图排序仍是大模型能力瓶颈

大多模型在单一意图识别（Top-1 Accuracy）上表现尚可，但在多意图全局排序（Exact Match）上遭遇显著瓶颈——即便是表现最优的闭源模型，全排序准确率也未突破60%。

这一数据表明模型能够感知"用户可能想去哪"，但难以建立"为何A优先于B"的全局一致性判断。特别是在面对"时序错位"类干扰项时，模型容易将历史沉寂意图与当前即时需求混淆，暴露出长周期时序建模与物理现实约束结合的薄弱点。

3. 复杂语境下的“决策边界”模糊：深层逻辑辨析能力不足

在上下文约束推断（CCI）的单选题测试中，模型performance呈现出更加鲜明的"复杂度敏感"特征。面对单一约束判断（单选题），多数模型准确率可达 90% 以上；但当任务升级为需要精确划定决策边界的多约束协同判断（多选题）时，模型准确率出现断崖式下跌。

这表明当前模型在处理LBS决策逻辑时，倾向于识别"表面合理的局部解释"，而非构建"全局自洽的约束满足"。面对具有高度迷惑性的深层语境冲突（如因果倒置、属性违背），模型缺乏稳定的逻辑排他机制，难以在多重约束交织的复杂情境中保持决策边界的清晰性。

4.不会“数数”，限制了模型在出行领域的能力

在通用出行任务（GMT）的长序列事实检索测试中，我们观察到一个值得警惕的现象：部分模型在处理约150条的历史序列时，难以稳定完成基础事实统计（如POI出现频次计数，Table4-Trajectory Fact Retrieval-Interest POI）。其中，GPT-5.4在该项任务中的准确率仅为6.1%，显著落后于Qwen3.5系列模型（70%左右）。

为了探究序列长度带来的影响，我们测试了部分模型在不同输入序列长度（50-150条）下的结果，发现当序列增长时，大模型的注意力机制会被大量无关信息干扰，导致计数准确率下降。然而，GPT-5.4即使在短序列下仍显著低于Qwen3.5系列的小尺寸模型，体现其计数能力的缺失。在出行推荐领域，模型需要从大量无关的请求信号中提取出真正有用的信息，这依赖于模型在底层时空事实的感知能力。Qwen3.5在这一能力上的优势解释了为何即使模型尺寸较小仍在多数任务上展示出了极高的竞争力。