导 读

地理编码(Geocoding)是将"北京市海淀区成府路10号"这样的自然语言描述转换为经纬度坐标,以提供位置搜寻或导航等的核心技术。传统方案依赖"NER分词→数据库检索→排序"的复杂流水线,面对口语化表达、缩写、方言等非标准输入极易出错。本文介绍团队发表在ACL 2026的论文ReaGeo,首个基于大语言模型的端到端地理编码框架——直接让LLM从文本生成Geohash坐标序列,通过思维链(CoT)增强空间推理、GRPO强化学习优化定位精度。模型不仅可以对"五道口地铁站"这种地址做定位,还可以理解并精准定位"五道口地铁站南200米"这样带方向方位引导的query。经测试,在北京城区数据上,可实现平均偏差仅119.6米、500米内准确率97.2%的效果,

本文还从搜索引擎视角深入探讨空间相关性这一更广义的问题:当用户搜索"南开大学"时,他们真正想找的是哪个位置?地图搜索中如何建模"where-what"类型问题?这些问题正是geocoding研究背后更深层的思考。

论文链接:https://arxiv.org/pdf/2604.21357

01地理编码:让机器读懂地图地址

地理编码将人类可读的地理位置描述转换为机器可读的坐标,是数字地图、导航和空间定位的基础能力。Google Maps、Bing Maps、高德地图等平台均以地理编码API为核心公共服务之一,全球日调用量超过百万次,覆盖电商、物流、城市规划、灾害管理等领域。

传统地理编码的主流做法是一条多阶段流水线:先用NER(命名实体识别)将地址文本切分为省、市、区、路、门牌号等实体,再到大型地理数据库中做文本或向量检索匹配。然而,在真实场景中,地址查询往往缺乏标准化格式,甚至存在缩写、方言、口语化表达等问题。这些语义不一致性极大提升了检索难度。实验表明,当面对非标准地址描述时,当前SOTA模型的定位准确率平均下降超15%,其中模糊位置查询的性能崩塌尤为严重。

图片

传统向量检索流水线(上)vs ReaGeo端到端生成流程(下)

问 题 核 心

现有方法过度依赖"人工预置地理知识库",一旦脱离理想化设定,大模型便难以从原始文本中自主推理出关键空间语义线索。

02ReaGeo:让大模型"端到端"学会地理编码

这些所谓的"地理知识",其实大量内生于地址文本自身。与其被动依赖人工维护知识库,不如主动让模型从文本中"学习"空间映射。我们提出ReaGeo——一种不依赖外部地理数据库、仅通过端到端文本生成即可完成坐标预测的地理编码新范式。思想是:地址文本本身即蕴含丰富的空间知识。通过Geohash编码将坐标转化为文本序列,大模型只需要像写文章一样自回归地输出一串字符,就完成了地理编码。

具体来说,ReaGeo基于Qwen2.5-3B模型,利用Geohash编码(Base32,长度9,精度约2.4米)将坐标转化为文本序列,整个训练分为两个阶段:

第一阶段:CoT(思维链)增强的SFT

为了让模型理解"XX路口南200米"这样的模糊描述,ReaGeo引入思维链推理。训练时,对每个POI地址,以邻近地址为起点计算相对位置关系,作为中间推理步骤,引导模型先理解周边环境,再输出Geohash。结合Qwen的thinking模式标签机制,用标记中间推理过程,推理阶段可关闭thinking以节省开销。

输入:

"Snow-covered courtyard "

输出:

"100 meters south of the intersection of XX Road and XX Road, XX District w x 4 e j 8 m d t"

第二阶段:GRPO强化学习优化

在SFT基础上,ReaGeo采用GRPO(Group Relative Policy Optimization)进一步优化。不需要训练额外的价值模型,而是对同一输入生成多个候选输出,按组内相对奖励更新策略。

创新性地设计了基于地理空间距离偏差的奖励函数:

R = (T − √D(ypred, ytrue)) ⁄ S

其中T=100,D(·)为WGS-84椭球大地测量距离(米),S=1000。预测越接近真实位置,奖励越高。训练数据中加入"XX路口南偏200米"等随机偏移描述,专门强化方向和距离推理能力。

输入:

"50 meters north of No.385 XX Road, XX Town, XX District, XX"

输出:

"w x 4 s f d v p y"

实验验证:全面超越商用API与学术基线

实验使用北京市城区和郊区的239,918条数据样本(来源:高德搜索引擎日志和高德POI数据库),分为"基础数据"和"锚点偏移数据"两类场景,完全覆盖非标准地址查询,与6种基线方法对比。

图片

几个关键发现:

Qwen3-Max零样本近乎失效。

即使是当前最强的通用大模型,不经过地理编码专项训练,Acc@100接近0%,说明地理编码不是"通用智能"能轻松解决的任务。

商用API表现平庸。

百度地图和腾讯地图在非标准地址上表现有限,受限于匹配机制和数据覆盖。

ReaGeo全面领先。

城区基础数据ADD仅119.6米,Acc@500达97.2%;在更具挑战的锚点偏移场景,优势更为显著——城区Acc@200达71.5%,而百度地图仅42.2%。

119.6

城 区 基 础 A D D

97.2%

Acc@500 准 确 率

消融实验

消融实验进一步表明:

仅移除GRPO已导致Acc@100从51.3%跌至40.6%,说明强化学习对精细化空间推理至关重要;

移除CoT则导致无效输出错误数从20骤升至80,模型更容易"胡说";

完整框架下性能最优,证明"思维链推理+强化学习优化"的闭环是ReaGeo精度领先的关键来源。

此外,论文还验证了几个关键的技术选择:

为什么用Geohash而不是直接输出经纬度?

论文的消融对比显示,Geohash序列输出(ADD 427.7米,Acc@100为68.8%)优于直接生成经纬度坐标(ADD 440.1米,Acc@100为68.7%)。原因在于Geohash通过递归二分将连续地理空间离散化为序列格式,与语言模型的自回归文本生成机制天然契合,同时支持渐进式精度控制——每多输出一个字符,定位精度就提高约4倍。

对未见方向描述的泛化能力。

论文构造了包含"东北""东南""西北""西南"四个非基本方向的测试集。模型虽然从未在训练中见过这些方向词,但在intercardinal方向上仍取得了ADD 562.9米、Acc@100为22.4%的效果,与基本方向(ADD 524.8米,Acc@100为32.6%)差距有限。这说明模型真正学会了空间方向推理,而非简单记忆训练数据中的模式。

此外,Qwen2.5-3B在精度与效率之间取得最佳平衡:模型规模更大时精度继续提升,但推理延迟也随之增长。

图片

标记2-5为模型根据相对位置提示在地标1周围的预测结果

从点定位到空间分布:ReaGeo的更广能力

论文中一个容易被忽略但极具启发性的发现是:ReaGeo不仅能做精确的点定位,还能处理线状POI(如道路)和面状POI(如行政区)。

对于道路类POI,ReaGeo多次采样的预测点会自然沿道路分布,形成线状热力模式——虽然部分点偏离道路中心线,但整体走向与实际道路高度一致。对于行政区类POI,预测点的分布热力图覆盖了约70%的行政区域面积,且高度集中在核心城区。

核 心 发 现

这意味着什么?ReaGeo输出的不是单一的"确定性坐标",而是一个隐式的空间概率分布。当模型对某个query的预测高度集中时,它退化为精确的地理编码;当预测分散时,它呈现出类似空间相关性的热力分布。这一发现恰好连接了精确geocoding与广义空间相关性之间的鸿沟。

图片

ReaGeo对线状和面状query的推理能力,也引申出一个搜索引擎的重要概念:空间相关性。

03 从地理编码到空间相关性:搜索引擎视角

ReaGeo解决了"给定一个地址描述,输出精确坐标"的问题。但这只是地图搜索的一部分。如果我们把视角拉高到整个搜索引擎架构,会发现地理编码本质上是一个更广义问题的特例——(文本)空间相关性(Text -Spatial Correlation)建模。

什么是空间相关性?

简单来说,空间相关性描述的是查询词(Query)与地理空间特定位置之间的相关关系及强度。它不仅仅能指向这个地址对应哪个坐标,也能指向查询词指向的区域。

举个例子。当用户搜索"南开大学"时,可能存在多个候选POI:

POI1——南开大学(主校区)

POI2——南开大学图书馆

POI3——南开大学滨海学院

用户的真实意图是哪一个?在传统大搜引擎中,是以文本相关性来衡量query与Doc之前的相关关系。在LBS搜索中,除了文本相关性,还有空间相关性。譬如南开大学有三个校区,当搜索南开大学时,可能指代哪一个校区?这既与各个校区的热度有关,也有用户与各个校区的相对位置有关。这就是空间相关性要回答的问题。下图是对文本相关性与空间相关性的直观对比。

图片

空间相关性包含两个核心维度:

Geographical Anticipation(空间意图指向)

Query中表达的"where"意图是什么?"朝阳望京"指向望京区域,"沙河白各庄"指向昌平区沙河镇——不同的query有不同的空间意图范围。

Geographical Sensitivity(距离敏感度)

不同类型的POI对距离的敏感程度截然不同。建材市场、肯德基、烟酒、景点、美食、商场——这些品类的用户容忍半径差异巨大。搜索"肯德基"的用户可能愿意走500米,但搜索"建材市场"的用户可能愿意跨越整个城市。

下图展示了不同搜索词对空间距离和POI热度的敏感度分析。

图片

地图搜索,皆为"where-what"问题

在搜索引擎的视角下,所有地图检索问题都可以抽象为"where-what"二元框架:在哪里(where)查什么(what)。比如query——"五道口美食"是典型的WhereWhat类型检索。即使query中没有显示的表达Where+What形式,比如query——"美食",其实也有一个隐含的Where——"我的位置附近"。空间相关性建模对于解决Where-What类型query非常有帮助。比如query——"沙河白各庄",传统的基于term完全匹配的检索未必能找回目标POI,因为doc文本可能是不完备的。但是基于空间相关性思维,可以推理这个query的空间意图指向,从而基于部分term召回,并经过文本和空间相关性的综合排序后,给出最终搜索结果。如下图所示。

ReaGeo与空间相关性的内在联系

回过头来看ReaGeo,它本质上是在解决空间相关性的一个极端特例——当空间相关性score的分布退化为一个尖峰(delta function)时,就是精确的地理编码。ReaGeo通过端到端生成Geohash序列,直接输出最高相关性的位置。

但论文揭示的线状和面状POI预测能力表明,ReaGeo内部隐式地建模了更广泛的空间分布——而不仅仅是输出一个点。这意味着它同时具备了精确geocoding和空间相关性估计的潜力。

04业务场景应用展望

ReaGeo和空间相关性技术不仅是学术创新。高德地图正将这些前沿成果转化为强大的产品能力:交通报警快速定位、物流订单目的地智能识别、自然语言地图搜索——这些曾经需要复杂流水线才能完成的任务,如今一个端到端模型即可胜任。

并以此能力为零售、物流、城市规划等众多行业客户提供基于自然语言的地理空间智能服务。

结语:让大模型更好地理解地图

地理编码的终极目标,是让非技术人员也能通过自然语言自如访问地理空间信息。ReaGeo通过将地理编码从"分词→检索→排序"的多阶段流水线重构为端到端的文本生成任务,不仅大幅降低对人工知识库的依赖,更提供了一条低成本、高鲁棒、可解释的工业部署路径。

当大模型不再"裸奔"于地址文本之上,而是真正"理解"了空间关系——从精确的地理编码到广义的空间相关性,从坐标输出到意图分布——对话式地图交互、自然语言导航、智能物流定位的时代,或许已不再遥远。

#ReaGeo #地理编码 #大模型 #高德 #高德技术

END

图片