作者:vivo 互联网项目团队- Jiang Zuohan

目录

  1. 先扔掉“大模型是马,Harness是马鞍”比喻

  2. AI的发展,更像一次大脑先于身体的超速进化

  3. 当前Agent系统的核心问题,是身体没有长好

  4. AI领域当前最大的真空,是最佳实践的真空

  5. Harness的真正角色,不是马鞍,而是ICU

  6. AI当前的状态,不是失败,而是早期常态

  7. AI生成 PPT,是观察这个问题的一个典型场景

  8. vivoPPT的开发过程,本身就是这条收敛路径

  9. 最佳实践,从来不是设计出来的

  10. 未来不会再讨论“要不要用 AI”

  11. 我们正在经历一个“还不会用工具”的时代

本文以“大模型不是马,而是大脑”为核心视角,重新定义 AI 系统结构,指出当前问题不在模型能力,而在 Agent 作为“身体”的不成熟,分析感知、行动、反馈与调度等工程缺陷,并将 Harness 类系统比作 ICU 的生命维持机制,强调当下混乱源于最佳实践尚未收敛,认为当前阶段本质是“不会用工具”的早期,人类正在通过实践逐步定义 AI 的正确使用方式。

大模型不是马,是大脑,而且是一颗刚刚觉醒的大脑。

1分钟看图掌握核心要点👇

图片

图片

01

先扔掉

“大模型是马,Harness 是马鞍”这个比喻

最近 Harness Engineering 很火,随之而来的一个比喻也开始流传,即“大模型是马,Harness 是马鞍”。

这个比喻并不准确。

马的特点是有独立意志,需要驯服、约束、引导,骑手与马之间本质上是对抗与协商的关系。但 AI 系统并不是这样构建的。我们不会通过“驯服”模型来获得能力,也不会通过“抽一鞭子”让模型更听话。

更关键的是,这个比喻隐含了一个前提,即大模型是原始、笨重、需要约束的对象。但事实恰恰相反。大模型是这几年出现过最复杂的智能器官之一,它更像大脑,而不是牲畜。

如果必须给出一个更接近现实的比喻,那么大模型更像大脑,而 Agent 更像身体。

这个比喻的好处在于,它能更好地解释当前 AI 系统真正的问题:问题不在于“大脑不够聪明”,而在于“身体还没有发育完整”。

02

AI 的发展,

更像一次大脑先于身体的超速进化

从更大的时间尺度来看,生命并不是先有大脑,再有身体,而是二者长期协同进化。

从最初的应激反应,到神经节,到更复杂的感知系统,再到真正支持推理与规划的大脑皮层,生命用了极长时间才完成这条演化路径。与此同时,眼睛、耳朵、四肢、神经系统也在同步演进。

身体并不是大脑的容器,而是大脑感知世界、作用世界的基础设施。

人类技术的发展也具有类似特征。

农业社会的演进以千年计,工业革命以百年计,信息时代以几十年计。直到最近十几年,技术演进的速度突然发生了变化。

城市让信息密度上升,网络让信息流动突破地理限制,导航、推荐、即时通讯等系统,则将大量“高频认知动作”沉淀为可直接调用的最佳实践。

从这个角度看,AI 并不是简单的工具升级,而是一次更大规模的认知能力爆炸。

从 2012 年 AlexNet 到今天,短短十几年,AI 已经完成了从识别、理解、生成,到多模态处理、代码生成、工具调用的一整轮跨越。2016 年 AlphaGo 击败李世石,2017 年击败柯洁,就是一个非常清晰的分水岭:这意味着“脑子已经亮了”。

此后的模型演进则更加剧烈。ChatGPT、GPT-4、Claude、Gemini 等模型快速迭代,聊天对话框、代码解释器、API 调用、工作流、多 Agent 协作等生态也同步出现。

从表面看,AI 好像已经拥有了眼睛、耳朵、手和脚。

但问题在于,这些器官虽然存在,却远未形成成熟、稳定、协调的身体系统。

03

当前 Agent 系统的核心问题,

是身体没有长好

如果说大模型是大脑,那么当前很多 Agent 系统最真实的状态,就是“大脑发育过快,但身体还处于早产儿阶段”。

这个问题主要体现在四个方面。

3.1

感官系统不成熟

多模态模型、语音识别、文档理解、网页解析,这些能力解决的是“看得见、听得见”的问题,但并不自动等于“看得清、听得懂”。

例如:

  • PDF 解析可能出现目录错位、表格断裂、图文顺序混乱

  • 网页抓取可能带入大量噪声,正文识别不完整

  • 图像识别可能遗漏关键元素

  • 语音转写虽然准确,但场景上下文缺失,导致语义理解偏差

这些问题都说明一件事:当前 AI 系统具备输入能力,但输入质量并不稳定,缺少可靠的前处理与上下文定位机制。

换句话说,眼睛已经有了,但视网膜还没有长好。

3.2

运动系统不协调

工具调用是 Agent 最核心的行动能力之一。它可以调用 API、访问网页、执行代码、操作应用,看起来已经具备“手脚”。

但现实情况是,这套运动系统远不稳定。

常见问题包括:

  • 参数填写错误,导致 API 调用失败

  • UI 操作偏移,点击目标错误

  • 执行环境不一致,代码运行失败

  • 操作完成后缺少反馈确认,无法形成闭环

这类问题并不是“不会动”,而是“动作不协调”。其本质类似于神经肌肉接头尚未建立稳定连接,导致系统虽然能发出动作指令,但动作质量和反馈闭环都不可靠。

3.3

资源调度系统粗糙

大模型是高耗能系统。上下文窗口、Token、推理成本、延迟,本质上都属于资源调度问题。

当前很多 Agent 系统在资源使用上仍然比较原始,主要表现为两个极端:

  • 信息给少了,上下文不足,推理链条断裂

  • 信息给多了,提示词过载,重点被淹没,系统性能下降

这类问题与其说是“模型能力不够”,不如说是“供血系统不成熟”。

3.4

自主神经系统缺失

这是最关键的一点。

人体有大量后台自动调节机制,例如心跳、呼吸、体温控制、消化等,这些并不需要人显式下达指令。

而当前很多 Agent 系统恰恰缺少这种后台维持能力。

例如:

  • 错误恢复机制不完善

  • 任务重试依赖人工规则堆叠

  • 上下文清理与压缩缺乏稳定策略

  • 降级与兜底方案不系统

  • 健康检查与异常监控不完整

这些能力本应成为系统级基础设施,但在当前阶段,很多地方仍然依赖硬编码 if-else 维持运行。

因此,当前 Agent 的问题,不是大脑不够强,而是身体系统还远未形成完整的生理结构。

04

AI 领域当前最大的真空,

是最佳实践的真空

技术快速爆炸之后,往往都会出现一个共同问题,即能力增长快于方法沉淀。

城市的发展不是一开始就有交通规则、建筑规范和成熟基础设施。互联网的发展也不是一开始就有导航、搜索、推荐这些稳定形态。

AI 同样如此。

从 AlphaGo 到现在不过十年,从 ChatGPT 真正进入大众视野到现在不过数年。这个阶段仍然属于方法尚未收敛、实践仍在分化的时期。

当前很多常见方法,都带有明显的过渡特征。

4.1

提示工程更像“口头问路”

Prompt Engineering 的特点是依赖经验、依赖表达技巧、依赖具体模型版本。

同一个任务,提示词稍有变化,或者更换模型、上下文、温度参数,输出质量就会明显不同。

这说明提示工程更像临时性的沟通技巧,而不是稳定的系统方法。

4.2

RAG 更像“静态地图”

RAG 解决的是“如何把外部知识接入模型”的问题,但它并不天然解决知识是否最新、检索是否精准、路径是否动态优化的问题。

地图当然重要,但地图不等于实时路况。

因此 RAG 虽然是重要组成部分,但仍然不能等同于完整认知系统。

4.3

Agent 框架更像“拼装义肢”

当前各类 Agent 框架普遍存在接口标准不统一、工具接入方式不一致、状态管理能力分散的问题。

它们都在尝试解决“如何让感知、认知、行动形成闭环”这个问题,但目前大多数仍处于拼装阶段,距离真正统一、稳定、低心智负担的工程体系还有距离。

因此,当前 AI 工程真正缺的,不是又一个新概念,而是以下几类更基础的东西:

  • Agent 的系统解剖学:感知、认知、行动如何协同

  • Agent 的诊断方法论:系统故障时,应先查脑子还是先查身体

  • Agent 的康复机制:如何让系统从失败中形成稳定经验,而不是每次重新推理

这些问题本质上都不是纯算法问题,而是工程体系问题。

而工程体系问题从来无法靠一次设计完成,它只能在真实场景中被反复验证、修正和沉淀。

05

Harness 的真正角色,

不是马鞍,而是 ICU

如果继续沿用“大脑 + 身体”这个模型,那么 Harness Engineering 的角色就比较清晰了。

Harness 不是马鞍。

马鞍服务的是已经能够奔跑的健康马匹,而当前很多 Agent 系统并不处于这个阶段。它们更像一个脑部能力超前成熟、但身体发育不稳定的早产儿。

在这种情况下,系统首先需要的不是缰绳,而是监护。

因此,Harness 更像 ICU。

它真正提供的能力包括:

  • 生命周期监测: 观测 Token 消耗、延迟、错误率、上下文压力

  • 资源维持: 在上下文不足时补充信息,在信息过载时做清理与压缩

  • 信号调控: 过滤噪声输入,约束输出动作的风险

  • 故障抢救: 当某一模块失效时,快速切换备用路径,维持整体系统继续运行

这些能力并不华丽,但非常关键。

因为这不是在“控制大脑”,而是在维持身体的基本生命体征。

只有先让系统稳定活着,后续才谈得上持续成长与自我优化。

06

AI 当前的状态,

不是失败,而是早期常态

当 AlphaGo 击败柯洁时,很多人看到的是 AI 的智力突破。

而从系统角度看,这意味着另一件事:大脑已经超前成熟,但身体仍处在婴儿期。

这并不是坏事,而是技术革命早期非常典型的状态。

城市不是一天形成的,导航系统不是第一版就稳定的,推荐系统也经历了很长时间的试错与收敛。AI 的 Agent 系统同样要经历这个过程,只不过它的迭代速度比过去任何基础设施都更快。

以前很多工程体系以年为单位进化,现在很多体系以周为单位迭代。

因此我们会感受到一种非常强烈的矛盾感:

  • 一方面,模型能力已经强到超出预期

  • 另一方面,系统工程仍然脆弱、易碎、缺乏稳定性

这两个判断并不冲突,它们同时成立。

所以当前最重要的,不是假装这套体系已经成熟,而是承认现实:我们确实拥有一颗极其聪明的大脑,但它仍然被绑在一副尚未发育成熟的身体上。

Harness 这类系统,就是轮椅、拐杖、监护仪的集合。它并不完美,但在今天是必要条件。

因为在身体能够稳定奔跑之前,系统首先需要被维持、被保护、被监护。

而所谓最佳实践,也不会在理论层面被一次性设计出来。它只会在大量真实任务、真实故障、真实交付中慢慢浮现。

07

AI 生成 PPT,

是观察这个问题的一个典型场景

如果希望找一个最能体现 Agent 工程问题的场景,那么 AI 生成 PPT 是非常典型的样本。

表面上看,这好像只是“让模型写一套 20 页内容”的问题。

但实际上,它是一个横跨需求理解、信息补全、结构组织、页面生成、视觉匹配、在线编辑和最终交付的系统工程。

一个真正可落地的 AI PPT 项目,通常至少包含以下几个环节

1)需求输入

输入主题、受众、页数范围、场景模板、原始资料等信息。

2)研究补全

当原始信息不足或存在时效问题时,需要通过研究系统补齐最新信息。

3)大纲生成

先形成结构化大纲,而不是直接逐页生成页面。

4)任务拆解

将大纲拆解为可追踪任务,明确当前进度、失败节点和回退点。

5)页面与视觉生成

根据页面类型生成内容、版式、配图与模板风格。

6)编辑与交付

支持在线调整、讲稿补充、备注生成,以及 PDF、PPTX、HTML 等多格式导出。

这条链路说明一件事:AI 生成 PPT 的难点从来不只是写作能力,而是整条链路是否协调。

如果用前文的比喻来对应:

  • 文档解析是感官系统

  • 研究能力是外部记忆

  • 大纲生成是前额叶

  • 任务板是神经系统

  • 模板、版式、配图是骨架与皮肤

  • 导出、备注、分享是动作真正落到外部世界的手脚

因此,AI 生成 PPT 这个场景非常直观地说明:当我们说 Agent 需要“身体”时,说的并不是抽象概念,而是一整套必须协同工作的工程器官。

08

AI 当前的状态,

不是失败,而是早期常态

如果把视角再拉近一点,vivoPPT 这个项目本身,就是这套判断的一个样本。

这条链路并不是一开始就设计完整的,而是在开发过程中一步步收敛出来的。

8.1

最开始是“直接生成大纲 + 提供很多模板”

这是一个很自然的起点。

用户输入一个主题,系统先生成大纲,然后再让用户从很多模板里选一个,看起来既智能,又灵活。

但这条路很快暴露出问题。

一方面,大纲本身还不稳定;另一方面,模板又是一个额外变量。内容结构还没有站稳,样式选择又引入第二层不确定性,最后就会出现一个结果:系统看起来很自由,但实际输出并不稳定,用户也很难判断问题到底出在内容,还是出在模板。

换句话说,这种方案把“内容规划”和“视觉选择”同时交给了模型与用户,表面上选择变多了,实际上系统复杂度也同步上升了。

8.2

后来逐步收敛成“固定模板 + 内容优先”

所以项目后面做了一次很关键的收敛,即不再把模板当成一个完全开放变量,而是将模板整理成固定方案,甚至进一步强调“单模板、内容优先”。

这个变化背后的核心判断是:对于大多数汇报场景,真正难的不是“选哪个模板”,而是“这一页到底讲什么”。

因此系统开始要求用户输入更完整的原始材料,而不是只输入一句主题。会议纪要、项目总结、方案全文、调研结论、发言草稿,这些长文本被尽可能完整地输入进来,系统先整理汇报思路,再生成大纲,再决定每页职责。

这实际上是在重新定义输入层:系统不再假设模型可以凭一个标题完成高质量生成,而是要求用户提供足够多的原文,让模型先理解内容,再组织内容。

8.3

再往后

生成目标从“直接出页面”变成了“先生成 DSL”

当模板固定之后,第二个问题就变得非常明显:如果系统直接生成最终页面,无论是 HTML 还是最终渲染结果,后续编辑、校验、复用、导出都很困难。

于是项目继续往前收敛,开始引入 DSL 作为中间层。

这一步很重要。

因为 DSL 的本质不是“换一种格式生成”,而是给系统补了一个结构化中间表示层。页面不再只是最终结果,而是先被拆成可编辑、可编译、可检查的语义结构。这样模板、内容、布局、组件、导出之间才有了稳定接口,后面的编辑器、预览、导出、AI 改写才真正有了统一对象。

从工程角度看,这一步相当于给“页面生成”补上了骨架。

8.4

大模型微调

当输入从纯文本扩展到富文本之后,系统获得了更强的表达能力,但同时也立刻遇到了新的问题。

富文本并不只是多了粗体、标题和列表,它还带来了图片、表格、引用、上下文层级这些信息。尤其是图片,系统不能只把它当成一个附件。

一张富文本里的图片,如果只保留一个 src 地址,模型其实什么都不知道。它不知道图片前后在讲什么,不知道图注是什么,也不知道它属于哪一个章节、哪一页语义、哪一个主题。

因此项目后面又继续补了一层上下文解析:除了保留富文本的 HTML 和纯文本内容之外,还会抽取标题层级、列表结构、表格结构;对于图片,还要结合标题、图注、相邻段落、块级文本去生成语义摘要、主题标签和素材描述,再把它转成项目素材。

这一步说明得更直接一点:当输入能力增强之后,系统并不会自动变强,反而会倒逼你把“感官系统”做得更完整。图片不是“看见了”就算处理完,只有把它放回上下文中,它才真正变成模型可用的信息。

从这个开发过程可以看出,真正沉淀下来的最佳实践,通常不是一个万能 Prompt,而是几条简单但重要的流程纪律:

  • 先研究,再写作

  • 先大纲,再页面

  • 先任务化,再并行化

  • 先可编辑,再可交付

09

最佳实践,

从来不是设计出来的

所以,当前阶段看起来混乱,其实并不奇怪。

有人强调 Prompt,有人强调 Agent,有人做 Memory,有人做 Workflow,大家都在尝试不同路径,但整体上还没有完全收敛。

这并不是因为大家理解不够,而是因为最佳实践本来就不是先验存在的。

它不是通过讨论设计出来的,而是在真实使用中逐渐显现出来的。

只有在大量真实场景中反复试错之后,系统才会逐渐形成共识:

  • 哪些步骤必须保留

  • 哪些能力必须下沉为基础设施

  • 哪些风险必须被兜底

  • 哪些分工方式最稳定

最终,所谓最佳实践,会从“经验”慢慢沉淀为“直觉”。

10

未来不会再讨论“要不要用 AI”

也许在未来,我们不会再讨论“要不要用 Agent”,就像今天我们不会认真讨论“要不要用导航”一样。

这些选择最终会从“技术选项”变成“默认动作”。

真正的变化,也不会发生在模型参数再扩大一点,或者排行榜再上升一点的时候。

真正的变化会发生在我们开始真正理解这整套系统:

  • 什么时候让它思考

  • 什么时候让它行动

  • 什么时候借助工具

  • 什么时候交给流程

  • 什么时候让人介入

到那时,AI 才会真正从一个“能力集合”演进为一个“可长期使用的系统”。

11

我们正在经历一个“还不会用工具”的时代

而现在,我们正处在这个阶段的早期。

工具已经足够强大,但使用方式还没有完全形成。

这有点像人类刚拿到地图、刚拥有汽车、刚接触互联网的时期。工具本身已经具备巨大潜力,但对应的使用方法、工程规范和社会最佳实践都还在形成中。

这也是一个非常少见的阶段。

因为在这个阶段里,人们不仅是在使用工具,也在参与定义工具未来的正确使用方式。

换句话说,我们正在参与回答一个问题:

未来,什么才是 AI“正确的使用方式”

注:文章创作有 AI辅助,"生命体进化"视角与"技术爆炸"框架由笔者提出。

END

猜你喜欢