开篇

最近我听了一场小红书AI搜索团队的内部享,收获极大。他们一线实践中遇到的问题、设计的架构和迭代的思路,清晰地印证了一个正在硅谷形成的新共识:AI时代的PM,最核心的技能不再是写PRD,而是写Evals(评测)。

这篇文章,我想先完整复盘一下小红书的AI搜索(他们是怎么做的),然后结合他们的实践,详细聊聊为什么“评测即PRD”是AI产品经理在当前时代最重要的思维转变~

👉“评测即PRD”原文链接:https://etimq7i0d2.feishu.cn/docx/PYH1drKDpoM4VGxeIHQcNimin8b


Part 1:复盘小红书AI搜索(What&Why)

首先,小红书如何定义AI搜索?

💡 “与传统搜索交付相关文档(笔记列表)相比,AI搜索能理解自然语言提问,代理信息检索过程,最终直接交付答案或解决相关问题。”

1、传统搜索的“围城”与AI搜索的“破局”

小红书是一个“经验”的宝库,传统搜索(笔记列表)的优势在于多样性信任感。用户搜“西安攻略”,可以看官方总结,也可以看真实用户的细致分享,能“逛”起来,满足浏览型需求。

但传统搜索的劣势也很明显:效率低无法解复杂Query。用户需要自己翻阅大量笔记来总结答案。

AI搜索恰好相反,它的优势是效率高能解复杂问题(如攻略、决策对比)、** 支持多轮**。但它的致命弱点是信任感低(幻觉、虚构)和多样性差

讲座中提到了一个绝佳的例子:

🌟 用户问:“2026年世界杯冠军是谁?”

AI搜索可能会基于站内用户的“预测”笔记,言之凿凿地回答:“是葡萄牙,C罗踢进了几个球。”

这个case生动地说明了AI搜索的挑战。小红书的AI搜索,就是要在保留“经验感”和“信任感”的同时,提供“答案效率”和“复杂问题解决能力”

如下图所示,用户的需求分为「问答类」和「决策类」。无论是哪一类,都存在从单一问题复杂决策的路径。小红书AI搜索的核心,就是服务好这些传统搜索无法高效满足的复杂需求,如经验问答决策攻略:

图片

2、从RAG到Workflow:小红书的AI搜索架构演进

面对复杂的搜索路径,小红书是如何设计技术架构的?讲座中分享了他们对几种常见AI搜索方案的取舍:

图片

  1. 纯LLM

    完全依赖大模型,受限于训练数据,无法获取实时和站内信息,最早被淘汰。

  2. RAG(检索增强生成) ``

    Query->Retrieval->LLM->Response

    这是目前的主流方案。好处是能引入外部真实信息,解决幻觉问题。但坏处是,它本质上还是“单次检索”,无法解决需要多步思考、多次搜索的复杂问题(比如做攻略)。

  3. Agentic Search(智能体搜索)

    Query->Thinking->Action (Search/APIs)->Loop ...

    在RAG的基础上引入了“思考”和“循环”。模型可以自行规划,多次搜索,解决多跳问题。

  4. AI Workflows(工作流)

    针对特定问题(如旅行攻略、购物决策)设计的SOP(标准作业程序)。

    👇 下图的“霸王茶姬推荐”就是典型的Workflow:系统会去搜索、聚类、统计不同奶茶被用户“喜欢”的次数,然后分门别类地介绍,最后给出统计结果。这远比一个Agent的泛泛而谈要有用得多。

图片

3、最终选型:RAG+Agentic+Workflows的混合框架

图片

他们完整的技术框架如下:

  • Pre-Search:预搜索。首先对Query进行理解,引入关联笔记和高频搜索词,让模型真正理解用户背后的意图。

  • RAG + Agentic

  • RAG:应对简单的问答。

  • Agentic Search:应对复杂问题。讲座中用“UPF是什么意思”举例:简单RAG只会回答UPF的定义;而Agentic Search会进一步思考“用户为什么搜这个?”,并扩展搜索“防晒衣UPF值多少合适?”,从而给出更满意的答案。

  • AI Workflows:应对高价值的复杂场景(如旅游、购物)。为什么不用Agent?因为Agentic Search“很难找到很好的可验证的reward”,输出不可控。而Workflows通过注入专家知识和固化流程(SOP),能极大提升结果的确定性质量

  • 多工具调用:除了站内搜索,还会调用全网搜索、实时信息API等。


Part 2:“评测即PRD”:AI PM的新范式

好了~复盘完小红书的AI搜索。我们会发现一个核心问题:

系统如此复杂(RAG、Agent、Workflows并存),模型输出又具有不确定性(比如“2026世界杯”的幻觉),PM该如何管理这个产品?如何确保优化迭代是走在正确的方向上?

答案是:靠评测(Evals)。

1、PRD的转折:从「定义产品」到「定义评测」

过去,PM通过PRD明确功能和边界。但AI产品的特点是:模型具有随机性、输出动态、场景开放,任何静态文档都无法覆盖所有情况。

你无法在PRD里写一条规则:“模型不允许预测未发生的世界杯结果”。这种静态规则根本无法穷举所有幻觉。

因此,AI产品团队逐渐转向另一种方式:不再靠文字定义产品,而是靠评测体系定义产品。

“Evals(评测)包括自动化测试、黄金对话(Golden Conversation)、LLM法官(LLM-as-a-Judge),共同构成了一个‘活的PRD’:可运行、可验证、可演化。”

以前PM写文档指导模型;现在PM写评测校准模型。评测不是附属环节,而是核心定义。

2、“评测即PRD”的思维转变

  • 传统PM:先写需求,再做开发。

  • AI PM:先实验,再评测,从评测中提炼需求。

评测既是产品规范(Spec),也是验证机制(Judge),为团队提供真实、可操作的质量信号。


Part 3:小红书如何实践“评测即PRD”?

小红书的分享,完美地印证了上述观点。他们坦言,在实践中最关注三个问题,而这三个问题,恰好构成了小红书以“Evals”为核心的“活的PRD”体系。

关注点一:SFT数据构造——定义“黄金评测”

图片

SFT(监督微调)数据决定了模型回答效果的上限。而小红书的SFT流程(见上图)是如何开始的?

由「产品」和「数据运营」,通过调Prompt、设计标准,一起“构造一个理想的数据集”。

这,就是“评测即PRD”的第一步。

  • 传统PRD:PM写一篇文档,描述“旅游攻略”应该长什么样。

  • 小红书的PRD:PM直接去定义(甚至标注)100条“理想的”旅游攻略SFT数据(Golden Conversation)。

这个“理想数据集”本身就是产品形态的最终定义。它不再是静态描述,而是成为了可运行、可训练的“活PRD”。

关注点二:强化学习(RL)——定义“负面评测”

图片

SFT定义了上限,而RL(强化学习)则保证了下限。PM不仅要定义“什么是好的”,更要定义“什么是坏的”。

AI产品的需求不是写出来的,而是在错误中被发现的。小红书明确提到,他们会系统化地分析Bad Case,比如“重复”、“答案格式有问题”、“语言风格太油”等等。

  • 传统PRD:PM在文档里写一条:“回答风格不要油腻”。(工程师:???)

  • 小红书的PRD:PM将这些“失败模式”提炼出来,定义成“确定性的Reward信号”,用来训练Reward Model。

这个Reward Model,就是一个自动化的“负面评测”系统,它系统性地惩罚模型的坏行为。PM的“失败模式表”不再是一份文档,而是转化为了可执行的、约束模型底线的代码。

关注点三:AI搜索的评估难题——构建“动态评测飞轮”

这是最关键的一环。AI搜索不像传统搜索有清晰的后验信号(如点击率CTR)。用户可能看了答案就走了,你不知道他满不满意。

因此,AI搜索必须依赖强大的“先验评估”。小红书设计的这个“评估飞轮”,就是“评测即PRD”的终极体现:

图片

  • A1:评估与产品对齐

这就是PM的核心领域。PM要联合产研团队,定义“黄金标准评测集”和“多维评估标准”(如上图的准确性、完整性、合理性、有用性、创新性等)。这就是产品的核心规范(Spec)。

  • A2:评估与训练对齐

当系统复杂到人工难以评测时,就引入“LLM法官”(LLM-as-a-Judge)。小红书实践了三种方式:基于规则、训练Reward Model、利用更强模型(如GPT-4)做判别。这就是产品的自动验证机制(Judge)。

图片

  • A3:评估与后验对齐

这是飞轮的闭环。A1和A2定义的“先验评测”终究是“专家视角”,它和“用户真实满意度”可能存在gap。因此,团队必须持续收集真实的用户反馈(点赞、点踩、分享、阅读时长),反过来校验和迭代A1的评测标准。

这个A1->A2->A3的飞轮,** 构建了一个动态迭代、持续进化、连接真实世界的“活的PRD”。**


Part 4:Evals,新一代PM的核心语言

小红书的实践清晰地展示了AI时代产品经理的转变:

图片

传统PRD告诉团队“我们要造什么”;Evals式PRD告诉模型“什么才是好”。

评测不只是验证标准,它就是产品需求的动态表达。Evals,是AI产品的语言;评测体系,是产品不断进化的核心。

对于所有关注AI的产品经理同学来说,理解并掌握“评测”这个新语言,远比学习画原型和写PRD更为重要。

希望这篇文章可以帮助你把“评测”这个理论概念落到实处,更好的理解“评测即PRD”~☺️