深度复盘小红书AI搜索：为什么说“评测”是AI PM的新PRD？

开篇

最近我听了一场小红书AI搜索团队的内部享，收获极大。他们一线实践中遇到的问题、设计的架构和迭代的思路，清晰地印证了一个正在硅谷形成的新共识：AI时代的PM，最核心的技能不再是写PRD，而是写Evals（评测）。

这篇文章，我想先完整复盘一下小红书的AI搜索（他们是怎么做的），然后结合他们的实践，详细聊聊为什么“评测即PRD”是AI产品经理在当前时代最重要的思维转变～

👉“评测即PRD”原文链接：https://etimq7i0d2.feishu.cn/docx/PYH1drKDpoM4VGxeIHQcNimin8b

首先，小红书如何定义AI搜索？

💡 “与传统搜索交付相关文档（笔记列表）相比，AI搜索能理解自然语言提问，代理信息检索过程，最终直接交付答案或解决相关问题。”

小红书是一个“经验”的宝库，传统搜索（笔记列表）的优势在于多样性和信任感。用户搜“西安攻略”，可以看官方总结，也可以看真实用户的细致分享，能“逛”起来，满足浏览型需求。

但传统搜索的劣势也很明显：效率低、无法解复杂Query。用户需要自己翻阅大量笔记来总结答案。

AI搜索恰好相反，它的优势是效率高、能解复杂问题（如攻略、决策对比）、支持多轮。但它的致命弱点是信任感低（幻觉、虚构）和多样性差。

讲座中提到了一个绝佳的例子：

🌟 用户问：“2026年世界杯冠军是谁？”

AI搜索可能会基于站内用户的“预测”笔记，言之凿凿地回答：“是葡萄牙，C罗踢进了几个球。”

这个case生动地说明了AI搜索的挑战。小红书的AI搜索，就是要在保留“经验感”和“信任感”的同时，提供“答案效率”和“复杂问题解决能力”。

如下图所示，用户的需求分为「问答类」和「决策类」。无论是哪一类，都存在从单一问题到复杂决策的路径。小红书AI搜索的核心，就是服务好这些传统搜索无法高效满足的复杂需求，如经验问答和决策攻略：

面对复杂的搜索路径，小红书是如何设计技术架构的？讲座中分享了他们对几种常见AI搜索方案的取舍：

纯LLM

完全依赖大模型，受限于训练数据，无法获取实时和站内信息，最早被淘汰。
RAG（检索增强生成） ``

Query->Retrieval->LLM->Response

这是目前的主流方案。好处是能引入外部真实信息，解决幻觉问题。但坏处是，它本质上还是“单次检索”，无法解决需要多步思考、多次搜索的复杂问题（比如做攻略）。
Agentic Search（智能体搜索）

Query->Thinking->Action (Search/APIs)->Loop ...

在RAG的基础上引入了“思考”和“循环”。模型可以自行规划，多次搜索，解决多跳问题。
AI Workflows（工作流）

针对特定问题（如旅行攻略、购物决策）设计的SOP（标准作业程序）。

👇 下图的“霸王茶姬推荐”就是典型的Workflow：系统会去搜索、聚类、统计不同奶茶被用户“喜欢”的次数，然后分门别类地介绍，最后给出统计结果。这远比一个Agent的泛泛而谈要有用得多。

3、最终选型：RAG+Agentic+Workflows的混合框架

他们完整的技术框架如下：

Pre-Search：预搜索。首先对Query进行理解，引入关联笔记和高频搜索词，让模型真正理解用户背后的意图。
RAG + Agentic：
RAG：应对简单的问答。
Agentic Search：应对复杂问题。讲座中用“UPF是什么意思”举例：简单RAG只会回答UPF的定义；而Agentic Search会进一步思考“用户为什么搜这个？”，并扩展搜索“防晒衣UPF值多少合适？”，从而给出更满意的答案。
AI Workflows：应对高价值的复杂场景（如旅游、购物）。为什么不用Agent？因为Agentic Search“很难找到很好的可验证的reward”，输出不可控。而Workflows通过注入专家知识和固化流程（SOP），能极大提升结果的确定性和质量。
多工具调用：除了站内搜索，还会调用全网搜索、实时信息API等。