汽车之家大模型实践——从模型训练到业务应用

导读大家好，我是来自汽车之家的李林。非常高兴能在此分享汽车之家在大模型实践中的一些经验与心得。大模型技术正深刻地推动着企业数字化改革和产业形态的变迁，汽车之家作为垂直领域的资讯平台，也在积极投入 AI，特别是大模型和多模态方向的探索。

本次分享将围绕汽车之家自主研发的“仓颉大模型”，从大模型训练架构的建设、两大核心业务应用（视频文案生成、Agent 能力建设）、推理实践的优化，以及最后的总结与展望五个方面展开，系统性地探讨我们如何将大模型技术从模型训练逐步落地到真实的业务场景中，以实现更精准的用户服务和更高效的业务赋能。

主要内容包括以下几个部分：

引言
大模型训练架构

3. 业务应用

业务应用
总结与展望

分享嘉宾｜李林汽车之家算法工程师

编辑整理｜陈锡杜

内容校对｜郭慧敏

出品社区｜DataFun

引言

在全球范围内，数字化转型已成为企业提升竞争力的关键战略。中国政府也在“十四五”规划中明确提出推动企业数字化转型。随着车联网、5G 等技术的发展，汽车行业的数字化转型正在加速，新产业、新模式不断涌现。

汽车之家作为汽车领域的垂直资讯平台，在 AI 投入，特别是大模型实践中，既有优势也面临挑战。

优势体现在：

数据壁垒与专业性：通用大模型在面对汽车垂类复杂的专业知识时，难免会遇到知识盲区。汽车之家积累了大量私有化数据资产，如详细的车辆参配、用户口碑等，这构成了我们的核心信息壁垒，能为复杂问题提供精准回答。
用户行为洞察：基于多年深耕，我们能更精准地构建用户画像，为后续的个性化推荐和服务打下基础。

挑战同样明显：

专业性要求高：汽车领域涉及大量专业知识，这是通用模型的盲区。
训练难度大：如果想让通用模型具备汽车知识，势必需要通过预训练的方式将行业内容加入模型，这一过程非常消耗计算成本和资源。

为了应对这些挑战，汽车之家算法平台部发布了行业内的“仓颉大模型”。在与 SuperCLUE 的联合评测中，“仓颉大模型”以 72.96 分的总成绩位居榜首，在汽车咨询、对比、推荐等多个维度均表现出色。

我们认为，取得这一成绩的关键经验在于充分利用了汽车之家内部的私有化信息，进行了更深度的训练，从而使模型达到了更好的效果。

“仓颉大模型”具备以下几个关键特点：

知用户，精研判：能够更好地理解用户的多条件复杂需求（如预算、空间、车型等）。
不盲从，明真伪：面对用户提问，能提取、整合并推理出正确答案。例如，当用户提出的问题存在事实错误（如询问某款宝马车型一个远超实际的价格），模型能够进行纠错，而不是盲目回答。
不虚构，授方案：面对不合理或无法满足的问题（如询问已停产的车型信息），模型不会虚构信息，而是坦诚告知现状，并贴心地提供相关的替代方案。

（图源：荣誉证书）

02 大模型训练架构

当前，大模型算法如雨后春笋般涌现。为了高效复用这些算法，我们将训练框架进行了工程化封装，以实现“无代码化”的便捷操作。

随着大模型参数规模不断突破，单机单卡已无法满足显存需求，分布式训练成为必选项。我们的训练框架需要通过自动并行技术，动态管理通信同步与显存分片。

分布式方案的核心逻辑是将计算任务分配到不同的卡或设备上。主要有三种并行类型：

数据并行：多设备使用相同模型，处理不同数据分片。
流水线并行：按层拆分模型，多设备按顺序处理，每台设备只保留部分模型层。
张量并行：将模型的张量（如权重矩阵）拆分到多设备，并行执行矩阵运算。

这些方式的本质都是从数据和模型两个维度，将计算任务分配到不同卡的模型不同层或张量上，以加速运算效率。

在具体的分布式实现上，我们借鉴了行业内的多种方案，例如 DDP（DistributedDataParallel）和 DeepSpeed（特别是 Zero2 和 Zero3）是目前比较常用的方式。此外，还有 Megatron-LLM 的 3D 并行策略。

我们也基于业界优秀的开源框架进行了改进，以适应我们的业务需求。例如：

MS-Swift：一个全模态大模型训练框架，我们在多模态训练上应用较多。
LLaMA-Factory：一个专注于大模型训练的框架，更多用于语言模型。
VERL：一个专门的强化学习框架。

03 业务应用

视频文案生成

我们的第一个业务应用是视频文案的生成。背景是，使用通用大模型生成的文案，一方面可能存在事实性错误，另一方面内容风格往往“机械化”（同质化比较严重），缺乏吸引力。

为了解决这个问题，我们将任务拆解为以下几个步骤：

视频文案分析：分析高赞视频的主题、结构，提取模板。
模型微调：根据高赞文案进行微调训练。
点赞率预估：引入一个专门的模型来评估生成的文案质量，判断哪个视频更好。
强化学习：将点赞率预估模型作为 Reward 函数的一部分，根据其反馈进行进一步优化。
模型应用：将生产的文案交付给下游业务，用于整体视频生产。

（图源：产品效果示例 - 问界M7的介绍文案）

在视频文案分析阶段，我们首先对视频内容进行分类，如导购询价、驾驶测试、新车发布、车系介绍等（大约 10 类）。我们发现，每种分类适合的文案结构不尽相同。

接着，我们对高赞文案的内容结构进行分析。例如，选车视频可能开头都是“大家好，我是谁...”，用以代入情绪；之后可能会讲设计外观、性能、驾驶体验等。我们通过归纳学习的方式，从点赞率高的视频中发掘哪些结构更受欢迎。同时，我们也会分析字数详略，积累模板。

在高赞模板提取中，我们发现除了框架结构外，高赞文案在语言上也很有特色。如果仅用“活泼”、“灵活”这类词汇去描述，模型很难把握。因此，我们会收集那些“点睛之笔”的字句，按车系分类整理成模板库，供下游使用。这些模板也会被应用在后续的生成和训练中，以保持一致性。

在文案微调训练阶段，我们的核心需求是生成的内容必须精准，例如说车视频的参数错误是不可接受的。

我们的数据制作方式是：根据已有的高赞文案内容，反向查询所需匹配的知识库（如车辆参配），然后使用“模板+知识库”来创建 Query，高赞文案本身作为回答，以此构建训练数据对，对基座模型进行微调。

在评估微调效果或生成文案时，人工评选非常消耗人力。因此，我们开发了点赞率预估模型，希望能以自动化的方式指导后续优化。

这个模型经历了多次迭代：

初期，我们只使用文本作为特征，将其做成一个分类模型（如分为 5 档）。
后续，我们考虑到点赞率也与视觉相关，因此逐步新增了图片特征（如封面图）和视频特征（视频内容片段）。
未来，我们还准备引入音频特征（如音色）等，使其成为一个多模态模型。

在模型优化过程中，有几个关键点：

关键优化点 1：使用多模态大模型权重。

我们发现，在处理文本、图片等特征时，如果直接使用例如 Bert 模型的初始权重进行初始化，相比分别向量化后再预测，相关性得到了显著提升（约 30%）。我们认为这是因为预训练权重本身包含了更深层次的语义信息，更符合直观。

关键优化点 2：逐步增加特征。

实验证明，新增封面图特征后，相关性提高了约 10%；新增视频片段帧后，相关性又提高了 5%。

关键优化点 3：取值连续化。

最初的分类模型存在一个问题：在同一分档内的样本，其效果被认为是完全一样的（例如 2.1 分和 2.7 分都被归为“第二档”）。这不利于后续的精细优化。

因此，我们采用了连续化的方式，类似于加权平均，使得模型能输出一个连续的预估值。这使得模型能够区分同一档内的细微差别，相关性又提升了约 10%。

在文案强化学习阶段，我们采用了 GRPO 算法。Reward 函数（奖励函数）主要由两部分构成：一是基于规则的奖励（如文案字数是否达标），二是前面提到的点赞率预估模型的连续化得分。

为了加速训练，我们实践了两个技巧：

平滑字数奖励：视频文案有时间限制，对应文案也有字数限制。但我们不希望模型因为轻微超字（例如在一个很好的开头结尾后超了几个字）就得到一个完全负向的惩罚。因此，我们对字数限制进行了平滑处理，如果超过不多，只会乘以一个衰减系数（如 0.7 或 0.8）。
引入 DeepSeek 生成结果：在 SFT（微调）阶段，数据虽然质量高，但风格相对“对齐”。当我们遇到某些车系的训练效果一直不佳时，我们会引入 DeepSeek（DS）生成的结果作为优胜备选，帮助模型跳出局部最优，加速收敛。

Agent 能力建设

我们的第二个核心业务应用是 Agent 能力建设。Agent 的工作流程大致分为五步：

感知：接收用户输入。
规划：根据用户问题，规划需要调用哪些工具。
决策：根据工具的调用结果，决策下一步行动。
执行：调用 API、数据库等完成任务。
反馈：分析执行结果，判断是应该继续调用工具，还是已经可以给用户一个完整的回答。

在业内，这种能力被称为 Function Calling（函数调用）。我们将内部的工具封装成标准化的协议，即 MCP（多工具调用），以便模型更方便地调用。

这是一个实际的产品效果示例：

用户提问：“宝马 X3 的变速箱类型”
模型开始思考：首先，我需要调用“实体识别”工具，知道“宝马 X3”的 ID 号；然后，再调用“参配”工具，传入 ID 来查询“变速箱类型”。
执行：调用实体工具，返回 ID（如 4658）。
再次思考：确认需要在参配工具中使用此 ID。
执行：调用参配工具，返回结果“手自一体变速箱(AT)”。
最后思考：这个答案能够满足用户需求。
思考结束：将内容整合后，回复用户。

我们集成了汽车之家内部的多种工具和能力，构成了 MCP 工具集。这包括：

静态数据查询：如汽车参配、车型价格、车系图谱等。
动态数据查询：如降价查询、补贴查询、市场反馈（口碑）等。
基础功能工具：如实体识别、内容检索、计算工具、知识图谱等。
整合功能工具：如销量预测、二手车估值等。

（图源：工具调用示例 - 实体识别与参配查询的 JSON 交互）

Agent 的优化分为“非参数优化”和“参数优化”两部分。非参数优化，指的是不引入额外的模型训练，而是通过提示词工程、上下文管理等方式提升效果。

非参数优化的核心方法包括：

提示词工程（Prompt Engineering）
上下文管理（Context Management）
工具引导（Tool Guidance）：通过增加反思校验和组合引导来优化。

提示词工程包含几种常见类型：

角色提示：为模型分配特定角色（如“你是一个专业的汽车问答助手”）。
范例提示（Few-shot）：提供特定例子，减少模型对任务理解的偏差。
内容提示：提示模型生成内容的核心。
约束提示：限制模型的输出，避免生成无关内容。

上下文管理：Agent 的调用流程通常很长，一个完整的 Prompt 会包含：System Prompt、Tool List（工具列表）、以及多轮历史对话。

历史对话中又包含：User Query、Tool Call（调用参数）、Tool Response（返回结果）、Response（模型回复）。当对话轮次增多，Token 很容易超限。

我们尝试了如何压缩历史对话，最后发现：对 Tool Response（工具返回结果）这部分进行摘要或压缩的效果比较好；而如果删减 Tool Call（调用参数）的信息，模型在后续过程中可能会产生重复的工具调用。

工具引导：这是我们在实践中发现非常有效的一种上下文工程。

反思工具：我们引导模型在最后输出前，先调用一个“反思工具”。例如，我们发现模型有时会忘记向用户澄清关键信息（如查询的时间范围），反思工具会提醒模型“把具体时间跟用户说明白”。
参数校验：Agent 虽然有自主性，但也必须在限制内。我们经常看到模型在规划时会“举例”，比如它会自己设定一个车型 ID（如 12345），然后直接填入工具调用中，将查询不到结果。参数校验环节会验证 ID 的有效性，并提醒模型这个 ID 有误，需要重新验证。
组合引导：当用户查询车系时，有时还需要车型级别的信息。我们可以在车系工具的调用返回中，加入适当的话术，引导用户进行后续的、我们预判用户可能需要的工具调用（如查询该车系下的所有具体车型）。