AI 研发实验该怎么做:验证的不是代码产量,而是闭环能力

AI 研发实验该怎么做:验证的不是代码产量,而是闭环能力

如果一家软件公司准备认真做 AI 研发实验,我通常会建议:先别急着问“哪个模型最强”,也别先问“能不能完全不看代码”。

更应该先问的是:

我们到底想验证什么?

这是一个看起来很简单、但很多实验一开始就答错的问题。

很多团队做 AI 研发实验时,默认的衡量方式是:

  • 写了多少代码
  • 自动完成了多少功能
  • 连续跑了多久
  • 人工介入少不少
  • 总成本高不高

这些指标不是没用,但如果把它们当成核心指标,实验很容易走偏。因为它们更多测到的是产量,而不是研发能力

而软件研发真正要验证的,从来不只是“AI 能不能写出来”,而是:

AI 能不能在需求、实现、测试、验收和知识沉淀之间形成一个可靠闭环。

如果不能,产量再高,也只是一次漂亮的冲刺;如果能,哪怕一开始产量不高,也说明这套体系有长期价值。


1. 为什么“代码产量”是一个危险的主指标

产量很好看,尤其适合做演示。

比如:

  • 一周内扩了多少功能
  • 代码行数从几千变几万
  • 新增多少页面、接口、测试
  • 一个 Agent 连续工作了多长时间

这些数字天然有冲击力,管理者也容易理解。

但问题是,代码产量有三个天然偏差。

1.1 它鼓励系统追求“多做”,而不是“做对”

一旦团队把产量放在首位,AI 很容易朝下面这些方向优化:

  • 更快生成代码
  • 更少停下来确认边界
  • 更倾向于“先做出来再说”
  • 更倾向于补表层测试让结果看起来完整

这会让实验很热闹,但不一定很扎实。

1.2 它会掩盖返工成本

很多 AI 产出看起来很快,真正贵的是后面的事情:

  • 第二轮需求变动后是否还能稳住
  • 旧功能会不会被新功能打坏
  • 新人接手时是否看得懂
  • 下一轮迭代时是否需要大面积返工

如果这些成本不计入实验,产量指标就会显著失真。

1.3 它无法反映组织学习

研发实验真正有价值的部分,不只是交付了一个样品,而是团队有没有通过这次实验学会:

  • 哪类任务适合 AI
  • 哪些地方必须人工介入
  • 哪些测试最关键
  • 哪些知识必须提前结构化
  • 哪种任务拆分方式最有效

这些学习如果没有沉淀,下一次实验就还会从头踩一遍坑。


2. 什么叫“闭环能力”

我这里说的闭环,不是一个抽象口号,而是指一件具体的事:

一个任务从提出,到实现,到测试,到验收,到经验回收,能否形成自洽、可追踪、可复用的循环。

如果一个实验真的要有方法论价值,我认为至少要看五个闭环。

2.1 需求闭环

看什么?

  • 需求是否被充分澄清
  • 歧义是否能在过程中被及时暴露
  • 暴露出的歧义是否被回写到文档或系统
  • 后续任务是否继承了这些修正

很多团队会低估这件事。实际上,需求闭环往往是实验成败的第一分水岭。

AI 不是怕复杂需求,AI 更怕模糊需求和漂移需求。

2.2 实现闭环

看什么?

  • 实现方案是否与需求边界一致
  • 中途发现问题后,是否能调整而不是硬凑
  • 多轮修改后,代码结构是否仍然保持可维护
  • 一个改动是否会牵出意料之外的连锁副作用

实现闭环关注的不是“有没有写出来”,而是“有没有在变化中持续写对”。

2.3 测试闭环

看什么?

  • 测试是否覆盖最关键风险
  • 测试失败时,AI 是否能真正定位原因
  • 历史 bug 是否被转化为回归测试
  • 测试策略是否随着需求边界更新而同步演进

如果测试闭环不成立,实验里的“通过”通常没有太大说服力。

2.4 验收闭环

看什么?

  • 验收标准是否清晰且可执行
  • 标准变化后,是否有机制同步到实现和测试
  • 人工 review 是否集中在高价值节点,而不是被迫到处补洞
  • 最终交付是否真的满足业务目的,而不是只满足形式标准

一个成熟实验的目标,不是消灭人工验收,而是把人工验收放在最有价值的位置上。

2.5 知识闭环

这是最容易被忽略、但我认为最重要的一环。

看什么?

  • 这次实验学到了什么
  • 哪些方案被证明有效
  • 哪些失败模式反复出现
  • 哪些知识应该沉淀成规则、模板、回归用例或知识卡片
  • 下一轮任务能否直接复用这些成果

如果一个实验结束后,只有代码,没有知识回收,那它对组织的长期价值非常有限。


3. 一个更合理的 AI 研发实验,应该怎么设计指标

如果让我给一家软件公司设计 AI 研发实验指标,我会把指标分成四类。

3.1 效率指标:可以看,但不能独大

  • 单任务完成时长
  • 人工介入次数
  • 需求到交付的总周期
  • 自动化完成的工作量占比

这些指标重要,但只能说明“快不快”。

3.2 质量指标:决定实验有没有可信度

  • 核心测试通过率
  • 回归缺陷数量
  • 修复一个问题引入的新问题数量
  • 多轮修改后的结构稳定性
  • 需求变更后的适应能力

这些指标说明“稳不稳”。

3.3 学习指标:决定实验是不是一次性的

  • 新发现的规则是否被记录
  • 失败原因是否结构化归档
  • 高价值提示词、流程模板、操作规范是否沉淀
  • 历史经验是否影响后续任务表现

这些指标说明“会不会越做越强”。

3.4 系统指标:决定 AI 能不能真正进入研发体系

  • 知识库是否持续更新
  • 任务分工是否清晰
  • 审批点是否合理
  • 状态是否可追踪
  • 不同 Agent / 工具 / 环节之间是否能协同

这些指标说明“能不能规模化”。


4. 为什么我建议从“小而真实”的任务开始,而不是从“简单 demo”开始

做 AI 实验,很多人会倾向于挑一个最简单的 demo 任务,觉得这样成功率高。

但我更倾向于另一种标准:

任务可以小,但必须真实。

什么叫真实?

  • 它真的对应一个用户或业务问题
  • 它真的有边界条件和历史包袱
  • 它真的需要测试和验收
  • 它真的会暴露组织流程中的问题

只有这样的任务,才能测出团队真正的摩擦点。

太假的 demo 往往只会验证一件事:模型很会做 demo。

这对组织设计帮助不大。


5. 我会怎么判断一个实验是不是“做对了”

不是看最后代码多漂亮,而是看实验结束后,团队有没有得到下面这些东西:

第一,一套更清晰的人机边界

知道:

  • 什么事情可以放心让 AI 直接做
  • 什么事情必须由人定义边界
  • 什么节点必须人工审批

第二,一套更清晰的任务分解方式

知道:

  • 什么任务适合整体下发
  • 什么任务必须拆成多个阶段
  • 什么任务应该由不同角色或不同 Agent 协作完成

第三,一套更清晰的测试策略

知道:

  • 哪些测试最能挡住真实风险
  • 哪些历史 bug 最值得优先固化为回归用例
  • 哪些“跑绿”其实没有意义

第四,一批真正沉淀下来的组织知识

知道:

  • 哪些模式会反复失败
  • 哪些输入会显著提升成功率
  • 哪些流程可以标准化
  • 哪些系统信息必须结构化才能让 AI 用起来

如果一个实验做完后,这四类东西都更清楚了,那即使它没有产出惊人的代码量,我也认为它是成功的。

反过来,如果代码写了很多,但团队仍然不知道下一次应该怎么做得更稳,那它更像是一场表演,不像一套方法论验证。


6. 这也是为什么“AI 研发实验”最后一定会通向研发中枢

只要你认真做两三轮实验,就会很快意识到:

问题逐渐不再是“模型会不会写”,而变成了:

  • 历史知识放在哪里
  • 当前状态怎么同步
  • 谁来维护任务上下文
  • 测试经验怎么回收
  • 被否决方案怎么避免反复重提
  • 哪些规则应该沉淀成组织资产

一旦问题走到这一步,你就已经不再是在设计一个实验,而是在设计一个系统。

也就是我一直在说的那件事:

真正有价值的 AI 研发,不会停留在“让 AI 参与几个任务”,而会继续走向“为 AI 建立一个研发中枢”。

因为没有中枢,闭环就只能靠人肉维持;而只要规模稍微一上来,人肉闭环就一定会断。


7. 结语

如果你准备做 AI 研发实验,我的建议很简单:

别把“写了多少代码”当成首要答案。

真正值得验证的,是这套体系能不能把需求、实现、测试、验收和知识沉淀连成闭环;是这次实验结束后,组织是不是比实验开始前更知道如何和 AI 协作;是下一次任务来时,团队能不能在上一次的基础上继续往前走,而不是重新开始。

代码产量说明的是 AI 有多忙。

闭环能力说明的是 AI 能不能真正进入你的研发系统。

两者相比,后者才决定上限。


如果说前两篇文章讨论的是“为什么一次实验不够”和“为什么中间差了一个 JARVIS”,那么这一篇更想回答管理层最实际的问题:AI 研发实验到底该如何设计,才不会只得到一组好看的产量数字。