跳转至

6.5 验证、评测和质量闸

AI 代码不是通过“看起来合理”完成的,而是通过验证完成的。

最小验证层

验证 目的
单元测试 局部逻辑正确
集成测试 模块协作正确
E2E 用户路径正确
lint 风格和明显错误
typecheck 类型和接口一致
build 产物能构建
diff review 人判断是否符合意图

Agent 必须交代验证结果

不要接受:

应该没问题。

要它输出:

已运行:
- pnpm test
- pnpm typecheck

结果:
- test 通过
- typecheck 通过

未运行:
- e2e,因为本地缺少浏览器依赖

建议人工运行:
- pnpm e2e

质量闸

对于高风险任务,设置闸门:

计划闸:
  没有计划不能实现。

测试闸:
  没有验证不能说完成。

审查闸:
  没有人审 diff 不能合并。

安全闸:
  权限/支付/数据变更必须额外审查。

评测不是只给模型打分

在个人和团队工作流里,评测更实际的形式是:

  • 同类任务一次通过率。
  • 返工次数。
  • 测试失败率。
  • review 发现的问题数。
  • 重复错误是否下降。
  • 需求到合并的周期。

这些指标比“某模型排行榜第几”更有用。