6.5 验证、评测和质量闸¶
AI 代码不是通过“看起来合理”完成的,而是通过验证完成的。
最小验证层¶
| 验证 | 目的 |
|---|---|
| 单元测试 | 局部逻辑正确 |
| 集成测试 | 模块协作正确 |
| E2E | 用户路径正确 |
| lint | 风格和明显错误 |
| typecheck | 类型和接口一致 |
| build | 产物能构建 |
| diff review | 人判断是否符合意图 |
Agent 必须交代验证结果¶
不要接受:
应该没问题。
要它输出:
已运行:
- pnpm test
- pnpm typecheck
结果:
- test 通过
- typecheck 通过
未运行:
- e2e,因为本地缺少浏览器依赖
建议人工运行:
- pnpm e2e
质量闸¶
对于高风险任务,设置闸门:
计划闸:
没有计划不能实现。
测试闸:
没有验证不能说完成。
审查闸:
没有人审 diff 不能合并。
安全闸:
权限/支付/数据变更必须额外审查。
评测不是只给模型打分¶
在个人和团队工作流里,评测更实际的形式是:
- 同类任务一次通过率。
- 返工次数。
- 测试失败率。
- review 发现的问题数。
- 重复错误是否下降。
- 需求到合并的周期。
这些指标比“某模型排行榜第几”更有用。