6.5 验证、评测和质量闸¶

AI 写出的代码不能仅凭“看起来合理”过关，必须经过验证。

最小验证层¶

不要接受：

应该没问题。

要它输出：

已运行：
- pnpm test
- pnpm typecheck

结果：
- test 通过
- typecheck 通过

未运行：
- e2e，因为本地缺少浏览器依赖

建议人工运行：
- pnpm e2e

对于高风险任务，设置闸门：

计划闸：
  没有计划不能实现。

测试闸：
  没有验证不能说完成。

审查闸：
  没有人审 diff 不能合并。

安全闸：
  权限/支付/数据变更必须额外审查。

在个人和团队工作流里，评测更实际的形式是：

这些指标比“某模型排行榜第几”更有用。评测用于找出团队的流程缺口。