Phase 2：eval 集**绝不**能见过预标注

eval 集是 HITL 管线里唯一需要在每轮迭代之间保持干净的东西。这件事做错，所有其他指标——分段器 F1、关键点像素误差、动作分类准确率——都是假的。这篇说「干净」在这里到底是啥意思、怎么维持。

偏差陷阱

Phase 1 产出预标注。标注员校验。如果你直接拿 10% 校验过的 episode 当 eval 集，那些 eval 标签里装着：

eval 集里每一帧都跟模型预测相关。在这个集上算 F1，测的是「跟『从模型输出开始改的标注员』之间的一致性」，不是「跟真值的一致性」。模型微调；新模型跟 eval 标签更一致（理所应当——它跟旧模型同族）；F1 上去了；所有人开心；真实世界数据上的模型没动过。

这是多数 HITL 项目搞砸的那一个决定。指标告诉你闭环在 work，其实没有。

eval 集要满足三条：

标签是在没见过任何模型预测的情况下产生的。 标注员从零标。没有预填、没有「接受/拒绝」UI 模式。
episode 是在任何模型碰过它之前选的。 别从「好标的」候选里采 eval episode。在可用池子里随机、早早定下、冻起来。
eval 集小到合理、大到能检测变化。 每个 task 类型 ~100 帧是合理起点。低于 ~30 啥都测不出；高于 ~500，你花在 eval 上的标注员时间就是从训练数据里挤出来的。

干净 eval 集 = 每轮用同一个集、用同样方式标。集里的 episode 在微调时禁用——它们永远不进任何训练 slice。每次重训用同一份标签，把不同模型版本拿到同一个靶子前对比。

第一次跑 Phase 1 之前：

这事很烦——从零标比验证预标注慢 3-5 倍。第一天就把预算编进去。后面你没时间补。

三个值得长期跟踪的指标：

第 3 条总有一天会救你。第一天就装上。

两个正当理由：

两种情况下规则一样：建新的、不要扩展老的。跨 eval 集变化比较模型版本 = 在比较不同的测量。