#数据流水线

7 篇文章

Phase 1：规范文件名换零配置批跑

一个像 `NN_NNN_ego.mp4` 这样的命名约定，能把整批跑的入参压到只剩一个 CLI 参数。为啥这件事便宜，又为啥它逼你**不**写一些代码。

一篇短的警示。LS 的「Cloud Storage → Source Storage」看起来就是为本地数据设计的。用了它，你会得到几万个跟 Import 进去的真任务冲突的幽灵 task。

「每 N 帧抽一张」的均匀采样浪费标注员时间在模型本来就标得好的帧上。四个信号能挑得更准——段边界、段内均匀、低置信度、bbox 跳变。

为什么视频预标注管线会演化出一个独占路径计算的 `layout` 模块，以及当六个不同部分各自拼路径时会静默地坏掉什么。

视频预标注多 project 模式深挖——什么逼出了拆分、一个 episode 怎么扇成三种 task、以及别和 Label Studio 的数据模型对着干。

推理帧率和 review 帧采样看起来是一回事，其实不是。两个旋钮各能换到什么、混在一起会坏掉什么。

给一个具身机器人 Pick-and-Place 数据集做的 Phase-1 预标注流水线 —— MediaPipe + YOLO 推理、动作分段、Label Studio 导入，以及那些让它没在半路崩掉的「无聊」决定。