Phase 1:别用 Label Studio 的 Source Storage 接本地文件
一篇短的警示。LS 的「Cloud Storage → Source Storage」看起来就是为本地数据设计的。用了它,你会得到几万个跟 Import 进去的真任务冲突的幽灵 task。
label studio数据流水线
5 篇文章
一篇短的警示。LS 的「Cloud Storage → Source Storage」看起来就是为本地数据设计的。用了它,你会得到几万个跟 Import 进去的真任务冲突的幽灵 task。
「每 N 帧抽一张」的均匀采样浪费标注员时间在模型本来就标得好的帧上。四个信号能挑得更准——段边界、段内均匀、低置信度、bbox 跳变。
把 Label Studio 导出收回去微调下一版模型时,把导出里**所有东西**都当 ground truth 是「用模型自己的预测训模型自己」的快速通道。一个字节进训练集之前应该跑的几道过滤。
视频预标注多 project 模式深挖——什么逼出了拆分、一个 episode 怎么扇成三种 task、以及别和 Label Studio 的数据模型对着干。
给一个具身机器人 Pick-and-Place 数据集做的 Phase-1 预标注流水线 —— MediaPipe + YOLO 推理、动作分段、Label Studio 导入,以及那些让它没在半路崩掉的「无聊」决定。