数据集说明首先要回答“能不能被信任”
如果后续公开 DroneSOD-30K,其实有很多需要考虑的地方。反无人机场景的数据集很容易被误解:图片来自哪里、是否有隐私或敏感区域、标注规则是什么、困难样本如何定义,这些都会影响别人是否愿意复现实验。
我准备把数据集说明拆成四部分:数据来源、清洗规则、标注质量控制和公开限制。每一部分都用尽量明确的表格描述,而不是只写“we collect a dataset”。
困难样本要单独说
小目标检测里,困难样本往往不是单纯的小。它可能是低对比度天空、远距离无人机、云层边缘、鸟类误检、建筑边缘干扰,也可能是压缩噪声导致的弱纹理目标。
如果这些样本没有被单独解释,模型提升就容易看起来像一个抽象的 mAP 数字。更好的写法是把困难样本和方法设计对应起来:为什么需要 P2,为什么需要更谨慎的后处理,为什么部署端还要关注误报。
公开边界也要写在前面
公开数据集不是越完整越好。对无人机场景来说,场景来源、设备信息和敏感区域都需要处理。能公开什么、暂不公开什么、未来如何申请访问,都应该在页面上说清楚。这样做虽然麻烦,但能减少后续沟通成本。
Comments
评论