工作总结
发表时间:2026-04-232026年AI数据标注员工作总结。
干数据标注这行快四年了。头一年觉得就是个鼠标活——拉框、打点、分类,谁干都一样。后来慢慢发现,框拉得漂不漂亮,点打得准不准,直接决定算法上路会不会撞墙。现在我不光自己标,还负责维护团队的工具插件和质检脚本。今天不说虚的,聊几个真摔过跟头的例子。
第一跤:点云里的“幽灵卡车”
去年接了个自动驾驶项目,标激光雷达点云里的车辆和行人。规范写得很清楚:“被遮挡超过30%的目标也要标,但只能标可见部分。”结果八个人标同一批数据,我抽检发现一辆半挂车被标成了三个独立框,另一个同事把路边的石墩标成了行人。说白了,大家对“可见部分”的理解差了十万八千里。
那周我每天加班到十一点,把争议样本一帧一帧翻出来看。发现根本原因:点云稀疏区域没有参考线,人眼判断容易飘。我花了三个晚上写了个小脚本——能把同一帧的俯视图和侧视图同时显示在标注界面上,还加了个半透明网格,网格间距按常见车辆长度2.5米来设。第一版跑出来发现半挂车车厢中间有断点,因为网格线正好卡在车身上。我又改了一版,让网格能手动微调偏移量。
然后组织了一次现场演练:大家每人标10帧,我当场用脚本跑一致性对比,偏差超过15%的帧投到大屏幕上集体复盘。有个老员工当场跟我杠:“你网格间距2.5米,那遇到Smart和小货车怎么算?”我想了想,在规范里加了一条:网格只做参考,最终以实际点云密度为准——密度高于3点/平方米的区域必须标,低于5个孤立点的区域不标。后来我们把这套规则做成一张查检表贴在每个工位旁边。项目验收时客户抽检,错误率从11.7%降到2.3%。但说实话,那2.3%后来也没再降下去,因为有些目标实在太稀疏,人眼也看不准——这个问题到现在还在琢磨。
第二跤:语义分割的“毛刺噩梦”
今年三月,一个雨后的早晨,客户打电话来。不是感谢,是骂人。“你们上周交的三千张道路场景分割图,边缘毛刺太多,模型训练不收敛,自己看!”我打开样本一看,确实惨不忍睹——标注员为了赶进度,都用多边形套索大致圈一圈,边缘锯齿跟狗啃似的。按规范要逐像素修,但三千张,每人每天最多修30张,根本来不及。
我做了两版方案。第一版应急:写了个平滑脚本,基于形态学闭运算,能把2像素以内的凸起填平。跑完一轮,边缘粗糙度降了60%。但第二天客户又打电话:“你把车道线也磨没了!”我一看,脚本把细长的车道线误伤成了虚线。那天下午我蹲在工位上反复调参数,把闭运算的核从圆形改成椭圆形,方向跟车道线平行——折腾到晚上十点,终于保住了车道线。
第二版治本:开发一个半自动标注插件。原理不复杂——先用传统CV的边缘检测生成初始轮廓,然后让标注员只修正曲率突变的控制点。但我踩了个大坑:初始轮廓在反光区域总是断裂。试了三种边缘检测算子都不行,最后加了一道形态学膨胀把断裂处连上,再手动修一下。配合快捷键(Alt+左键自动吸附最近边缘),原来一张图要8分钟,现在平均2分半,边缘精度从±3像素提升到±1像素。那周我们团队每天能多睡两小时,项目提前两天交付。交完那天晚上,我请组里吃了顿烧烤,喝了两瓶啤酒,跟客户打电话确认数据可用时,他说了句“这次还行”。就这句,比啥都强。
第三跤:互检流程的“走过场”
我们一直有三检:自检、互检、专检。但互检经常流于形式——大家都赶进度,随便点两下就过了。有一次我抽查互检记录,发现小张连续三天反馈全是“无问题”,但我抽了他10%的数据出来,找出17处漏标。我找他聊,他挠头说:“我也看不出来啊,跟自己的标法差不多。”
- ✹述职报告之家内容组内部知识竞赛题库:
- 数据标注工作总结 | 2026年工作总结 | 数据标注转正总结 | 2026年终工作总结 | AI数据标注员工作总结 | AI数据标注员工作总结
问题不在态度,在工具。于是我写了个“差异热力图”脚本——自动比对两个人的标注结果,把不一致的区域用红色高亮,还计算Kappa系数。第一版跑起来慢得要死,比对一帧点云要40秒。我优化了算法,改成只比对边界框重叠区域,降到5秒一帧。然后修改流程:互检不再自由浏览,必须针对热力图上Kappa低于0.85的区域逐项确认。同时把互检发现的有效问题数计入绩效——发现一个真问题加0.2分,漏过一个扣0.5分。
实行第一周,互检有效率从32%跳到89%。但也有副作用:有人开始为了刷分,把明显没问题的区域也标记成问题。我又加了一条规则:被驳回的错误标记倒扣1分。折腾了两周才算平衡。
几点实在话
- 规范别指望“理解”。任何规则只要有两种解读,就必须画成图例或者做成工具约束。比如遮挡标注,我后来直接在工具里把不可见部分置灰,你想标都标不了。
- 效率瓶颈往往在重复操作。我统计过,一个标注员一天要按12000次鼠标和快捷键。花半天写个吸附功能,省下来的时间够你标两周。
- 质量不是检查出来的,是嵌在流程里的。以前我们等全部标完再抽检,发现问题返工成本极高。现在我在提交按钮上做了个前置校验——如果当前帧存在未闭合多边形或者面积异常(比如把整片天空标成车辆),直接弹窗禁止提交并定位问题。这个改动让返工量减少了70%。
记得项目冲刺那周,新来的大学生小刘累得眼睛充血,标了一整天才发现他用的坐标系和规范差了一个像素偏移。那天晚上我陪他重标了三百帧,一边重标一边琢磨怎么避免这种事。后来我在工具启动时自动读取规范版本号,如果本地缓存和服务器不一致就强制更新,并显示差异对比。这种小东西不炫酷,但真能救命。
说实话,我现在看到“AI数据标注”这几个字,第一反应不是高大上的算法,而是每天跟像素、点云、边缘较劲的日常。标错一个像素,模型就可能把消防栓当成人,这在路测里是要出事故的。带这种压力干活,你自然会去抠每个边缘、每条规则。至于那些什么“宏观战略”,跟我们一线没半毛钱关系——把手头这把尺子拿稳了,比什么都强。
- 更多精彩的工作总结,欢迎继续浏览:工作总结
