问题:
感谢团员@明德 的友情回答分享:
针对这个问题,主要从标签设计原则和标注方法两个角度来解答:
一、标签设计原则
首先,明确本次标注任务的目的,根据任务目的去设立标签类别以及维度。
要达到已标注数据无冲突的目的,在标签设计时至少要满足(同维度)互相独立原则(两个标签之间没有交集,即不存在一条数据同时可以命中同一维度的两种不同标签);
以及,在加入其它类标签后,能够符合完全穷尽原则(即不存在一个标签都不适用的情况),完全穷尽需要根据标注需求的不同而调整。
如果再把标签本身的颗粒度考虑进去,标签颗粒度越粗,互相独立更难实现,完全穷尽较容易实现;标签颗粒度分得越细,互相独立就顺理成章了,需要着重考虑完全穷尽的问题。
二、标注方法
为了避免这一问题,在确定了标签设计方案以后,需要由方案制定者本人带领有经验的标注人员,选取小批量随机数据进行试标,凭借他们的经验和设计初衷,能够很快发现小批量数据中的问题,哪个标签设计原则(互相独立、完全穷尽)的问题比较大,并判断出是否会影响到模型训练效果,根据实际试标结果去优化标签设计方案,最终用于项目实战中。
如果出现这种情况,需要在前期加强质量把控,对于最开始的试标和初期的正式标注,确保每一个参与的标注人员都已经正确理解了标签的分法以及常见特殊情况的处理方式(对同一数据不会出现明显打架的处理方式,可以挑一部分难度较高的数据做测试),在质量差异趋于稳定后加快速度完成剩余部分(每个人的标签分布情况可以作为衡量质量差异的参考)。
-END-
以上内容,来自知识星球“AI产品经理大本营”,识别下图二维码,即可加入。
---------------------
作者:黄钊hanniman,前图灵机器人-人才战略官,前腾讯产品经理,8年AI行业经验,11年互联网背景,微信公众号/知乎/在行ID“hanniman”,“AI产品经理大本营”创建者,分享原创AI产品干货,200页PPT《人工智能产品经理的新起点》被业内广泛好评,下载量1万+。