【深度学习:标记数据】为医生标记数据缓解疼痛
我开始在物理学方面进行学术研究,但在第一年就退学了(抱歉,休学了)我的博士学位,并在定量金融领域做了很长一段时间。因此,在我第一篇经过同行评审的已发表论文的所有可能主题中:投资组合优化、暗物质特征、密度泛函理论,我最终选择了......在结肠镜检查视频上绘制矩形的主题。我没想到事情会发展到这个地步,但我们到了。但实际上,在结肠镜检查视频上画方框是我研究过的最有趣的问题之一。
这篇文章的目的是回顾我们(包括我在 Encord 的联合创始人 Ulrik)最近发表的关于这个主题的论文:"新型人工智能驱动的软件显着缩短了计算机视觉项目中注释所需的时间"。这篇论文发表在《内窥镜国际公开赛》杂志上,可以在这里找到。这是在伦敦国王学院的合作者 Bu Hayee 博士和 Mehul Patel 博士的灵巧和耐心协助下共同编写的。
为了说服您在已经看到"注释"和"结肠镜检查"这两个词后继续阅读,我们可以首先声明胃肠病学领域对人类福祉非常重要。这既包括癌症发病率,也包括日常慢性疾病。来自 cancer.org:
在美国,结直肠癌是男性和女性癌症相关死亡的第三大原因,也是男性和女性癌症死亡的第二大常见原因。预计 2021 年将造成约 52,980 人死亡。
更普遍的是炎症性肠病(IBD)。2015 年,美国约有 300 万人被诊断出患有 IBD,这种疾病与呼吸系统、肝脏和心血管疾病等的可能性更高有关。
但胃肠病学对人工智能社区也非常重要。它是医疗人工智能商业采用的早期先锋之一。宾得(Pentax)、富士胶片(FujiFilm)和美敦力(Medtronic)等公司都是医疗设备公司的一部分,这些公司正在进入该领域,以建立自己的人工智能范围界定技术。这些模型可以对息肉进行实时检测,并在范围界定过程中充当胃肠病学家的助手,有时甚至可以捕捉到医生的盲点。
息肉检测在行动
这一领域的进展将成为持怀疑态度的医学界的灯塔,即人工智能不仅仅是数学家和计算机科学家的游乐场,而是一种直接影响人们生活的实用工具。
但是,有一个问题。
问题
与机器学习模型不同,机器学习模型向毫无戒心的注意力受害者提供狂欢的Netflix节目(错误的赌注是你最终观看了一集艾米丽在巴黎),错误或错误诊断溃疡性结肠炎对人们的健康有重大影响。因此,开发的模型需要像机器学习世界中那样万无一失。这需要大量的数据。
从经验上讲,模型往往需要不断增加的数据量来对抗性能停滞。获得 0% 到 75% 的模型准确率可能需要与 75% 到 85% 相同的数据量,这需要与 85% 到 90% 相同的数据量,依此类推。为了获得超过99%的准确率,使用我们目前拥有的方法和模型,您需要将大量数据投入到这个问题中。
问题在于,要使模型从这些数据进行训练,需要对其进行注释。这些注释只能由医生自己有效地完成,他们拥有正确识别和分类患者视频和图像的专业知识。这是对医生时间的巨大消耗。
一个高精度的内窥镜检查模型可能需要一百万个注释帧。假设保守估计每帧 20 秒,包括一到两名其他医生的审核,这相当于 230 天的医生时间,大约相当于一年的工作日。医生在这一年的工作时间里,最好用于治疗和护理病人(以及练习书写)。
这种机会成本正是创办 Encord 的最初动机。我们希望为任何需要进行数据注释的人节省宝贵的时间,医生就是最典型的例子。在建立了我们的平台后,我们想看看它是否真的有效。于是,我们做了一个实验。
实验
我们决定对我们的平台与使用最广泛的开源视频注释工具(CVAT)进行一次简单的 A/B 测试。开放的视频注释工具很难找到,但 CVAT 是 GitHub 上用户最活跃的平台之一,也是 GitHub 上的明星产品。
我们从开源胃肠道数据集(Hyper-Kvasir 数据集)中设置了一个数据样本来执行实验。从论文中:
利用 Hyper-Kvasir 数据集[7] 中的息肉视频子样本,要求五名独立标注者在数据集中的视频中识别出的息肉周围画出边界框。测试集包含 25,744 个帧。
实验装置为
- 每位注释员将有两个小时的时间学习 Encord,两个小时的时间学习 CVAT
- 注释者将在两个平台上以相同的顺序运行数据,并使用每个平台的任何可用功能
- 注释者只能提交他们在流程结束时审查过并满意的图框
- 两个小时结束后,我们将简单地计算每个平台上每个注释者认可的帧数
Encord 平台(论文中称为 CdV)的强大之处在于其快速训练和使用注释特定模型的能力,但在实验中,没有为注释者提供任何标签或模型种子。他们只能使用在实验时限内用自己标注的数据自行训练的模型。当然,通常情况下不会这样。如果你要标注成百上千帧的数据,你就已经有了模型和情报可以利用,但我们希望尽可能地增加不利因素,让标注者从冷启动开始。
结果
结果不相上下。摘自论文:
在 120 分钟的项目中,CVAT 的平均(±SD)标记帧数为 2241±810(不到总数的 10%),而 CdV 的平均(±SD)标记帧数为 10674±5388(p=0.01)。平均标记速度分别为 18.7/min 和 121/min(增加了 6.4 倍;p=0.04),而 CdV 的标记动态也更快(p<0.0005;图 2)。使用 CdV 时,5 位标注者中有 3 位完成了项目数据集的标注(平均耗时为 99.1±15.2 分钟),而使用 CVAT 时,所有标注者均未完成标注。
在使用 CVAT 时,大多数标注者都无法完成第三段视频的标注。与 CVAT 相比,Encord 能为每位注释者生成更多的标签。最令人鼓舞的是,注释者中最资深的博士,也就是使用任何注释软件经验最少的人,使用 Encord 的效率提高了 16 倍。这正是我们设计该平台的目标用户,因此看到这些结果非常令人鼓舞。这是实现我们假设的一个重大胜利。
简而言之,Encord 效率较高的原因只是大部分贴标工作实现了自动化:
标签制作者可以利用每个平台提供的任何功能采用自己的标签制作策略。在 CVAT 平台上,这包括绘制边界框的工具,以及使用边界框坐标线性插值法在帧间传播边界框的工具。在 CdV 平台上,标注者可以使用手工标注注释工具和 CdV 的嵌入式智能功能。这种嵌入式智能功能包括物体跟踪算法以及训练和运行卷积神经网络(CNN)来标注数据的功能。
即使在完全冷启动的情况下,Encord 的 "嵌入式智能 "也能自动完成实验过程中超过 96% 的标签制作:
使用 CdV 时,只有 3.44%±2.71% 的标签是由注释者手工绘制的。其余的都是通过模型或跟踪算法生成的。因此,在使用 CdV 的情况下,用较少的初始人工输入就能生成更多的标签(图 3)。自动生成的标签仍然需要人工审核和/或调整。对于模型生成的标签,标注者平均需要花费 36.8±12.8 分钟的时间逐帧查看并进行修正。
在我看来,最有趣的观察是在Encord平台下标签率的加速。对于CVAT,标签率在实验期间保持大致恒定。然而,使用Encord,在平台上每隔20分钟,注释速度中位数提高55%(!)。每个标签对下一个标签的影响微乎其微。希望随着更多的标签和更大的项目,这种效果将导致创建训练数据集的时间(和财务)成本急剧下降。
结论
虽然结果不错,但我们认识到还有很多工作要做。息肉检测是一项相对简单的标注任务,因此虽然对医生来说是一项昂贵的税收,但我们意识到还有更昂贵的税收需要我们去解决。我们的软件旨在处理任意复杂的标记结构,但围绕这种复杂性设计自动化是一个棘手但有趣的问题,我们正在努力解决。
尽管如此,我们已经证明,我们可以为医生节省大量的数据注释时间。给他们提供智能但易用的工具,他们就能节省自己的时间。有了这些,医疗人工智能下一次迭代的瓶颈就不需要是缺乏训练数据了。