如何定义人类表现水平

假设你正在做一个医学成像应用程序，它可以自动依据X射线图像进行诊断。除了一些基础的训练外，一个没有任何医学背景的人在该任务上的错误率为 15% . 一名新手医生的错误率为 10% ，而经验丰富的医生可以达到 5% . 如果由小型的医生团队对每一幅图像进行单独的讨论，错误率将降低至 2% . 上述的哪一种错误率可以定义为“人类表现水平”呢？

在该情景下，我将使用 2% 作为人类表现水平的代表来获得最优错误率。你还可以将 2% 设置为期望的性能水平，因为与人类表现水平相比，前一章的所有三个理由都适用：

易于从人为标签中获取数据。你可以让一组医生为你提供错误率为 2% 的标签。
基于人类直觉进行误差分析。通过与医生讨论图像内容，你可以利用他们的直觉。
使用人类表现水平来估计最优错误率，并设置可达到的“期望错误率”。 使用 2% 的误差作为我们对最优错误率的估计是合理的。最优错误率甚至可能低于 2%，但它不可能更高，因为一个医生团队就已经有可能达到 2% 的误差水平。相比之下，使用 5% 或 10% 作为最优错误率的估计就显得不合理了，因为我们知道这些估算值必然过高了。

当需要获得标签数据时，你可能不希望与整个团队讨论每一张图片，因为他们的时间很宝贵。或许你可以让新手医生给绝大多数的病例贴上标签，而把那些较难分析的病例交给更有经验的医生或医生团队。

如果你的系统目前的误差为 40%，那么不论是让初级医生（10% 误差）还是有经验的医生（5% 误差误）来给你的数据贴上标签，那都没有关系。是如果你的系统误差已经是 10%，那么将人类表现水平定义为 2% 将为你提供更好的途径来改进你的系统。

改进当前页面