Radiology:使用手X线片的儿童骨龄深度学习模型评估
时间:2023-01-24 18:01:15 热度:37.1℃ 作者:网络
尽管人工智能(AI)受到放射科医生的热烈欢迎,但事实证明,深度学习(DL)算法容易受到各种各样因素的影响。限制了进一步的临床应用。一个缺陷是缺乏通用性,在一家医院或环境的图像上训练的算法,在不同医院的图像上测试时性能会下降。第二个隐患是偏见,即一个算法在一组病人身上的表现比另一组更好,这可能会使预先存在的医疗保健差异永久化。这些隐患威胁着人工智能的安全和公平使用。
放射学中DL的最早应用之一是预测小儿骨龄,这是一项临床上重要但单调的任务。尽管作为2017年RSNA儿科骨龄挑战赛的一部分,开发了高性能的骨龄DL算法,获胜的算法与放射科医生相比实现了约4.3个月的平均绝对差异(MAD),但它们对不同外部人群的普遍性尚未得到评估。此外,骨龄算法的偏差也没有得到评估,这一点尤其重要,因为广泛使用的Greulich和Pyle骨龄标准最初是在20世纪30年代和40年代从同质的白人儿童群体中制定的,可能并不适用于其他种族或民族的儿童或当代人群。
近日,发表在Radiology杂志的一项研究以外部测试集与内部验证集的性能和不同人口群体之间的性能差异为标准,量化了骨龄DL模型的通用性和偏差,为该技术的进一步广泛应用铺平了道路。
本项研究使用2017年RSNA儿科骨龄挑战赛的获胜DL模型对来自美国两家医院的12611张儿科手部X光片进行了回顾性评估和训练。2021年9月至2021年12月,在内部验证集和外部测试集上对DL模型进行了测试,测试的对象是具有不同人口代表性的儿科手部X光片。报告真实骨龄的图像被纳入研究。计算了每一组的真实骨龄和模型预测骨龄之间的平均绝对差异(MAD)。通过使用t检验比较内部和外部评估集的MAD来评估其普适性。通过使用t检验或方差分析和χ2检验,分别比较人口统计学组之间的MAD和临床意义上的错误率(改变临床诊断的错误率)来评估偏差(统计学意义上的差异定义为P < .05)。
内部验证集有1425人的图像(773名男孩),外部测试集有1202人的图像(平均年龄,133个月±60[SD];614名男孩)。骨龄模型对外部测试集有很好的概括性,在MAD方面没有差异(验证集为6.8个月,外部集为6.9个月;P=0.64)。在外部测试集的1202张图像中,有194张(16%)的模型预测会导致临床上的重大错误。在内部验证集中,女孩的MAD大于男孩(P = .01),在外部测试集的年龄和Tanner阶段子类别中,MAD也大于男孩(两者的P < .001)。
图 数字手部图谱数据集中没有明显临床病史的健康儿童正面手部X光片的随机示例,这些例子在16Bit模型评估时存在临床上的重大错误,包括(A)33个月大的黑人男孩,深度学习(DL)模型平均绝对差异(MAD)为15个月,导致临床诊断为高级骨骼成熟度。(B) 201个月大的亚洲女孩,DL模型的MAD为24个月,结果临床诊断为骨骼成熟度延迟;(C) 189个月大的白人男孩,DL模型的MAD为60个月,结果临床诊断为骨骼成熟度正常;(D) 75个月大的西班牙裔女孩,DL模型MAD为15个月,结果临床诊断为骨骼成熟度正常
本项研究表明,在手部X光片上训练的深度学习(DL)小儿骨龄预测模型对不同的外部测试集有很好的概括性,但也表现出临床上明显的基于性别、年龄和性成熟度的偏差。本研究建议在临床上使用DL模型时要谨慎,特别是在没有评估偏差的情况下,并强调使用临床相关指标来评估DL模型的重要性。
原文出处:
Elham Beheshtian,Kristin Putman,Samantha M Santomartino,et al.Generalizability and Bias in a Deep Learning Pediatric Bone Age Prediction Model Using Hand Radiographs.DOI:10.1148/radiol.220505