Radiology:如何塑造理想化的放射组学模型?

时间:2023-07-04 15:05:26   热度:37.1℃   作者:网络

近年来,人工智能和机器学习(ML)在医学领域得到了广泛的关注。在图像分析领域,放射学特征或通过对图像中的强度值进行数学运算计算出的手工数字特征已被用于描述感兴趣区域的强度、大小、形状和纹理。在研究环境中,ML和手工绘制的放射组学特征已被结合起来用于包括病理分类、生存预测和潜在生物学特征的描述。人工智能模型也可用于适应放射组学特征,或直接用源图像进行训练(卷积神经网络)。然而,尽管它们受到广泛欢迎并被广泛应用,但由于方法学上的错误,已发表的放射组学ML分析的结果往往过于乐观。

数据分区是指将可用数据分为不同的训练、验证和测试集。从根本上说,每个分区对ML模型的开发都是必要的,因为它分别用于学习参数(训练)、评估这些参数的影响(验证)和评估最终模型(测试)的内部和外部。然而,许多放射组学研究回避了原始数据的分割,分割不恰当或放弃了外部测试集,限制了结果的质量和科学影响。然而,不一致的分区使得测试集的数据被无意中泄露。"信息泄露 "是指在训练预测模型时,无意中加入了测试集的特征,导致报告的性能出现虚假的膨胀。

性能膨胀的第二个方面是无益的特征关联。这是指对放射组学特征和其他变量之间的因果关系的高估。放射性组学特征是高维数据一些特征提取包通过在计算特征值之前对图像强度应用过滤器(例如,指数、对数、小波),可以提取1800多个特征。数据的大尺寸使得放射组学数据集非常容易被ML模型过度拟合,特别是由于大多数医疗数据集包含的样本很少。

近日,发表在Radiology杂志的一项研究明确了放射组学ML研究中存在的方法学错误的类型、普遍性和统计影响,为该技术在临床上的广泛应用及转化提供了技术支持。

本项研究评估了放射组学ML文献中存在的性能膨胀的方法学缺陷随后用从公开的放射学数据集中随机生成的特征再现了常见的缺陷以证明报告的结果的不稳定性。

在对放射组学ML出版物的评估中,作者发现了两类常见的数据分析错误:不一致的分区和无益的特征关联。在模拟中,作者证明,不一致的分区使放射学ML的准确性比无偏的性能提高了1.4倍,并且纠正有缺陷的方法学结果,使接收操作特征曲线下的区域接近0.5的值(随机机会)。通过使用随机生成的特征,作者说明放射组学特征和基因组之间的非生产性关联可能意味着生物现象的错误因果关系。


 
图 癌症基因组图谱低级别胶质瘤(左)和头颈部鳞状细胞癌(右)数据集中与总生存期(OS)相关的随机放射组学特征的基于病例的共识聚类。尽管有明显的特征分布差异,如热图所示,但在统计学上,两组数据的结果分布并无明显差异

本项研究结果表明,放射组学机器学习研究需要更加严格的分析和审查,采用一致的数据分区和适当的特征关联可确保开发出适应性的统计模型。

原文出处:

Mishka Gidwani,Ken Chang,Jay Biren Patel,et al.Inconsistent Partitioning and Unproductive Feature Associations Yield Idealized Radiomic Models.DOI:10.1148/radiol.220715

上一篇: 「践行者」梁博教授:肝癌治疗领域,传统中...

下一篇: Nature综述:抗衰老药物的开发


 本站广告