【协和医学杂志】生成式人工智能对临床实践指南制订、评价和应用的影响

时间:2024-11-10 18:01:19   热度:37.1℃   作者:网络

生成式人工智能(GAI)是指能够从训练数据生成全新且有意义内容(如文本、图像或音频等)的人工智能(AI)技术[1],而大语言模型(LLMs)是基于文本数据理解和生成人类语言的AI系统。自2022年末ChatGPT 3.5发布后,研究者们开发了许多不同类型、语言和用途的通用GAI工具,如OpenAI发布的GPT-4.0及GPT-4o,可用于医学知识问答、辅助医学研究开展以及指导医学实践等多个领域;再如由旧金山Midjourney公司开发的Midjourney AI可将文本提示转化为视觉艺术(如图片等)。国内的GAI工具如深度求索(DeepSeek)和Kimi等,也在知识问答等领域发挥重要作用。

上述GAI工具在医学领域的重要作用之一,是为临床医生或研究者提供问答咨询,形式和作用类似于交互式的临床实践指南(下文简称“指南”)。然而,尽管目前已有许多研究采用GAI工具问答医学某一领域知识,并将咨询结果与指南中的推荐意见进行对比(表1)[2-11],但这些工具回答问题的准确性、全面性和证据基础尚需进一步验证。

表1 应用GAI工具咨询医学特定领域知识与指南推荐意见对比的研究

图片

图片

图片

高质量的指南是指导临床医生从事医疗活动的重要依据[12]。然而,目前指南存在的问题包括:

1 制订周期较长

从临床问题的确定到证据检索,再到对证据的梳理总结,一般1部指南从开始制订至发表至少需经历1年以上时间[13]

2 质量普遍较低

研究表明,指南的质量良莠不齐,低质量的指南比例相对较高,这些低质量指南的推荐意见可能误导临床实践,导致不良后果[14]

3 知而不行[15]

指南制订完成后,在临床应用过程中存在诸多问题,如临床医生无法获取指南、对指南知晓率低、不完全遵循指南等,阻碍指南的传播与实施。

既往研究汇总了AI加速指南制订的步骤,但多建立在理论层面[16]。随着越来越多GAI工具的研发,有望打破这一壁垒,推进指南的制订、评价和应用过程。然而,目前针对这一领域的研究和证据相对较少。

本文基于现有文献,阐述GAI工具在指南制订、评价及应用过程中的现状、作用和挑战,以期促进GAI工具更好地服务指南制订者和使用者,缩短指南制订周期,提升指南制订质量,并加速指南的转化和推广。

1 GAI工具在指南制订中的应用

指南的制订步骤一般包括:确定指南范围、注册、撰写计划书、组建专家组、管理利益冲突、确定临床问题、制作系统评价、证据质量分级、撰写决策表、专家共识、撰写指南全文及发表等[13]

在此过程中,系统评价和Meta分析的制作最耗时间,也是目前应用GAI工具探索加速其制作过程最常见的场景[17-33]。研究显示,GAI工具(如ChatGPT等)可应用于系统评价的检索策略制订、文献筛选、数据提取、偏倚风险评价等步骤(表2),从而加速系统评价的制作过程,节约指南制订者的时间[17-33]

表2 GAI工具在系统评价中的作用

图片

除上述环节外,ChatGPT还有助于确定优先选题,甚至可得出比人工讨论更有价值的优先选题,可与人工讨论结果进行互补,提升选题的优先级。此方法也可应用于指南制订过程中“确定临床问题”这一步骤。研究显示,大语言模型工具Gemini可通过感情分析,预测专家对某些陈述或建议的态度,并将这些信息应用于实际决策过程中,最大限度减少专家之间的相互影响,促进专家在决策过程中更好地达成共识[34]

另外,在指南制订的决策过程中,有研究建议应用ChatGPT创建生物制剂临床治疗决策路径与算法,为特定疾病临床药物治疗方案的选择和制订提供新思路[35],但仍需专家组的验证和确认。同时,GAI工具也有助于凝练文献的重点内容,协助起草指南计划书,遴选专家组人员的资历,以及协助回顾文献以确定指南范围和制订的必要性[36-37],但这些内容尚停留在理论探讨层面,目前无相关研究证据支持。

2 GAI工具在指南评价中的应用

指南评价是了解指南科学性和透明性的重要手段,有助于识别指南质量,发现不足之处,为后续指南的修订或更新提供依据。

目前常用的指南评价工具包括:2003年指南研究与评估系统(AGREE)工作组研发的指南方法学质量评价工具AGREE,并于2009年更新为AGREE Ⅱ[38];2017年国际实践指南报告规范(RIGHT)工作组研发的指南报告质量评价工具RIGHT[39],2022年指南科学性(Scientificity)、透明性(Transparency)和适用性(Applicability)评级(Rankings)工作组研发的STAR工具[40],以及其他指南评价工具(如指南临床适用性评价工具)等[41]。采用上述工具完成1部指南的方法学评价,所需时间约0.5~1.5 h[38],且存在一定程度的主观性。

GAI工具可帮助循证医学研究评价者节约大量时间,提高指南评价的准确性。有研究者基于ChatGPT研发了AGREE Ⅱ Analyzer[42]和CPG risk of bias (AGREE-Ⅱ)扩展小程序,用于自动化评价指南的方法学质量,但目前尚无公开发表的相关研究和数据。

针对其他类型研究的自动化质量评价也有一定探索,如GAI工具在评估随机对照试验的方法学质量[43]和报告质量[44],以及系统评价的方法学质量和报告质量[45]方面均有相关研究发表,数据显示GAI工具的准确性较高且耗时较少,提示GAI工具在指南自动化评价方面也具有突出应用潜力。目前,STAR工作组正基于大语言模型开发一体化自动评级系统,拟整合ChatGPT、Kimi等多个GAI工具,提高指南自动化评价的效率和准确性[46]

3 GAI工具在指南传播与实施中的应用

指南的传播与实施是连接指南制订工作与临床落地应用的桥梁。GAI工具在此过程中可协助优化、整合及可视化指南推荐意见,提升指南的可读性。张志玲等[47]基于12部指南,应用GAI工具编写了患者教育材料的18 个问题及答案,并测试其可读性,结果发现句子数、词数、复杂语义句子数等维度评估达到中学生阅读水平,提示GAI工具可简化指南推荐意见的理解难度,提高指南的可读性,加速指南的传播与实施。

ChatGPT等 GAI工具还可将指南推荐意见高效、精准地转化为可落地执行的临床路径[48-49]、知识图谱或决策树模型,以更好地整合入常规医疗实践。

Miao等[50]应用ChatGPT 4.0和Claude 2对肿瘤指南中的分子生物标志物进行提取并生成临床决策树,结果显示GAI工具在总结肿瘤学分子诊断指南方面具有一定潜力,但未来研究应关注如何提升这些模型的能力,以实现更精准的临床决策。

Hamed等[49]基于3部糖尿病酮症酸中毒指南,应用ChatGPT改编并生成新指南,结果生成了1个详细的对比表格,覆盖了指南的大部分信息;但生成内容中存在一些失误,如错误地报告了诊断标准、遗漏了风险因素,使得生成的结果不可靠。这些错误的出现可能源于ChatGPT对原指南的误解、信息提取不完整以及原指南本身存在歧义和训练数据的局限性所致,提示有必要进一步研发适用于指南传播与实施的大模型。

Wang等[51]将COVID-19指南转化为一个基于 Python 编码的图谱提示,应用 NetworkX 库构建了指南,作为有向知识图,“节点”代表医疗检查点或最终治疗方案,“边”代表这些节点之间可能转换的工具ChatGPT-CARE。

4 GAI工具在指南领域应用的优势与挑战

在指南领域,GAI工具存在多方面优势,如可加速部分指南的制订步骤,提高指南的制订效率,提供较为客观的指南评价结果,促进指南的高效转化等。但由于此类工具在指南中的应用尚处于探索阶段,目前存在诸多挑战。

首先,训练GAI工具的数据质量和可靠性不透明,因此在当前阶段基于GAI工具开展指南制订、传播与实施等探索时,建议进行充分的人工确认,以保证其公正性和科学性;此外,鉴于GAI工具在开展相同任务或回答相同问题时,不同工具、不同时间返回的结果可能不完全相同,因此验证生成结果的可靠性以及透明呈现这一过程也非常重要。

其次,应用GAI工具开展指南相关探索时,需充分考虑数据隐私保护及可能涉及的伦理问题,如利益冲突、伦理要求和自动化决策的公平性等。如何确保GAI工具在指南领域的探索过程不偏袒某些利益群体或无意中加剧医疗不平等,是值得深入探讨的问题。

最后,GAI工具的有效运行需强大的计算机资源和技术支持,故应充分评估支持GAI工具应用的技术基础设施,特别是在一些资源有限的医疗机构中。

5 对未来研究的建议

考虑到GAI工具在指南领域的应用尚处于起始阶段,因此,未来需开展更多探索性研究,以论证每个环节或步骤的可行性;同时,探索指南制订的新模式,如基于GAI工具直接生成可信的证据总结表,进行利益冲突探测,将指南推荐意见可视化,形成基于GAI工具的指南制订、评价和实施一体化AI系统或工具等,均是未来值得探索的方向。在此过程中,保证指南质量是前提,提高指南制订效率和可信度是目的。

此外,未来还需研究轻量化和云端保密的大模型,以保障数据安全和隐私保护。轻量化模型可减少计算和存储需求,提升部署灵活性,特别是在基层医疗机构和偏远地区;而云端保密技术,如联邦学习和差分隐私,能够在保障数据安全的同时利用云端资源,提高数据处理的效率。这些技术创新将使指南的制订和应用更高效、更安全,最终提升医疗服务质量和患者健康水平。

6 小结与展望

本文通过对现有相关文献的系统回顾,总结了GAI工具在医学指南领域应用的潜力和作用。GAI工具不仅能够加速文献筛选、评价和提取等过程,从而加速指南的制订流程,还可在推荐意见的形成过程中提供智能辅助,提升指南质量和一致性。

此外,在指南的评价和应用阶段,GAI工具也展示出了其在优化指南评价、提高指南可读性、促进指南传播与推广方面的重要作用。然而,尽管GAI工具显示出巨大潜力,其在医疗实践中的广泛应用仍面临诸多挑战,尤其在可靠性、透明性以及对复杂临床场景的适应性等方面的评估亟待进一步深入。

当前研究尚未探讨如何确保GAI工具在不同医学专科中的普适性,以及如何在保障指南严谨性和临床可操作性的前提下,最大化其智能辅助能力。因此,未来研究应重点围绕这些挑战展开,尤其在确保指南制订过程中各步骤的科学性和公正性方面。此外,有必要研发相应的应用程序或系统,进一步探讨如何在指南中更好地应用GAI工具,以确保其能够灵活适应不同的临床场景,为医疗决策提供可靠支持。

参考文献

[1]Feuerriegel S, Hartmann J, Janiesch C, et al. Generative AI[J]. Bus Inf Syst Eng, 2024, 66(1): 111-126.

[2]Ho R A, Shaari A L, Cowan P T, et al. ChatGPT responses to frequently asked questions on Ménière's disease: a comparison to clinical practice guideline answers[J]. OTO Open, 2024, 8(3): e163.

[3]Hoang T, Liou L, Rosenberg A M, et al. An analysis of ChatGPT recommendations for the diagnosis and treatment of cervical radiculopathy[J]. J Neurosurg Spine, 2024, 41(3): 385-395.

[4]Gomez-Cabello C A, Borna S, Pressman S M, et al. Artificial intelligence in postoperative care: assessing large language models for patient recommendations in plastic surgery[J]. Healthcare (Basel), 2024, 12(11): 1083.

[5]Shiraishi M, Tomioka Y, Miyakuni A, et al. Performance of ChatGPT in answering clinical questions on the practical guideline of blepharoptosis[J]. Aesthetic Plast Surg, 2024, 48(13): 2389-2398.

[6]AltintaşE, Ozkent M S, Gül M, et al. Comparative analysis of artificial intelligence chatbot recommendations for urolithiasis management: a study of EAU guideline compliance[J]. Fr J Urol, 2024, 34(7/8): 102666.

[7]Piazza D, Martorana F, Curaba A, et al. The consistency and quality of ChatGPT responses compared to clinical guidelines for ovarian cancer: a Delphi approach[J]. Curr Oncol, 2024, 31(5): 2796-2804.

[8]Barlas T, Altinova A E, Akturk M, et al. Credibility of ChatGPT in the assessment of obesity in type 2 diabetes according to the guidelines[J]. Int J Obes (Lond), 2024, 48(2): 271-275.

[9]Sciberras M, Farrugia Y, Gordon H, et al. Accuracy of information given by ChatGPT for patients with inflammatory bowel disease in relation to ECCO guidelines[J]. J Crohns Colitis, 2024, 18(8): 1215-1221.

[10]Shrestha N, Shen Z K, Zaidat B, et al. Performance of ChatGPT on NASS clinical guidelines for the diagnosis and treatment of low back pain: a comparison study[J]. Spine (Phila Pa 1976), 2024, 49(9): 640-651.

[11]Kusunose K, Kashima S, Sata M. Evaluation of the accuracy of ChatGPT in answering clinical questions on the Japanese society of hypertension guidelines[J]. Circ J, 2023, 87(7): 1030-1033.

[12]Institute of Medicine. Clinical practice guidelines we can trust[M]. Washington, D.C.: The National Academies Press, 2011.

[13]World Health Organization. WHO handbook for guideline development[M]. 2nd ed. Geneva: World Health Organization, 2014.

[14]中华医学会杂志社指南与标准研究中心, 中国医学科学院循证评价与指南研究创新单元(2021RU017), 世界卫生组织指南实施与知识转化合作中心, 等. 2022年医学期刊发表中国指南和共识的科学性、透明性和适用性的评级[J]. 中华医学杂志, 2023, 103(37): 2912-2920.

[15]吕萌, 罗旭飞, 刘云兰, 等. 2019年期刊公开发表的中国临床实践指南文献调查与评价:传播与实施情况[J]. 协和医学杂志, 2022, 13(4): 673-678.

[16]陈耀龙, 罗旭飞, 史乾灵, 等. 人工智能如何改变指南的未来[J]. 协和医学杂志, 2021, 12(1): 114-121.

[17]Luo X F, Chen F X, Zhu D, et al. Potential roles of large language models in the production of systematic reviews and meta-analyses[J]. J Med Internet Res, 2024, 26: e56780.

[18]Oami T, Okada Y, Nakada T A. Performance of a large language model in screening citations[J]. JAMA Netw Open, 2024, 7(7): e2420496.

[19]Khraisha Q, Put S, Kappenberg J, et al. Can large language models replace humans in systematic reviews? Evaluating GPT-4's efficacy in screening and extracting data from peer-reviewed and grey literature in multiple languages[J]. Res Synth Methods, 2024, 15(4): 616-626.

[20]Gwon Y N, Kim J H, Chung H S, et al. The use of generative AI for scientific literature searches for systematic reviews: ChatGPT and Microsoft Bing AI performance evaluation[J]. JMIR Med Inform, 2024, 12: e51187.

[21]Hossain M M. Using ChatGPT and other forms of generative AI in systematic reviews: Challenges and opportunities[J]. J Med Imaging Radiat Sci, 2024, 55(1): 11-12.

[22]Issaiy M, Ghanaati H, Kolahi S, et al. Methodological insights into ChatGPT's screening performance in systematic reviews[J]. BMC Med Res Methodol, 2024, 24(1): 78.

[23]Gartlehner G, Kahwati L, Hilscher R, et al. Data extraction for evidence synthesis using a large language model: a proof-of-concept study[J]. Res Synth Methods, 2024, 15(4): 576-589.

[24]Kohandel Gargari O, Mahmoudi M H, Hajisafarali M, et al. Enhancing title and abstract screening for systematic reviews with GPT-3.5 turbo[J]. BMJ Evid Based Med, 2024, 29(1): 69-70.

[25]Guo E, Gupta M, Deng J W, et al. Automated paper screening for clinical reviews using large language models: data analysis study[J]. J Med Internet Res, 2024, 26: e48996.

[26]Giunti G, Doherty C P. Cocreating an automated mHealth apps systematic review process with generative AI: design science research approach[J]. JMIR Med Educ, 2024, 10: e48949.

[27]Dennstädt F, Zink J, Putora P M, et al. Title and abstract screening for literature reviews using large language models: an exploratory study in the biomedical domain[J]. Syst Rev, 2024, 13(1): 158.

[28]Tran V T, Gartlehner G, Yaacoub S, et al. Sensitivity and specificity of using GPT-3.5 turbo models for title and abstract screening in systematic reviews and meta-analyses[J]. Ann Intern Med, 2024, 177(6): 791-799.

[29]Qureshi R, Shaughnessy D, Gill K A R, et al. Are ChatGPT and large language models “the answer” to bringing us closer to systematic review automation?[J]. Syst Rev, 2023, 12(1): 72.

[30]Mahuli S A, Rai A, Mahuli A V, et al. Application ChatGPT in conducting systematic reviews and meta-analyses[J]. Br Dent J, 2023, 235(2): 90-92.

[31]Nashwan A J, Jaradat J H. Streamlining systematic reviews: harnessing large language models for quality assessment and risk-of-bias evaluation[J]. Cureus, 2023, 15(8): e43023.

[32]Alshami A, Elsayed M, Ali E, et al. Harnessing the power of ChatGPT for automating systematic review process: methodology, case study, limitations, and future directions[J]. Systems, 2023, 11(7): 351.

[33]Kataoka Y, So R, Banno M, et al. Development of meta-prompts for Large Language Models to screen titles and abstracts for diagnostic test accuracy reviews[DB/OL]. (2023-11-01)[2024-07-19]. https://doi.org/10.1101/2023.10.31.23297818.

[34]Trillo J R, Cabrerizo F J, Pérez I J, et al. A new consensus reaching method for group decision-making based on the large language model Gemini for detecting hostility during the discussion process[C]//2024 IEEE International Conference on Evolving and Adaptive Intelligent Systems (EAIS). Piscataway, NJ: IEEE Press, 2024: 1-8.

[35]Maniaci A, Saibene A M, Calvo-Henriquez C, et al. Is generative pre-trained transformer artificial intelligence (Chat-GPT) a reliable tool for guidelines synthesis? A preliminary evaluation for biologic CRSwNP therapy[J]. Eur Arch Otorhinolaryngol, 2024, 281(4): 2167-2173.

[36]Mugaanyi J, Cai L Y, Cheng S M, et al. Evaluation of large language model performance and reliability for citations and references in scholarly writing: cross-disciplinary study[J]. J Med Internet Res, 2024, 26: e52935.

[37]Teperikidis E, Boulmpou A, Papadopoulos C. Prompting ChatGPT to perform an umbrella review[J]. Acta Cardiol, 2024, 79(3): 403-404.

[38]Brouwers M C, Kho M E, Browman G P, et al. AGREE Ⅱ: advancing guideline development, reporting and evaluation in health care[J]. CMAJ, 2010, 182(18): E839-E842.

[39]Chen Y L, Yang K H, Marušic A, et al. A reporting tool for practice guidelines in health care: the RIGHT statement[J]. Ann Intern Med, 2017, 166(2): 128-132.

[40]杨楠, 赵巍, 潘旸, 等. 针对临床实践指南科学性、透明性和适用性的评级工具研发[J]. 中华医学杂志, 2022, 102(30): 2329-2337.

[41]李思雨, 刁莎, 石雨晴, 等.指南临床适用性评价工具(2.0版)[J]. 中国循证医学杂志, 2023, 23(5): 597-601.

[42]YesChat AI. AGREE Ⅱ analyzer-AI-powered analysis[EB/OL]. [2024-07-19]. https://www.yeschat.ai/gpts-9t557 aqyOyl-AGREE-Ⅱ-Analyzer.

[43]Lai H H, Ge L, Sun M Y, et al. Assessing the risk of bias in randomized clinical trials with large language models[J]. JAMA Netw Open, 2024, 7(5): e2412687.

[44]Roberts R H, Ali S R, Hutchings H A, et al. Comparative study of ChatGPT and human evaluators on the assessment of medical literature according to recognised reporting standards[J]. BMJ Health Care Inform, 2023, 30(1): e100830.

[45]Woelfle T, Hirt J, Janiaud P, et al. Benchmarking human-AI collaboration for common evidence appraisal tools[DB/OL]. (2024-04-22)[2024-07-19]. https://doi.org/10.1101/2024.04.21.24306137.

[46]刘辉, 杨楠, 史乾灵, 等. 医学期刊发表中国指南和共识类文献科学性、透明性和适用性评级方法学:样本确定及专科分配[J]. 协和医学杂志, 2024, 15(2): 429-434.

[47]张志玲, 周鹏翔, 何娜, 等. 基于临床实践指南, 应用生成式人工智能模型编写纤维肌痛患者教育材料[J]. 临床药物治疗杂志, 2024, 22(5): 7-11.

[48]Kresevic S, Giuffrè M, Ajcevic M, et al. Optimization of hepatological clinical guidelines interpretation by large language models: a retrieval augmented generation-based framework[J]. NPJ Digit Med, 2024, 7(1): 102.

[49]Hamed E, Eid A, Alberry M. Exploring ChatGPT's potential in facilitating adaptation of clinical guidelines: a case study of diabetic ketoacidosis guidelines[J]. Cureus, 2023, 15(5): e38784.

[50]Miao B Y, Almaraz E R, Ganjouei A A, et al. Generation of guideline-based clinical decision trees in oncology using large language models[DB/OL]. (2024-03-06)[2024-07-19]. https://doi.org/10.1101/2024.03.04.24303737.

[51]Wang Y S, Visweswaran S, Kapoor S, et al. ChatGPT-CARE: a superior decision support tool enhancing ChatGPT with clinical practice guidelines[DB/OL]. (2024-03-06)[2024-07-19]. https://doi.org/10.1101/2023.08.09.23293890.

上一篇: 瘢痕的干针疗法

下一篇: 身体有恙,胯骨先觉!总是“髋关节疼痛”,...


 本站广告