人工智能ChatGPT和Flan-PaLM双双通过美国医生许可考试(USMLE)
时间:2023-01-25 06:02:33 热度:37.1℃ 作者:网络
根据最近的两篇论文,两个人工智能 (AI) 程序——包括 ChatGPT——已经通过了美国医学许可考试 (USMLE)。
这些论文重点介绍了使用大型语言模型参加 USMLE 的不同方法,该考试由三门考试组成:Step 1、Step 2 CK 和 Step 3。
ChatGPT是一种人工智能 (AI) 搜索工具,它根据人类用户的提示模仿长篇写作。 它由 OpenAI 开发,并在几篇社交媒体帖子显示该工具在临床实践中的潜在用途后变得流行,通常结果喜忧参半。
第一篇论文于 12 月在 medRxiv上发表,调查了 ChatGPT 在考试前没有任何特殊培训或强化的情况下在 USMLE 上的表现。 根据加利福尼亚州山景城 Ansible Health 的医学博士 Victor Tseng 及其同事的说法,结果显示“新的和令人惊讶的证据”表明这种人工智能工具能够应对挑战。
Tseng 和团队指出,ChatGPT 在所有测试中的准确率都超过 50%,甚至在他们的大部分分析中都达到了 60%。 虽然 USMLE 通过阈值确实因年份而异,但作者表示大多数年份的通过率约为 60%。
“ChatGPT 在没有任何专门培训或强化的情况下,在所有三项考试中的表现都达到或接近通过门槛,”他们写道,并指出该工具能够证明“其解释具有高度的一致性和洞察力”。
“这些结果表明,大型语言模型可能有助于医学教育,并可能有助于临床决策,”他们总结道。
第二篇论文也于 12 月发表在 arXiv上,评估了另一个大型语言模型 Flan-PaLM 在 USMLE 上的表现。 AI 研究人员 Vivek Natarajan 及其同事解释说,这两种模型之间的主要区别在于,该模型经过大量修改以准备考试,使用了一组称为 MultiMedQA 的医学问答数据库。
Flan-PaLM 在回答 USMLE 问题时达到了 67.6% 的准确率,比之前使用 PubMed GPT 进行的最佳表现高出约 17 个百分点。
Natarajan 和团队得出结论,大型语言模型“为重新思考医疗人工智能的发展提供了重要机会,并使其更容易、更安全、更公平地使用。”
ChatGPT 和其他 AI 程序一直作为新研究论文的主题出现,有时还作为合著者出现,重点是测试该技术在医学上的实用性。
当然,医疗保健专业人士也对这些发展表示担忧,尤其是当 ChatGPT 被列为研究论文的作者时。 Natureopens in a new tab or window 最近发表的一篇文章强调了潜在同事和新兴技术合著者的不安。
反对在研究中使用 AI 程序的一个理由是它们是否真的能够为论文做出有意义的学术贡献,而另一个反对意见强调 AI 工具首先不能同意成为合著者。
根据《自然》杂志的文章,其中一篇论文的编辑在新标签页或窗口中打开,将 ChatGPT 列为作者,称这是一个错误,将予以纠正。 尽管如此,研究人员现在已经发表了几篇论文,称这些人工智能程序是医学教育、研究甚至临床决策的有用工具。
Natarajan 及其同事在他们的论文中得出结论,大型语言模型可以成为医学上的有益工具,但他们的第一个希望是他们的发现将“激发患者、消费者、人工智能研究人员、临床医生、社会科学家、伦理学家、政策制定者之间的进一步对话和合作 和其他感兴趣的人,以便负责任地转化这些早期研究成果,以改善医疗保健。”
事实上,现在大型语言模型可以通过各种考试。有一项研究也显示,ChatGPT能轻松通过大学的MBA考试。
当然,有人说医生有人性化,会安慰病人。
但是,谁知道再过一二十年,出现的人型智能机器人,可能比现在的医生更会讲笑话,更幽默,更有趣呢。同时,还是知识达人,无所不能。
梅斯认为,人工智能随着算法和大型语言模型的问世,人工智能迎来了拐点,从过去的积累阶段到达上升阶段,将在各个领域得到应用,并有可能深刻改变这些领域。医疗同样如此。
也许,未来医生对能力的需求,不是基础知识,而是创造力!人类的知识,温情,理性,判断力这些都容易被机器替代或取代,只有人类的智慧才难以被取代。
原始出处:
Kung TH, et al "Performance of ChatGPT on USMLE: potential for AI-assisted medical education using large language models" medRxiv 2022; DOI: 10.1101/2022.12.19.22283643.
Singhal K, et al "Large language models encode clinical knowledge" arXiv 2022; DOI: 10.48550/arXiv.2212.13138.