通用医学AI基础模型：范式、能力与应用

由我是超超超超超大虾虾虾虾创建9 次浏览

论文信息

字段	内容
标题	Foundation models for generalist medical artificial intelligence
作者	Michael Moor, Oishi Banerjee, Zahra Shakeri Hossein Abad, Harlan M. Krumholz, Jure Leskovec, Eric J. Topol, Pranav Rajpurkar
机构	Stanford University, Harvard University, University of Toronto, Yale University, Scripps Research Translational Institute
论文地址	https://doi.org/10.1038/s41586-023-05881-4
发表时间	2023年4月12日

一句话概要

本文提出通用医学人工智能（GMAI）新范式，指出当前医学AI模型受限于任务特定、缺乏泛化能力的瓶颈。GMAI模型通过大规模多样数据集的自监督训练，具备动态任务指定、灵活多模态交互和医学知识推理三大核心能力。论文识别了六类高影响力应用场景，并分析了验证、隐私、规模、偏见等关键挑战。该范式有望从根本上改变医学AI的研发、监管和应用方式。

背景与研究动机

医学领域正在经历人工智能的快速渗透，但当前的发展模式存在根本性的结构问题。论文指出，截至写作时，已有超过500个医学AI模型获得FDA批准，但绝大多数仅被批准用于1到2个狭窄任务。这种任务特定的开发模式意味着每个模型只能解决预设的单一问题，例如一个胸部X光片解释模型可能仅在标注了肺炎阳性或阴性的数据集上训练，无法完成撰写完整放射学报告这样的综合诊断任务。

作者将这一现状与通用领域基础模型的飞速进展进行了对比。2020年发布的GPT-3展示了一种全新的能力——上下文学习，即模型仅通过包含少量示例的文本提示就能执行从未明确训练过的新任务。随后出现的Gato模型被描述为通用智能体，能够同时进行对话、图像描述、玩视频游戏和控制机械臂。这些进展表明，在大规模多样数据上训练、通过自监督学习构建的基础模型，正在根本性地改变AI的能力边界。

论文的核心动机由此明确：将这一范式迁移到医学领域，克服当前医学AI的碎片化困境。作者指出，尽管已有初步的医学基础模型探索（如CheXzero、用于EHR的语言模型等），但由于医学数据的获取困难、领域的复杂性以及技术本身的近期性，这一转变尚未在医学AI中广泛实现。

现有方法的瓶颈

当前医学AI模型面临三个核心局限，每个局限都直接制约着模型在真实临床场景中的价值。

局限一：任务刚性，缺乏泛化能力。 现有模型在设计之初就被限定在单一任务上：检测某一类疾病、分割某一类组织、生成某一种结构化输出。论文以胸部X光片解释模型为例指出，这类模型通常在一个标注了特定疾病（如肺炎）阳/阴性的数据集上训练，无法执行撰写完整报告或回答新问题等综合任务。更关键的是，这类模型面对同一任务的不同数据分布时也无法自适应，必须重新训练。

局限二：输入输出模态僵化。 现有模型通常使用预定义的模态组合，必须始终接受固定的输入类型并产生固定的输出格式。这与临床实践中医生需要灵活整合影像、实验室结果、病史、基因组等多种信息，并以不同形式回答案情、提供解释、标注图像的真实需求严重不匹配。

局限三：缺乏医学领域知识和推理能力。 常规医学AI模型在训练前对医学领域没有先验知识，只能依赖输入数据特征与预测目标之间的统计关联，缺乏关于病理生理过程等背景信息。这使得模型在数据稀缺时难以有效学习，更无法像人类医生那样基于解剖学知识、病理机制进行推理，在面对未见过的异常现象时也不能给出合理的解释。

核心洞察与贡献

论文的核心洞察在于系统性地论证了通用领域基础模型的最新进展——即大规模自监督训练、多模态架构、上下文学习能力的涌现——可以被整合成一套专门针对医学领域的全新范式。作者的关键认识是，这些能力在医学场景中并非简单的技术复用，而是需要针对医学知识的特殊性进行专门设计。

主要贡献包括：

提出GMAI范式概念与定义： 首次系统定义了通用医学人工智能的核心特征，包括动态任务指定、灵活多模态输入输出和医学知识推理三大能力，为医学AI的发展提供了一个清晰的远景框架。
识别六类高影响力应用场景： 针对临床真实需求，具体描绘了GMAI在增强型手术、交互式笔记、床边决策支持、可溯源放射学报告、患者聊天机器人以及文本到蛋白质生成等场景中的实现路径，使抽象概念具象化。
揭示GMAI带来的范式转变与深层挑战： 系统分析了验证困难、可控性、可验证性、规模成本、偏见风险和隐私保护等核心挑战，并提出了监管、审计和社区参与等应对方向，超出了单纯的技术讨论范畴。

核心框架

论文构建了一套从能力定义到技术实现、再到应用场景和挑战应对的完整分析框架。

GMAI的三大核心能力构成该框架的基石。

第一，动态任务指定。用户可以在测试时用自然语言描述一个全新的任务，而无需重新训练模型。例如，医生可以提问“根据这份超声图像，胆囊壁的厚度是多少毫米？”或者通过上下文学习教会模型识别一种新兴疾病。这直接回应了现有模型任务刚性的瓶颈，将模型从预定义任务的束缚中解放出来。

第二，灵活的多模态输入输出。用户可以自由组合不同模态的数据（图像、文本、实验室结果、基因组图谱等）作为输入，也可以要求模型以多种形式返回结果。作者指出，实现这一能力的关键技术是将每种模态的数据转化为“令牌”，使所有数据类型（语义中的词、图像中的补丁等）可以在统一的表示空间中处理，并通过Transformer架构进行融合。这使得模型能够整合患者的完整病史，包括报告、波形信号、实验室结果、基因组和影像数据。

第三，医学知识推理。这是GMAI区别于通用基础模型的核心设计。作者提出通过知识图谱等结构使模型能够对医学概念及其关系进行推理，结合基于检索的方法（如REALM架构）从现有数据库（文章、图像、历史病例）中检索相关上下文，以及引入因果推断能力来处理基于观察数据提供治疗建议的问题。举例来说，一个在十二指肠镜中发现异常血管结构的模型，可以通过先检测血管、再识别解剖位置、最后考虑相邻结构，推理出这可能是主动脉-十二指肠瘘——尽管模型从未在训练数据中见过这样的病例。

技术训练方案。 论文描述了训练GMAI模型的可行路径：（1）使用通用网络爬取数据进行预训练，让模型获得基础语言和视觉能力；（2）通过医学专用的大规模多样化数据集进行进一步训练，这些数据集无需昂贵的专家标注，因为自监督学习方法（如语言建模、对比学习）已经证明有效；（3）利用多模态自监督技术，允许模型从不同数据集各自学习部分模态，降低了对同时包含所有模态的大型昂贵数据集的需求。

六类应用场景详述。

第一，增强型手术。一个手术GMAI模型可辅助外科团队——例如要求模型检查过去15分钟的视频是否遗漏了某个肠段的视野。模型可以实时标注视频流、在手术步骤被跳过时发出语音警报、在遇到罕见解剖现象时读出相关文献。实现需要融合视觉、语言和音频模态，并针对罕见情况具备逐步推理能力。

第二，交互式笔记。通过监控患者电子信息和医患对话，GMAI可草拟电子病历和出院报告，供医生审核修改。技术基础包括语音转文本模型（需理解医学术语）与EHR数据上下文化的结合。

第三，床边决策支持。相比现有基于AI的早期预警系统，GMAI可提供详细解释和未来护理建议：“警告：这名患者即将休克。她的循环系统在过去15分钟内不稳定。建议下一步措施：链接至检查清单。”模型需要从原始数据中总结病情、预测未来状态，并比较治疗方案的效果。

第四，可溯源放射学报告。GMAI可自动撰写描述异常和正常发现的放射学报告，同时考虑患者病史，并为每句描述配置对应的图像高亮。模型必须支持视觉定位（准确指出支持某一句话的图像区域）。

第五，患者聊天机器人。GMAI可整合多种患者提交的数据（症状描述、血糖仪读数、用药记录），以清晰易懂的语言提供建议和解释。挑战在于模型需要与没有技术背景的患者清晰沟通而非编造信息，以及处理噪声较大的患者自采集数据。

第六，文本到蛋白质生成。借鉴CLIP等跨模态方法，GMAI可将蛋白质序列与描述其功能的文本配对训练，实现基于文本描述（如“生成一种与指定靶点高亲和力结合的蛋白质”）生成蛋白质氨基酸序列和三维结构。

文献分析与评估

本文是一篇观点型综述论文，其核心贡献不在于提出新的实验结果，而在于构建一个面向未来的概念框架。因此，评估重点在于该框架的完整性、前瞻性以及批判性论证的力度。

框架的合理性。 论文将医学AI范式分为“任务特定”和“通用主义”两个阶段，这种划分清晰且有说服力。三大能力——动态任务指定、灵活多模态、知识推理——之间的逻辑关系紧密：前两者解决交互灵活性，后者解决临床可信任性。可以理解为，作者试图捕捉医学AI从“感知”（检测病灶）到“认知”（理解病情和推理）的跃迁。

应用场景的选择。 六类场景覆盖了外科、影像、文书、决策支持、患者交互和新药研发等关键环节，具有较好的覆盖度和代表性。值得注意的是，作者强调了“列表远非详尽”，这表明框架具有扩展性。

批判性论证的力度。 论文对挑战部分的讨论表现出较强的自我批判意识。例如，作者明确指出GMAI的“极端灵活性本身就是一把双刃剑”，因为基础模型的任何失败模式都会被传播到下游应用中。作者还承认验证困难是“独特”的挑战，因为GMAI可以执行用户临时指定的任务，这使得预先识别所有失败模式变得极为困难。这种对自身框架局限性的坦诚讨论增强了论文的可信度。

文献覆盖的全面性。 论文引用了自2020年以来的多项关键进展，包括GPT-3的上下文学习、Gato通用智能体、CLIP多模态对比学习、Flamingo视觉语言模型、REALM检索增强语言模型等。在医学方面，引用了CheXzero（无标注的胸部X光诊断）、Flan-PaLM和ChatGPT通过USMLE考试等进展，能够支撑其论证。不过，由于发布时间（2023年4月），后续的更近期进展（如GPT-4的医学能力）未被纳入。

优势与局限性

优势。

第一，框架的前瞻性和系统性是论文最突出的贡献。在医学AI普遍仍聚焦于任务特定模型时，该文系统性地描绘了一个可操作的替代范式，包含清晰的能力定义、技术路径和应用场景。

第二，跨学科视野。论文不仅讨论技术，还深入分析了监管、隐私、偏见、环境成本等非技术挑战，展示了作者对医学AI落地复杂性的充分理解。例如，论文指出规模增长带来的计算成本（PaLM模型的训练使用了约3000到6000个TPU v4芯片、数百万美元计算费用）和环境足迹（训练每个模型产生数百吨CO₂当量），并提出了知识蒸馏等缓解策略。

第三，具体化程度高。每个应用场景都附有详细的技术要求和实现策略，而非停留在概念层面。例如，面对患者聊天机器人的数据噪声问题，作者提出了模型需要监控自身不确定性并在数据不可靠时采取行动的具体建议。

局限性。

第一，缺乏定量验证和基准。作为一篇观点论文，作者没有提供实验证据或基准测试来支撑GMAI有效性声称。虽然这在综述类论文中属于常见情况，但可能降低有经验研究者的信任度。可以理解为，论文的定位更像是“蓝图”而非“实证报告”，这个定位本身是合理的，但读者需要清楚这一点。

第二，对技术可行性的评估不够充分。文中提到的多项能力——如真正的医学知识推理、因果推断、处理多模态数据的统一表示——在写作时都尚未在单一模型中实现。作者对哪些能力可以“合理期待”在近期实现、哪些属于远期愿景没有做出明确区分。

第三，数据集问题可能比描述更严峻。作者确实承认了数据收集的挑战，但可能低估了医学数据的异质性和碎片化程度。不同医院使用不同格式的EHR系统，影像设备参数各异，且数据共享受严格的隐私法规约束。这可能会使作者提出的“使用多数据集各自学习部分模态”方案在实际操作中面临更多障碍。

可复现性评估。 作为综述论文，本文不涉及代码或模型的开源问题。其核心概念框架具有可复现性，因为作者引用了多个公开可用的模型和数据集（如MIMIC、UK Biobank、UniProt等）作为技术路径的支撑。但要将GMAI框架转化为可复现的研究，需要后续研究者在具体任务上实施和验证。

未来方向与开放问题

验证方法的创新。 作者明确指出GMAI的“极端灵活性”使传统验证框架失效。这引出了一个尚未解决的问题：如何为一类可以在部署后执行全新任务的模型建立可信的验证标准？可能的思路包括开发自动测试生成技术、构建对抗性评估平台或建立社区基准挑战。论文提到的“奖励发现有害提示”的竞赛思路可以被视为一个具体方向。

上下文学习在医学多模态中的实现。 目前上下文学习主要在大语言模型中被观察到。如何在医学影像、时间序列数据、基因组数据等非语言模态中实现类似能力，是一个关键的技术挑战。论文提到的将多模态数据转化为“令牌”的做法是一个方向，但如何确保这种转化不丢失医学临床信息的精细度仍需验证。

因果推理与观察数据的利用。 作者指出GMAI可能需要基于观察数据提供治疗建议，这要求模型具备因果推理能力。当前基础模型在因果推理方面的能力仍然有限，如何在医学场景中整合因果推断框架、处理选择偏差和混杂因素，是重要的开放问题。

长期安全性与持续审计。 GMAI在部署后可能遇到模型未见过的疾病、技术或治疗方案。如何在无需重新训练的情况下保持模型安全性，以及如何建立负责任的持续审计机制（包括更新失败、模型漂移监控、“召回”机制等），是基础设施层面的重大问题。

组会预判问答

问：GMAI与现有医学基础模型（如CheXzero、Med-PaLM）有何本质区别，还是只是概念包装？

论文明确指出，GMAI定义了三项相互依存的独特能力——动态任务指定、灵活多模态交互和医学知识推理——而现有模型仅具备其中个别方面。例如，CheXzero能够从自然语言描述的临床报告中学习诊断任务，体现了多模态自监督学习的潜力，但不支持动态任务指定和深度推理；Med-PaLM在回答医学问题时表现出知识储备，但也不是多模态的，且不保证生成的事实性陈述。可以理解为，GMAI将医学基础模型从“特定领域的预训练模型”提升为“全面的医学通用智能系统”，三者能力的整合构成了质的飞跃。

问：GMAI的“医学知识推理”具体如何实现？是否只是“检索+语言模型”的变体？

作者提出了多种技术路径的组合：知识图谱（如QA-GNN中语言模型与知识图谱的深度融合）、检索增强方法（如REALM）、以及因果推理框架。值得注意的是，作者举例的是一个推理链条——“检测血管→识别解剖位置→考虑相邻结构”→得出结论——这暗示的是一种多步骤、可分解的推理过程，而非单次检索匹配。可以理解为，作者期待的是模型能够像医生一样，将整体任务分解为子问题，逐个推理后合成结论，而非仅仅将输入与知识库匹配。

问：GMAI在患者聊天机器人场景中如何避免“幻觉”问题？

论文提出两个具体机制。第一，模型需要监控自身的“不确定性”，在数据不足时采取适当行动而非自信作答。第二，模型可以通过检索增强从可靠来源获取上下文，并使用溯源链接（如点击后跳转到文献原文）来支持其输出，使用户可以验证。此外，作者提到用户可以对输出进行评价，通过类似InstructGPT的含人类反馈的强化学习机制来减少错误。但论文也承认，让GMAI“精确表达不确定性”仍然是一个挑战，尚未有成熟的解决方案。

问：GMAI的发展是否会加剧医学AI领域的“大模型垄断”？

论文讨论了规模和成本问题，承认基础模型需要数百万美元的培训成本，会成为稀缺资源。同时提出两个应对方向：大规模数据共享倡议（如MIMIC、UK Biobank扩展到更多国家）可以分散数据收集成本；知识蒸馏技术可以使大规模“教师模型”教导较小的、可在本地部署的“学生模型”。但这种方案是否能在经济上真正降低准入门槛，作者没有提供具体分析。可以理解为，这是一个尚未被充分解答的开放问题。

问：从监管角度看，一个能够“执行未预先定义任务”的模型如何获得FDA批准？

论文承认这是“独特困难”的挑战，并提出了方向性建议：GMAI接口本身应设计为能够针对未经验证的使用情况提出“非标签用途”警告；开发者与监管者需要解释模型在哪些场景下经过批准；需要监管前瞻性，促使制度与政策调整。但论文没有给出具体的审批路径或框架建议，仅呼吁AI社区和临床利益相关者尽早审慎考虑这些挑战。这意味着，监管框架的创新本身就是一个急需跟进的研究方向。

本报告由立理AI生成，仅供参考，请以原文为准。