击败40%临床医生！谷歌首次验证「全科医学AI系统」，看病难真要成历史？

2023-08-20 09:56:31 来源：手机网易网

新智元报道

【资料图】

编辑：LRS

【新智元导读】基于100万医学数据、PaLM模型、ViT模型，谷歌全新模型Med-PaLM M成医学界大模型新sota！

「看病难」在全世界范围内都是一个难题，想要成为一位优秀的专科、全科医生不仅需要耗费大量时间来进行知识学习，还需要经历足够多的病例来获取实操经验。

如果医学AI系统足够强大，在常见病的处理上完全可以取代人类医生，医疗服务紧缺现象也会得到极大缓解。

今年4月，美国哈佛大学、斯坦福大学、耶鲁医学院、加拿大多伦多大学等多所顶尖高校、医疗机构的研究人员在Nature上联合提出了一种，可以灵活地编码、整合和大规模解释医学领域的多模态数据，比如文本、成像、基因组学等，有可能颠覆现有的医疗服务形式。

最近，Google Research和Google DeepMind共同发布了一篇论文，对全科医学人工智能概念进行了实现、验证。

研究人员首先策划了一个全新的多模态生物医学基准数据集MultiMedBench，包含100多万条样本，涉及14个任务，如医疗问题回答、乳腺和皮肤科图像解读、放射学报告生成和总结以及基因组变异识别。

然后提出了一个新模型Med-PaLM Multimodal（Med-PaLM M），验证了通用生物医学人工智能系统的可实现性。

Med-PaLM M 是一个大型多模态生成模型，仅用一组模型权重就可以灵活地编码和解释生物医学数据，包括临床语言、成像和基因组学数据。

在所有MultiMedBench任务中，Med-PaLM M的性能都与最先进的技术相差无几，在部分任务上甚至还超越了专用的SOTA模型。

文中还报告了该模型在零样本学习下可以泛化到新的医学概念和任务、跨任务迁移学习以及涌现出的零样本医学推理能力。

文中还进一步探究了Med-PaLM M的能力和局限性，研究人员对比了模型生成的及人类编写的胸部X光报告进行了放射科医师评估，在246份病例中，临床医生认为Med-PaLM M的报告在40.5%的样本中比放射科医生编写的要更好，也表明Med-PaLM M具有潜在的临床实用性。

MultiMedBench

为了训练和评估大模型在执行各种临床相关任务的能力，谷歌的研究人员收集了一个多任务、多模态的全科医疗基准数据集MultiMedBench

该基准由12个开源数据集以及14个独立任务组成，包含100多万条样本，涵盖了医疗问答、放射学报告、病理学、皮肤病学、胸部X光、乳房X光和基因组学等多个领域。

任务类型：问题回答、报告生成和总结摘要、视觉问题回答、医学图像分类和基因组变异识别（genomic variant calling）

模态：模式：文本、放射学（CT、MRI 和 X-射线）、病理学、皮肤病学、乳房X射线检查（mammography）和基因组学。

输出格式：所有任务（包括分类任务）都是开放式生成（open-ended generation）

纯语言任务包括医学问题回答（MultiMedQA任务）和放射学报告总结，可以测试模型是否具有理解、回忆和操作医学知识的能力。

多模态任务包括医学视觉问题解答 (VQA)、医学图像分类、胸部X光报告生成和基因组变异识别，非常适合评估模型的视觉理解和多模态推理能力。

Med-PaLM M：全科生物医疗AI的概念验证

基座模型：PaLM-E

PaLM-E是一个多模态语言模型，可以处理包括文本、视觉和传感器信号等多模态的输入序列，使用了预训练的PaLM和ViT模型，在OK-VQA和VQA v2等多个视觉语言基准测试中表现出色。

PaLM-E可以灵活地在单个提示中交错显示图像、文本和传感器信号，使模型能够在完全多模态的背景下进行预测。

PaLM-E具有零样本多模态思维链（CoT）推理和少样本上下文学习等多种能力。

研究人员利用PaLM-E模型作为Med-PaLM M的基础架构，组合了128B、84B和562B三个不同参数量的PaLM-E模型。

预处理

研究人员将MultiMedBench数据集中的所有图像重新调整为224×224×3尺寸，同时保留原始长宽比，在必要时进行填充处理；对于灰度图像，沿通道维度（channel dimension）对图像进行堆叠，将灰度图像转换为三通道图像。

其他与任务相关的预处理方法，如类平衡、图像数据增强等请参阅原文。

指令任务提示、one-shot样例

想要训练一个通用生物医学人工智能模型，模型架构及参数上的统一、能够同时处理多模态、多任务的输入是很重要的。

研究人员采用指令微调的方式，为不同任务设定不同的指令，使得模型可以在统一的生成架构内执行不同类型的任务，其中任务提示由指令、相关上下文信息和问题组成。

比如在胸部X光报告生成任务中，上下文信息包括研究原因和图像方向；而在皮肤病学分类任务中，则提供与皮损图像相关的患者临床病史作为上下文。

研究人员将所有分类任务都设计成多选问题，将所有可能的类别标签作为单个答案选项提供，并提示模型生成最可能的答案作为目标输出。

对于其他生成任务，如视觉问题解答、报告生成和总结，则根据目标响应对模型进行微调。

为了使模型能够更好地遵循指令，研究人员在多数任务的提示中加入了一个纯文本的示例来调整语言模型的预测结果；对于多模态任务，将图像替换为字符串「」，在保持单图像任务计算效率的同时，还可以绕过给定文本token和多图像token之间的交叉注意力的潜在干扰。

实验结果

评估目标

1. 通用能力

研究人员在MultiMedBench上对不同规模的Med-PaLM M模型进行评估，初步了解了在不同任务中扩展ViT和语言模型组件的效果。

然后将其性能与之前的SOTA（包括专门开发的单任务、单模态的方法）和未进行生物医学微调的最新通用模型（PaLM-E）进行了对比。

2. 涌现能力

在不同任务中训练单一灵活的多模态、通用AI系统的一个潜在优势是，通过语言的组合泛化（如对新的医学概念和任务的泛化），会让模型涌现出新的能力，可以通过定性和定量实验进行探索。

3. 测量放射学报告生成质量

自然语言生成（NLG）指标无法充分评估AI模型生成的放射学报告的临床适用性，所以研究人员在MIMIC-CXR数据集上对AI模型生成的报告进行了放射科专家评估，包括与放射科专家提供的参考报告进行比较。

横扫MultiMedBench

研究人员将Med-PaLM M的性能与两类基线模型进行对比：

1. MultiMedBench基准上各项任务的先前SOTA专用模型

2. 未进行任何生物医学领域微调的基线通用模型（PaLM-E 84B）

从实验结果来看，Med-PaLM M的最佳结果（三种模型尺寸）在12个任务中的5个都实现了超越先前SOTA的性能，并且在其余任务上也展现出极有竞争力的性能表现。

值得注意的是，这些结果是在使用相同模型权重集的通用模型中取得的，没有针对特定任务进行任何架构定制或优化。

在医疗问题回答任务上，先前的SOTA模型Med-PaLM 2性能更高，但与基线PaLM模型相比，Med-PaLM M在三个问答任务上，实现了远超PaLM的性能。

不同尺寸模型的性能对比

对比12B、84B 和562B的Med-PaLM M模型性能，可以观察到：

1. 语言推理任务受益于模型规模的扩大

对于需要语言理解和推理的任务，如医学问题回答、医学视觉问题回答和放射学报告总结，将模型规模从12B扩大到562B时，性能显著提高。

2. 视觉编码器的性能是多模态任务的瓶颈

对于乳房X射线或皮肤病学图像分类等任务，需要细致入微的视觉理解能力，对语言推理的需求极低（输出仅为分类标签标记）。

可以看到，从Med-PaLM M 12B到Med-PaLM 84B，性能有所提高，但562B模型带来的性能提升却很有限，可能是因为视觉编码器在该步骤中没有进一步扩大参数量（Med-PaLM M 84B 和 562B 模型都使用相同的22B ViT作为视觉编码器），成为性能增益的瓶颈；其他干扰因素可能还包括输入图像的分辨率等。

在胸部X光报告生成任务中，从表面上看，这项任务似乎需要复杂的语言理解和推理能力，可以从更大的语言模型中受益；但从实际效果上来看，Med-PaLM M 84B模型在大多数指标上与562B模型大致相当或略微超过，可能仅仅是由于较大的模型使用了较少的训练步骤。

增加语言模型尺寸没用的另一个原因可能是，MIMIC-CXR数据集中生成胸部X光报告的输出空间相当有限，只有一组模板句子和有限数量的条件，所以在生成报告时采用检索而非生成的方式可能更好。

此外，更大的562B模型倾向于生成冗长的报告，而84B模型则相对简洁，如果在训练中没有进一步做偏好调整，可能会影响最终的评估指标。

零样本通用能力

通过评估Med-PaLM M从蒙哥马利县（Montgomery County，MC）数据集中的胸部X光图像中检测肺结核（TB）异常的能力，研究人员探究了Med-PaLM M对未知医学概念的零样本泛化能力。

可以看到，相比专门优化过的SOTA模型，不同尺寸的Med-PaLM M性能相近，在没有额外训练样本的情况下，准确率只落后不到5%

在推理方面，研究人员在MC TB数据集上定性地探索了 Med-PaLM M 的零样本思维链（CoT）能力。

与分类设置不同的是，除了是/否分类预测外，还需要用纯文本示例提示模型生成一份报告，描述在给定图像中的发现。

从实验结果中可以发现，Med-PaLM M模型可以在正确的位置识别出结核病相关的主要病变。

不过，根据放射科专家的审查，模型生成的报告中仍有一些遗漏的结果和错误，仍有改进的空间。

值得注意的是，Med-PaLM M 12B无法生成连贯的视觉条件反应，也就是说语言模型的规模在零样本CoT多模态推理能力中起着关键作用，可能是一种涌现的能力。

参考资料：