连尚读书女生版
91.64MB · 2025-11-07
医疗 AI 已步入关键转折阶段。尽管视觉语言模型(VLM)在医学影像领域展现出广阔的应用前景,但其推理过程缺乏临床医生所要求的系统性与透明度,导致在辅助诊断中的可信度仍显不足。改变这一状况的是NVIDIA Clara,这是一系列模型、工具与方法,致力于加速科学发现,深入分析医学影像,并推动对人类健康、生物学及化学基础的深层理解。
具体而言,Clara Reason 引入了一种多模态思维链模型,该模型模拟放射科医生的思维方式,通过提供临床医生可验证且可信赖的解释,实现逐步的诊断推理。
NVIDIA 正在拓展传统的图像分析技术,构建一个医疗 AI 推理生态系统,通过整合基础数据集与多模态模型,提供具备可解释性的决策支持。
本文详细介绍了 Clara NV-Reason-CXR-3B 的技术实现,这是一款拥有 30 亿参数的视觉语言模型(VLM),专为胸部 X 光分析设计。文章阐述了数据集的构建方法——通过语音记录捕捉放射科医生的诊断思维过程,介绍了结合监督微调与基于梯度的强化学习策略的两阶段训练流程,并展示了在临床机构中进行的验证结果。
当前的医疗AI模型通常以“黑箱”形式运行,无法解释其推理过程,仅提供诊断结果。这种缺乏透明度的特性给临床医生带来了信任挑战,因为他们需要先理解并验证AI的建议,才能将其应用于患者的诊疗决策中。
传统的医疗AI方法往往聚焦于提升准确性指标,却忽视了可解释性的基本需求。放射科医生并非仅仅识别异常,而是系统性地评估解剖结构,权衡多种可能的鉴别诊断,并清晰表达其推理过程。最终的诊断结果不仅仅是一个标签,更是放射科医生基于多年临床经验所形成的内在思维过程的体现。
推理AI模型在解决数学、编程和逻辑问题方面已取得显著进展。通过在回答问题之前进行分步思考,这些模型能够将复杂任务分解为多个子目标,从而有效应对多步骤难题。类似地,在医疗AI领域,模拟放射科医生的思维过程有助于模型深入理解每个诊断环节,进而更精准地处理复杂的医学问题。
Clara Reason 通过结合多模态感知与结构化推理能力的架构,有效应对了可解释性挑战。
NVIDIA 研究人员利用 Clara NV-Reason-CXR-3B 模型为 Clara Reason 提供推理能力。该模型是一种专用于胸部 X 光分析的视觉语言模型(VLM),能够像放射科医生一样分析胸部 X 光片,并生成模拟医生临床思维过程的完整推理链。
这使得 AI 能够解释其诊断推理过程,并提供详尽且专业深入的分析。其设计旨在以教师或资深放射科医生的风格回答问题,提出解决方案,并提供相应的专业见解。
费城儿童医院(CHOP)助理教授Mariam Aboian博士表示:“生成式AI首次揭示了放射科医生在阅片过程中大脑的思维链,即如何识别影像结果并将其系统化整合以形成诊断。这一进展在可解释性方面实现了创新,对于人工智能在临床中的应用,以及与医疗健康领域医生和医疗服务提供者之间的沟通至关重要。”
通过与美国国立卫生研究院(NIH)、费城儿童医院(CHOP)以及 VinBrain 合作,NVIDIA 研究人员构建了首个能够捕捉放射科医生思维过程的数据集。不同于传统聚焦于标签或报告的数据集,该数据集包含由放射科医生提供的每张影像长达 1 至 2 页的详细思考记录,旨在真实还原其诊断过程中的推理路径。
放射科医生在阅读胸部X光片时,需按顺序口述其全部想法、思考过程及存在的疑虑。
质量评估:医疗设备、气道、肺部(右/左)、纵隔、心脏、腹部、骨骼——综合总结
每条注释需要花费7到15分钟,会被分解为10到20个详细的独立观察结果和思考,例如:“我注意到右下叶存在某些特征,这让我联想到……”
该团队开发了一款标注工具,用于捕捉放射科医生的真实思维过程。其核心洞见在于实现方式的简洁性,具体体现在以下几个方面:
团队可以采用具备基本注释功能的现有查看器来实施类似方法,或直接通过收集录音和图像进行审查。关键目标在于捕捉放射科医生的思维过程,而非局限于特定工具。
标注重点领域包括:
此外,基于MIMIC-CXR和Open-I胸部X光报告,从GPT-OSS 120B中提取合成数据,并以放射科医生的推理过程作为示例,从而将训练数据集扩展为包含约10万个数据点的合成数据集。
NV-Reason-CXR-3B 模型以 Qwen2.5-VL-3B-Instruct 视觉语言模型为基础,借鉴了 DeepSeek-R1 的普及化方法。
在初始阶段,采用约10万个推理样本(结合原始标注与合成数据),并利用专业放射科医生的推理数据对模型进行训练。训练过程在四个节点上进行,每个节点配备8块NVIDIA H100 GPU,共计32块GPU,持续运行4小时。该阶段的目标是使模型学会生成符合真实放射科医生思维模式的结构化诊断推理。
第二阶段采用强化学习,在更大的数据集上提升推理质量,且无需依赖显式推理标注。训练过程基于包含已验证诊断标签的扩展胸部X光数据集,并设计了一种奖励函数,根据模型正确识别异常和诊断的百分比进行评分。这与传统GRPO在数学和逻辑任务中通常采用的二值奖励机制有所不同。
训练采用与第一阶段相同的基础设施,持续四天。该方法使模型能够从更广泛的数据集中学习,同时保留监督微调阶段所形成的结构化思维模式。
Clara Reason 作为放射科医生的 AI 助手,能够在节省时间的同时,通过透明的推理过程提升诊断的可信度。该模型与临床思维高度契合,并已获得认证放射科医生的验证。
主要优势包括:
核心功能包括:
高级临床医生Ismail Baris Turkbey博士表示:“CXR推理模型提供了一个极好的机会,不仅能够辅助转诊医生,还能帮助患者更深入地了解如何结合影像中所有解剖结构、患者的临床信息及症状,来构建鉴别诊断的思维过程。此外,这一创新工具在放射学和医学培训领域具有巨大潜力,可作为学员的教育助手。”
Clara Reason 适用于以下主要应用场景:
使用以下快速入门示例,轻松将 Clara Reason 集成到您的医疗 AI 应用中:
import torchfrom transformers import AutoModelForImageTextToText, AutoProcessorfrom PIL import Image# Load the Clara Reason model model_name = "nvidia/NV-Reason-CXR-3B"model = AutoModelForImageTextToText.from_pretrained( model_name, torch_dtype=torch.float16,).eval().to("cuda")processor = AutoProcessor.from_pretrained(model_name)# Load chest x-ray imageimage = Image.open("chest_xray.png")# Prepare input with clinical contextmessages = [ { "role": "user", "content": [ { "type": "image", "image": image, }, { "type": "text", "text": "Find abnormalities and support devices." } ] }]# Create prompt using chat templatetext = processor.apply_chat_template( messages, add_generation_prompt=True)# Process inputsinputs = processor( text=text, images=[image], return_tensors="pt").to(model.device)# Generate reasoning with chain-of-thoughtgenerated_ids = model.generate( **inputs, max_new_tokens=2048)# Trim the generated ids to remove the input idstrimmed_generated_ids = [ out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]# Decode the responsegenerated_text = processor.batch_decode( trimmed_generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]print("Output:")print(generated_text)输出示例:
THINK: We'll begin with the quality assessment of this AP chest x-ray. As you can see, the lung fields are relatively well visualized, although the patient's position and the fact that it's a portable AP view may limit the evaluation to some extent. I think the quality is acceptable for this type of examination.Now, we are looking at the medical devices and instrumentation. I don't see any medical devices such as central venous catheters, endotracheal tubes, or chest tubes. However, I do notice that the patient is likely in a clinical setting, given the portable nature of the examination.The central airways appear patent. The trachea is visible and not deviated, and the right and left main bronchi appear unremarkable. I don't see any foreign objects or abnormalities in the central airways.Moving on to the right lung, we are evaluating the upper lobe first. The aeration of the right upper lobe appears reduced, which could be suggestive of some volume loss or atelectasis. I don't see any distinct masses or nodules, but there are some subtle opacities that could represent infiltrates or edema.Next, we will evaluate the right middle and lower lobes. The lung volumes appear low, which could be indicative of some atelectasis or volume loss. I see some patchy opacities in the right lower lobe, which may represent pulmonary edema or infiltrates. The costophrenic angle is slightly blunted, which could be significant for a small pleural effusion.Now, let's examine the left lung. The left upper lobe appears similar to the right, with reduced aeration and some subtle opacities that could represent infiltrates or edema. The left lower lobe also shows some patchy opacities and a slightly blunted costophrenic angle, suggestive of a small pleural effusion.We are looking at the pleura now, and as I mentioned before, the costophrenic angles are slightly blunted bilaterally, which is concerning for small bilateral pleural effusions. I don't see any evidence of pneumothorax.The mediastinum appears enlarged, which could be indicative of cardiomegaly. The cardiac silhouette is prominent, and I think this finding may be meaningful for moderate cardiomegaly.The hila appear unremarkable, without any significant adenopathy or masses. The lung vasculature appears prominent, which could be suggestive of pulmonary edema.The heart, as I mentioned before, appears enlarged, with a cardiothoracic ratio that is elevated. This finding is concerning for cardiomegaly.Now, we are looking at the upper abdomen, and I see some normal-appearing bowel gas patterns. There is no free air under the diaphragm, which is important to note.Finally, we are looking at the bony structures. The clavicles, scapulae, and ribs appear unremarkable, without any focal lesions or fractures. The vertebral bodies are well visualized and appear normal.In summary, the most significant findings in this patient are the presence of mild pulmonary edema, small bilateral pleural effusions, and moderate cardiomegaly. These findings could represent a range of clinical conditions, including heart failure or other cardiopulmonary diseases. ANSWER: Cardiomegaly, Edema, Enlarged Cardiomediastinum, Lung Opacity, Pleural Effusion
Clara Reason 引入了一种思维链模型,该模型模拟放射科医生的思维方式,提供逐步的诊断推理过程,以及临床医生可验证且值得信赖的解释。具体而言:
医疗AI领域的这一突破得益于多方协作。
准备好开始了吗?
订阅 NVIDIA 新闻,并在 LinkedIn、X 和 YouTube 上关注 NVIDIA Healthcare,及时掌握最新资讯。