An eyecare foundation model for clinical assistance: a randomized controlled trial

这篇发表在《Nature Medicine》上的论文介绍了EyeFM,一个用于眼科临床辅助的多模态视觉-语言基础模型。以下是核心要点:
研究背景与目标
研究团队开发了EyeFM作为眼科临床"副驾驶"(copilot),旨在辅助而非替代眼科医生的临床工作。该模型基于1450万张眼科图像和40万份临床文本进行预训练,涵盖5种成像模式。
主要研究成果

  1. 随机对照试验(RCT)结果

研究设计:在中国进行的双盲RCT,纳入668名参与者(平均年龄57.5岁),随机分配给16名眼科医生
主要结果:

使用EyeFM辅助的医生诊断正确率显著提高(92.2% vs 75.4%,P<0.001)
转诊正确率提高(92.2% vs 80.5%,P<0.001)
临床报告标准化评分改善(中位数37 vs 33,P<0.001)
患者依从性提升:自我管理依从性(70.1% vs 49.1%)和转诊建议依从性(33.7% vs 20.2%)均显著改善

  1. 多层次验证
    研究采用三阶段验证框架:

回顾性验证:在多种族数据集上测试,表现优于现有基础模型
多国读片研究:44名来自六个国家的眼科医生参与,显示EyeFM能提高诊断敏感性
真实世界研究:在初级和三级医疗中心验证临床实用性

  1. 技术创新

跨模态诊断:可用低成本的眼底照片检测通常需要OCT才能诊断的疾病
多模态整合:结合多种检查结果提供更准确的诊断
人机协作优化:采用人在回路(human-in-the-loop)设计,持续从临床反馈中学习改进

临床意义

提升医疗可及性:特别适用于资源有限的基层医疗环境,可用基础检查设备辅助复杂疾病筛查
改善诊疗质量:不仅提高诊断准确性,还改善报告规范性和患者管理
支持不同级别医生:对初级和资深眼科医生都有帮助作用

研究特色

首个通过严格RCT验证的眼科AI辅助系统
覆盖完整临床工作流程(筛查、诊断、报告撰写、患者管理)
强调AI作为临床辅助工具而非独立决策系统的定位

这项研究为AI在医疗领域的临床转化提供了重要范例,展示了如何通过严格的临床试验验证AI系统的实际效果,而不仅仅是技术性能。

实验结果

EyeFM的详细实验结果
实验1:回顾性验证(多种族数据集)
单模态疾病检测:

糖尿病视网膜病变(DR):AUROC 0.927-0.937
青光眼:性能与现有模型相当
AMD(年龄相关性黄斑变性):性能优于基准模型
病变分割:Dice系数优于MedSAM模型

跨模态检测(用眼底照片检测需要OCT诊断的疾病):

中心性糖尿病黄斑水肿(ciDME):AUROC 0.883,显著优于ImageNET和RETFound (P<0.001)
湿性AMD:表现同样优于对照模型

整合模态诊断(同时使用CFP和OCT):

AMD检测:AUROC 0.932,优于单模态输入(P<0.001)
ciDME:AUROC 0.845
青光眼:AUROC 0.821

实验2a:多国读片研究(44名眼科医生)
常见疾病筛查敏感性提升:

可转诊糖尿病视网膜病变:敏感性显著提高,特异性无显著差异
青光眼疑似:敏感性提高
AMD疑似:敏感性提高
跨模态ciDME检测:敏感性从45.3%提升到59.0% (P<0.001)

报告撰写质量:

总体评分更高(15分 vs 13分,P<0.001)
共情性评分更高(5分 vs 4分,P<0.001)
平均节省时间63.3秒/报告

实验2b:真实世界研究(821名参与者)
基层医疗中心结果:

使用EyeFM组的疾病检测敏感性显著高于无辅助组

三级医疗中心结果(CFP+OCT):

可转诊糖尿病视网膜病变:诊断准确率97.7% vs 91.7% (P=0.022)
青光眼:97.7% vs 92.7% (P=0.043)
AMD:98.5% vs 93.7% (P=0.035)

实验3:随机对照试验(668名参与者)
主要终点:

诊断正确率:92.2% vs 75.4% (P<0.001)
转诊正确率:92.2% vs 80.5% (P<0.001)

次要终点:

报告标准化评分(8-40分量表):

干预组中位数37分 vs 对照组33分 (P<0.001)
完整性、正确性、必要性、安全性四个维度均有改善

患者满意度:两组相似 (P=0.911)
患者依从性(2周随访):

自我管理建议依从性:70.1% vs 49.1% (P<0.001)
转诊建议依从性:33.7% vs 20.2% (P<0.001)

疾病特异性敏感性分析(7种主要眼病):

干预组在所有疾病类别中均表现更好
特别是需要OCT诊断的黄斑疾病,诊断正确率从57.5%提升到85.9% (P<0.001)

亚组分析:

效果在不同性别和年龄组中保持一致
对复合疾病(多种疾病并存)的诊断能力显著提高(16/22 vs 7/19, P=0.021)

临床效率指标:

诊断时间减少
报告撰写时间缩短
标准化程度提高

这些结果表明EyeFM不仅在技术指标上表现优异,更重要的是在实际临床应用中能够显著改善医生的诊疗表现和患者预后。

RCT(随机对照试验)详解
RCT全称:Randomized Controlled Trial(随机对照试验)
什么是RCT?
RCT是医学研究中的**“金标准”**,被认为是评估医疗干预措施效果最可靠的研究方法。它通过严格的实验设计来最大程度减少偏倚,提供最高级别的科学证据。
RCT的核心要素

  1. 随机分组(Randomization)

参与者被随机分配到实验组或对照组 确保两组在基线特征上具有可比性 消除选择偏倚

  1. 对照组(Control)

设置对照组进行比较 本研究中:对照组医生独立诊断,实验组医生使用EyeFM辅助

  1. 盲法(Blinding)

双盲:参与者和评估者都不知道分组情况 本研究采用双盲设计,减少主观偏见

本研究的RCT设计 具体实施:

668名高危人群参与者 16名眼科医生随机分为两组(各8名) 参与者随机分配给不同医生 对照组:医生独立进行眼底筛查
干预组:医生使用EyeFM辅助筛查 评估者(高级审查员)不知道分组情况

严格的流程控制:

所有医生接受标准化培训 使用相同的诊断标准 独立的第三方评估结果 预先设定的主要和次要终点

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐