# 哈佛研究：AI 急诊诊断准确率超越人类医生

## 研究概况

哈佛医学院与贝斯以色列女执事医疗中心联合发表在《Science》杂志的研究，系统比较了 OpenAI 的 o1 和 4o 模型与人类医生在多个诊断场景下的表现，包括真实急诊病例。

## 实验设计

- **患者样本：** 76 名贝斯以色列急诊室患者
- **人类对照：** 两名内科主治医生（非急诊专科医生）
- **AI 模型：** OpenAI o1 和 4o（仅文本输入）
- **评估方式：** 另外两名主治医生（盲审）评估诊断质量
- **数据处理：** AI 接收与电子病历完全相同的文本信息，无需预处理

## 核心结果

在急诊分诊场景（初始评估）中：
- **o1 模型：** 诊断准确率 **67%**
- **医生 A：** 55%
- **医生 B：** 50%

研究指出："在每个诊断接触点，o1 的表现要么名义上优于两位主治医生，要么与之相当。这种差异在第一个诊断接触点（急诊分诊）最为显著——此时患者信息最少、做出正确决策的紧迫性最高。"

## 专家观点与局限

该研究的局限被研究人员明确指出：

1. **对照医生非急诊专科**——使用的是内科医生而非急诊医生。急诊医生 Kristen Panthagani 特别指出，急诊医生的首要目标不是给出精确诊断，而是"判断是否存在可能致命的状况"。
2. **仅限文本输入**——模型无法处理影像、实验室趋势等非文本信息。
3. **责任框架缺失**——贝斯以色列的 Adam Rodman 指出，目前"没有正式的责任框架"来应对 AI 误诊的情况。
4. **需要前瞻性试验**——研究强调在临床部署前需要进行"真实世界的前瞻性试验"。

## 行业意义

尽管 headline 引发热议，但这一研究更重要的意义在于为 AI 辅助诊断提供了系统性评估框架。急诊医生 Panthagani 将这项研究称为"有趣"但认为标题"过于夸张"。该研究呼吁进行更多面向真实临床场景的临床试验，而非实验室条件下的对照。

---

## 参考链接

- [TechCrunch: In Harvard study, AI offered more accurate emergency room diagnoses than two human doctors](https://techcrunch.com/2026/05/03/in-harvard-study-ai-offered-more-accurate-diagnoses-than-emergency-room-doctors/)
