# 微软研究：AI 代理长期委托任务中会「腐败」文档

Microsoft Research 最新发布了一项名为 DELEGATE-52 的基准测试研究，揭示了当前大语言模型在长期委托任务中的严重可靠性问题。

## 核心发现

研究模拟了 52 个专业领域的 310 个工作环境，对 19 个主流 LLM（包括 GPT-4o 到 GPT-5.4、Claude 4.6 Opus/Sonnet、Gemini 3.1 Pro、Grok 4、Kimi K2.5 等）进行了测试。每项测试模拟 20 次交互的长期任务委托场景。

**关键结果：**
- 前沿模型（Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4）在 20 次交互后平均腐败 25% 的文档内容
- 全部 19 个模型平均退化率达到 50%
- 所有模型的退化都是单调下降的，在 100 次交互后仍然未见平台期
- **仅 Python 编程领域**表现合格（大多数模型 RS@20 ≥ 98%）
- 表现最好的模型 Gemini 3.1 Pro 也只在 52 个领域中的 11 个达到「可用」标准

## 关键发现详解

### 工具使用反而加剧问题
令人意外的是，配备读/写/代码执行工具的 AI 代理比直接输出表现更差，平均额外退化 6%。工具使用导致 2-5 倍的输入 token 消耗和更高延迟，但没有任何改进。

### 文档越大退化越快
文档从 1k token 增加到 10k token 时，每增加 1k token 在 20 次交互后额外损失约 3.6%。

### 错误类型
约 80-98% 的退化来自「关键失败」（单次往返中分数骤降 10 分以上），而非渐进式退化。强模型只是推迟了关键失败的发生时间，但无法避免。

### 前沿模型 vs 弱模型
- **前沿模型（GPT 5.4、Claude 4.6 Opus）** 主要表现为内容「腐败」（幻觉、扭曲信息），而非删除
- **弱模型（GPT 4o、GPT 5 Nano）** 主要表现为内容删除（占退化量的 70-73%）

## 实际意义

研究警告用户不要将 LLM 的能力跨领域泛化，在长期工作流中必须密切监控 AI 代理的输出。好消息是，从 GPT 4o（14.7%）到 GPT 5.4（71.5%），16 个月内取得了巨大进步，但距离全面可用仍有相当距离。

对于 AI 代理开发者而言，这篇论文提醒我们：短期基准测试无法反映长期退化问题，需要建立包含循环一致性验证的任务评估体系。

---

## 参考链接

- [arXiv — LLMs Corrupt Your Documents When You Delegate](https://arxiv.org/abs/2604.15597)