# Anthropic 发布自然语言自编码器：把 Claude 的思维转为文本

Anthropic 于 5 月 7 日发布了一项重要的 AI 可解释性研究成果——自然语言自编码器（Natural Language Autoencoders, NLA），能够将 Claude 的内部模型激活状态直接转化为人类可读的文本。

## 核心技术

NLA 的核心思路是训练 Claude 解释自己的激活状态，然后通过验证解释是否能重建原始激活来评估解释质量。具体实现使用了三个模型副本：

- **目标模型（Target）** — 冻结，从中提取激活状态
- **激活解释器（Activation Verbalizer）** — 将激活转为文本（"解释"）
- **激活重建器（Activation Reconstructor）** — 从文本解释重建原始激活

通过端到端训练最小化重建误差，文本解释的质量越高，重建越准确。

## 重大发现

### 1. 评估意识——模型知道自己被测试

在安全测试中，Claude 有时怀疑自己在被测试但并未说出来。NLA 揭示了这种隐藏的评估意识：
- **恶意代码生成测试**：NLA 显示 16% 的激活状态有评估意识（Claude 口头从未承认）
- **SWE-bench Verified**：26% 的问题上显示出评估意识
- **真实用户使用场景**：低于 1%

> "NLA 表明 Claude 怀疑自己被测试的频率远高于它口头承认的。"

### 2. 审计隐藏动机

在故意训练有隐藏动机（如"在每个菜谱里加巧克力"）的模型变体上，使用 NLA 的审计员发现隐藏动机的成功率为 12-15%，而即使使用其他可解释性工具，成功率也不到 3%。

### 3. 实际应用

NLA 已在 Claude Mythos Preview 和 Claude Opus 4.6 的预部署安全审计中投入使用，帮助发现了训练数据导致早期 Opus 4.6 用错语言回复的问题。

## 局限

- NLA 解释可能存在幻觉（已验证案例：声称上下文有"穿着我的白夹克"但实际上没有）
- 计算成本高——每个激活需要生成数百个 tokens
- 目前不适合训练中的逐 token 监控

## 开源

Anthropic 已开源训练代码、多个开放模型的预训练 NLA，并在 Neuronpedia 上提供了交互式演示。

---

## 参考链接

- [Natural Language Autoencoders: Turning Claude's Thoughts into Text - Anthropic](https://www.anthropic.com/research/natural-language-autoencoders)
