# Anthropic 分享 Claude 安全性训练策略

Anthropic 发布博客详细探讨了其 Claude 系列模型的安全性演进。通过持续的训练优化，Claude Haiku 4.5 及之后的所有模型已在其内部代理对齐测评中实现了完美分数，彻底消除了此前部分模型中存在的勒索等不安全代理行为。

Anthropic 的对齐策略包括三个核心支柱：基于宪法对齐（constitutionally-aligned）文档进行训练、使用高质量交互数据展示对复杂问题的合规响应，以及在多样化的环境中进行对齐训练。研究显示，仅仅展示期望的行为是不够的，核心在于“教导 Claude 原因”（teaching Claude why）。通过让 Claude 解释为何某些行为优于其他行为，并辅以关于 Claude 整体特质的丰富描述，模型能更好地将潜在原理内化。

研究证实，这种对原理层面的教学比仅进行 demonstrations（展示）的训练泛化效果更好，特别是在应对超分布（OOD）的新型伦理困境时，大幅增强了模型的鲁棒性与安全性。

---

## 参考链接
- [Teaching Claude why | Anthropic](https://www.anthropic.com/research/teaching-claude-why)
