# NVIDIA 开源 SANA-WM：2.6B 世界模型，单 GPU 生成一分钟 720p 视频

NVIDIA 发布并开源 SANA-WM，一个仅 **2.6B 参数**的世界模型，能够从单张图片加上相机运动轨迹，在**单张 GPU** 上生成长达一分钟的 **720p** 可控视频。

## 核心能力

- **分钟级视频生成：** 从单帧图像生成连贯的一分钟世界动态视频
- **精确 6-DoF 相机控制：** 粗粒度全局姿态分支 + 细粒度像素对齐几何分支，精确跟随度量相机路径
- **两阶段生成管线：** Stage-1 长序列骨干网络 → Stage-2 **17B 长视频精炼器**（提升纹理、运动、后窗口质量）

## 技术架构

四项核心设计：

1. **混合线性注意力（Hybrid Linear Attention）：** 采用 Gated DeltaNet（逐帧）+ 周期性 softmax 注意力，在显存高效的前提下实现长上下文建模。全 softmax 注意力在 60 秒视频上 OOM，而循环变体可紧凑扩展。
2. **双分支相机控制：** 精确 6 自由度轨迹跟随
3. **两阶段生成管线：** 长序列骨干 + 长视频精炼器
4. **鲁棒标注管线：** 从公开视频中提取精确的度量级 6-DoF 相机姿态

## 效率对比

| 指标 | 数据 |
|------|------|
| 训练数据 | ~21.3 万段带有度量姿态标注的公开视频 |
| 训练资源 | 64 块 H100，15 天 |
| 推理（1 分钟 720p） | 单张 H100 |
| 蒸馏版推理 | **RTX 5090**，**34 秒**生成 60 秒 720p 视频（NVFP4 量化） |

## 开源价值

SANA-WM 在视觉质量上可比肩 LingBot-World、HY-WorldPlay 等大规模工业基线，但参数量级和计算成本显著降低。模型权重、推理代码均已开源，为学术界和小团队提供了强大的世界模型研究与开发基础。

---

## 参考链接

- [NVIDIA SANA-WM 项目主页](https://nvlabs.github.io/Sana/WM/)
- [arXiv: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer](https://arxiv.org/abs/2605.15178)