# Rotary GPU：在 8GB 消费级显卡上运行 35B MoE 大模型

> 韩国研究者提出"旋转驻留"系统，在 RTX 4060 笔记本显卡上成功运行原本需要 20GB+ 显存的 Qwen3.6-35B MoE 模型——消费级硬件本地运行大型模型的边界正在被重新定义。

## 事件核心

韩国 ANIMA Research 的 Myeong Jun Jo 在 arXiv 上发表了论文 **《Rotary GPU: Exploring Local Execution Paths for Large Mixture-of-Experts Models Under Limited GPU Memory》**（arXiv:2605.29135），提出一种专为 Mixture-of-Experts（MoE）大模型设计的 GPU 显存管理方案——**旋转驻留系统（Rotary Residency System）**，在仅有 **8GB VRAM** 的消费级笔记本 GPU 上成功运行了量化后约 **19.71GB** 的 Qwen3.6-35B-A3B MoE 模型。该方案已获韩国专利保护（KR 10-2026-0070380）。

## 关键数据

| 指标 | 数值 |
|------|------|
| **测试 GPU** | RTX 4060 Laptop GPU（8 GB VRAM） |
| **CPU** | Intel i7 |
| **系统内存** | 32 GB |
| **模型** | Qwen3.6-35B-A3B（MoE 架构） |
| **量化格式** | Q4_K_M GGUF（约 19.71 GB） |
| **上下文长度** | 4096 tokens |
| **VRAM 占用** | **~6.3 GB**（头寸余量 ~1.7 GB） |
| **解码吞吐** | **21.06 tokens/s** |
| **Prompt 评估** | 74.2 tokens/s |
| **总耗时** | 98.54 秒（生成 2048 tokens） |
| **GPU 温度** | 68°C |
| **测试完成率** | 10/10 prompts（100%） |

## 技术原理

传统上，在消费级显卡上运行大型 MoE 模型通常依赖两种方案：**专家卸载**（将部分专家层驻留 CPU 内存，按需加载到 GPU）或 **量化压缩**（降低参数精度以减少内存占用）。

Rotary GPU 提出的第三条路径基于 MoE 架构的特性——并非所有"专家"子网络在每次推理时都被激活。其**旋转驻留系统**的核心创新在于三点：

1. **驻留是动态而非永久的**：GPU 显存中的专家位置被视为可循环调度的"槽位"，而非固定分配
2. **驻留决策受执行上下文影响**：而不是依赖静态配置
3. **过渡遵循结构化循环模式**：可以循环正向和反向旋转——当某种上下文再次出现时，可以回到之前驻留的专家集合

这与传统的 LRU（最近最少使用）缓存策略形成鲜明对比：LRU 仅按使用时间后退，而 Rotary 允许"往返"——一个关键优势在于，MoE 模型的专家激活模式往往具有周期性上下文相关性。

论文作者用仓库管理类比："当客户只要求一件物品时，是否必须搬动整个仓库？核心问题不是仓库是否应该存在，而是每次配送是否都需要移动整个仓库。"

## 背景与上下文

大语言模型的体量持续膨胀，而消费级显卡的显存增长相对缓慢（RTX 4060 的 8GB 与三年前 RTX 3060 的 12GB 相比甚至有所缩减）。MoE 架构通过稀疏激活——每次只激活全部专家的一个子集——在保持模型容量的同时减少推理计算量，但激活的专家仍需常驻显存，因此模型总参数量仍然受物理显存限制。

Rotary GPU 的目标群体是"没有数据中心基础设施可依赖"的组织：政府、金融、医疗、国防等有数据安全合规要求的场景。论文明确声明"目标不是替换数据中心基础设施，而是探索在基础设施不可用的环境中是否可以带来大型模型的部分能力"。

## 行业影响

1. **本地推理门槛大幅降低**：用 8GB VRAM 运行 35B MoE 模型，意味着大多数消费级游戏本也能参与大模型推理
2. **MoE 架构价值凸显**：稀疏激活特性被更充分挖掘，可能推动更多 MoE 模型针对消费级硬件进行优化
3. **数据安全场景受益**：政府、金融、医疗等敏感行业可能在本地运行此前需要云端部署的大型模型
4. **方向性意义大于实用性**：论文明确指出这是"探索性验证"而非系统基准测试，实际部署仍面临不确定性

## 不同视角

**乐观方**认为，Rotary GPU 证明了在有限显存下运行大型 MoE 模型的可行性——6.3GB 占用、21 tokens/s 的解码速度对于许多离线应用已经可用。**审慎方**指出，Q4_K_M 量化已降低模型精度，旋转调度的算法开销和长上下文稳定性尚未充分验证——部分配置（如 n-cpu-moe=36 + 4096 context）无法稳定初始化。此外，对比 vLLM、DeepSpeed 等成熟推理框架，Rotary GPU 缺乏系统性的性能和精度对比数据。

---

## 参考链接

- [arXiv 论文：Rotary GPU — Local Execution for Large MoE Models Under Limited GPU Memory](https://arxiv.org/abs/2605.29135) — 原始论文
- [arXiv HTML 版论文全文](https://arxiv.org/html/2605.29135) — 可读版本
- [MoE-Infinity：Efficient MoE Inference on Personal Machines](https://arxiv.org/html/2401.14361v3) — 对比方案
- [MoE-SpAc：Speculative Activation for Edge MoE Inference](https://arxiv.org/pdf/2603.09983) — 对比方案