# Google 发布 Gemini Omni——"万物生成万物"的多模态 AI 模型

> Google 用 Gemini Omni 重新定义了 AI 视频生成——不再是单纯的"文生视频"，而是从任意输入生成任意输出，并支持对话式迭代编辑。

## 事件核心

2026 年 5 月 19 日，Google 在 I/O 2026 主题演讲上正式发布 Gemini Omni，一个全新多模态生成模型系列。首款模型 Gemini Omni Flash 已上线 Google Flow 平台及 YouTube Shorts。核心理念是"从任意输入生成任意输出"（Create anything from any input），当前先从视频模态切入。

由 Google DeepMind 的 Demis Hassabis 和 CEO Sundar Pichai 共同介绍，Gemini Omni 将 Gemini 的推理能力与生成式媒体模型深度结合，实现了以下突破：
- **多模态输入输出：** 用户可同时使用文本、图像、音频、视频作为输入，模型对所有输入进行跨模态推理后生成一致的视频输出
- **对话式视频编辑：** 通过自然语言对已有视频进行迭代式编辑，无需重新生成——例如将石雕变成气泡材质，或修改灯光颜色，模型能保持场景一致性
- **世界知识融合：** 模型结合了 Gemini 对物理（重力、流体动力学）、历史、科学、文化的理解，生成的视频跟随现实世界逻辑
- **数字分身（Avatar）：** 用户可通过多角度面部采集创建个人虚拟分身用于视频植入，需经过严格注册流程

## 关键数据

- **视频时长限制：** 每次生成最长 **10 秒**（非模型能力上限，而是有意设计以扩大用户覆盖面）（来源：TechCrunch / The Verge）
- **定价：** AI Pro 计划 **$20/月** 包含 **1000 积分**，每条视频生成消耗 **15-40 积分**，每次编辑消耗 **40 积分**（来源：The Verge 实测）
- **免费渠道：** YouTube Shorts / YouTube Create App 完全免费使用（来源：Google 官方博客）
- **安全机制：** 所有视频强制嵌入 Google SynthID 不可见水印 + C2PA 跨平台元数据，可在 Gemini App、Chrome、Google Search 中验证来源（来源：Google 官方博客）
- **API 可用性：** 数周内面向开发者和企业开放 API（来源：TechCrunch）

## 背景与上下文

**竞品消亡的关键时刻：** 就在 Gemini Omni 发布的三周前（2026 年 4 月 26 日），**OpenAI 正式关停了 Sora 的消费者端应用和网页界面**。据 Forbes 报道，Sora 的日推理成本峰值高达 **1500 万美元**，而总应用内收入仅 **210 万美元**，下载量从峰值暴跌 66%。Sora 2 的 API 也将在 2026 年 9 月彻底关闭。这一时间点使得 Gemini Omni 的发布具有了强烈的市场替代意义。

**Google I/O 2026 战略布局：** Omni 是大会核心发布之一，同期发布的还有 Gemini 3.5 Flash（面向 agentic coding，速度比其他前沿模型快 4 倍）和 Gemini Spark（24/7 个人助手）。Pichai 指出："With world models, AI is moving from predicting text to simulating reality."

## 行业影响

据 CNNBLOG 横向对比测试，Omni 的迭代编辑体验大幅领先竞品——3 次迭代编辑零重新生成，而 Sora 每次编辑需重新生成整个视频，导致光线/行人路径改变。在单帧画质上，Sora 2 和 Seedance 2.0 仍然领先，Runway Gen-4 提供最多控制力。但 Omni 直接集成在 YouTube Shorts（全球数十亿用户），这是任何竞品不具备的分发优势。

The Verge 的 Allison Johnson 在评测中写道：上传一张自拍视频后，Omni 生成了她在埃菲尔铁塔前吃法棍的视频，丈夫完全被骗过——"convincing as hell"。经过约 20 条剪辑后，1000 积分仅剩 145 分，迭代成本较高。

## 不同视角

**积极声音：** a16z 合伙人 Justine Moore 特别指出 Omni 的两大亮点——LLM 级别的对话式编辑 + 数字分身功能。Google DeepMind CTO Koray Kavukcuoglu 称其为"Nano Banana for video"——像 Nano Banana 彻底改变图像生成一样，Omni 试图彻底改变视频创作。

**谨慎视角：** Forbes 指出 Google 视频产品线过于混乱——Veo、Veo 3.1、Gemini Omni、Google Flow、Google Vids——"重叠的名称和入口点让用户难以理解"。DataCamp 实测发现物理引擎 bug——投石机向后发射炮弹。此外，简体中文口播的语音自然度仍存在问题，推测缺乏针对中文语音的优化。

---

## 参考链接

- [The Verge — Google's new anything-to-anything AI model is wild](https://www.theverge.com/tech/936507/gemini-omni-hands-on-deepfake-ai-video)（实践评测+定价详情）
- [TechCrunch — Google's Gemini Omni turns images, audio, and text into video](https://techcrunch.com/2026/05/19/googles-gemini-omni-turns-images-audio-and-text-into-video-and-thats-just-the-start/)（I/O 发布报道）
- [Google 官方博客 — Introducing Gemini Omni](https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/)（Koray Kavukcuoglu）
- [CNNBLOG — We tested Gemini Omni against Sora, Runway, and Seedance](https://www.cnnblog.co.uk/2026/05/21/we-tested-gemini-omni-against-sora-runway-and-seedance-one-of-them-clicked/)（多模型横向对比）