Token消耗一年暴增7倍！谷歌步入Agent驱动时代带来什么启示？

《科创板日报》5 月 20 日讯（编辑宋子乔）今日凌晨，在一年一度的谷歌 I/O 开发者大会上，谷歌 CEO 桑达尔•皮查伊（Sundar Pichai）称，这次谷歌 I/O 大会的新发布，意味着其已正式迈入 Agent（智能体）驱动的 Gemini 时代。

Agent 是本次谷歌开发者大会的重点展示内容。

谷歌的目标是让 AI 从 " 应答助手 " 变成全天候自主干活的智能体，重塑个人与企业的数字工作流。从发布会上看，谷歌正把 AI 智能体全面嵌入其所有核心入口，包括搜索、浏览器、手机等，渐渐形成 " 底层模型（3.5Flash）——开发平台（Antigravity）——个人助手（Spark）——场景（搜索 / 电商 / 硬件）" 的全栈体系。

在模型底座层面，谷歌推出 Gemini 3.5 Flash 作为智能体核心引擎，这是其首个为 " 长周期智能体任务 " 专门优化的模型，Token 输出速度达 OpenAI、Anthropic 前沿模型的四倍，在 Antigravity 编程平台中的速度提升至 12 倍，价格不到同档前沿模型的一半。其 API 定价为输入 1.5 美元 / 百万 Token，输出 9 美元 / 百万 Token，比 3 Flash 贵了 3 倍，但比 3.1 Pro 便宜 40%。

皮查伊在现场算了一笔账，一家头部企业每天处理约 1 万亿 Token，如果其将 80% 负载从其他前沿模型迁移到 3.5 Flash，每年可节省超过 10 亿美元。

另外，Gemini 3.5 Flash 拥有 1M 超长上下文可支撑复杂长链路任务处理，已成为 Gemini App、搜索 AI Mode 的默认模型，为全场景 Agent 提供算力支撑。

同时，谷歌发布多模态世界模型 Gemini Omni，可实现任意多模态输入到视频、图像、文本的生成输出，为创意、设计类 Agent 提供生成能力，补齐智能体多模态交互短板。

Gemini Spark 是本次大会最核心的个人智能体产品，这是谷歌首款云端常驻、设备关机仍可运行的个人 AI 助理，基于 Gemini 3.5 Flash 与 Antigravity 调度框架，运行于谷歌云专属虚拟机，深度整合 Gmail、Docs、Sheets 等谷歌全家桶，可以跨应用自动运行，完成拉取信息、撰写邮件、整理会议纪要等复杂任务，支持语音多指令下发与自定义技能，今夏将接入 Chrome 浏览器，实现全场景覆盖。

Spark 下周将向美国 Google AI Ultra 订阅用户开放 Beta 测试。为了降低智能体服务使用门槛，其 Ultra 高端套餐的订阅价格将从 250 美元 / 月降至 200 美元 / 月，并新增 100 美元 / 月档位。

在 Android 平台上，谷歌同步推出 Android Halo ——手机顶部的智能体状态通知层，让用户随时掌握后台智能体的执行进度。

在开发平台层面，谷歌升级了 Antigravity 2.0，将其定位为 Agent-first（智能体优先）的全栈开发平台。该平台从 IDE 升级为独立桌面应用，支持多 Agent 并行编排、动态子 Agent 调度、定时任务与后台自动化，提供桌面端、CLI、SDK、托管 Agent 四大工具套件，可本地部署 Agent 引擎并深度集成谷歌生态。

谷歌演示了如何使用 Antigravity 2.0 搭配 Gemini 3.5 Flash，让 93 个智能体协同工作，仅消耗 26 亿 Token、成本不到 1000 美元，就在 12 小时内从零搭建了一个可运行的操作系统。从内核到进程和内存管理系统，Antigravity 编写了每一行代码。

今年 3 月，谷歌内部开发相关任务每天处理约 5000 亿 Tokens，之后每隔几周翻倍，目前已经超过每天 3 万亿 Tokens。

此外，谷歌推出 Managed Agents API，开发者通过一次 API 调用即可启动一个托管智能体，获得隔离沙箱环境用于代码执行和工具调用。Agent Studio 则为业务团队提供低代码入口，形成覆盖专业开发者与业务人员的四层开发模型。

谷歌搜索一直是该公司的基本盘业务，此次大会上谷歌推出了 Search Agents 搜索智能体，具备后台持续监控、条件触发主动推送能力，可并行追踪股价、租房、商品库存等信息，可与 Gemini Spark 协同工作。

其全新 AI Mode 搜索框支持多模态输入，AI 智能体可在后台 24/7 运行，持续追踪用户关心的信息，并在有更新时主动推送。Universal Cart 智能购物车则聚焦电商搜索场景，能跨平台自动比价、下单、售后追踪。

AI 产品的商业化交付始终是谷歌更关心的问题，正如皮查伊所言，"最前沿的智能体可能只触达过世界上 0.1% 的人。真正的问题，是怎么把这种前沿能力规模化交付给所有人。"

本次 I/O2026 给出的答案是，谷歌正在用其全栈能力——从 TPU 硬件、Gemini 模型，到 Android、Chrome、Search、Gmail，再到 Antigravity 开发平台，铺成一条从 " 实验室智能体 " 到 " 十亿用户智能体 " 的闭环通路。

值得注意的是，智能体需反复推理、调用工具、处理长上下文，单次任务 Token 消耗可达普通对话的数十倍以上。

皮查伊透露，谷歌十年前确立 AI-first 战略，如今每月跨自家产品处理的 Token 数量已经达到了夸张的 3200 万亿，是 2025 年 I/O 时 480 万亿的 7 倍。目前每月有超过 850 万开发者利用谷歌的模型开发新应用和新体验，模型 API 目前每分钟处理大约 190 亿 Token，过去 12 个月有超过 375 名谷歌云客户各自处理了超过一万亿 Token。

放眼国内，2024 年初，中国日均 Token 调用量仅 1000 亿，2025 年底跃升至 100 万亿，2026 年 3 月突破 140 万亿，两年增长超千倍。

当模型厂商从按次收费转向按 Tokens 计费，AI 商业模式开始跑通。

国信证券表示，伴随今年初以来 Agent 驱动 Tokens 爆发式增长，大模型厂商商业模式逐步闭环，收入增长远高于训练成本提升，且模型厂商毛利率不断提升。该机构认为当前 AI 投资叙事已逐步从需求侧转变为供给侧是否能支撑后续订单交付。

中信证券研报称，Token 工厂陆续落地，Token 服务走向标准化。三大运营商推出 Token 套餐，标准化 Token 运营走向千家万户。Token 工厂及 Token 运营商推动产业链价值重估，推动算力租赁从当前以 " 裸金属 " 服务器租赁时长为基础的固定月租模式，转向按实际 Token 用量计费的模式，头部算力租赁厂商卡位优势突出。建议关注 Token 工厂及算力租赁相关标的。

Token消耗一年暴增7倍！谷歌步入Agent驱动时代 带来什么启示？

Token消耗一年暴增7倍！谷歌步入Agent驱动时代带来什么启示？