一、现象级发布:全模态原生模型的颠覆性体验
当 OpenAI 与 Anthropic 在大模型赛道激战正酣,谷歌携 Gemini 3 完成了一场漂亮的 “弯道超车”。这款被视为 Scaling Law 极致实践的模型,在发布 48 小时内横扫各大评测榜单,但真正的震撼来自于用户端的实测体感 —— 它不再是单一维度的能力提升,而是重构了人机交互的底层逻辑。
前 Meta FAIR 研究总监田渊栋的 “小说续写” 测试,则揭示了模型在理解层面的飞跃。如果说 Gemini 2.5 的进步停留在细腻的场景描写,那么 Gemini 3 已具备情节构建能力 —— 它能设计出出人意料的反转剧情,甚至给人类创作者带来灵感,这标志着 AI 首次在深层动机理解上展现出突破性。不过田渊栋也指出了模型的局限:在科研头脑风暴中,它仍像 “博闻强记却缺乏直觉的博士生”,能堆砌前沿概念和数学工具,却无法深入探讨问题本质或判断研究方向的潜力。

田渊栋,前Meta FAIR研究总监、AI科学家
而前 Meta AI 工程师 Gavin Wang 关注的 ARC-AGI-2 榜单,更凸显了 Gemini 3 的核心优势。这个侧重少样本学习和元学习的测试,此前顶尖模型的正确率仅为个位数或十几 percent,而 Gemini 3 一举突破 30%,关键就在于其原生多模态架构 —— 它将视觉、代码、语言数据在预训练阶段深度融合,打破了传统思维链的单模态局限,实现了 “视觉观察 + 语言推理” 的跨模态协同,这种化学反应为 AI 能力拓展打开了全新空间。

Gavin Wang,前Meta AI工程师,负责Llama 3后训练及多模态推理
二、技术揭秘:谷歌的 “硬实力” 与 “巧布局”
从追赶者到领跑者,谷歌的逆袭绝非偶然。表面上 “改进预训练和后训练” 的官方表述,背后是软硬件协同、工程优化与算法创新的多重赋能。在算法层面,Gemini 3 引入了 “思维树(Tree of Thoughts)” 机制,颠覆了传统线性思维链(CoT)的模式。模型会在内部并行探索多条解题路径,并通过自我奖励机制筛选最优方向,这种 “工程封装 + 模型科学” 的深度结合,将原本需要人工设计的提示词策略内化为模型原生能力。而开发者 API 文档中 “语境工程(Context Engineering)” 的彩蛋,更揭示了谷歌的核心思路:模型在生成答案前,会自动抓取海量相关信息构建思维环境,让回应更贴合用户潜在需求,这也是其 “懂你” 体感的关键所在。
但谷歌最核心的护城河,或许是其无法复制的硬件优势。加州大学戴维斯分校助理教授陈羽北提出的 “单位经济模型” 视角极具启发性:与依赖 NVIDIA 显卡、承担 70% 以上硬件溢价的其他公司不同,谷歌的 TPU 芯片实现了软硬件垂直整合,没有中间商差价的成本优势,让其在相同预算下能训练更大模型、处理更多数据、开展更复杂的多模态实验。这种硬件不对称优势,使得谷歌在 Scaling Law 的执行上比竞争对手更坚决、更彻底,形成了难以逾越的壁垒。
当然,Gemini 3 并非完美无缺。陈羽北团队的实测反馈暴露了行业通病:模型在真实世界视觉理解(如安防场景的行为分析)上的性能反而不及上一代,原因在于公榜评测与实际落地场景存在巨大鸿沟,过度刷榜导致模型优化方向偏离实用需求。而在科学写作和复杂多跳任务中,部分开发者仍认为 Gemini 2.5 更顺手,Gemini 3 的长推理能力虽有提升,但稳定性仍需打磨 —— 这些早期问题也预示着,大模型的竞争远未到终局。
三、生态博弈:编码之争与创业公司的生存之道
随着 Gemini 3 在 SWE-bench 等代码榜单上的屠榜,“编码之争已结束” 的声音在社交媒体蔓延。谷歌凭借 Chrome、Android、Cloud 的生态闭环,似乎正在对 Cursor 等创业公司形成降维打击 ——AntiGravity 能直接调用 Chrome 底层权限,实现视觉与代码的完美对齐,AI 一边 “看” 网页一边改代码的体验,是传统开发工具难以企及的。但实际情况远比传言复杂。Nathan Wang 发现,AntiGravity 在后端部署、复杂系统架构设计上仍易卡顿,目前更偏向于强大的前端生成工具;而企业用户对数据隐私的顾虑,让 Cursor 等独立厂商仍有生存空间 —— 它们在灵活性和特定语言优化上的优势,是生态巨头难以替代的。田渊栋的测试则指出了专业开发者的核心诉求:指令遵循的精准度。模型能一键生成 3D 射击游戏的前端画面,却可能出现方向键反转这样的细节 bug,而在大规模工程中,这类边缘情况的处理能力才是关键,这也意味着 AI 目前仍是降低门槛的辅助工具,而非替代者。
对于创业公司而言,谷歌的强势反而催生了新的机会。Gavin Wang 提出的 “前置部署工程师” 概念颇具启发:未来的开发者无需再卷基模已能完成的基础编码,而是要打通商业化、产品定义与全链路开发,在巨头的生态之上构建差异化价值。Web 前端等标准化场景可能被谷歌垄断,但复杂业务场景的定制化解决方案、特定领域的深度优化,仍为创业公司留下了广阔空间 —— 这场生态博弈的核心,已从 “谁能做” 转向 “谁能做得更贴合具体需求”。
四、后 LLM 时代:超越 Scaling Law 的未来探索
Gemini 3 的成功证明了 Scaling Law 仍有巨大红利,但硅谷的顶尖研究者已将目光投向更远的地方。一批被称为 “NeoLab” 的非主流实验室(如 Reflection AI、Periodic Labs)获得高额融资,预示着 AI 行业正酝酿新的范式转移 ——单纯的算力堆砌已无法满足对 AGI 的追求,探索 Scaling Law 之外的第二条曲线成为共识。

来源:The Information
田渊栋一直坚守的 AI 可解释性与顿悟机制研究,正是对这一趋势的回应。他认为,Scaling Law 本质上是工程规律,若一味依赖算力堆砌,终将面临地球资源枯竭的困境。真正的突破在于找到神经网络背后的数学内核,从第一性原理出发理解涌现现象,甚至可能颠覆梯度下降这一传统算法。而 AI 本身带来的研究效率提升 ——3 分钟完成代码编写与验证 —— 也在加速这一探索过程。
陈羽北从自然界的智能悖论中看到了新方向:越高级的智能,所需的数据反而越少。人类小孩 13 岁前接触的语言数据不足 100 亿 Token,却能形成远超大模型的认知能力,核心在于复杂的大脑架构。这意味着,未来的 AI 突破可能不在于数据量的堆砌,而在于架构的创新。当前的 LLM 更像是 “文明蒸馏器”,压缩现有知识,而未来的 AI 应像生物一样探索未知,“发明新的文明”—— 这需要研究者敢于开展 “怪异”“疯狂” 的探索,比如机器人与世界模型的结合。
Gavin Wang 则明确指出,世界模型将是下一个核心战场。不同于当前 LLM 的纯语言维度,真正的世界模型需要理解物理规律,目前主要形成三条技术路线:视频驱动的 2D 转 3D 模拟、基于物理碰撞的网格模型、点云表征的高斯泼溅技术。同时,他呼吁关注开源与端侧小模型的发展 —— 当前智能集中于 GPU 数据中心的模式,本质上是 “数字集权”,而端侧小模型能让每个人在本地获得高性能 AI 能力,无需依赖网络与订阅费,这才是 “AI for Everyone” 的真正实现,也需要在模型架构优化上实现突破。
五、结语:泡沫与奇点之间的 AI 战局
Gemini 3 的发布,是谷歌对 “AI 泡沫论” 的强力回击 —— 它证明了在算力、数据与工程优化的加持下,Scaling Law 仍能释放巨大能量。但这场技术秀肌肉的背后,硅谷一线研究者的冷静思考更值得关注:单纯的规模扩张并非通向 AGI 的唯一路径,智能的本质、架构的创新、生态的平衡,才是决定未来的关键。谷歌凭借 Gemini 3 赢得了当前战役,但 AI 的大战役才刚刚开始。OpenAI、Anthropic 的反击、创业公司的差异化突破、NeoLab 的前沿探索,将共同塑造行业格局。在泡沫与奇点的争议中,有一点毋庸置疑:AI 正在重构技术边界、产业生态乃至人类文明的发展路径,而那些既能拥抱当下红利,又能坚守长期价值的探索者,终将在这场变革中占据先机。
本文来自微信公众号:硅谷10
