近日,谷歌开源的全新模型Gemma 4横空出世,以超出行业预期的表现,为AI领域注入了一剂强心针。
这款模型并非简单的迭代升级,而是承载着谷歌在端侧AI布局的重要野心——它与Gemini 3共享同源技术架构,原生支持全模态交互,不仅在Arena AI全球排行榜中斩获第三名的佳绩,更以多型号矩阵的形式,打破了人们对端侧AI模型的性能认知。
其中,E2B(有效参数2.3B)与E4B(有效参数4.5B)两款轻量型号,堪称此次开源的最大亮点。它们最大的突破的是实现了手机端本地部署的可能,搭配128K的超大上下文窗口,让用户得以在口袋里拥有一款“迷你版Gemini”,彻底摆脱了对云端算力的依赖。这一特性也让Gemma 4一经发布,就迅速成为全球手机用户和AI爱好者的“新宠”,相关实测分享在社交平台引发热潮。
社交平台X上,一则展示iPhone本地运行Gemma 4的帖子获得数十万次围观。视频中,开发者不仅用该模型完成了图片识别、音频处理等基础任务,甚至成功通过模型指令控制手机手电筒开关,其流畅度让开发者直呼“宛如魔法”。

更令人惊喜的是,在苹果MLX机器学习框架的优化下,iPhone 17 Pro搭载的苹果芯片,能让Gemma 4的推理速度突破40 token/秒;

即便在三星Galaxy系列手机上,开启思考模式后,也能跑出相近的速度,这种表现彻底颠覆了人们对“手机端AI卡顿”的固有印象。

除了惊人的速度,128K上下文窗口也让这些轻量模型的实用性大幅提升,而其上手难度更是低至“小白友好”。

谷歌同步推出官方应用Google AI Edge Gallery,用户无需具备专业的极客知识,只需下载该应用、选择对应模型版本并完成安装,就能在手机上直接体验本地AI的便捷,加之官方背书,模型的安全性也无需额外担忧。

当然,Gemma 4的探索并未局限于手机端。有开发者尝试在M5 Pro版本的MacBook Pro上运行更强大的Gemma 4 Mixture-of-Experts 26B型号,测试发现,在简单的文本生成、代码解释等对话场景中,该模型依然能保持流畅的响应速度,展现出不俗的综合实力。

但当将其作为coding agent投入实际使用时,短板便暴露无遗。
在需要大上下文(Gemma 4 26B上下文窗口达256K)、复杂提示词以及稳定工具调用的场景中,Gemma 4频繁出现卡顿、报错、输出结构混乱等问题。

而当开发者将模型替换为qwen3-coder后,在相同硬件环境下,文件创建、命令执行、多步任务协作等操作均能顺利完成。这也说明,Gemma 4的核心短板并非来自agent框架,而是在于其未针对“工具调用+结构化输出”进行深度优化,或是目前开发者尚未找到最优使用方案。此外,也有不少测试者反馈,Gemma 4在高阶智力推理场景中,表现略显鸡肋,未能达到旗舰模型的水准。

尽管存在诸多不足,但Gemma 4的出现依然具有里程碑意义。这款“性能小钢炮”的开源,让人们看到了端侧AI的巨大潜力——若未来日常查询、聊天互动、简单推理、代码生成、图像理解等高频任务,都能在本地设备上完成,无需再购买token,那么依赖token售卖、API订阅盈利的厂商,无疑将面临巨大的生存压力。



不过,当前行业格局尚未发生根本性改变。现阶段开源模型与前沿闭源旗舰模型之间仍有明显差距,且多数高性能开源模型仍受限于硬件能力,未能在端侧实现全面可用。但行业趋势已清晰可见:短期来看,云端闭源模型在复杂推理、超大规模多代理协作等前沿领域仍将保持领先;但长期来看,随着硬件技术的迭代和量化技术的优化,端侧模型必将逐步蚕食云端的高频简单任务。
这也意味着,那些单纯依靠token和API订阅盈利的厂商,必须加速转型,聚焦于“难啃的硬骨头”——比如打造超强Agent能力、优化超长可靠上下文、构建基于海量实时数据的专有服务,才能在未来的行业竞争中站稳脚跟。
Gemma 4仅仅是端侧AI爆发的一个开端。未来,当某款端侧模型能让用户彻底忽略“本地”与“云端”的体验差异时,整个AI产业的商业模式、竞争格局都将迎来一场彻底的洗牌,而这场变革,已在悄然酝酿之中。
本文来自微信公众号:机器之心,作者:机器之心
