谷歌Gemma 4开源

　　近日，谷歌开源的全新模型Gemma 4横空出世，以超出行业预期的表现，为AI领域注入了一剂强心针。

　　这款模型并非简单的迭代升级，而是承载着谷歌在端侧AI布局的重要野心——它与Gemini 3共享同源技术架构，原生支持全模态交互，不仅在Arena AI全球排行榜中斩获第三名的佳绩，更以多型号矩阵的形式，打破了人们对端侧AI模型的性能认知。

　　其中，E2B(有效参数2.3B)与E4B(有效参数4.5B)两款轻量型号，堪称此次开源的最大亮点。它们最大的突破的是实现了手机端本地部署的可能，搭配128K的超大上下文窗口，让用户得以在口袋里拥有一款“迷你版Gemini”，彻底摆脱了对云端算力的依赖。这一特性也让Gemma 4一经发布，就迅速成为全球手机用户和AI爱好者的“新宠”，相关实测分享在社交平台引发热潮。

　　社交平台X上，一则展示iPhone本地运行Gemma 4的帖子获得数十万次围观。视频中，开发者不仅用该模型完成了图片识别、音频处理等基础任务，甚至成功通过模型指令控制手机手电筒开关，其流畅度让开发者直呼“宛如魔法”。

更令人惊喜的是，在苹果MLX机器学习框架的优化下，iPhone 17 Pro搭载的苹果芯片，能让Gemma 4的推理速度突破40 token/秒;

即便在三星Galaxy系列手机上，开启思考模式后，也能跑出相近的速度，这种表现彻底颠覆了人们对“手机端AI卡顿”的固有印象。

　　除了惊人的速度，128K上下文窗口也让这些轻量模型的实用性大幅提升，而其上手难度更是低至“小白友好”。

谷歌同步推出官方应用Google AI Edge Gallery，用户无需具备专业的极客知识，只需下载该应用、选择对应模型版本并完成安装，就能在手机上直接体验本地AI的便捷，加之官方背书，模型的安全性也无需额外担忧。

　　当然，Gemma 4的探索并未局限于手机端。有开发者尝试在M5 Pro版本的MacBook Pro上运行更强大的Gemma 4 Mixture-of-Experts 26B型号，测试发现，在简单的文本生成、代码解释等对话场景中，该模型依然能保持流畅的响应速度，展现出不俗的综合实力。

但当将其作为coding agent投入实际使用时，短板便暴露无遗。

　　在需要大上下文(Gemma 4 26B上下文窗口达256K)、复杂提示词以及稳定工具调用的场景中，Gemma 4频繁出现卡顿、报错、输出结构混乱等问题。

而当开发者将模型替换为qwen3-coder后，在相同硬件环境下，文件创建、命令执行、多步任务协作等操作均能顺利完成。这也说明，Gemma 4的核心短板并非来自agent框架，而是在于其未针对“工具调用+结构化输出”进行深度优化，或是目前开发者尚未找到最优使用方案。此外，也有不少测试者反馈，Gemma 4在高阶智力推理场景中，表现略显鸡肋，未能达到旗舰模型的水准。

　　尽管存在诸多不足，但Gemma 4的出现依然具有里程碑意义。这款“性能小钢炮”的开源，让人们看到了端侧AI的巨大潜力——若未来日常查询、聊天互动、简单推理、代码生成、图像理解等高频任务，都能在本地设备上完成，无需再购买token，那么依赖token售卖、API订阅盈利的厂商，无疑将面临巨大的生存压力。

　　不过，当前行业格局尚未发生根本性改变。现阶段开源模型与前沿闭源旗舰模型之间仍有明显差距，且多数高性能开源模型仍受限于硬件能力，未能在端侧实现全面可用。但行业趋势已清晰可见：短期来看，云端闭源模型在复杂推理、超大规模多代理协作等前沿领域仍将保持领先;但长期来看，随着硬件技术的迭代和量化技术的优化，端侧模型必将逐步蚕食云端的高频简单任务。

　　这也意味着，那些单纯依靠token和API订阅盈利的厂商，必须加速转型，聚焦于“难啃的硬骨头”——比如打造超强Agent能力、优化超长可靠上下文、构建基于海量实时数据的专有服务，才能在未来的行业竞争中站稳脚跟。

　　Gemma 4仅仅是端侧AI爆发的一个开端。未来，当某款端侧模型能让用户彻底忽略“本地”与“云端”的体验差异时，整个AI产业的商业模式、竞争格局都将迎来一场彻底的洗牌，而这场变革，已在悄然酝酿之中。

　　本文来自微信公众号：机器之心，作者：机器之心

推荐前沿科技