2025 Agent元年：资本狂欢下的产业真相

　　2025年，资本市场用“Agent元年”的标签为智能体赛道加冕。Manus、Lovart、Fellou等明星应用凭借炫目的多Agent协作演示赚足眼球，肖弘那句“More Intelligence, Less Structure”(更多智能，更少结构)的口号，更将行业期待推向顶峰——仿佛只要堆砌足够多的智能体，再赋予充足的Token预算，复杂任务就能迎刃而解。

　　然而，当资本的聚光灯褪去，产业端的真实图景却呈现出截然不同的面貌。UC Berkeley年末发布的调研报告《Measuring Agents in Production》，通过306位一线从业者访谈和20个已落地案例(含Intesa Sanpaolo等大型银行)的深度剖析，撕开了“Agent神话”的面纱。这份刻意过滤掉Demo阶段项目的研究显示，生产环境中的Agent系统远比实验室里“胆小”：68%的系统被严格限制在10步以内执行，80%依赖人工预设的结构化控制流，甚至12%的部署系统需要上万Token的固定提示词来约束行为。

　　产业界的集体“保守”并非无因。一位拥有25+Agent项目开发经验的从业者直言，多数多Agent系统不过是“AI版鲁布·戈德堡机器”——复杂炫技却毫无必要。那些真正产生商业价值的Agent，无论是自动更新CRM的邮件处理系统，还是简历解析工具，无一不是单Agent配合精简提示词的极简架构。反观社区追捧的多Agent协作，不仅会因“协调税”拉高延迟和成本，更会因上下文传递漏洞制造大量故障点，让调试成为一场噩梦。

　　这种现实与叙事的割裂，在DeepMind年末连发的两篇论文中得到了精准的病理诊断。这两项研究直接证伪了行业盛行的两大核心假设，揭示了当前Agent技术的底层局限：我们远未进入模型自我涌现的魔法时代，仍被困在硬编码与强管控的工程阶段。

　　第一个被打破的神话是“More Agents = Better Performance”。在《Towards a Science of Scaling Agent Systems》中，DeepMind团队通过180种实验配置(覆盖OpenAI、Google、Anthropic三大厂商模型，涉及金融分析、网页浏览、游戏规划等四大基准测试)发现，多Agent协作并非万能解药。

在PlanCraft等开放复杂任务中，Anthropic模型引入协作后性能暴跌35%，根源在于“协调税”超过了并行收益——Token全耗在Agent间的“开会沟通”上，而非实际任务执行。更致命的是“错误放大效应”：独立多Agent架构的错误放大因子高达17.2，若单Agent错误率为5%，多Agent系统错误率竟会飙升至86%，所谓“三个臭皮匠顶个诸葛亮”的幻想彻底破灭。

　　唯一的例外出现在金融分析领域，中心式多Agent架构能提升81%的效果。这恰恰说明，当前最强的LLM尚不具备自组织分工能力，仅能在边界清晰、SOP明确的任务中发挥作用——就像在既定框架内填空的“AI实习生”。Cognition创始人Walden Yan的论断更直指核心：多智能体架构天然违背上下文一致性原则，分散决策必然导致结果混乱。

　　第二个被证伪的假设是“More Budget = Effective Scaling”。OpenAI o1带火的“推理时计算”热潮，让行业迷信“给足预算就能提升性能”。但DeepMind在《Budget-Aware Tool-Use Enables Effective Agent Scaling》中的实验显示，单纯增加工具调用预算只会让Agent迅速撞上性能天花板：标准ReAct Agent预算翻倍后，准确率仅提升0.2个百分点，100次预算中85%被闲置。问题的关键在于，Agent缺乏预算感知能力，既不知道自己的知识盲区，也不懂机会成本，一旦陷入错误路径就会“一条道走到黑”，最终在海量无效信息中迷失。

　　为解决这一问题，DeepMind提出的BATS(预算感知测试时缩放)方案给出了工程层面的突破方向。

通过树状任务规划与约束验证双模块，BATS能动态调整探索策略，在预算充足时拓宽广度，紧张时深挖深度，同时及时止损无效路径。实测数据显示，BATS在BrowseComp任务上准确率提升95%，在中文数据集上提升46%，且相同准确率下成本降低40%以上。这证明，Agent的性能提升不在于预算多少，而在于是否具备高效的资源管控能力。

　　从产业实践到学术研究，所有线索都指向同一个结论：当前Agent的核心瓶颈是“无效上下文消耗”。DeepMind的混合效应模型早已揭示：最终效果 =(单体智力+协作增益)-(混乱成本+沟通噪音+认知负担)，当负项超过正项，系统必然失效。要让Agent真正走向爆发，不在于堆砌模型数量和预算，而在于通过技术创新为上下文“减负”。

　　三条清晰的破局路径已在实践中浮现。其一，是模块化技能管理，Anthropic的Skills机制堪称典范——通过渐进式加载的技能包，让Agent像人一样积累可复用能力，避免每次从零开始，大幅降低工具认知负担。其二，是内建形式化验证能力，借鉴BATS的约束检查逻辑，通过提示工程强制模型标注推理轨迹的“满足度”，减少错误积累。其三，是构建高效Agent间通信协议，替代当前信息密度低、歧义多的自然语言协商，若结构化通信协议或隐空间交流技术取得突破，沟通成本将大幅下降。

　　当资本忙着为“Agent元年”造势时，产业界正在用极简架构创造真实价值，学术界则在拆解神话背后的技术真相。或许我们需要重新审视：所谓“元年”，不应是资本狂欢的起点，而应是技术理性的开端。在上下文减负技术真正成熟、Agent具备高效协作与资源管控能力之前，那个真正的Agent时代，尚未到来。

　　本文来自微信公众号：腾讯科技，编辑：徐青阳，作者：博阳

推荐前沿科技