2025年,资本市场用“Agent元年”的标签为智能体赛道加冕。Manus、Lovart、Fellou等明星应用凭借炫目的多Agent协作演示赚足眼球,肖弘那句“More Intelligence, Less Structure”(更多智能,更少结构)的口号,更将行业期待推向顶峰——仿佛只要堆砌足够多的智能体,再赋予充足的Token预算,复杂任务就能迎刃而解。
然而,当资本的聚光灯褪去,产业端的真实图景却呈现出截然不同的面貌。UC Berkeley年末发布的调研报告《Measuring Agents in Production》,通过306位一线从业者访谈和20个已落地案例(含Intesa Sanpaolo等大型银行)的深度剖析,撕开了“Agent神话”的面纱。这份刻意过滤掉Demo阶段项目的研究显示,生产环境中的Agent系统远比实验室里“胆小”:68%的系统被严格限制在10步以内执行,80%依赖人工预设的结构化控制流,甚至12%的部署系统需要上万Token的固定提示词来约束行为。

产业界的集体“保守”并非无因。一位拥有25+Agent项目开发经验的从业者直言,多数多Agent系统不过是“AI版鲁布·戈德堡机器”——复杂炫技却毫无必要。那些真正产生商业价值的Agent,无论是自动更新CRM的邮件处理系统,还是简历解析工具,无一不是单Agent配合精简提示词的极简架构。反观社区追捧的多Agent协作,不仅会因“协调税”拉高延迟和成本,更会因上下文传递漏洞制造大量故障点,让调试成为一场噩梦。
这种现实与叙事的割裂,在DeepMind年末连发的两篇论文中得到了精准的病理诊断。这两项研究直接证伪了行业盛行的两大核心假设,揭示了当前Agent技术的底层局限:我们远未进入模型自我涌现的魔法时代,仍被困在硬编码与强管控的工程阶段。

第一个被打破的神话是“More Agents = Better Performance”。在《Towards a Science of Scaling Agent Systems》中,DeepMind团队通过180种实验配置(覆盖OpenAI、Google、Anthropic三大厂商模型,涉及金融分析、网页浏览、游戏规划等四大基准测试)发现,多Agent协作并非万能解药。

在PlanCraft等开放复杂任务中,Anthropic模型引入协作后性能暴跌35%,根源在于“协调税”超过了并行收益——Token全耗在Agent间的“开会沟通”上,而非实际任务执行。更致命的是“错误放大效应”:独立多Agent架构的错误放大因子高达17.2,若单Agent错误率为5%,多Agent系统错误率竟会飙升至86%,所谓“三个臭皮匠顶个诸葛亮”的幻想彻底破灭。
唯一的例外出现在金融分析领域,中心式多Agent架构能提升81%的效果。这恰恰说明,当前最强的LLM尚不具备自组织分工能力,仅能在边界清晰、SOP明确的任务中发挥作用——就像在既定框架内填空的“AI实习生”。Cognition创始人Walden Yan的论断更直指核心:多智能体架构天然违背上下文一致性原则,分散决策必然导致结果混乱。
第二个被证伪的假设是“More Budget = Effective Scaling”。OpenAI o1带火的“推理时计算”热潮,让行业迷信“给足预算就能提升性能”。但DeepMind在《Budget-Aware Tool-Use Enables Effective Agent Scaling》中的实验显示,单纯增加工具调用预算只会让Agent迅速撞上性能天花板:标准ReAct Agent预算翻倍后,准确率仅提升0.2个百分点,100次预算中85%被闲置。问题的关键在于,Agent缺乏预算感知能力,既不知道自己的知识盲区,也不懂机会成本,一旦陷入错误路径就会“一条道走到黑”,最终在海量无效信息中迷失。
为解决这一问题,DeepMind提出的BATS(预算感知测试时缩放)方案给出了工程层面的突破方向。

通过树状任务规划与约束验证双模块,BATS能动态调整探索策略,在预算充足时拓宽广度,紧张时深挖深度,同时及时止损无效路径。实测数据显示,BATS在BrowseComp任务上准确率提升95%,在中文数据集上提升46%,且相同准确率下成本降低40%以上。这证明,Agent的性能提升不在于预算多少,而在于是否具备高效的资源管控能力。

从产业实践到学术研究,所有线索都指向同一个结论:当前Agent的核心瓶颈是“无效上下文消耗”。DeepMind的混合效应模型早已揭示:最终效果 =(单体智力+协作增益)-(混乱成本+沟通噪音+认知负担),当负项超过正项,系统必然失效。要让Agent真正走向爆发,不在于堆砌模型数量和预算,而在于通过技术创新为上下文“减负”。
三条清晰的破局路径已在实践中浮现。其一,是模块化技能管理,Anthropic的Skills机制堪称典范——通过渐进式加载的技能包,让Agent像人一样积累可复用能力,避免每次从零开始,大幅降低工具认知负担。其二,是内建形式化验证能力,借鉴BATS的约束检查逻辑,通过提示工程强制模型标注推理轨迹的“满足度”,减少错误积累。其三,是构建高效Agent间通信协议,替代当前信息密度低、歧义多的自然语言协商,若结构化通信协议或隐空间交流技术取得突破,沟通成本将大幅下降。
当资本忙着为“Agent元年”造势时,产业界正在用极简架构创造真实价值,学术界则在拆解神话背后的技术真相。或许我们需要重新审视:所谓“元年”,不应是资本狂欢的起点,而应是技术理性的开端。在上下文减负技术真正成熟、Agent具备高效协作与资源管控能力之前,那个真正的Agent时代,尚未到来。
本文来自微信公众号:腾讯科技,编辑:徐青阳,作者:博阳
