当OpenAI CEO奥特曼的内部备忘录将公司状态拉至“Code Red”红色警报时,外界最初的解读聚焦于谷歌Gemini、Anthropic Claude带来的激烈竞争。但这份紧急指令的背后,藏着的是整个大语言模型行业难以突破的深层枷锁——训练成本的指数级飙升与模型性能提升的断崖式放缓,正形成一张无形的网,将所有头部玩家困在其中。
斯坦福大学《2025年AI指数报告》的数据,精准勾勒出这场困境的全貌。2019至2022年,大模型训练成本每提升10倍,主流基准测试性能便能收获25%至35%的可观增长,这也让“规模即正义”的Scaling Law成为行业奉行的黄金法则。然而转折点出现在2023年,同样10倍的成本投入,性能提升幅度骤降至10%至15%;进入2024年,即便训练成本翻倍,性能涨幅也常常不足5%。投入产出比的失衡并非个例,各家头部模型在核心基准测试中的表现开始趋同,仿佛集体撞上了一道看不见的技术天花板,这也让“大语言模型是否已走进死胡同”的争论,从学术圈蔓延至整个产业界。
OpenAI的处境正是这场行业困境的缩影,其领先地位的动摇早已显现端倪。谷歌Gemini 3在基准测试中实现对OpenAI的反超后,月活用户从7月的4.5亿猛增至10月的6.5亿,直接冲击着OpenAI的市场份额;Anthropic的Claude则在企业客户群体中稳步扩张,OpenRouter数据显示,截至2025年11月末,Claude周访问量达0.41亿人次,六周内增幅达17.1%。比竞争对手崛起更致命的,是OpenAI自身的技术迭代困境。半导体行业分析公司SemiAnalysis的爆料直指核心:自2024年5月GPT-4o发布后,OpenAI的顶尖研究团队始终未能完成一次大规模全面预训练。这意味着备受期待的GPT-5并非真正意义上的代际升级,只是在GPT-4o基础上的微调和优化,而非全新训练的产物。

预训练作为大语言模型研发的基石,是模型学习语言规律、积累事实知识的关键环节,无法突破这一环节,便意味着失去了技术迭代的核心动力。MMLU(大规模多任务语言理解)这一权威基准测试的结果,进一步佐证了这一困境:GPT-5的评分仅比GPT-4提升10%至20%,但训练成本却飙升至GPT-4的20至30倍。要知道,Anthropic CEO达里奥·阿莫迪曾公开表示,2024至2025年期间的大模型训练成本已达10亿至20亿美元,是一年前的10倍。成本与性能的严重失衡,迫使奥特曼调整战略重心——暂停广告、健康、购物AI代理及个人助手Pulse等项目的开发,鼓励员工临时调岗,将资源集中于ChatGPT的个性化功能优化、速度与可靠性提升及问答范围拓展。事实上,这已是OpenAI短期内的第二次警报升级,2025年10月的“Code Orange”橙色警报已暴露核心业务的被动局面,此次升级为红色警报,足以见得事态的严峻性。
值得注意的是,陷入瓶颈的并非只有OpenAI,整个大语言模型行业都在经历一场集体“减速”。LMSYS Chatbot Arena的盲测数据显示,2024年6月,排名第一与第十的模型Elo评分差距超150分,而到2025年11月,这一差距已收窄至不足50分,所有主流模型的关键基准测试得分都集中在狭窄区间内。即便各家投入的研发资源差距悬殊——从数千万美元到数十亿美元不等,最终的模型性能却日益趋同。回溯2023年3月GPT-4发布时,其86.4%的MMLU得分远超同期竞争对手的60%至75%;但到2025年9月的MMLU-Pro(更严格的进阶版评测)中,所有头部模型的得分都集中在85%至90%,几乎无差别可言。模型更新频率的放缓同样印证着行业困境:Meta的Llama模型从第二代到第三代间隔9个月,而Llama 3到计划推出的Llama 4间隔已超15个月;Anthropic从Claude 3到Claude 4的间隔也长达11个月。种种迹象都在宣告,曾经支撑行业高速发展的Scaling Law,正在逐渐失效。
Scaling Law的失效,根源在于大语言模型自身的先天局限与后天困境。从技术本质来看,大模型的核心任务是“预测下一个词”,通过海量文本训练掌握语法、常识与推理能力。但当模型发展到一定阶段,语言本身的不确定性便成为性能提升的最大障碍。这种由语言歧义造成的误差,在统计学上被称为“不可约误差”(或“贝叶斯误差率”),即便拥有完美算法、无限数据和算力,也无法彻底消除——它是纯文本训练模式的固有缺陷。人类语言的很多信息依赖语境、肢体语言、声调等传递,剥离这些要素后,纯文本本身就存在巨大的信息损失,大模型以此为训练素材,自然会受到不可约误差的限制。当模型不再犯语法、事实等低级错误时,剩下的误差便多为这种不可约误差,此时再追加资源投入,性能提升自然微乎其微。
数据枯竭则是另一个致命困境。早在GPT-4时代,OpenAI就已几乎耗尽了互联网上的高质量文本资源,包括百科、数字图书馆、GitHub代码、专业论文等。剩余的多为广告软文、垃圾帖子、重复内容及机器生成的低质量信息,难以支撑模型的迭代升级。为解决数据不足的问题,部分厂商尝试用AI生成数据训练新模型,却引发了“模型崩溃”的严重风险。这种现象类似生物学上的近亲繁殖:模型长期依赖自身或其他模型生成的数据训练,会导致输出多样性下降,放大自身的错误与偏见,最终变得越来越“笨”。2024年《Nature》发表的论文《当AI模型在递归生成的数据上训练时,会出现性能崩溃》证实了这一风险:经过多代递归训练后,模型会逐渐丢失低频但重要的信息,输出变得单调重复,数据分布也会与原始数据严重偏离。更严峻的是,如今互联网上已充斥着大量AI生成内容,未来模型爬取训练数据时难免会纳入这些内容,这意味着模型崩溃已从理论问题转变为全行业的现实威胁。
面对这场全行业的困境,AI学术界与产业界分裂成两大阵营,围绕“大语言模型是否已走进死胡同”展开激烈争论。以AI教母李飞行为代表的“维新派”认为,大语言模型只是AI系统的一个组件,而非万能解决方案,实现真正的人工智能,需要构建能理解物理世界的“世界模型”。李飞飞直言AGI是营销术语,当前行业缺失的是“空间智能”——即理解和操作三维物理世界的能力。她主张未来的AI系统应通过观察视频、图像、传感器数据建立对物理世界的认知,依靠严格的逻辑规则和数学证明技术运作,而非依赖统计模式。谷歌DeepMind开发的AlphaGeometry便是这一方向的成功案例,它通过符号推理系统与神经网络的结合,能够解决奥林匹克竞赛级别的几何问题,完全脱离了语言模型的路径。
图灵奖得主、Meta前首席AI科学家杨立昆对语言模型路径的批评更为尖锐,他将其形容为“给鹦鹉喂更大的芯片”,认为语言模型只是在学习统计规律、进行模式匹配,并未真正理解世界。在他的构想中,未来大语言模型将扮演“翻译官”的角色:接收用户的自然语言需求后,将其转化为机器能处理的指令,分配给“世界模型”等子系统执行,最终再将执行结果翻译成自然语言反馈给用户。MIT认知学家伊芙琳娜·费多林柯等学者则从认知科学角度提出质疑,他们在《Nature》发表的文章指出,语言是交流工具而非思维工具,人类思维独立于语言存在——婴儿学会说话前已能理解物理世界,盲人和聋人虽缺失部分感官通道,思维能力却不受影响,因此语言模型不可能成为真正的人工智能。
以OpenAI和Anthropic为代表的“守旧派”则坚持语言模型的路径。奥特曼信奉“规模假说”,认为只要持续扩大模型规模、投入更多数据和算力,智能就会“自动涌现”,当模型达到某个临界点时,便会实现质的飞跃,获得真正的理解能力和推理能力。OpenAI联合创始人兼首席科学家伊尔亚·苏兹科维提出“压缩即理解”的观点,他认为若能将全世界的数据无损压缩进大语言模型的神经网络,这个模型就会在内部构建出关于世界的真实模型。Anthropic联合创始人杰拉德·卡普兰则认为,语言模型本身或许不是智能,但可以成为智能的基础,通过改进训练方法、增强安全性对齐、结合其他技术,语言模型路径仍有潜力迈向AGI。
OpenAI的红色警报,不仅是一家公司的危机信号,更是整个大语言模型行业的转折点。Scaling Law的失效、不可约误差的限制、数据枯竭的威胁,共同将行业推向了十字路口。无论是坚守语言模型路径,还是探索“世界模型”等新方向,全行业都必须直面一个现实:依靠砸钱扩大规模的粗放式发展已走到尽头,未来的突破必然源于技术范式的革新。这场争论没有标准答案,但可以肯定的是,AI行业的“野蛮生长”时代已落幕,一个更注重底层逻辑、更强调多技术融合的新阶段,正在悄然开启。
本文来自微信公众号:直面AI,作者:苗正,题图来自:AI生成
