GPT-5.2横空出世:大模型竞争已进入“基建决胜”时代

收录于 观点 持续更新中
  大模型赛道的迭代速度,早已突破“各领风骚数百年”的传统认知,迈入“你方唱罢我登场,各领风骚十几天”的白热化阶段。OpenAI最新发布的GPT-5.2,正是这

  大模型赛道的迭代速度,早已突破“各领风骚数百年”的传统认知,迈入“你方唱罢我登场,各领风骚十几天”的白热化阶段。OpenAI最新发布的GPT-5.2,正是这场竞速赛中最震撼的新选手——它不仅实现了对Gemini-3、Claude-4.5的部分反超,更在实用场景中展现出颠覆性潜力,同时也揭开了2026年大模型竞争的核心脉络。

(来源OpenAI)
 

  从表格制作、PPT生成、代码编写,到长文档理解、工具调用、复杂多步骤项目处理,GPT-5.2在多个核心实用领域的能力全面升级。更值得关注的是其视觉理解能力的跨越式提升,已能精准辨别板卡上的螺丝钉这类细微物件,将“感知-处理”的边界进一步拓宽。而这一切突破的背后,是OpenAI惊人的迭代效率——从GPT-5.1到5.2,仅用了30天。这份速度不仅正面回应了市场对其发展前景的质疑,更印证了团队的技术积淀,也预示着“扩展定律”仍将是2026年前沿大模型竞争的核心法宝,而支撑这一定律的基础设施,将在未来竞争中占据决定性地位。

  为打破大模型“学霸有余、实干不足”的刻板印象,OpenAI首次推出自主研发的“打工能力”测评基准GDPval,核心目标是验证模型既能在知识测试中拿高分,也能在实际工作中当“得力牛马”。而GPT-5.2交出的答卷,直接刷新了行业认知:它成为首个达到或超越人类专家水平的大模型。根据人类专家评审结果,GPT-5.2 Thinking在GDPval的知识型任务中,70.9%的项目表现优于顶尖行业专业人士或与之持平。这些任务覆盖了白领核心工作技能,包括演示文稿制作、电子表格处理等高频工作场景。更具颠覆性的是效率与成本优势——GPT-5.2 Thinking在GDPval任务中的输出速度比人类专家快11倍以上,成本却不足人类的1%。这一数据清晰表明,在人类适度监督的前提下,GPT-5.2已能有效辅助专业工作,成为职场中的高效协作伙伴。

(在GDPval测试中,模型尝试完成定义明确的知识型工作,内容涵盖美国GDP贡献度最高的9个行业中的44种职业。任务要求生成真实的工作成果。)
 

  值得注意的是,GDPval测评体系的覆盖面极具代表性:模型需完成定义明确的知识型工作,内容涵盖美国GDP贡献度最高的9个行业中的44种职业,核心要求是生成符合实际需求的工作成果。回溯两个半月前,OpenAI刚公布这一测评体系时,GPT-5的得分虽胜过Gemini 2.5和Grok-4,却不及当时Claude的最高版本Opus 4.1;而短短两个多月后,GPT-5.2的得分近乎翻倍,这种爆发式进步背后,正是扩展定律与基础设施升级的双重加持。


(来源OpenAI)
 

  但我们仍需保持理性:GPT-5.2 Thinking距离替代OpenAI核心员工仍有巨大差距。在最新系统卡(system-card)的AI自我改进(Self-Improvement)能力测评中,它甚至未达到优秀中等资历(mid-career)研究工程师的水平。为精准评估这一核心能力,OpenAI构建了OPQA测试基准,选取了20个曾导致重大项目至少延迟一天的真实研发瓶颈问题。测试结果显示,即便允许GPT-5.2 Thinking访问历史代码、日志和实验数据,它仍缺乏有效诊断问题根源并提出合理解释的能力,表现甚至略逊于GPT-5.1 Codex Max。而自主发现、分析、解决新问题的能力缺失,恰恰意味着AI距离“自我改进”所需的核心素养仍有鸿沟,也印证了当前大模型仍未摆脱“高分低能”的核心痛点——应试能力顶尖,但自主干活的核心能力仍处于初级阶段。


(来源OpenAI)
 

  尽管实干能力仍有不足,但GPT-5.2在“学霸级”考试中的表现,依旧让人叹为观止。ARC-AGI(前沿通用人工智能测评基准)第一时间发布的测试结果显示,GPT-5.2的准确率高达90.5%,单个任务成本仅11.64美元,一年内效率提升约390倍。回顾过去12个月,ARC-AGI测评中,准确率超过85%就需要投入近乎疯狂的计算资源。早期o3-preview版本的单个任务成本估算在3000美元至3万美元之间,相当于每获取一个答案,就要消耗一辆汽车的算力成本。如今GPT-5.2 Pro以90.5%的准确率实现“几杯咖啡的成本”,已无限接近人类95%的水平。这一变化背后,是大模型推理经济格局的颠覆性重构——我们正悄无声息地跨越智能体成本与人工成本持平的临界点,而这一过程几乎未被外界充分察觉。可以肯定的是,这只是开始,未来大模型的优化速度将进一步加快。


(来源ARC-AGI)
 

  如果说GPT-5.2的能力突破是“表象”,那么其背后的基础设施竞争,才是2026年大模型之争的“核心本质”。此前,谷歌凭借TPU-6集群成功训练出领先的Gemini-3,首次动摇了英伟达GPU在大模型训练领域的垄断格局;Anthropic也已敲定与谷歌TPU、亚马逊Trainium的深度合作,预计明年双方的算力集群规模都将达到百万卡级。而OpenAI与xAI则仍以英伟达GPU为核心支撑,此次GPT-5.2的发布,OpenAI特别披露这是其与长期合作伙伴英伟达、微软联合打造的成果——Azure数据中心与英伟达H100、H200、GB200-NVL72等GPU集群,共同构成了GPT-5.2大规模训练的核心基础设施,直接推动了模型智能的显著提升。OpenAI相关负责人直言:“正是这种深度跨界合作,让我们能够更有信心地扩展算力规模,并更快速地将新模型推向市场。”

  这一信号清晰预示:2026年的大模型之争,本质上是一场基础设施的算力对决。2025年全球科技巨头砸下的数千亿美元基础设施投入,将在2026年转化为滚滚算力,支撑下一代大模型的迭代。行业内“一代GPU,一代大模型”的规律将愈发凸显:英伟达B200、B300将全面担当算力主力,专为长上下文推理和视频生成设计的Rubin CPX预计年底上市;与此同时,谷歌TPU-7、亚马逊Trainium-3也将陆续登场。多重算力引擎的加持,将推动大模型迎来新一波扩展浪潮,值得全行业期待。

  复盘GPT-5.2的发布,其对2026年大模型行业的影响深远,更抛出了三个值得深思的核心问题:

  其一,前沿大模型的竞争将持续聚焦扩展定律,而扩展定律的核心支撑是基础设施。2026年下一代模型的迭代速度与能力高度,将直接取决于算力基础设施的实力。在全球基础设施门槛显著提升的背景下,中国本土领先大模型如DeepSeek-3.x或4,将采用何种基础设施完成预训练,将成为决定其全球竞争力的关键。

  其二,美国近期放开对中国H200 GPU的出口限制,而H200正是支撑GPT-5系列模型训练的主力算力设备。这一变化引发核心疑问:中国领先的开源大模型,在核心训练阶段是否需要H200这类高端算力设备?这不仅关乎模型训练的效率与效果,更涉及中国大模型产业的算力自主可控战略布局。

  其三,面向真实工作场景的价值变现,将成为2026年大模型竞争的核心焦点。扩展模型能力的可验证性、建立适配真实场景的测评基准、加快大模型在实际工作中的落地应用、实现商业价值的经济性,以及推动智能体完成复杂真实任务,将取代“争当学霸”成为行业核心诉求。换句话说,AI大模型公司的核心竞争目标,将从“追求测评高分”转向“提升ARR(年度经常性收入)”。这一趋势,对中国快速崛起、测评表现优异但价值变现能力不足的开源模型而言,既是挑战,也是必须直面的核心课题。

  关于GPT-5.2各项能力的权威详细得分、完整系统卡等核心信息,可查阅OpenAI官网发布的官方文件。

  (注:文中核心数据来源均标注为OpenAI、ARC-AGI官方披露信息,确保分析的客观性与权威性。)


本文来自微信公众号: 未尽研究 ,作者:未尽研究

推荐观点

苏公网安备 11011xxxxx号 苏ICP备2025192616号-1