当 DeepSeek-R1 等开源模型面对 “今天星期几” 这类简单问题时,往往会展开冗长的思维链推导,输出远超必要的 token 内容 —— 这种 “过度思考” 现象,正悄然改写 AI 行业对 “经济性” 的定义。过去,人们评判大模型性价比时,多聚焦于单位 token 的 API 定价,却忽略了完成任务所需的总 token 消耗量。如今,NousResearch 与 Mercor 的多项研究共同揭示:开源模型与闭源模型的核心差距,已从 “能不能做” 转向 “如何用更少 token 做成”,而这种差距在不同任务场景、不同技术路线下,正呈现出截然不同的演化方向。
一、任务场景分化:开源模型的 “token 浪费” 困境与优势边界
大模型的 token 消耗并非恒定不变,而是与任务复杂度深度绑定。NousResearch 团队通过对比测试发现,开源模型的 “效率短板” 与 “能力优势” 在不同任务中呈现出鲜明反差,这种分化直接决定了其适用边界。在知识类直答任务中,开源模型的 “token 浪费” 问题最为突出。以 DeepSeek-R1-0528 为例,其完成任务消耗的 completion tokens(含输出结果与思维链,与实际计费 token 一致)是基准水平的 4 倍。比如回答 “地球赤道半径约多少公里”,闭源模型可能直接输出 “约 6378 公里”,而开源模型可能先追溯地球半径的测量历史、不同测算方法的差异,最终才给出答案 —— 这种冗余推导对简单问题毫无价值,却直接推高了成本。
但当任务转向数学计算与逻辑谜题时,开源模型的 token 消耗差距显著收窄。同样是 DeepSeek-R1-0528,在解决一元二次方程、逻辑推理题时,token 消耗量仅为基准水平的 2 倍左右。更关键的是,额外的 token 消耗转化成了 “准确率优势”:该模型在各类逻辑谜题中的准确率明显高于同类模型。
Mercor 在 APEX-v1.0 基准测试中也观察到类似现象:Qwen-3-2035B 与 DeepSeek-R1 通过更长的输出长度(即更多 token 消耗)弥补了基础能力的短板,最终提升了平均成绩。这意味着,在需要深度推理的场景中,开源模型的 “慢思考” 并非浪费,而是 “用 token 换准确率” 的合理策略。这种场景分化背后,本质是开源模型与闭源模型的能力基座差异:闭源模型凭借更优的预训练数据与模型架构,能快速定位核心信息,减少无效推理;而开源模型往往需要通过更长的思维链 “梳理逻辑”,才能达到相近的效果 —— 这也决定了 “向合适的模型提合适的问题”,已成为控制 AI 成本的关键策略。

二、token 经济公式重构:价值、成本与效率的三角平衡
评判大模型是否经济,不能只看单一指标,而需回归一个核心公式:AI 任务收益 = token 兑现价值 -(单位 token 成本 × 消耗 token 数量)。这一公式中,每一项都在经历技术迭代与产业实践的重构,且中美两国的技术路线已呈现出明显分岔。
1. token 兑现价值:从 “刷榜成绩” 到 “场景价值”
token 的价值并非由模型性能决定,而是由其解决的问题价值决定。过去,大模型的价值常与 “刷榜成绩” 挂钩 —— 比如在 GLUE、MMLU 等基准测试中的得分,但实际场景中,token 的价值需要通过 “经济贡献” 衡量:同样消耗 1000token,“优化一条生产线的流程参数” 可能创造数十万元收益,而 “生成一段无意义的文学片段” 则价值为零。开源模型与闭源模型的价值实现路径不同:闭源模型凭借更高的效率,适合高频、简单的标准化任务(如客服问答、信息检索),通过 “低 token 消耗 × 高任务频次” 积累价值;开源模型则凭借 “高准确率 × 复杂任务适配性”,在科研计算、复杂逻辑分析等场景中兑现价值 —— 比如在药物分子结构预测中,即使消耗更多 token,只要能提升预测准确率,缩短研发周期,其价值仍远超成本。
2. 单位 token 成本:中美技术路线的分岔与竞争
单位 token 成本的优化,折射出中美 AI 产业的核心竞争力差异。美国凭借硬件与基础设施优势,从底层降低 token 成本;中国则依托开源社区,在算法与架构层面探索效率突破,两条路径各有侧重。美国的优势集中在硬件定制与规模效应。黄仁勋提出的 “买得越多,省得越多”,本质是通过硬件迭代降低单位算力成本:英伟达自研 HBM 基础裸片,提升芯片存储带宽;OpenAI 与 SK 海力士、三星合作优化存储方案;闪迪则布局高带宽闪存 HBF,为未来大模型推理提供更低成本的存储支持。这些硬件改进直接转化为单位 token 成本的下降 —— 微软在近期论文中提到,硬件优化可使 AI 查询能耗降低 1.5-2 倍,间接降低了 token 的 “能源成本”。
中国的突破则聚焦于算法与架构创新。受限于硬件供应链,中国开源社区将重点放在 “用更少激活参数实现更高性能”:阿里巴巴 Qwen3-Next 架构总参数 80B,但仅需激活 3B 参数,即可媲美 235B 参数的旗舰版,大幅降低推理时的 token 生成成本;DeepSeek 最新发布的 V3.2-Exp 引入 DSA 机制,在不影响输出效果的前提下,进一步压低了每百万 token 的输入输出成本。这些创新证明,即使在硬件受限的情况下,算法优化仍能成为降低单位 token 成本的关键变量。
3. 消耗 token 数量:被忽视的 “隐性成本” 与优化手段
长期以来,消耗 token 数量是 token 经济中最易被忽视的环节 —— 它既没有统一的测评基准,也未在 API 定价中直接体现,但却直接影响着总成本、用户体验与任务上限。微软的研究揭示了优化消耗 token 数量的巨大空间:通过工作负载优化,AI 查询能耗可降低 2-3 倍,这其中就包括 “减少无效 token 消耗” 的技术手段。具体来看,优化路径主要分为两类:
- 技术层面:通过 KV 缓存管理、批大小调整,提升单位时间内的 token 生成效率,间接减少单次任务的 token 消耗;
- 策略层面:通过智能路由系统,为不同任务匹配合适的模型 —— 比如 OpenAI 的实时路由会根据对话复杂度、工具需求,自动调用 “轻量模型处理简单问题,大模型处理复杂任务”;字节跳动的 Knapsack RL 则通过强化学习,动态分配 token 预算,避免过度消耗。
三、中美模型迭代分野:性能优先与效率优先的路线之争
从模型迭代轨迹来看,中美大模型已形成鲜明的路线差异:中国开源模型以 “性能优先”,迭代伴随 token 消耗上升;美国闭源模型以 “效率优先”,迭代聚焦 token 消耗下降 —— 这种分野背后,是双方技术储备、供应链条件与产业需求的差异。中国开源模型的迭代逻辑,是 “用 token 换性能”。从 DeepSeek-R1 到 DeepSeek-R1-0528,从 Qwen3-235B-A22B-thinking 到 Qwen-235B-A22B-thinking-2507,几乎所有领先开源模型的新版本,都伴随着总 token 消耗的上升。这种选择的背后,是 “国产替代” 的现实需求:在硬件算力受限、预训练数据质量与闭源模型存在差距的情况下,增加 token 消耗(即延长思维链)是快速提升模型准确率、逼近前沿水平的 “捷径”。

路线差异还体现在 “碳足迹” 等隐性成本上。一项针对基础设施框架的研究显示,在相同任务场景下,DeepSeek-R1 的碳排放量远高于其他前沿模型。除了其依赖 CoT 深度思考(消耗更多算力),更重要的是该模型在测试中被 “分配” 了 H800 等能效较低的芯片,以及 PUE(能源使用效率)更高的数据中心 —— 这折射出中国 AI 算力生态的短板:低效的硬件与数据中心基础设施,会进一步放大开源模型 “token 消耗过多” 的劣势,增加隐性成本。
四、结论:经济性终成核心标尺,场景适配决定未来
NousResearch 的研究给出了一个阶段性结论:基于海外第三方 API 价格,DeepSeek 等开源模型仍具备整体成本优势,但在高定价场景(如大上下文、高吞吐速度)中,尤其是处理简单问题时,其优势已不显著。这一结论背后,是 AI 行业的核心逻辑转变:从 “追求性能极限” 转向 “追求经济极限”。未来,大模型的竞争将不再是单一的 “性能比拼”,而是 “场景适配能力” 的竞争:对于高频、简单的标准化任务,闭源模型凭借 “低 token 消耗 × 高响应速度” 将占据主导;对于复杂、低频次的推理任务,开源模型 “用 token 换准确率” 的策略仍具价值。而无论是开源还是闭源路线,最终的赢家都将是那些能实现 “用尽可能少的 token,解决尽可能有价值的问题” 的模型 —— 因为在成本约束日益收紧的产业实践中,“经济性” 才是决定大模型能否落地的终极标尺。
参考:
https://doi.org/10.48550/arXiv.2505.09598
https://doi.org/10.48550/arXiv.2509.20241
https://arxiv.org/html/2509.25721v2
https://github.com/cpldcpu/LRMTokenEconomy/
