1876年费城世博会,巴西皇帝佩德罗二世握着贝尔的电话,在听筒里听见人声的瞬间,惊呼声穿越百年:「天哪,它会说话!」那是工业时代对“连接”的第一次惊叹,而一百五十年后的2026年,两场科技盛会,两句轻描淡写的话,正在宣告一个更颠覆的纪元——Token纪元,正式降临。
3月18日,圣何塞GTC大会舞台上,黄仁勋的黑色皮夹克衬得那句预言格外锋利:「十年后,NVIDIA将有7.5万名员工,他们会异常忙碌,因为要和750万个AI agent并肩工作。」7.5万对750万,1:100的配比,台下的笑声里藏着未被察觉的震动。直到他补全那句注解:「它们会全天候工作,希望我们的人不用跟它们比」,掌声散去,没人意识到,这句被芯片发布掩盖的话,藏着未来十年的生存法则。
黄仁勋不是唯一的预言者。三个月前,拉斯维加斯CES会场,麦肯锡CEO Bob Sternfels用一组冰冷的数据,把这个未来钉得更牢。「我们现在有4万名人类员工,搭配2.5万个AI agent」,不到两年时间,agent数量从几千暴涨至数万,而这2.5万个“数字员工”,半年内就生成了250万张图表——那曾是麦肯锡新人的专属战场,二十三四岁的名校毕业生,顶着星光熬夜对齐坐标轴,用最机械的劳动,换取一张通往合伙人的门票。如今,这张门票的前半段,已被AI agent彻底接管。
Sternfels的话点破了真相:AI正在把公司劈成两半,一半扩张,一半收缩;一半被技术赋能,一半被时代淘汰。而NVIDIA与麦肯锡的故事,本质上是同一场革命的两个切片——在1:100的世界里,真正干活的不再是人,而是Token驱动的AI agent,人类,不过是连接这些agent的“接口”。
更残酷的规则,藏在黄仁勋做客All-In Podcast时的一句话里:「如果一个年薪50万美元的工程师,每年消耗的Token不到25万美元,我会非常担忧。」当主持人追问NVIDIA是否为工程团队投入20亿美元购买Token时,他的回答干脆利落:「我们正在努力。」
这句话彻底改写了职场的价值逻辑:一个不烧Token的工程师,即便拿着50万美元的年薪,也配不上这份薪资。NVIDIA的解决方案直白且霸道——把Token塞进薪酬包。黄仁勋在GTC演讲中明确表示,未来每个NVIDIA工程师都会获得相当于基本工资一半的年度Token预算。这意味着,一个底薪几十万美元的工程师,将额外拥有一笔推理算力配给,总薪酬的三分之一,都是驱动AI agent的“燃料”。
差距就此拉开。一个手握满额Token预算的工程师,相当于拥有十几个全天候待命的AI agent,帮他写代码、跑测试、搜文献、做仿真;而一个只有免费API额度的人,只能靠双手敲键盘谋生。两人的简历可能一模一样,产出却能相差5到10倍。这不是科幻,而是硅谷正在发生的现实。
今年3月,Business Insider的报道揭露了一个新变化:工程师面试时,不再只问薪资和股权,而是追问「这个岗位配多少Token预算?」Theory Ventures合伙人Tomasz Tunguz更是将Token预算定义为工程师薪酬的“第四支柱”,与底薪、奖金、股权并列。OpenAI总裁Greg Brockman说得更直接:未来,你能调用多少推理算力,将直接决定你的生产力天花板。
这让人想起1950年代的底特律。当时,汽车工人的中产生活,并非源于手艺精湛,而是源于亨利·福特发明的流水线——线动人不动,机械臂将工人的产出放大几十倍,让一个普通工人的生活水准远超同期的手工匠人。2026年的Token预算,就是当年的流水线,但两者有一个致命的区别:底特律工人离开福特,还能去通用、克莱斯勒,流水线无处不在,工会还能为他们谈判更好的待遇;而Token预算,是公司赋予的“外挂”,给你的时候你是超人,收回的那一刻,你就变回路人。股票可以套现带走,技能可以跳槽携带,唯有Token预算,生不带来,死不带去,开关永远握在公司手里。
硅谷为此诞生了一个新词——「GPU饥渴」。顶级AI研究员跳槽时,薪资差距已退居第二位,排在第一的是算力配额。无法跑实验、无法部署agent,再强的能力也会被配额卡死。对他们而言,「你们给多少Token」甚至比股票更重要:股票是可能贬值的远期支票,而Token预算,是今天就能兑现的生产力。至于那些拒绝使用AI的人,早已被时代悄悄淘汰。
Goldman Sachs的估算显示,AI可能自动化美国25%的工时;Mercer的调查则表明,65%的高管预期,未来两到三年内,会有两到三成员工因AI被重新配置。两组数据叠加,结论触目惊心:有Token的人,产出呈爆炸式增长;没有Token的人,只能被优化出局。人与人之间的分界线,早已不是能力,而是Token配额。
个人的价值被Token定义,公司的估值也在被Token重构。2026年3月初,上海公司MiniMax发布了上市以来的第一份年报:全年营收7900万美元,调整后净亏损2.5亿美元。按传统财务指标看,这只是一家烧钱的小公司,营收不及Accenture一个季度的零头,但资本市场却对它另眼相看。
MiniMax CEO闫俊杰在财报电话会上的一句话,揭开了AI时代的估值密码:「公司的价值,由智能密度乘以Token吞吐量决定。」这句话的背后,是一组极具冲击力的数据:2026年2月,MiniMax M2系列模型的日均Token消耗量,比两个月前暴涨6倍,编程场景的Token消耗更是飙升10倍;在AI模型聚合平台OpenRouter上,M2.5模型两周内消耗4.55万亿Token,力压所有美国模型,成为全球Token消耗榜榜首——《南华早报》称之为「中国开源模型终结美国开发者一年市场统治」,而这场终结的核心,就是Token消耗量。
这个逻辑,同样适用于OpenAI。其API平台每分钟处理60亿Token,两年内增长20倍;年消费超10万美元的企业客户,一年翻了近7倍。Barclays分析师Ross Sandler拆解数据后发现,OpenAI在消费端的Token消耗量,是Google Gemini的两倍以上。Token消耗量,已然成为AI公司排座次的硬通货。
更有趣的是,Token消耗已经渗透到公司内部。《纽约时报》最近报道了一个名为「tokenmaxxing」的现象:Meta和OpenAI的工程师,会在内部排行榜上比拼谁消耗的Token更多。Token预算正在成为科技公司的标配福利,就像十年前的免费午餐和牙科保险——爱立信斯德哥尔摩办公室的一名工程师坦言,他花在Claude上的钱可能比工资还高,但全部由公司买单。
TechCrunch的一篇文章算了一笔账:一个普通工程师下午写一篇文章,可能只消耗1万Token;但一个操控agent集群的工程师,一天就能在后台烧掉几百万Token,却一个字都不用打。而Token的价格,也在飞速下跌:两年前,每百万Token售价33美元,如今仅需9美分,跌幅达99.7%。价格越便宜,烧得越猛;烧得越猛,就越离不开——闫俊杰在电话会上预判,未来市场对Token的需求,可能会增长一到两个数量级。
这就是2026年的公司定价逻辑:不看盈利,看Token消耗。MiniMax亏2.5亿,但Token吞吐量的增长曲线陡峭得惊人,资本市场愿意为它下注。这像极了2006年的YouTube,彼时它一毛钱收入没有,但带宽消耗量呈指数增长,Google甘愿花16.5亿美元将其收购。当年YouTube烧的是带宽,今天MiniMax烧的是Token,计量单位变了,资本赌未来的逻辑,从未改变。
但这场豪赌,藏着致命的风险。GTC大会同一周,Stripe发布了Machine Payments Protocol——简单来说,AI agent可以自己花钱了。它需要数据,能自己付费下载;需要算力,能自己按秒购买;需要调用其他agent的API,能自己完成结账,全程无需人类确认。Visa适配了专属信用卡,Coinbase推出了agent钱包,Mastercard在开发Agent Pay,John Collison用“洪流”来形容这场Token消耗的新变革。

黄仁勋早已做好了准备:NVIDIA要将Token生成速率从2200万提升至7亿,暴涨350倍。这相当于建一整张全新的公路网,赌的是未来的车流量会指数级增长。而这场基建豪赌,需要6000亿美元的投入,前提是全世界对Token的消耗量,能撑得起这笔投资的回本——但这目前还只是一个昂贵的假设。
债务的阴影,已经悄然笼罩。2025年最后一个季度,科技公司发行了创纪录的1087亿美元债券;2026年头几周,又有1000亿美元债券入市。Morgan Stanley和JPMorgan预估,未来几年AI相关企业的借债总量可能达到1.5万亿美元;Goldman Sachs则估算,AI资本开支已占到美国GDP的3%左右。
华尔街的聪明人已经开始避险,信用违约互换的交易量持续攀升——他们花几十个基点的保费,赌的是这些AI公司可能还不上钱。Citi信用策略主管Daniel Sorid直言:「作为信用投资者,面对如此规模的转型和资本投入,本能地感到不安。」而Google创始人Larry Page在公司内部的一句话,更道破了行业的囚徒困境:「我宁愿破产,也不愿输掉这场竞赛。」
所有巨头都陷入了两难:明知投入巨大、风险未知,却不敢停下脚步——因为停下来,就意味着直接出局。乐观者看到的是硬数据:Token生成速率暴涨350倍,Stripe让agent实现自主消费,麦肯锡agent数量两年内暴涨数倍,若agent经济全面起飞,Token消耗的增长曲线或许真的会呈指数级。但有一个日期,让所有参与者夜不能寐:2026年下半年,续约悬崖。
2024到2025年,企业花在AI上的钱,大多是「创新预算」——CEO需要在财报会上说一句「我们拥抱AI」,价格不敏感,效果不苛求,花的是姿态的钱。但2026年下半年,第一批AI试点项目将迎来续约节点,创新预算耗尽,CTO会让出谈判桌,CFO将取而代之,而CFO只认一个数字:ROI(投资回报率)。
一旦大量试点项目被砍,Token的终端消耗将突然出现缺口。上游6000亿美元砸出的产能,数据中心建好了,电力接通了,芯片上架了,最终只会变成闲置产能。这种悲剧,历史上早已上演过。
2000年,电信公司花万亿美元铺设海底光缆,泡沫破裂后,全球90%的光缆被闲置在海底,直到十年后Netflix流媒体、iPhone移动互联网爆发,这些光缆才被逐一点亮。光缆没白铺,但铺光缆的朗讯、北电、世通,全都破产了。2012年,中国光伏行业,无锡尚德、江西赛维将组件价格打穿全球成本线,产能严重过剩,行业经历三年血洗。后来光伏成为全球增长最快的能源,但尚德、赛维,都没能活到黎明。贝尔发明电话后,Western Union拒绝以10万美元收购专利,十年后愿出2500万美元,贝尔却不卖了;三十年后电话网络覆盖全美,但那些早期铺网络的小公司,大多没能等到那一天,最终赢家是AT&T——靠收购和垄断,吃下了整个市场。
基础设施的故事,永远是同一个版本:方向几乎没错,但时间差,足以杀死所有先行者。回到Token纪元,我们前面提到的所有规则——Token成为劳动力、人类成为接口、Token配额定义价值——都有一个前提:Token被持续、大量、加速地消耗。工程师的10倍产出,靠Token供给支撑;OpenAI的8400亿估值,靠算力承诺支撑;6000亿基建,靠终端消耗增长支撑。一旦消耗增速放缓,整条链条的定价体系,都会轰然倒塌。
2023年,有卡就是爹;2026年,有Token就是爹。这句话的背后,是生产关系的彻底重构。GPU是资产,买到就是你的,锁在机房里无人能夺;但Token是流量,你的高产出、高估值、谈判筹码,都建立在一股不属于你的持续供给上——水龙头一关,一切归零。
人类作为“接口”,判断力、审美、经验依然重要,但接口能创造多少价值,首先取决于它被接入了多少Token。就像1870年代的美国农民,种出好小麦还不够,必须站在铁路边上;1950年代的手工匠人,手艺再好,也拼不过流水线上的工人;2026年的工程师,代码写得再漂亮,没有Token预算,一切都是空转。
贝尔的电话,让人类实现了远距离连接;而Token,正在重构人类与劳动、与价值、与未来的连接。我们每个人,都在这场变革中寻找自己的位置——你以为自己在掌控AI,其实可能只是一个被Token供电的接口。而真正的问题从来不是“你有多强”,而是“你靠着哪条Token铁路”。
本文来自微信公众号:动察Beating,作者:律动编辑部
