阿里 Qwen3-Next 重磅发布:800 亿参数仅激活 30 亿,训练成本大降 90%

收录于 AGI 持续更新中
9 月 12 日,阿里通义千问发布下一代基础模型架构 Qwen3-Next,开源 Qwen3-Next-80B-A3B 系列模型。相较 Qwen3 的 MoE 结构,其核心改进显著。混合注意力机制采用 75% Gated Delt
9 月 12 日,阿里通义千问发布下一代基础模型架构 Qwen3-Next,开源 Qwen3-Next-80B-A3B 系列模型。相较 Qwen3 的 MoE 结构,其核心改进显著。混合注意力机制采用 75% Gated DeltaNet 线性注意力与 25% 门控注意力结合,平衡长上下文效率与召回能力,长文本处理更优。高稀疏度 MoE 结构将专家数扩至 512,激活比达 1:50,80B 总参数仅激活 3B,算力利用率 3.7%。训练上,通过 Zero-Centered RMSNorm 等优化提升稳定性,成本较 Qwen3-32B 降超 90%。多 token 预测机制让推理吞吐量提升 10 倍以上,在数学推理等评测中超越同类模型,树立效率新标杆。

推荐AGI

最新 AGI 更多
  • 21:15:56 LeCun新创AI公司估值瞄准30亿欧元,引行业关注
  • 21:15:05 美团LongCat-Video-Avatar模型开源发布
  • 21:14:24 南方航空与阿里云联合发布“天盾”安全大模型
  • 21:13:25 摩根士丹利重磅预测:2050 年人形机器人市场达 5 万亿美元
  • 21:52:26 中芯国际、佰维存储两融折算率回调:分别恢复至 70%、50%
  • 21:51:47 中洲特材控股股东及实控人一致行动人:股票异常波动期减持 284.81 万股
  • 21:51:02 整合发力!金安国纪成立覆铜板集团,剑指行业新发展
  • 21:50:12 *ST 亿通及相关责任人收江苏证监局行政监管措施决定书
  • 21:49:27 宁德时代披露回购成果:总成交额 43.86 亿元,涉及 1599.08 万股股份
  • 21:48:26 大恒科技公告:后续将无控股股东及实际控制人
  • 21:47:22 中国联通:国企结构调整基金拟减持不超 1.2% 股份,系八年首次减持
  • 21:46:23 上纬新材:股票将于 8 月 5 日开市起复牌 提示基本面未发生重大变化
  • 21:45:00 中孚实业 (600595.SH):股东怡诚创投减持 0.9980% 股份,持股比例降至 5%
  • 21:43:43 浪潮信息:浪潮集团完成增持,耗资 1 亿拿下 0.11% 股份
  • 21:42:51 兴民智通 (002355.SZ):全资子公司拟出售广联科技 1200 万股股份
苏公网安备 11011xxxxx号 苏ICP备2025192616号-1