阿里 Qwen3-Next 重磅发布:800 亿参数仅激活 30 亿,训练成本大降 90%

收录于 AGI 持续更新中
9 月 12 日,阿里通义千问发布下一代基础模型架构 Qwen3-Next,开源 Qwen3-Next-80B-A3B 系列模型。相较 Qwen3 的 MoE 结构,其核心改进显著。混合注意力机制采用 75% Gated Delt
9 月 12 日,阿里通义千问发布下一代基础模型架构 Qwen3-Next,开源 Qwen3-Next-80B-A3B 系列模型。相较 Qwen3 的 MoE 结构,其核心改进显著。混合注意力机制采用 75% Gated DeltaNet 线性注意力与 25% 门控注意力结合,平衡长上下文效率与召回能力,长文本处理更优。高稀疏度 MoE 结构将专家数扩至 512,激活比达 1:50,80B 总参数仅激活 3B,算力利用率 3.7%。训练上,通过 Zero-Centered RMSNorm 等优化提升稳定性,成本较 Qwen3-32B 降超 90%。多 token 预测机制让推理吞吐量提升 10 倍以上,在数学推理等评测中超越同类模型,树立效率新标杆。

推荐AGI

最新 AGI 更多
  • 21:52:26 中芯国际、佰维存储两融折算率回调:分别恢复至 70%、50%
  • 21:51:47 中洲特材控股股东及实控人一致行动人:股票异常波动期减持 284.81 万股
  • 21:51:02 整合发力!金安国纪成立覆铜板集团,剑指行业新发展
  • 21:50:12 *ST 亿通及相关责任人收江苏证监局行政监管措施决定书
  • 21:49:27 宁德时代披露回购成果:总成交额 43.86 亿元,涉及 1599.08 万股股份
  • 21:48:26 大恒科技公告:后续将无控股股东及实际控制人
  • 21:47:22 中国联通:国企结构调整基金拟减持不超 1.2% 股份,系八年首次减持
  • 21:46:23 上纬新材:股票将于 8 月 5 日开市起复牌 提示基本面未发生重大变化
  • 21:45:00 中孚实业 (600595.SH):股东怡诚创投减持 0.9980% 股份,持股比例降至 5%
  • 21:43:43 浪潮信息:浪潮集团完成增持,耗资 1 亿拿下 0.11% 股份
  • 21:42:51 兴民智通 (002355.SZ):全资子公司拟出售广联科技 1200 万股股份
  • 21:41:25 ST 国华:子公司中标克融云智算中心二期项目,金额达 2.36 亿元
  • 21:37:52 均胜电子:控股股东均胜集团已增持 0.2301% 股份
  • 21:36:30 飞乐音响:拟 1.04 亿元转让上海日精股权,标的评估值对应挂牌底价
  • 20:45:46 10 月 10 日美股盘前要闻
苏公网安备 11011xxxxx号 苏ICP备2025192616号-1