阿里新发布的Qwen3-Next-80B-A3B模型在数学推理评测AIME25中拿到了87.8分,超越了一直被公认强大的Gemini 2.5-Flash-Thinking模型。实现这一性能仅动用了模型800亿参数中的30亿。 这标志着模型架构设计正在发生根本性的转变,从单纯追求参数规模转向追求高效激活和计算性价比。
Qwen3-Next并非基于原有模型的简单改进,而是针对大模型未来向更长上下文和更大总参数扩展的趋势进行的底层重构。 新架构采用了全新的高稀疏MoE(混合专家)设计,并对Transformer的核心组件进行了重构。 其核心改进包括四个方面:混合注意力机制、高稀疏度MoE结构、训练稳定性的优化措施,以及提升推理效率的多token预测(MTP)机制。 这些技术创新共同造就了其在性能与效率上的双重突破。
最引人注目的是其高稀疏度MoE结构带来的极致效率提升。此前,Qwen3系列的MoE专家激活比约为1:16,而Qwen3-Next通过更精密的设计实现了1:50的激活比,创下了业界新高。 基于此架构的Qwen3-Next-80B-A3B-Base模型拥有800亿参数,但每次推理仅激活30亿参数,却实现了与Qwen3-32B密集模型相近甚至略好的性能。 其训练成本更是大幅降低,仅需Qwen3-32B模型9.3%的GPU计算资源,就能训练出性能更好的基座模型。
在长文本处理能力上,Qwen3-Next表现出了显著优势。 新架构对经典Transformer的核心组件进行了重构,创新性地采用了线性注意力和自研门控注意力结合的混合注意力机制。 具体而言,其混合注意力模块融合了Gated DeltaNet(线性注意力)与Gated Attention(门控注意力)技术。 这种设计不仅更节省内存,大幅降低了计算复杂度,也使其能够更高效地处理超长上下文。 该模型原生支持262K tokens的上下文窗口,经测试可外推至约101万tokens的超长文本处理能力。 在处理超过32K tokens的长上下文时,Qwen3-Next的推理吞吐量比Qwen3-32B高出10倍以上。
在多项权威基准测试中,基于Qwen3-Next架构的模型展现出了卓越的性能。 Qwen3-Next-80B-A3B-Instruct在编程(LiveCodeBench v6)、人类偏好对齐(Arena-Hard v2)以及综合性能力(LiveBench)评测中,表现甚至超过了“开源王者”旗舰模型Qwen3-235B-A22B-Instruct-2507。 它在包含通用知识(SuperGPQA)、数学推理(AIME25)等核心测评中全面超越了SOTA密集模型Qwen3-32B。 Qwen3-Next-Thinking则在数学推理AIME25评测中斩获87.8分,全面超越了Gemini2.5-Flash-Thinking。
阿里通义已将Qwen3-Next-80B-A3B的指令(Instruct)模型和推理(Thinking)模型在Hugging Face平台以Apache-2.0协议开源,支持通过Transformers、SGLang、vLLM等主流框架进行部署。 第三方平台OpenRouter也已完成适配上线,方便开发者便捷调用相关能力。 全球AI开源社区HuggingFace的最新数据显示,通义千问Qwen的衍生模型数已超过17万,稳坐全球第一开源模型的宝座。沙利文的报告显示,2025年上半年,在中国企业级大模型调用市场中,阿里通义占比17.7%,位列第一。 通义千问也是中国企业使用量最多的模型。
Qwen3-Next通过架构创新,同时实现了大规模参数容量、极低的激活计算开销以及对长上下文的有效支持三大目标。 其动态稀疏激活机制与并行推理优化,使模型在保持高性能的同时显著降低了资源消耗。 这种平衡在同类架构中具有示范意义。 阿里通义近期动作频频,相继推出了超万亿参数的Qwen3-Max-Preview、文生图及编辑模型Qwen-Image-edit、语音识别模型Qwen3-ASR-Flash等,并持续推进“全尺寸”和“全模态”开源。
Qwen3-Next的发布不仅展示了技术上的突破,其极致性价比所带来的模型使用门槛的降低,也引发了业界关于“开源大模型的高效化是否会加速AI技术平民化进程,从而改变当前AI竞争格局”的广泛讨论。
金领速配提示:文章来自网络,不代表本站观点。