17370845950

新闻动态

< 返回列表当前位置：首页 > 新闻动态 > 行业资讯

全球首个“纯 AMD”训练 MoE 大模型 ZAYA1 发布

amd联合ibm及ai新锐zyphra推出zaya1——全球首款完全基于amd硬件训练的moe基础模型，完成14t tokens预训练，整体表现媲美qwen3系列，数学与stem推理能力在未进行指令微调的情况下已接近qwen3专业版本。

训练配置

集群架构：IBM Cloud平台部署128节点，每节点搭载8块AMD Instinct MI300X，总计1024张加速卡；采用InfinityFabric互联技术与ROCm软件栈，实现峰值算力750PFLOPs
训练数据：涵盖14万亿tokens，采用课程学习策略，逐步聚焦于数学、代码与复杂推理任务；后续将发布进一步优化的后训练版本

架构亮点

CCA注意力机制：融合卷积操作与压缩嵌入注意力头设计，显存消耗降低32%，长序列处理吞吐提升18%
线性路由MoE结构：细化专家粒度并引入负载均衡正则化，Top-2路由准确率提高2.3个百分点，在70%稀疏度下仍维持高效资源利用

性能表现

ZAYA1-Base（非指令调优版）在MMLU-Redux、GSM-8K、MATH、ScienceQA等多项评测中与Qwen3-Base相当；在CMATH与OCW-Math任务上表现更优，凸显其在科学与数学领域的强大潜力。Zyphra透露，指令微调及RLHF增强版本计划于2026年第一季度上线，并将开放API接口与模型权重下载。

AMD指出，本次合作成功验证了MI300X搭配ROCm在超大规模MoE模型训练中的稳定性与竞争力，未来将携手更多云服务商推广“全AMD”训练集群方案，目标在2026年实现训练超百亿参数MoE模型时，总体拥有成本（TCO）与NVIDIA方案持平。

源码地址：点击下载

17370845950

关于我们

服务项目

广告推广

案例欣赏