相比之下,MTT S4000的算力为INT8 256 TOPS、BF16 128 TFLOPS、FP32/64 32/64 TFLOPS。
据业内人士称,MTT S5000实测性能可以对标NVIDIA H100,尤其是在多模态大模型微调任务中,部分性能更是超越H100,甚至开始接近最新的Blackwell架构。
2026年1月,智源研究院基于MTT S5000千卡集群,完成了前沿具身大脑模型RoboBrain 2.5(数千亿参数)的端到端训练与对齐验证,MTT S5000表现出了与H100集群极高的结果一致性,练损失值(loss)差异仅为0.62%,整体训练效果甚至实现小幅超越。
另据互联网厂商的场景实测,MTT S5000在典型端到端推理及训练任务中,性能可以达到NVIDIA H20的2.5倍左右。

目前,基于MTT S5000的夸娥万卡集群已经落地,浮点运算能力达到10Flops(每秒1千亿亿次计算),在Dense稠密模型训练中MFU达到60%,在MoE专家模型中维持在40%左右,有效训练时间占比超过90%,训练线性扩展效率达95%。
基于原生FP8能力,它能完整复现顶尖大模型的训练流程,Flash Attention算力利用率超过95%,多项关键指标均达到国际主流水平。
值得一提的是,MTT S5000在集群通信层面采用独创的ACE技术,将复杂通信任务从计算核心卸载,大幅提升模型算力利用率(MFU)。
实测显示,MTT S5000从64卡扩展至1024卡,系统的线性扩展效率保持在90%以上,训练速度随算力增加几乎同步倍增。


MTT S5000在推理场景同样表现优异,比如在2025年12月,摩尔线程联合硅基流动基于MTT S5000完成了对DeepSeek-V3 671B满血版的深度适配与性能测试。