
同、全栈优化"的生态构建路径。其核心是 Cambricon NeuWare 的统一基础软件
平台,旨在通过从芯片架构到上层应用的深度融合,将硬件潜力完全释放。
NeuWare 平台实现了对主流开源生态的快速跟进与全面兼容,例如,它不仅全面兼
容最新版本的 PyTorch 框架(从2.1 到2.8 版本)和Triton 算子开发语言,还提供了
从驱动、编译器、算子库到集群管理和调试调优工具的全套解决方案。这种策略
的核心在于,通过提供一个稳定、易用且功能完备的软件"底座",降低开发者从熟
悉的 NVIDIA 生态迁移到国产平台的门槛。例如,其BANG C 语言和持续迭代的
Triton 编译器后端,通过链接时优化(LTO)、自动软件流水等技术,旨在将 MLU 芯
片的性能发挥到极致;而CNPerf、CNSantizer 等一系列调试调优工具,则帮助开发
者精准定位性能瓶颈和程序错误,显著提升了在国产硬件上的开发和运维效率。
华为的策略:华为正在全力构建其 CANN(Compute Architecture for Neural
Networks)软件栈,并积极推动主流 AI 框架和开源模型对昇腾的适配。通过与
头部模型公司(如 DeepSeek)和开源社区的合作,加速完善其算子库和工具链,
力求在应用层实现对 CUDA 的兼容和替代。
GPGPU 路线的优势:海光、摩尔线程、壁仞等采用 GPGPU 路线的厂商,
在理论上可以更好地兼容 AMD 的ROCm 或直接对 CUDA 进行适配,从而降低
开发者的迁移成本。但这同样需要投入巨大的工程力量。
3. 应用落地的真实检验: 2025 年,国产 AI 芯片已经开始在真实的大模型
训练和推理任务中接受检验。例如,国内多家大模型公司已经开始尝试使用昇腾
集群进行百亿甚至千亿模型的训练。这个过程并非一帆风顺,早期阶段遇到了性
能瓶颈、算子缺失、调试困难等诸多问题。但正是这些来自真实应用场景的“炮
火”,成为了驱动国产软硬件生态快速迭代和成熟的最宝贵动力。
DeepSeek-V3.2-Exp 版本刚发布,寒武纪几分钟后宣布适配,这背后是两个团队
之间的深度合作,正是这种产用协同、共同打磨生态的典范。在大模型训练和推
理的实际验证方面,寒武纪在 2025 年也取得了显著进展。在大模型训练方向,寒武
纪重点支持 DeepSeek V3/V3.1、Qwen2.5/Qwen3 等MoE 类模型训练,同时扩展了
GLM4.5、Flux、Hunyuan-Video 等多模态模型的训练支持,并基于原生 FP8 计算
能力实现了精度符合预期的低精度训练。在推理方向,寒武纪持续优化 vLLM 推
理引擎,完善混合精度低比特量化推理机制,支持类 IBGDA 的极致低时延大规模
专家并行,实现了大模型应用的全方位加速。值得一提的是,通过与 DeepSeek 等头
部模型公司的深度合作,寒武纪实现了对 DeepSeek V3.2-Exp 模型的发布即适配,