亚洲AI芯片自主之路:阿里平头哥与寒武纪相继发布新一代算力产品
2026年5月初,阿里平头哥与寒武纪相继发布新一代AI芯片含光920与思元800,亚洲AI算力自主化进程提速,但软件生态与先进制程仍是关键挑战。
2026年5月初,亚洲人工智能算力市场迎来新的关键节点。阿里巴巴旗下平头哥半导体在杭州正式发布新一代云端推理芯片含光920,寒武纪科技则在北京公布面向大模型训练的思元800系列。两家中国芯片厂商接连出招,标志着亚洲AI芯片产业在面对外部出口管制压力下,正加快推进自主可控的算力底座建设。
含光920:推理性能再上新台阶
含光920采用12纳米工艺,单芯片INT8算力达到820 TOPS,较上一代含光800提升约一倍。平头哥首席科学家在发布会上表示,这款芯片已在阿里云杭州、张北、乌兰察布三大数据中心完成大规模部署测试,预计第三季度对外提供商业化推理服务。
对企业用户而言,含光920最值得关注的是其与通义千问大模型的深度优化。阿里云方面披露,在72B参数规模的通义千问推理任务上,含光920集群相比英伟达H20方案能效比提升约35%,单位token推理成本下降约28%。这一数据若在第三方测试中得到验证,将为国内大模型推理市场提供具有竞争力的国产替代方案。
寒武纪思元800:剑指训练市场
与含光920主攻推理不同,寒武纪此次发布的思元800直接瞄准大模型训练这一更高难度的场景。该产品采用7纳米工艺,单卡FP16算力达到512 TFLOPS,并支持BF16、FP8等多种数值格式。
思元800关键参数
- 制程工艺:7纳米
- FP16算力:512 TFLOPS
- 显存容量:96GB HBM3
- 显存带宽:3.2 TB/s
- 互联带宽:单卡800GB/s,支持512卡集群
寒武纪董事长陈天石在发布会上坦言,思元800在单卡绝对性能上仍与英伟达H100存在差距,但通过自研的MLU-Link互联协议和与华为昇腾、百度昆仑芯共建的开放训练框架,实际训练效率在千亿参数模型场景下已经接近可用水平。
软件生态成为关键短板
硬件之外,软件生态是国产AI芯片绕不开的难题。CUDA生态经过近二十年积累,已经成为AI开发者事实上的标准。无论含光还是思元,要真正赢得开发者,必须在框架兼容、算子库完备性、调试工具链等方面与CUDA形成可竞争的体验。
对此,平头哥推出了HanGuangCC编译器,宣称对PyTorch、JAX、PaddlePaddle主流框架提供原生支持,并在内部测试中实现90%以上的算子自动迁移率。寒武纪则联合华为、百度发布了统一的「开放训练栈」,试图通过开源协作降低开发者切换成本。
其他亚洲玩家的布局
除中国厂商外,亚洲其他经济体也在加紧AI芯片布局。韩国三星与SK海力士已在HBM4存储领域取得领先地位,并通过参股初创公司Rebellions、Sapeon进入NPU设计市场。日本Preferred Networks联合软银推进MN-Core 3超级计算机项目,目标2027年投入商用。
台积电方面,除了为英伟达、AMD代工外,也在积极承接亚洲本土AI芯片订单。业内消息显示,含光920与思元800均由台积电南京及高雄工厂代工生产。这意味着即使在地缘政治压力下,亚洲半导体产业的相互依存关系仍然牢固。
市场格局与挑战
从市场需求来看,2026年亚洲AI算力缺口仍然巨大。IDC最新预测显示,仅中国大陆AI服务器市场规模今年有望达到1800亿元人民币,同比增长45%。其中推理负载占比将首次超过训练,这恰好是含光920等推理专用芯片的主战场。
挑战同样不少。第一是先进制程受限,国产AI芯片很难在2026至2027年间获得5纳米以下工艺产能。第二是HBM存储供应紧张,三星和SK海力士的HBM4产能已被英伟达和AMD大量预订。第三是国际市场拓展受阻,国产AI芯片在东南亚、中东市场虽有进展,但欧美市场基本封闭。
下一步关注什么
未来六个月,亚洲AI芯片领域有几个关键看点。一是含光920在阿里云大客户端的实际部署规模和性能数据;二是寒武纪思元800在国内大模型厂商训练任务上的客户落地情况;三是华为昇腾下一代产品Ascend 920的发布节奏;四是韩国Rebellions与Sapeon合并后的新公司能否拿出具有国际竞争力的产品。
更宏观地看,亚洲AI芯片产业正从单一追赶英伟达,转向构建多元化的算力生态。这一过程不可能一蹴而就,但每一次像含光920、思元800这样的产品发布,都在为亚洲科技自主权积累不可逆的筹码。