发布日期:2026-01-04 19:52点击次数:70
12月20日钢绞线 矿用,摩尔线程首届MUSA开发者大会(简称:MDC 2025)在北京开幕,中国工程院院士、清华大学计算机系教授郑纬民发表《中国主权的AI计算引擎构建研究,以国产GPU为代表的自主可控路径观察》主旨演讲。
他说,过去很长一段时间,做芯片是全球化分工的,有人做架构设计,有人做设备制造,有人做代工,有人做封装,各个国家、各个地区进行全球分工,现在则讲主权AI。主权AI过去是学术讨论,现在变成每个国家必须回答的现实问题。当天,他分享了5个点内容。
第一,主权AI有三大支柱:算力自主、算法自强、生态自立。这三个方面互为前提,互相约束,共同构成主权AI的系统工程框架。
算力自主,这是物理层的安全底座,它有三个要求:一是芯片设计能力要自主;二是制造与供应链风险要可控;三是系统与集群交付能力要强。
算法自强,针对GPU来说,能做大模型适配,能做大模型训练,能让模型优化。
生态自立,某种程度上比前两个更重要,即要从“能跑”到“愿意用”。不是说芯片跑一个软件就可以,要以开发者为主,生态厂家要做,用芯片的人更重要。
天津市瑞通预应力钢绞线有限公司第二,构建AI+3D+HPC架构。物理AI与世界模型需要什么样的芯片,可以分三个方面内容:支持AI,做3D,做HPC。做GPU一定要满足这三件事情,需要完整图形流水线,还有张量计算核心支持AI,高精度浮点单元支持HPC。
他说,摩尔线程的国产全功能GPU是代表性案例,将这三个方面结合在一块,一个芯片就能完成,“AI+3D+HPC”一体化系统集成,包括AI驱动的新一代渲染平台,世界模型的3D数据基础设施,以及世界模型/数字孪生、工业仿真+AI优化、视频生成与实时交互等应用场景。
第三,从单卡到万卡集群。国产的万卡乃至十万卡系统,非常难,不是说把十万个卡放在一块通上电就行了,要做到可用、好用非常难。
“为什么要十万卡系统呢?”郑纬民回答说,因为算力是基石。做模型训练,做很多事情需要大算力,需要万卡、十万卡系统,这是必选项。做万卡、十万卡有几件事情很难:互联网络与拓扑,要可靠性与运维,十万卡连在一块,预应力钢绞线平均一个小时要出一次错,十万个卡里面有一个卡一个小时、两个小时要出错,整个系统不能停下来,出错了如何继续训练下去?能耗与供电散热,十万卡是一个大火炉,电要供得上,散热做得好。国产集群第一步要做到能用,以后做到好用。
第四,开发者与类CUDA生态。真正决定主权AI成败的,在于是否有足够多的开发者愿意长期在这套栈上写代码。开发者是生态的核心,不是厂家,厂家需要与开发者一块努力把生态做好。
郑纬民说,国产平台需要解决的问题:迁移成本太高,原来大家基于英伟达的程序,怎么迁移到国产的;工具链不太成熟,要把它用成熟;社区也要做得好,目标是从“能用”到“好用”到“愿意用”,开发者体验好,用户就喜欢用。能用了,这是第一步。第二步他愿意用,这件事情很重要。摩尔线程MUSA就是类似于CUDA生态的国产实践。
“开源非常重要,我们要尽可能开源,很多人用了以后提出问题反馈给你,让更多的学生、开发者低成本使用。”郑纬民说,后CUDA时代,模型使用者已经是“使用开源项目”,而不是“使用CUDA”。生态自立的一个现实路径,是让国产平台成为开源创新的一个选择,要拥抱开源。
郑纬民举两个例子,清华大学团队做了两件事,一个是做了Mooncake,它是在推理中以KVCache为中心的大模型推理架构,能使硬件省很多,而且是开源的。第二个例子是KTransformers。现在大多数推理系统都有很多卡,把CPU和GPU混合用,一块卡、一块CPU把DeepSeek满血版装上,也是开源的。
第五,产业协同,从碎片化走向合力。当前,面临内卷与碎片化问题,比如不同的厂家提供不同的接口,要做不同的适配。要让开发者工作量减少,不同芯片、不同系统最好是一套东西,产业联盟与软硬件协同设计非常重要。
郑纬民说,要团结一心,解决应用不足与生态薄弱的问题;产业界要团结起来,应用也要团结起来。生态问题不是一个厂家的问题,开发者要发挥很大作用,一起努力解决这个问题。全功能GPU筑牢算力长城,国产生态版图百花齐放。聚力攻坚突破技术壁垒,携手同行共赴星辰大海!
南方+记者 郜小平钢绞线 矿用