2023年《麻省理工科技评论》“35岁以下科技创新35人”中国区发布将来到上海。本次论坛我们聚焦「Infinitas 未来无限」,我们将搭建一个展现“青年人”智慧与潜力的舞台,聚集全球创新人才和资源,让更多人见证他们不懈的探索和追求,让一点火苗点燃他们无穷的创造力。让上海与我们共同见证这片广阔无垠的舞台上,追梦者们绽放出耀眼的光芒。
以下是清华大学材料学院副教授、北京市集成电路高精尖创新中心研究员王琛在2024中国科技青年论坛精彩讲话,由云现场整理。
尊敬的各界专家领导朋友,大家上午好!很高兴又见面了,昨天我们讲的主要是从材料到芯片的技术路径,今天我就做一个补充报告,给大家分享一些我们在高算力芯片的分析。
现在算力可能是人工智能时代讨论最多的问题,算力提升对国家经济有明确的关联性,美国中国在第一梯队,1%的算力增长达到1.8%的GDP提升。同时,疫情后,商业提升非常快。在这样的时代,怎么提升大算力芯片,不管是国家还是产业,还是我们作为研究人员,都是非常关心的事情。人工智能大模型最近非常火,昨天很多获奖人也是做相关方向的。以最火的ChatGPT为主,从1到现在的4o,发展非常快,对算力的吞噬可能是指数级增长。现在大家经常讲一句话,算力的提升可能最终是电力的提升。
比如说OpenAI CEO提出用核聚变的方式来实现电能的供应,他也做了一些实际行动,做了很多算力的投资,投资了很多核聚变的能源供应。在中国,电力需求对我们来说其实不是很大的问题,我们有很多风光电、低成本电能,可以给我们算力提供底层资源,所以现在核心还是芯片的问题。对我们国家来说,也做了一些梳理,大概有这样的公式。芯片算力=算力/晶体管×晶体管密度×单芯片面积×单芯片集成度。单芯片算力取决于你的架构,晶体管密度取决于你的工艺,我们国家现在受限于我们制造水平的提升,短期内突破可能比较困难,单芯片面积大家也比较了解,我们的装备有问题,光刻机本身也有曝光区域的限制,大概858平方毫米。集成技术现在是非常重要的技术,如何通过集成技术来提升芯片的集成度,也是非常重要的算力提升。
晶体管密度在现在千亿节点突破的情况下,可能它的主要问题是其他三个方向,后摩尔时代,对全世界可能只有4个方案,对我们来说可能只有3个或3.5个方案,怎么通过3.5个方案做出4个方案的效果,这是一个问题。我们现在的方向主要是算力问题,另外是芯片的面积,通过设备的提升,这也是比较长期的。集成技术是短期内可以做的事情。
对于晶体管提升,主要有三堵墙,利率墙就是算力,然后是存储墙、功耗墙。存储墙,冯氏架构性能受限于数据访存。对于高算力的GPU芯片,我们有些办法,比如说通过拼接的方法,可以把晶圆变大,另外可以通过三维的堆叠实现提升。我后面大概会从五个方向介绍一下相关进展,主要以国际进展为主。
首先给大家一个概念,如果我们把三维集成、平面拓展、计算架构做成一个三维图,我们如果把数据流芯片放进来,发现在架构上有很大进展,以数据为中心。放可重构芯片,架构就更大了,定制化更高。包括晶圆级芯片,可以实现一个晶圆一个芯片的很大进展,芯片的尺寸、算力提升也是非常明确的。我们在三维集成上现在做的工作比较多,这样的宏观视野帮助我们构建芯片提升的技术方案。具体来说,数据流芯片主要以谷歌的工作为主,传统指令集机构架构有取指、译码、发射等流程,谷歌的TPU算力提升比较明确,存算一体是更加终极的解决方案,相比于进程计算,存算一体基本上可以实现计算存储在一个单元进行,这样的话对传输速率、数据流量、算力提升都是比较显著的。
存算一体芯片,现在国际上做的比较好的三星算是一个代表,在提升上可以达到数百倍,甚至上千倍的提升。我们希望能够进一步推动存算一体芯片的发展。
可重构芯片,在国际上现在也是一个主流的技术路径,这块的提升比传统的提升会更大,我们觉得这块的机会也非常大,现在也有一些新的进展。可重构芯片的架构可以编辑,在运算过程中根据你的数据类型来定义,可以动态调出最优的计算机架构,保证数据最优化。这方面SambaNova做得比较好,我们觉得这也是一个很好的方向。
晶圆级芯片,因为我们现在的算力提升受限于单个带的的尺寸,可以通过晶圆级的尺寸来实现更高的性能。以后的晶圆可能是方形的,这样的技术变化也值得各位关注。比如说Cerebras WSE,用拼接的方式实现整个芯片的流片,它的一个问题是良率问题,如果单个带很大的话,它的良率就会很小,可以通过小带的拼接实现晶圆级算力芯片的实现,当然还有很多容错的设计,需要设计上的提升。
Tesla Dojo也是比较有代表性的,它目前的方案是采用良率很高的带和有机基板做重新的拼接,相比于直接的光照拼接,它的速度和布线尺寸,包括它的密度都会比较低,如何采用直接拼接的方法实现高良率的大算力芯片,在我们国家其实也是很重要的方向。
另外是三维集成芯片,总体来说是比较直接或者比较野蛮的方法,通过2.5D三维集成的方法,可以实现带宽的提升,从3TB到大概16TB,甚至可以更高。人工智能芯片需要很强的可配置性,你有不同的模块、不同的组合,通过这样的组合,灵活配置芯片功能,不管是逻辑存储,还是传感、通信、智能化AI芯片,我们都可以用垂直堆叠的方式实现芯片组合。
Intel Ponte Vecchio在逻辑芯片上做了比较好的尝试,大概有47种垂直堆到一块,实现高效的芯片。另外比如说AMD 3D V-Cache,现在存储在计算架构上是一个卡脖子问题,如何提高存储和计算的模式,在不改变架构的情况下,就是降低它们之间的距离,通过逻辑和SRAM的垂直堆叠,可以降低功耗、提高带宽。另外是GraphCore IPU,目前的效果是提升4%左右,效果也是比较显著的。
芯片有六大技术引擎,工艺、材料、集成、器件、架构、生态,今天主要讲了两个,就是它的架构和集成。前面的工艺我们已经无能为力了,或者说短期无法突破,材料基本在现有体系下也比较难取得重大的进展,所以主要是架构和集成。在架构方面,我们在数据流、可重构、存在一体方面可以做的事情比较多,可以明显提升利用率强的问题,或者解决单晶体管算力问题。在集成方面,可能说是一个比较有效的方式,可以解决很多面积墙、存储墙、功耗墙的问题,我们都在做相关的验证,当然也需要更多产业界、学术界的朋友一起互动,我们把路径探索清楚。里面所有东西不是排斥的,很多技术可以耦合或者叠加,通过这种方法,我们可以实现大算力芯片。希望通过这次报告,跟各位做一个交流,也希望有相关的需求,可以通过我的微信,大家做一些联系,我们希望能够把大算力芯片这样一个未来人工智能时代的核心基础设施做好,也希望能够获得重大的突破。谢谢各位!