2023年《麻省理工科技评论》“35岁以下科技创新35人”中国区发布将来到上海。本次论坛我们聚焦「Infinitas 未来无限」,我们将搭建一个展现“青年人”智慧与潜力的舞台,聚集全球创新人才和资源,让更多人见证他们不懈的探索和追求,让一点火苗点燃他们无穷的创造力。让上海与我们共同见证这片广阔无垠的舞台上,追梦者们绽放出耀眼的光芒。

诸葛.jpg

以下是上海交通大学副教授诸葛群碧在2024中国科技青年论坛精彩讲话,由云现场整理。


各位专家、各位朋友,你们好!我是来自上海交通大学,我叫诸葛群比,前面邱老师的报告题目非常切题,我这个报告为什么在今天“智能无限”的主题里呢?大模型最受益的公司是英伟达,他做的是大模型基础设施建设,在大模型基础设施的建设里有一个非常重要的部分就是通信,所以我今天的主题是我们光通信、光网络Optical Networks for AI,随着AI的发展,AI也会对我们的光网络发展起到非常巨大的帮助作用,所以我的第二部分是AI for Optical Networks。

因为今天在交大边上组织这次活动,非常欢迎大家可以来交大,这是我们的庙门。我来自交大电院,这边过去也非常近,如果大家有空的话,非常欢迎来我们校园里参观。

首先简单给大家介绍一下光通信是怎么一回事,现在在我们的整个世界,大家都由光纤进行互联,包括长距离的通信,包括城市里的网络、数据中心等等,未来光通信也可能到芯片里面,甚至跟光的计算相结合,来促进我们AI时代的发展。今天沈总也在这,他可能会讲光计算、光互联这部分内容。

整个光网络其实有非常多方面需要进行研究,这边展示的是光网络各个应用场景,包括长距离的,包括数据中心,包括5G基站,包括光纤到户等等。(如图)软银集团在2018年财年说明会上展示的图,在过去几十年的信息时代,这两条线非常凑巧的重合了。蓝线是过去互联网巨头的市值,这是他们的增长曲线。红线是我们互联网的流量,通信的流量其实跟我们大公司的市值重合的非常厉害,大家可以想想,这会给我们什么启示。同样,在财年说明会里,他们也展示了另外一幅图,预测未来AI公司的市值也会和我们AI产生的通信流量有非常好的契合。随着AI的发展,通信网络也起到非常关键的作用。

现在大家都在建AI训练的基础设施,(如图)微软的数据中心,是用来训练AI的。英伟达的这些GPU里,他们最后构建一个AI集群,这些AI集群连起来其实需要高速的光通信系统、光模块把它进行互联,现在用到的是400G的速率。为什么用光,而不是用电或者无线来连呢?我们从底层的物理规律可以分析这个问题,光互联的能耗从底层来说的话,它是无限的四个数量级的下面,可以比其他的通信系统能耗要低得非常多的多。大家知道现在AI训练要消耗大量的电力,我们怎么用更低功耗的技术来实现AI的训练,这是非常关键的,而光是我们目前人类知道的技术里面功耗远比其他的要低的多的多的技术,特别是距离长的时候。

在ChatGPT出来之后,对我们通信行业有一个非常大的促进,从左边的趋势可以看出来,我们以前的光模块、光系统主要是为了传统的使用。蓝色增长的非常快,蓝色代表的就是在AI训练时所需要的光互联技术,在未来是主要的增长点,大模型的出现对我们行业有非常好的促进作用,也使我们的技术节奏需要大大提前。前面提到英伟达是400G的速率,我们下面很快就要进入800G、1.6T、3.2T的时代,本来一个十年的规划,现在可能三四年、四五年就要把它走完,对我们来说提出了巨大挑战。

还有很多激动人心的技术会发生,为了降低功耗,我们要重新思考、重新发明,包括芯片、系统、算法等等,有一系列可以创新的地方。在ChatGPT同期出来之后,在这块有一个非常重要的创新就是数据中心之内的电的交换,能不能换成光的交换。谷歌在去年4月份左右发布了第一个用光交换来替代电交换,实现数据中心集群互联的能力。谷歌写这篇论文的时候,把他们论文的title写成阿波罗计划,他们认为这是可以颠覆数据中心未来架构的。

但是我们仍然要思考,随着大模型的持续发展,仍然遵循着scaling law,它未来会越来越大,大家如果关注大模型数据中心,最近在B站可以看到一个视频,讨论大模型带来的电力能源问题,这个问题最终会带来一个数据中心可能没办法很好的训练一个模型,因为这个数据中心没办法给它供这么多电。未来的发展趋势很可能变成几个数据中心之间联合对一个大模型进行训练,基础设施的架构可能会变。

这种情况下,可能未来一个城市里有三个数据中心,这三个数据中心由光网络连接起来,它们会一起来支撑模型的训练,这可能是一个发展趋势。还有一个非常有意思的点,大概前年或者去年的时候,微软收购了一家做光纤的公司,为什么微软会收购一家做光纤的公司?感觉他们好像没太大关系。这家公司做的是空芯光纤,原来的光纤里面是实芯的,这家公司做的光纤是空芯的,空芯有什么好处?光在里面传的速度可以更快。对通信网络来说,光速太慢了,我们希望光速能提高100倍,因为光速太慢了,导致我们数据中心的距离会受限,不能拉得太远,拉得太远的话,最终两个数据中心之间会产生时间上的延迟,模型训练就会出现问题。所以微软收购了这家公司,光纤里的光速传输可以实现1.5倍的提升,现在可以放到150公里来使用。

我们相当于一个垂直行业,电信网络是垂直行业,电信网络对AI的需求是非常大的,是非常好的AI落地应用场景。据预测,可能有好几百亿美金的机会在那儿,AI怎么用到电信网络,下面跟大家进行一些探讨。

很有意思的一个历史故事是什么呢?通信跟AI一直很有缘分,香农和图灵一九四几年的时候他们一直在一起工作,他们讨论的是动心原理和人工智能问题等等。1948年的时候,香农发布了通信数学原理,通信数学原理是通信的开篇之作。图灵1950年发表了计算机机器与智能,代表着人工智能领域的开篇之作。两个领域的祖师爷当初是好朋友。

怎么把AI用到我们这个细分领域呢?我们首先碰到的第一个问题是可解释性和泛化性的问题,我们原来的领域是基于物理规律来做的,这就是红色这条线。但是现在由于我们的物理规律已经发现的差不多了,所以它的发展趋向于于变得更加慢了。AI是基于数据来做的,可能可以找到一些我们不知道的规律,而且数据越多,它的发展速度越快,所以我们认为蓝线未来会加速发展。但是直接把AI用在我们这边就遇到了可靠性问题,你们肯定不希望在家里上网上着上着突然断掉,我们用不可解释的东西,它可能会出现这样的问题。在这块的研究,很多都是我们怎么样把传统物理跟现在的AI进行融合,既做一个能力很强的,又做一个很可靠的事情。

这边给大家展示一个例子,我们把通信系统打开,发现通信系统里面的一些算法跟我们神经网络的算法其实是极其类似的,甚至我们可以把一个通信系统直接映射到神经网络架构,这样就变成了什么呢?变成了通信系统天然就是一个深度神经网络。问题就变得很有意思了,我们天然就是一个机器学习,在我们原来的通信系统里是不是有很多发展的空间。

第二个也是大家自然能想到的,一张大的通信网络,它就像全国的交通系统一样,它是极其复杂的。交通里的无人驾驶是AI的一个很好的落地场景,大家最近也经常看到新闻,无人驾驶已经开始使用了。但是在光网络里,它也需要无人驾驶,怎么样把我们的信息从一个地方运到另外一个地方,这里面的无人驾驶也是极其复杂,今天的话,人是没办法搞定的,所以需要AI用到这个场景里。

如果大家是做网络的,会看到这么一幅图,这代表的是通信网络无人驾驶的L0-L1-L5,我们汽车的无人驾驶是由L几到L5,我们网络也有这样的定义到L5,我们也是希望通过AI来实现完全不用人的自动驾驶网络。

我们最近看到陈文观(音)教授讲了一个报告《国产算力训练大模型的经验与教训》。里面有提到说现在大模型训练的时候经常会出问题,其中出的最多的问题是光模块的故障,就是我们做的这个东西。我们这边也发现了什么机会呢?发现我们做光通信既支持AI的发展,AI也帮助我们把它做得更好,我们做得更好,AI可以发展得更快,大家互帮互助。如果AI集群出现了问题,怎么第一时间预测到它的问题?AI就有很好的落地场景,相当于AI自己帮自己解决硬件的问题。

这里面会涉及到数字孪生的概念,为什么AI来控制我们的物理世界非常困难呢?因为物理世界很难建模,你只有把它模型建得非常好,上面再加上AI的控制,它就会相对好建很多,对我们来说,我们要做通信网络的数字孪生模型,数字孪生模型就会涉及到这个模型怎么做、数据怎么消化、怎么保证它的可靠性,也有很多机器学习的问题在里面。

怎么将物理把我们的AI相融合,我们如果简化这个问题的话,AI无非是一个模型,这个模型的输入以及它的输出,我们怎么做融合呢?我们可以在它的输入做融合,我们可以在模型的结构做融合,我们可以在模型输出反馈过去的训练过程做融合,从这三方面可以思考一下有什么创新的办法。

给大家展示一个我们最近做的工作,我们做了一个真实的通信系统,这个通信系统没有任何的初始知识,我们怎么样让这个通信系统自己跑起来,它自己采集它的数据,它自己来控制我们通信系统里所有设备的参数,我们论证了这个事情是可行的,所以在我们的预期里,在未来一个通信网络会有一个AI Agent在那儿,AI Agent会帮我们把这个网络管得更好,也会使这个网络带来更大的价值,同时反过来支撑下一代AI基础设施的建设。

这个世界第一个机器学习的demo是谁做的?是香农做的,历史上还是非常有意思的,第一个机器学习是通信系统的祖师爷做的。谢谢大家