曦智科技沈亦晨：3D硅光CPO有机会五年内实现 - 新闻分类

连于慧 2025.8.3
曦智科技主要有两个产品线，一个是光计算产品线，另一个是光互连产品线。选择在光互连爆发的时间点上，这是曦智第一次针对光互连产品线上，系统性的揭露产品进展与技术细节。

超节点的概念是什么？英伟达去年发布的NVL72超节点系统，在GPU间互连是通过NVlink以及NVSwitch。其与传统通讯和网络不同点在于，带宽密度特别高，传输的延迟特别低。它把72张英伟达GB200GPU，全部通过NVlink的方式，以非常高的带宽和低的延迟连接在一起，形成72卡超节点，起名叫NVL72。相比于传统，把一模一样的芯片和卡组成传统单机8卡服务器，再把单机8卡服务器通过传统网络互连的方式，9台连在一起。因为两台算力是一样的，都是72颗GB200英伟达芯片，所以可以拿来对比，唯一不同点在于连接方式。 NVL72是高带换、低延迟网络，而9个NVL8对应的是传统网络连接方式。

它们的性能在这里面的对比，对于用户来讲不需要非常高的响应，如果是非常低的响应情况，不需要跨单机8卡互连，整体吞吐量是比较接近的。当模型做得越来越大，以及客户对于响应度的要求越来越高。比如输入一个问题，用户会希望大模型更快回复，它开始要求超过单机8卡服务器之间的GPU也需要高带宽通讯。在那种情况下，NVL72超节点的优势会凸显，高于传统网络互连。当每一个用户TPS超过200的时候，我们会看到一模一样的算力，但是超节点吞吐量可以比非超节点提升3倍以上，这是超节点的概念。

沈亦晨表示，去年提倡超节点时，大家对这概念还很陌生，现在国内几乎所有AI芯片、服务器厂商开始拥抱超节点，该趋势已确立。这里带来另外一个问题，NVL72里面的芯片是采用最先进公艺的GB200。如果是英伟达的A100，大概可以与7纳米的国产GPU算力相比。如果比较英伟达的B200与A100在单芯片计算能力上，纯计算能力可以提高5～10倍。 72张NVL72的GB200大约等于500张国产GPU的计算能力，也就是一个NVL72超节点，哪怕要匹配它的计算能力也需要500个国产GPU，这是在制程上面没有办法进一步突破的前提下。

另外一个问题是，现在国内绝大部分数据中心用到的还是非超节点方案，传统的单机8卡+RoCE网络。我们可以选择完全跟随或者复制美国英伟达道路，把更多GPU塞到机柜里面去，GPU间通过短距离铜导线连接起来去做超节点，但很难继续把500个GPU塞到一个机柜里去，不管是从功耗、散热，包括体积在内都是有限制性的，因为高带宽数据在铜导线里传，只能传1～2米的距离，在这个距离内没有办法放下这么多GPU。

沈亦晨近一步分析，英伟达下一代的Rubin是用3纳米工艺，再往后2纳米的工艺，我们需要塞到一个机柜内的量不可能永远跟得上，所以这里就必须开拓第二路径，跨机柜的带宽互连能力，才有可能追赶上，甚至超越美国GPU密度。跨机柜往往超过1米的距离，只有一种方案就是用光进行互连，而不能继续沿用原来的铜导线方案。这边涉及到GPU直接出光，然后做跨机柜的长距离互连，在我们现在看来是必经的一条路径。最终未来国内超节点方案，首先每个机柜内会尽量放更多算力，然后会有多个机柜通过光互连的方式连接成一个超节点。

他表示，现在面临的问题是，我们没有办法再次继续原样复制美国完整技术路线，然而我们在互连能力、光芯片能力上，其实并不受限制，这会催发我们自主创新开发出一些革命性“交通工具”，以及革命性的“交通调度系统”，以此应对现在特殊的情况。首先，把光互连相比于电互连，光互连比喻成轨道交通，电互连更像是公路交通。轨道交通相比于公路交通，一来距离可以传得更远，其次是速度有机会做得比公路交通更快，并且有自己独特的网络体系。光互连技术已经存在20年以上，在30年前发明光纤，广泛应用到长距离通讯里面，就像轨道交通也已经存在50年以上。

说一下两个特点，第一个是光电转换芯片往往会距离GPU较远，现在光模块都是存在于数据中心交换机里面，它与GPU之间至少有1米以上的铜导线距离。如果我今天要去坐轨道交通，我得从这边跑到虹桥机场，或者更远跑到杭州火车东站才能坐上火车，中间这段传输延迟是非常大的。我们需要提升单通道互连带宽，还要提升通道的密度和数量，这就催生新的光电融合技术，也就是后面讲的三块，近封装/板载光学技术，把光电转换芯片从交换机上直接放到GPU板卡上，这样距离就从1米缩短到10厘米的距离，互连密度也能提高，再把DSP芯片去掉，这样能减少GPU与GPU之间的通讯延迟。

这一代的近封装光学，是目前已经批量落地的一套互连方案，也是我们目前看到唯一通过NPO方式连接的GPU超节点，下一个阶段就是最近炒得比较火的共封装光学，进一步把光电芯片到GPU，从10厘米级别距离缩短到1毫米的距离，直接把光芯片和电芯片放在一个封装里面，好处在于我们可以进一步增加互连带宽，只需要把电信号传1毫米就可以了，带宽能再进一步提升3倍左右的带宽，同时可以进一步减少传输的延迟。这次在WAIC大会，曦智也展示了一款与国内GPU公司，应该也是全球第一次实现Demo，把一个GPU芯片通过短距Serdes，只能传1毫米的Serdes，直接以共封装的方式把信号在GPU上就转换为光信号直接连出来。

而最终的光互连方式，应该是光芯片和电芯片在同一颗芯片，称为3D共封装方案，现在美国也有公司在做。概念类似楼下直接就是高铁站，我们把光芯片和电芯片直接堆叠在一起，直接进行数据传输，预计5年内能实现。

沈亦晨表示，希望通过近封装、共封装，以及最终3D共封装光电融合的方式，大大增加单芯片带宽，目标把单芯片带宽提高到2T每毫米，一颗芯片最终做到100T量级，今天可以做到2个T的量级。另外通过用光来代替电去做互连，把超节点内的芯片数量从8颗提高到500颗，两个叠加起来，我们在一个超节点内的总带宽可以比今天单机8卡的超节点提高3个数量级。如果能用3D共封装方案，可以在3个数量级上再上一个数量级，达到4个数量级超节点总带宽的提升，这是国产芯片的趋势，用大量带宽连大量芯片创造同样的算力。

第二个重要的技术，当我们把它从公路系统，发明一种新的交通系统（铁路），连得节点GPU数量越来越多以后，必须面对的问题是，在不同轨道或者不同光互连光纤中的调度能力，因为不可能是1000张GPU永远都是以一种连接，所以需要通过调度能力调度如此复杂的网络。这也是我们最近发布的光交换技术。

怎么比喻光交换和电交换的区别？电交换就像一辆辆小汽车，每一个信号都可以在电的交换机上选择往左或往右，但是在这种情况下，整个交换容量或者交换速率基本上取决于电交换芯片本身运算能力，也就是红绿灯的能力，在特别大的超节点网络上比较容易造成堵塞。

现在不同牌子的小汽车司机就像国内不同的GPU都是follow不一样的互连协议，好比每个司机对于红灯代表停还是走，可能都是有不同的理解，没有办法把多个厂商GPU通过同一种交换芯片，让它起到互连的效果，基本上每个GPU都要定制一颗交换芯片，以覆盖互连协议，这也是现在国内面临的一个困境。

目前好的电交换芯片都是用最先进工艺，但国产受到工艺节点限制的挑战。如果都用光互连，其实大家都已经上了轨道交通，何不尝试一种直接能在铁轨间进行切换的交换方式，直接连接光的通道。因此，曦智开发了光交换系统芯片，这次在WAIC上发布全球第一款分布式、用硅光技术呈现的光交换芯片，可以通过中央信号控制调配所有光纤，让光信号在波导之间进行信号的切换，这应该是全球独创的技术。

另外，把几百个GPU卡连成一个超节点以后会碰到一个问题，如果一个GPU坏了，整个超节点都会需要下线，随着超节点越来越大，有一个GPU会坏的概率成倍增长，所以，能不能在任何一个GPU坏的时候，能迅速把一个好的冗余GPU给协调到超节点内，能够继续运行。所谓传统电的插拔方案，每次坏了得重新插光纤，在光交换能力后，所有坏了的GPU可以在毫秒时间内直接把一个好的GPU给切换上去，可以大大减少由于冗余带来的成本增加。