大模型狂奔,网络掉队?两会热议:AI算力的下一个瓶颈在“连接”
随着2026年全国两会召开,智能经济成为代表委员热议的焦点。政府工作报告明确提出要“打造智能经济新形态”,并将“实施超大规模智算集群”列为新型基础设施建设重点方向。
毋庸置疑,这一战略部署背后,隐含着对人工智能基础设施更高层次的需求。在业界持续聚焦芯片算力提升的同时,一个更为基础性的技术瓶颈也浮出水面——网络的承载能力。
当前,人工智能模型参数已进入万亿级规模,训练任务从单卡向万卡甚至十万卡集群演进,带来的是对网络通信能力的极限挑战。大模型训练要求在微秒级时间内完成海量参数同步,对网络的延迟、丢包率和可扩展性提出了前所未有的要求:网络延迟过高将直接导致算力闲置;数据丢包则可能导致训练任务中断,造成巨大的资源浪费。
腾讯光网络架构师付思东指出,从2016年的Pascal架构到2024年的Blackwell架构,AI算力在八年内实现约1000倍增长,而网络带宽同期仅提升4倍。这种“算力如火箭攀升,网络如步行前进”的失衡状态,正在倒逼产业界重新审视网络技术的战略价值。
在此背景下,如何实现“以网强算”成为产业界亟待破解的命题。
近期,NVIDIA发布的2026财年报告为业内提供了参考样本。数据显示,NVIDIA网络业务迎来空前爆发——全年收入突破310亿美元,相比2021财年收购迈络思(Mellanox)时增长超10倍。单第四季度,网络业务营收达110亿美元,同比增长263%。
这一增长背后,是InfiniBand(IB)技术在超大规模AI集群中的深度渗透。IB网络以其独特的基于信用的流控机制,可以在传输前确保接收端资源充足,从根本上杜绝拥塞与丢包,交换延迟低至100纳秒,是目前高性能计算领域公认的标杆方案。
但对国产智算集群来说,其核心技术由NVIDIA长期垄断,供应链高度集中。在信创战略持续推进下,国产IB仍然存在明显的市场空白。
相较之下,RoCE方案试图在通用以太网架构上实现IB类似的无损传输能力,成本优势较强。然而,深入分析当前主流RoCE方案可知,尽管交换机品牌国产化进展不慢,但其核心交换芯片仍主要依赖博通(Broadcom),网卡芯片则由迈络思(Mellanox)主导。
在200G及以上高速互联领域,RoCE相关的I/O环节技术能力尚处于追赶阶段(目前仅能支持100G级别),与IB网络主流的400G方案存在代际差距,很难满足大算力集群互联需求。
这也意味着,AIDC高端互联领域核心技术仍未脱离海外厂商掌控,想要高位对接超大规模智算集群需求,必须直面IB技术路线国产化难关。
“NV网络业务爆发印证了一个基本事实:在超大规模智算集群时代,高性能网络已经拿到主角剧本”。有业内人士认为,IB技术路线因其原生一体化设计和对极致性能的追求,成为全球头部AI集群的高配选择。
他指出,在国产智算基础设施发展初期,RoCE不啻于一种务实方案,但在大集群网络互联中,仅依靠嫁接于通用以太网的技术路径,很难从根本上突破性能天花板。
因此,推动IB网络自主化建设,已不仅仅是一项技术命题,更是AI大算力时代的战略任务。其意义不局限于现有国产技术体系的局部优化,而是真正锚定高性能网络这一核心短板,建立起兼顾自主可控和高效可用的技术底座,打造真正具备国际竞争力的智能算力新基建。
两会期间对超大规模智算集群的政策引导,既是对人工智能产业发展的强力推动,也向产业链上下游递出一份更严格的考卷。在AI算力竞争日益白热化当下,网络连接能力正成为决定集群效能的核心变量之一。打通智算集群的“任督二脉”,亟需在核心网络技术上实现从外部依赖到自立自强的跃迁。这条路可能艰难且漫长,但却是叩响AI时代大门的关键一步。
免责声明:本网内容均转载自其它媒体或政企投稿,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,且不承担任何责任。文中图片为政企或百度图库公开检索及配图,文中内容仅供参考,不作为实际操作建议。如涉及版权问题,请作者持权属证明联系侵删。


