- 段晓东;李丹;虞红芳;
<正>大模型技术已从探索阶段迈向普惠应用,呈现爆发式增长与深度行业渗透的态势。当前人工智能(AI)技术发展呈现双重趋势:一方面遵循传统扩展定律(Scaling Law),通过“大模型+大算力+大数据”持续突破模型性能边界;另一方面推进“模型算法+算网设施”协同优化,以系统级创新探索算效极限,构建高性价比解决方案。二者的同步推进正驱动全球算力基础设施呈指数级增长。
2025年02期 v.31;No.182 1-2页 [查看摘要][在线阅读][下载 1001K] [下载次数:4 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:0 ] - 李宝嘉;何春志;夏寅贲;何泽坤;王晓亮;
图形处理器(GPU)集群网络流量不断增加,运营难度明显加大,这给高性能大规模GPU集群网络系统的构建带来新的挑战与机遇。提出了一种能够实现超10万GPU集群互联的无损高性能网络方案——星脉网络。GPU集群网络需要联合优化端侧的集合通信库和网络路由控制器,以实现多路径的高效集合通信。为此,针对星脉网络研发了端侧集合通信库(TCCL)以实现最短的跨节点路径规划,同时还开发了全局优化路由器(GOR)以避免路径冲突导致的网络拥塞。在腾讯大模型GPU集群中,星脉网络方案和公开GPU集群方案(NVIDIA NCCL)的对比结果表明:星脉网络可以实现25%的集合通信带宽提升,同时避免80%的由流量冲突造成的网络拥塞问题。
2025年02期 v.31;No.182 3-13页 [查看摘要][在线阅读][下载 1846K] [下载次数:73 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:0 ] - 程伟强;李新双;白艳;吕勇;
探讨了人工智能(AI)大模型时代智算中心网络面临的技术挑战,重点分析了传统互联网协议(IP)网络在负载均衡和突发流量处理方面的局限性,并对比了基于以太网融合远程直接内存访问(RoCE)的优化与网络架构重构两种技术路线。研究聚焦中国自主研发的全调度以太网(GSE)技术,详细阐述了其核心技术:基于报文容器(PKTC)的负载均衡机制和动态全调度队列(DGSQ)端到端拥塞控制技术。这些技术有效解决了智算网络中的流量极化和拥塞丢包问题。同时,系统分析了GSE网络设备在接口设计、转发引擎和队列管理等关键环节的创新架构,论证了GSE技术在构建高带宽、低时延、无阻塞新型网络方面的技术优势,为智算中心网络演进提供了重要参考。
2025年02期 v.31;No.182 14-20页 [查看摘要][在线阅读][下载 1251K] [下载次数:47 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:0 ] - 罗子秋;苗宇铠;李丹;
提出了一种基于大语言模型(LLM)进行蒙特卡洛树搜索的智算网络故障根因分析系统(RCA-MCTS)。利用LLM推理研究领域在蒙特卡洛树搜索上的前沿研究,面向智算网络复杂故障场景,设计了适用于故障根因分析任务的多策略提示语扩展机制,并基于与故障模拟环境交互反馈的方式设计了模拟机制,使得LLM推理时的蒙特卡洛树搜索过程适配于故障根因分析任务场景。实验表明,RCA-MCTS在故障根因分析任务准确率上提升33%~43%,在故障推理动作序列平均匹配度上提升18%~34%。
2025年02期 v.31;No.182 21-30页 [查看摘要][在线阅读][下载 1229K] [下载次数:230 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:0 ] - 易昕昕;张乃晗;刘雅承;韩梦瑶;曹畅;
智算业务的快速发展,计算资源需求急剧增长,对网络能力提出了更高标准。聚焦算力智联网,深入剖析数据入算、模型训练、模型下发、模型推理四大典型智算业务场景需求,提出算力智联网关键技术要求。通过构建高效、灵活且可靠的智算基础设施,为智算业务提供差异化承载、灵活算网调度和无损传输等核心能力。此外,针对四大典型场景开展网络创新能力试点验证,显著提升了人工智能模型训练效率。
2025年02期 v.31;No.182 31-38页 [查看摘要][在线阅读][下载 1245K] [下载次数:66 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:0 ] - 边彦晖;刘明远;虞红芳;
针对智算仿真难以满足广域网时空动态性需求的情况,提出了一种面向多算力中心协同的广域智算网络仿真架构。该架构的主要创新点包括:基于属性图模型的拓扑抽象方法,实现异构算力间不规则连接建模和不稳定网络还原;基于流感知框架的广域通信模拟架构,提供高精度网络通信仿真;事件触发的多算力中心动态调度协议,通过逻辑时钟保障跨域操作因果一致性。本架构的提出弥补了广域多算力中心背景下仿真工具的缺失,为广域智算领域的相关研究人员提供高效、可靠的仿真支持。
2025年02期 v.31;No.182 39-46页 [查看摘要][在线阅读][下载 1516K] [下载次数:139 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:0 ] - 刘杨;孙浩南;程伟强;
随着5G/6G通信、边缘计算与人工智能技术的深度融合,传统网络架构面临算力资源分布不均、服务响应延迟高、动态适应能力不足等挑战。提出三级分层在网计算体系架构,通过算力泛在化、服务动态化与决策智能化的深度协同,解决算网协同关键瓶颈。该架构在数据中心网络速率限制中显著提升处理性能与系统稳定性,为高效数据传输、灵活网络服务及大规模智能训练提供支撑,推动网络向高性能、智能化方向演进。
2025年02期 v.31;No.182 47-52页 [查看摘要][在线阅读][下载 1180K] [下载次数:82 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:0 ]