中兴通讯技术

热点专题_智算网络演进及关键技术

  • 专题导读

    段晓东;李丹;虞红芳;

    <正>大模型技术已从探索阶段迈向普惠应用,呈现爆发式增长与深度行业渗透的态势。当前人工智能(AI)技术发展呈现双重趋势:一方面遵循传统扩展定律(Scaling Law),通过“大模型+大算力+大数据”持续突破模型性能边界;另一方面推进“模型算法+算网设施”协同优化,以系统级创新探索算效极限,构建高性价比解决方案。二者的同步推进正驱动全球算力基础设施呈指数级增长。

    2025年02期 v.31;No.182 1-2页 [查看摘要][在线阅读][下载 1001K]
    [下载次数:4 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:0 ]
  • 星脉网络:面向GPU集群集合通信与集中式路由的协同优化

    李宝嘉;何春志;夏寅贲;何泽坤;王晓亮;

    图形处理器(GPU)集群网络流量不断增加,运营难度明显加大,这给高性能大规模GPU集群网络系统的构建带来新的挑战与机遇。提出了一种能够实现超10万GPU集群互联的无损高性能网络方案——星脉网络。GPU集群网络需要联合优化端侧的集合通信库和网络路由控制器,以实现多路径的高效集合通信。为此,针对星脉网络研发了端侧集合通信库(TCCL)以实现最短的跨节点路径规划,同时还开发了全局优化路由器(GOR)以避免路径冲突导致的网络拥塞。在腾讯大模型GPU集群中,星脉网络方案和公开GPU集群方案(NVIDIA NCCL)的对比结果表明:星脉网络可以实现25%的集合通信带宽提升,同时避免80%的由流量冲突造成的网络拥塞问题。

    2025年02期 v.31;No.182 3-13页 [查看摘要][在线阅读][下载 1846K]
    [下载次数:73 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:0 ]
  • 智算中心Scale-Out网络的演进及GSE的实践

    程伟强;李新双;白艳;吕勇;

    探讨了人工智能(AI)大模型时代智算中心网络面临的技术挑战,重点分析了传统互联网协议(IP)网络在负载均衡和突发流量处理方面的局限性,并对比了基于以太网融合远程直接内存访问(RoCE)的优化与网络架构重构两种技术路线。研究聚焦中国自主研发的全调度以太网(GSE)技术,详细阐述了其核心技术:基于报文容器(PKTC)的负载均衡机制和动态全调度队列(DGSQ)端到端拥塞控制技术。这些技术有效解决了智算网络中的流量极化和拥塞丢包问题。同时,系统分析了GSE网络设备在接口设计、转发引擎和队列管理等关键环节的创新架构,论证了GSE技术在构建高带宽、低时延、无阻塞新型网络方面的技术优势,为智算中心网络演进提供了重要参考。

    2025年02期 v.31;No.182 14-20页 [查看摘要][在线阅读][下载 1251K]
    [下载次数:47 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:0 ]
  • 基于大语言模型蒙特卡洛树搜索的智算网络故障根因分析系统

    罗子秋;苗宇铠;李丹;

    提出了一种基于大语言模型(LLM)进行蒙特卡洛树搜索的智算网络故障根因分析系统(RCA-MCTS)。利用LLM推理研究领域在蒙特卡洛树搜索上的前沿研究,面向智算网络复杂故障场景,设计了适用于故障根因分析任务的多策略提示语扩展机制,并基于与故障模拟环境交互反馈的方式设计了模拟机制,使得LLM推理时的蒙特卡洛树搜索过程适配于故障根因分析任务场景。实验表明,RCA-MCTS在故障根因分析任务准确率上提升33%~43%,在故障推理动作序列平均匹配度上提升18%~34%。

    2025年02期 v.31;No.182 21-30页 [查看摘要][在线阅读][下载 1229K]
    [下载次数:230 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:0 ]
  • 算力智联网关键技术研究

    易昕昕;张乃晗;刘雅承;韩梦瑶;曹畅;

    智算业务的快速发展,计算资源需求急剧增长,对网络能力提出了更高标准。聚焦算力智联网,深入剖析数据入算、模型训练、模型下发、模型推理四大典型智算业务场景需求,提出算力智联网关键技术要求。通过构建高效、灵活且可靠的智算基础设施,为智算业务提供差异化承载、灵活算网调度和无损传输等核心能力。此外,针对四大典型场景开展网络创新能力试点验证,显著提升了人工智能模型训练效率。

    2025年02期 v.31;No.182 31-38页 [查看摘要][在线阅读][下载 1245K]
    [下载次数:66 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:0 ]
  • 面向多算力中心协同的广域智算网络仿真架构设计

    边彦晖;刘明远;虞红芳;

    针对智算仿真难以满足广域网时空动态性需求的情况,提出了一种面向多算力中心协同的广域智算网络仿真架构。该架构的主要创新点包括:基于属性图模型的拓扑抽象方法,实现异构算力间不规则连接建模和不稳定网络还原;基于流感知框架的广域通信模拟架构,提供高精度网络通信仿真;事件触发的多算力中心动态调度协议,通过逻辑时钟保障跨域操作因果一致性。本架构的提出弥补了广域多算力中心背景下仿真工具的缺失,为广域智算领域的相关研究人员提供高效、可靠的仿真支持。

    2025年02期 v.31;No.182 39-46页 [查看摘要][在线阅读][下载 1516K]
    [下载次数:139 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:0 ]
  • 在网计算:愿景与关键技术

    刘杨;孙浩南;程伟强;

    随着5G/6G通信、边缘计算与人工智能技术的深度融合,传统网络架构面临算力资源分布不均、服务响应延迟高、动态适应能力不足等挑战。提出三级分层在网计算体系架构,通过算力泛在化、服务动态化与决策智能化的深度协同,解决算网协同关键瓶颈。该架构在数据中心网络速率限制中显著提升处理性能与系统稳定性,为高效数据传输、灵活网络服务及大规模智能训练提供支撑,推动网络向高性能、智能化方向演进。

    2025年02期 v.31;No.182 47-52页 [查看摘要][在线阅读][下载 1180K]
    [下载次数:82 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:0 ]

名家视点

  • 智算网络发展综述

    段晓东;程伟强;张昊;

    智算中心网络作为智算中心的连接底座,需要具备高性能、低时延的通信能力。智算中心网络体系是一个多要素融合的复杂系统,依赖于智算业务、机内/外交换芯片、网卡、网络设备等上下游产业协同创新。系统剖析了服务器/超节点内图形处理器(GPU)互联网络、同园区机间互联网络、跨园区智算中心互联网络三大核心领域,探讨了智算网络的需求、挑战以及业界发展态势。中国移动创新提出全向智感互联架构(OISA)、全调度以太网(GSE)技术体系、弹性以太网聚合、精细化拥塞控制、物理层安全等多项创新技术,旨在构建超大规模、超高带宽、超低时延、超高可靠的智算中心网络,助力人工智能(AI)产业发展。

    2025年02期 v.31;No.182 53-62页 [查看摘要][在线阅读][下载 1222K]
    [下载次数:305 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:0 ]

企业视界

  • 智算中心组网技术及应用

    段威;于浩;李和松;张征;王宁诚;

    智算中心网络架构正面临高性能、低延迟、高扩展性和可靠性的挑战。当前多种主流的智算中心组网拓扑结构各具优缺点。针对智算中心各种组网方案,边界网关协议(BGP)、开放式最短路径优先(OSPF)、中间系统到中间系统(IS-IS)、胖树路由协议(RIFT)等具有不同适用性。中兴通讯在智能计算中心网络架构与部署方案领域取得突破性进展,创新性地提出了Scale-Up与Scale-Out融合组网解决方案,并通过协议优化提升等价多路径路由(ECMP)路径选择精度与故障收敛效率。这些研究和实践可为智算中心网络设计提供参考,推动智算中心技术的发展和应用。

    2025年02期 v.31;No.182 63-71页 [查看摘要][在线阅读][下载 1208K]
    [下载次数:79 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:0 ]

技术广角

  • 面向5G网络的工业互联网安全技术分析

    陈焱;陈丹;袁琦;刘小丽;徐晓娜;

    5G与工业互联网的融合面临接入安全、网络安全、数据安全等诸多安全问题,亟需新的安全技术来应对。总结了面向5G网络的工业互联网安全政策、标准和产业发展情况,研究了面向5G网络的工业互联网在终端、网络、云平台和数据安全方面面临的安全威胁,分析了面向5G网络的工业互联网在终端、网络、云平台和数据方面的安全技术。面向5G的工业互联网安全技术方案,需要立足工业互联网实际应用场景,从终端、网络、云平台和数据安全多个维度引入防护技术,构建全面防护体系,预防安全威胁,提升安全防护水平。

    2025年02期 v.31;No.182 72-76页 [查看摘要][在线阅读][下载 1093K]
    [下载次数:648 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:0 ]
  • 物理层安全保密电话的实现

    林立峰;周子健;焦秉立;

    提出一种基于物理层安全的安全保密电话的实现方法。该方法通过在双向通信的每个信道上释放人工噪声,使得线路任意窃听点检测到的信号功率远低于噪声功率,从而无法识别通信信息。合法用户采用同频同时全双工技术消除人工噪声,恢复正常通信。理论分析与实验结果表明,该系统能有效抑制自干扰,使合法用户的信干噪比显著优于窃听者。硬件原型的成功研制验证了系统的实用性和有效性,为高安全性通信场景提供了可行的技术解决方案。

    2025年02期 v.31;No.182 77-82页 [查看摘要][在线阅读][下载 1400K]
    [下载次数:84 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:0 ]
  • 下载本期数据