金年会网页版在线登录·润建股份构建领先的高性能算力集群
发布时间:2024-05-19 09:00:41 来源:金年会官方在线登录 作者:金年会手机网页版登录

行业动态

  润建股份002929)已构建起领先的高性能算力集群,为客户提供智算云服务,润建股份算力服务能力覆盖智算云服务、算力搭建、算力运维、算力调度平台等服务,欢迎各位客户垂询!

  算力由单卡、单台服务器组成集群并非简单串联,而需要完整组网方案,润建股份已落地包括润建股份智算中心在内的多个算力集群组网案例,当前实施的主要以64台机器(512张卡)、128台机器(1,024张卡)等作为一个算力池进行组网,主要方案包括:

  英伟达算力集群组网方案:包括IB组网方案和RoCE组网方案,支持200G-800G,当前实践采用IB组网,跨机器的卡间互联速率最高可达800G。跨机器的卡间通信时延小于2微秒。

  高性能算力集群承载了算力集群软件基础设施安装部署的功能,包含网络资源节点、业务调度管理节点、存储资源节点、算力资源节点和带外设备管理节点等。

  网络资源节点承载整个算力集群内部以及外部对接的网络服务,网络资源节点承担了所有的网络接入请求,同时需要兼顾安全、限速等功能,可靠性要求非常高,网络节点集群均交叉双上行。

  业务调度管理节点主要部署平台管理软件,以及基础服务管理和扩展服务管理软件部署,是整个算力集群基础平台调度中心。

  现阶段行业对于算力集群组网主流模式分别是IB与RoCE V2两种高速网络架构,传输速率可达到400G或更高,最高可达800G。

  IB,全称InfiniBand,意为“无损网络”技术,是一个用于高性能计算的计算机网络通信标准,它具有极高的吞吐量和极低的延迟,它的主要设计目的是针对服务器端的连接问题的。

  算力集群的异构模式,指不同厂商间的GPU算力卡进行大规模算力集群的组建方案。出于对GPU算力卡性能利用以及资源利用率考虑,目前行业主流做法是以64台算力服务器(约512张算力卡)、128台机器(1,024张卡)作为一个基础算力资源池考虑。通过多个算力资源池的整合联动形成更大的算力资源节点提供服务。

  单个资源池节点,可根据GPU算力卡品牌、业务功能性进行划分,如高性能训练节点、推理节点、渲染节点等。算力资源池可通过池化虚拟技术与调度管理平台进行调度管理,合理分配GPU资源所承担的计算任务。

  以科技驱动创新发展,润建股份今后将充分应用大数据、云计算、人工智能、区块链、物联网、工业互联网等新一代信息技术,持续探索算力管理和应用领域的创新应用,为构建全国一体化算力网助力,以AI智能算力,赋能千行百业。


金年会网页版在线登录 上一篇:加压泵站监控解决方案24小时管理水务 下一篇:腾讯混元大模型背后机器学习平台获中国电子学会科技进

金年会网页版在线登录