本⽅案专为满⾜ GPU服务器(如:A100) 推理训练及业务永续需求 ⽽设计,旨在解决以下关键技术挑战:
• 前端(Front-end): 满⾜ A100 推理训练所需的极速 I/O(具备 1.3M IOPS 的超
⾼性能)。
• 数据存储(Data Storage): 提供完善的存储环境,⽀持海量机器⼈数据直接存储
⾄ S3 协议层。
• 架构(Architecture): 采⽤核⼼存储加服务器组成的⾼可⽤双机⽅案,实现
Active-Active 双活 架构。
• ⽹络(Networking): 完美兼容 25/100GbE 前端⽹络与 32Gb FC SAN ⾼速链路,保障数据传输。
架构关键组件说明:
• A100 推理训练/训练集群: NVIDIA A100 GPU 节点。
• ⽹络连接: 25/100GbE 前端⽹络与 32Gb/s FC SAN ⾼速链路。
• ASUS S3 协议⽹关服务器: 部署双协议⽹关,分别配置 S3 接⼜卡,并⽀持
25GbE 接⼊。
• ASUS VS320D-RS26 ⾼密存储节点: 核⼼全闪存存储,通过 32Gb/s FC SAN 连接到⽹关服务器,并⽀持故障零感知接管。
本⽅案的核⼼采⽤型号为 VS320D-RS26 的 ASUS ⾼密存储节点,其具体技术规格细节如下:
• 架构(Architecture): 采⽤业界领先的控制器架构,实现 盘控⼀体 Active-Active
(双活) 模式。
• 性能与扩展(Performance & Expansion): 提供⾼达 1.3M IOPS 的极致性能,并具备超强的读取速度,全机⾼达 12.8GB/s;同时⽀持级联,最⾼可⽀持⾄ 7.7PB 的海量存储。
• 数据与缓存(Data & Cache):
◦ 系统盘: 每机配置双冗余 M.2 NVMe SSD。
◦ 缓存: 最⾼可扩展⾄双控共 512G 缓存。
• 接⼜配置(Interface Configuration): 具备 ≥4个 10GbE / 32Gb/s FC 接⼜,并⽀持扩展卡以满⾜更多连接需求。
• 数据保护(Data Protection):
◦ Cache-to-Flash 掉电保护: 确保⾮正常断电时缓存数据不丢失。
◦ SED(Self-Encrypting Drives): 提供硬件级全盘加密。
◦ WORM 安全删除(安全擦除): 满⾜特定的数据符合性要求。
• 服务与连续性(Service & Continuity): * 原⼚服务: 提供原⼚ 24x7 ⾦牌服务。
◦ 业务连续性: 通过设备间 双活 技术,实现 业务 0 中断。
本⽅案为⽤户提供三⼤核⼼价值:
• 百万 IOPS 赋能 A100: 赋能 NVIDIA A100 推理训练,满⾜极速 I/O 需求。
• 全路径性能优化(百万 IOPS): 从前端⽹络到核⼼存储,实现端到端的全路径性能调优。
• ⾼性能全闪优化: 针对 NVMe 全闪存介质进⾏深度优化,充分释放硬件潜能。
• 99.9999% 业务连续: 采⽤设备间双活架构,确保业务永续,数据⾼可⽤。
• Cache-to-Flash 与 WORM 数据安全双重构安全保障: 通过硬件保护与符合性软件功能,构建多层次数据安全防线。
• 数据全⽣命周期管理与安全保障: 覆盖从数据⽣成、存储到归档、擦除的全⽣命周期。
• 故障零感知接管: 发⽣硬件故障时,实现全⾃动、故障零感知的业务接管。
• SAN/NAS/S3 全协议⽀持: ⼀套系统满⾜多种业务场景下的不同存储协议需求。
• 完美适配海量数据接⼜: 针对海量机器⼈数据的特点,提供最优的 S3 协议接⼜适配。
• ⽀持 S3/NFS/CIFS 协议: 提供全⾯的协议⽀持。
• 服务器:RS521A-E13
• 存储设备:VS320D-RS26
• 扩展柜:VS320D-RS78J / VS320D-RS12J
该⽅案仅供参考,产品技术规格和参数等以实际需求调整,不做最终技术和产品交付依据