技术规格及参数 | 科研用高性能训练推理计算平台: ★科研用高性能训练推理计算平台: 4U机架式服务器/支持2颗第三代 Intel Xeon 可扩展CPU/32根DDR4内存,最高3200MHz,≥8TB/24块2.5,其中支持NVME≥8个,支持M.2(NVMe or SATA3)≥2个/板载双千兆电口网络/≥12个PCle插槽,后置≥12个PCIe 4.0 x16,支持≥10张双宽全高全长GPU;2000W 2+2冗余电源,含导轨,散热器,原厂包装箱。 ★配置≥2颗CPU:处理器/2.30GHz/60 MB/40C/80T/270W/3UPI/3200MHz; 内存:≥2048GB;存储硬盘:≥10个 3.84T SSD;≥2个M.2 2T SSD;≥1个双万兆网卡; ≥8张GPU显卡:≥24GB GDDR6X PCIE ≥425W 双宽 16pin 主动 ★为确保产品质量,电源模块功耗转化率≥96%; ★多卡式热管理系统:需配置多卡式 GPU 计算节点热管理系统组件,投标人需提供专利证明。 ★配置管理软件及计算软件: 一、★集群监控软件支持 采用 C/S 架构设计,提供完全中文化显示界面,所有主机的全局**总览。包含 CPU 核数、GPU 个数、内存及硬盘容量大小; 3、每个节点的**信息。包含主机名称、主机状态、IP 地址,GPU 数量、CPU 核心数、内存大小、硬盘大小等信息;须提供与服务器品牌一致的计算机软件著作权登记证书;GPU 信息采用仪表盘形式,其中包含 GPU 型号、GPU 使用率、GPU 温度、GPU 功率、GPU 显存使用率、GPU 风扇转速占比、GPU 编解码器使用率等信息;界面刷新频率为秒级。 二、★支持 4.3 寸监控屏,提供监控功能;需支持外置监控显示屏;产品信息展示功能,为提高服务器产品的可维护性和可管理性, ,包含服务器的如下信息: 产品型号和序列号;处理器规格型号和数量;总处理核心数量和线程数量;内存条数量、内存总容量和内存剩余容量 ;产品 BIOS 和 IPMI 远程管理的版本信息;MC 远程管理的网络 IP 地址、子网掩码、网关等信息;磁盘数量、磁盘型号、健康状态以及序列;系统负载展示功能,显示屏需提供如下动态信息: 处理器使用率动态曲线图;内存使用率动态曲线图;产品功耗动态曲线图 日志警告功能,显示屏可及时将获取到的系统异常信息展示出来,让用户能够及时处理问题,保证业务的可用性。分析 BMC 事件,对异常事件进行报警提醒。分析操作系统日志,对系统报错进行报警提醒 三、★GPU 集群管理软件必须是国产可控。支持通过中文显示系统概览,提供统一的中文 web 管理界面;提供 API 标准接口,方便二次开发;提供帐号系统:支持多用户登录。**配额:支持对用户组和用户设置使用**配额。包括 GPU 卡数、CPU 核心数量、内存、存储 ;多存储卷,支持基于 Lustre 的多个卷同时共存和使用;****中心(公****中心)功能,主要存储集群软件相关镜像和用户自己提交的镜像,用户可以构建针对自己应用的镜像环境,以用于创建大型训练任务;展示用户所拥有的容器**列表,每个容器**条目提供查看容器**、删除容器**、容器连接、提交为镜像共四项功能;可以在 web 界面上以图表方式查看用户操作历史信息;须提供与服务器品牌一致的计算机软件著作权登记证书;提供过测试;支持自定义任务、深度学习任务,每个任务都是独立的,相互隔离,深度学习任务需能够实现单机多卡模式和多机多卡并行模式,需要集成主流的深度学习框架,可视化调试工具Jupyter、Terminal 和远程桌面。支持任务一键提交,可以将自己创建的执行脚本上传并运行,要求在运行过程中可实时查看运行日志,可以实时监控运行的负载情况,包括 CPU、内存、GPU、硬盘、网络等配件的实时使用率;可以在 web 界面上进行物理主机的运维管理操作,一键连接 IPMI,重启、关机等功能;需要满足三级用户权限管理,可分配多个管理员权限,对相应的组用户进行管理;可以在 Web 界面查看到物理主机的 PCIE 插槽、内存和硬盘的使用情况,可以看到对应插槽是否使用,方便管理员快速定位到故障部件 四、★提供相关深度学习的软件(1 套): GPU CUDA 编译环境 :CUDA Toolkit 11 ,GPU Driver;深度学习框架:Tensorflow,mxnet,pytorch, caffe 等; NVIDIA DIGITS GPU 训练系统; Deep Learning SDK : 深度学习原生库 CuDNN,深度学习推理引擎(TensorRT); NVIDIA Docker 容器平台:包括编程、运行、系统工具、系统函数库等都打包到一个完整的文件系统中,可安装到任何一台服务器上;深度学习加速库:cuBLAS, cuSPARSE , NCCL。 五★**2配置要求:提供基于高性能计算物理集群的算力**,不接受vCPU、vGPU、虚拟核心、逻辑核心(超线程)等虚拟化**或云主机**。采用的算力**为基于高性能计算集群的物理CPU算力**,非vCPU、虚拟核心、逻辑核心(超线程)等虚拟化**或云主机**。**操作系统应采用CentOS Linux 7.8或以上版本;预装GPU驱动、CUDA、编译器、数学库、MPI、Anaconda等计算环境。支持用户联网在线安装部署相关计算软件;采用Slurm作业调度管理系统和Lustre并行文件系统,支持磁盘配额管理及按需在线扩容。操作系统为CentOS Linux 7.8或以上版本,并预装了GPU驱动、CUDA、编译器、数学库、MPI、Anaconda等计算环境。同时,我们支持用户联网在线安装部署相关计算软件。此外,我们采用Slurm作业调度管理系统和Lustre并行文件系统,支持磁盘配额管理及按需在线扩容,以确保用户在使用过程中的顺畅和灵活性。可见操作系统采用CentOS 7.9.2009;预置Intel/GNU编译器、MPI并行计算环境、MKL数学库、Anaconda科学计算工具包等并行计算环境(通过module工具统一管理,通过“module avail 软件/工具名称”查看已预装的工具软件及版本情况,通过“module load 软件/工具名称”加载和使用),采用Slurm作业调度管理系统分发计算任务,软件版本为21.****.8-2;采用Lustre存储系统且支持磁盘配额和动态扩容。操作系统:采用CentOS Linux release 7.9.2009,符合指标要求,预置并行计算环境:预置Intel/GNU编译器、MPI计算环境、MKL数学库、Anaconda科学计算工具包等计算环境,可通过module工具统一管理,通过“module avail 软件/工具名称”查看已预装的工具软件及版本情况,通过“module load 软件/工具名称”加载和使用;如版本不匹配也可联网在线安装,以上功能需要在投标文件中提供截图证明。 作业调度系统:采用Slurm作业调度管理系统分发计算任务,软件版本为21.****.8-2文件系统:采用Lustre文件存储系统,总存储空间5.4PB,可为采购人提供足量的存储空间,支持磁盘配额和动态扩容。提供超算预警消息自助管理入口,支持用户通过Web和微信公众号自助设置消息通知开关及余额、作业运行时长、存储使用等消息的报警阈值。超算预警消息自助管理入口,用户可以通过Web和微信公众号自助设置消息通知开关,以及设置余额、作业运行时长、存储使用等消息的报警阈值,以便用户能够及时获得重要通知和预警。多种消息管理渠道,用户可通过超算****中心(Web方式)以及“超算云服务”微信公众号自助设置超算预警消息通知开关,支持自定义设置余额、作业长时间运行、存储使用等预警消息的阈值;支持通过微信公众号接收上述预警消息。云桌面提供了超算预警消息自助消息管理工具,支持用户通过Web界面及微信公众号自助设置消息通知开关及余额、作业运行时长、存储使用等消息及报警阈值;可设置是否接收超算云服务提供的相关告警及提示消息,并支持自助设置余额、作业运行时长、存储使用等消息的报警阈值(提供验证材料),超算作业查询:供应商可提供可实时查询超算作业状态和消费记录超算服务微信小程序,提供超算服务微信小程序,用户可以通过它实时查询超算作业状态和消费记录,以便随时掌握作业进展和费用情况。在系统中绑定超算云账号后即可实时查询超算作业状态和消费记录(以上功能需要在投标文件中提供截图证明)。 免费提供7x24小时技术支持服务;并承诺5分钟内响应客户需求,提供必须的计算相关答疑服务和使用文档、免费协助安装开源软件及产权清晰的商业软件,提供硬盘邮寄等服务。免费协助安装开源软件及产权清晰的商业软件,提供硬盘邮寄等服务。用户的程序计算过程中的CPU、GPU、内存、磁盘、网络、内存带宽等性能指标量化记录(如平均值、峰值等)形成图表,并在此基础上提供程序性能分析服务。 ★售后服务:提供计算节点基础安装服务。原厂全新未拆封产品;货到验收时可以通过原厂网站查询验证保修信息,(要求提供官方查询验证网址);提供原厂工程师基础安装服务;提供厂商盖章的证明文件; 以上要求满足响应。 |