技术参数及配置要求 1.硬件 1.2颗intel 8175M 正式版24核48线程 2.5GHz主频; 4U 3647静音散热; 联想 SE550; 三星16G-2666 DDR4 ECC REG*12; 4U机架式机箱; 三星500GB M.2接口NVME; 机械硬盘希捷8T ST8000NM017B。 Centos系统+集群队列+5款指定软件配置+远程教学; 3个节点 2.软件 2.1服务要求: 2.1.1 ROCKY LINUX 64bit Linux/CUDA驱动、编译器、调试器、工具包、SDK等; 2.1.2 CUDA FFT、CUDA BLAS等; 2.1.3 GNUC/C++/Fortran编译器、IntelC/C++/Fortran编译器 OpenMPI、MVPAICH2等MPI并行环境; 2.1.4 MKL、BLAS、LAPACK、ScaLAPACK、FFTW等 2.1.5 常见高性能应用软件(如Vasp,Materials Studio, QuantumATK,LAMMPS,Gaussian, Wien2K, Pymatgen, QuantumEspresso, Ansys, Atomic Simulating Envrionment, Phonon, CALYPSO, USPEX等常用专业软件)的CPU/GPU编译、串行或并行安装及调度系统支持、优化测试,并负责可能伴随的与其windows版本的IP对接功能。供货时提供计算案例文件以供测试。 2.1.6 用户自有程序编译环境支持、编译参数建议、并行调试、调度系统支持、并提供相应的调度脚本。 2.2集群监控 2.2.1 系统支持自定义各种的报警策略,通过对监控指标(负载、CPU 使用率、内存使用率、硬盘使用率、网络吞吐、温度、能耗等)的监测来触发报警,生成报警记录。报警记录包括报警事件、报警时间、报警节点、报警等级、 状态等。提供实时和历史报警记录的查询、确认、解决、删除等操作,支持批量操作。 2.2.2 支持监控GPU**总量/使用量、核心平均利用率、显存平均利用率、温度、显存频率、核心频率、型号、SN号、负载进程、功耗、风扇转速、PCIE 宽度、PCIE gen、PCIE 接收与发送速率、GPU 驱动版本等指标。 2.2.3 系统支持服务器IB网络流量的监控。系统支持GPU监控:实时和历史趋势图显示集群中节点GPU的使用率、GPU内存使用率、GPU温度等。 2.2.4 可对两种规格CPU计算节点实现分类管理。 2.2.5 系统提供各种监控指标load,cpu使用率,内存使用率,硬盘使用率,网络,作业数量等的热力图, 直观的通过颜色深浅表示节点组中所有节点监控指标的实时值的大小,系统支持在热力图上根据值区间进行节点的过滤。节点详情视图,节点详细列出了节点的静态配置信息(cpu,内存,硬盘,节点名等),提供所有监控指标的热力图的截图证明; 2.2.6 节点详情显示节点各个监控指标的历史趋势图;系统提供webshell,通过浏览器可以ssh登录集群节点并进行操作; 2.2.7 集群报警:系统支持自定义各种的报警策略,通过对监控指标(load,cpu使用率,内存使用率,硬盘使用率,网络吞吐,温度,能耗)的监测来触发报警,生成报警记录。报警记录包括报警事件,报警时间,报警节点,报警等级,状态等。提供截图证明。 2.2.8 集群报告:可以对集群作业进行统计和分析:作业完成数,排队数,作业排队比例。作业最大运行时间,平均运行时间;作业最大排队时间,平均排队时间。作业使用CPU的平均值,作业使用CPU的最大值。作业运行时间的分布图,作业使用**数的分布图。作业运行和排队的历史趋势图。 2.2.9 平台包括Jupyter Python2, Python3和R等。 2.2.10 平台支持用户创建自定义作业模板, 用户创建的自定义作业模板只能被自己使用。 2.2.11 管理员可以创建和发布作业模板,管理员发布的作业模板,所有用户都可以使用。 2.3**管理和调度系统 2.3.1 集群管理限制:(1)支持针对任务队列的用户限制,支持任务队列允许用户(组)、禁止用户(组)设置;支持限制单个用户最大任务数、单个任务最大计算核数、单个任务最大运行时间限制;支持限制/允许用户命令行运行程序功能。(2)禁止普通用户以任何方式直接登录和操作**池的计算节点,普通用户只允许登录管理节点来完成提交作业、整理数据等操作。支持OpenHPC,可以通过lmod根据程序的需要动态导入不同的OpenHPC模块使用,**导入mpich,openmpi,mvapich,intelmpi,或者导入OpenHPC中的各种性能测试的工具,提供截图证明。提供webshell,支持用户通过浏览器ssh到登录节点,然后在浏览器通过调度命令行提交作业。 2.3.2 支持将作业均衡的分配到所有计算节点上,调度策略支持先进先出、公平共享、回填、**预留等多种策略,并支持自定义策略;支持CPU/GPU**池化集中管理,统一分配;支持集群节点的分区管理;支持用户组的**分配,可将不同的用户组计算**调度到不同的计算节点上。 2.3.3 提供常见高性能应用(如VASP, Materials Studio, QuantumATK, LAMMPS, Gaussian, Wien2K, Pymatgen, QuantumEspresso, Ansys, Atomic Simulating Envrionment, Phonon, , CALYPSO, USPEX等常用专业软件)的作业提交。 2.3.4 集群计费系统模块提供高性能计算系统的充值计费,可对多套集群的用户作业实现预充值和实时计费功能并统一管理。管理员可以查看所有用户,或者选定用户一定时间段内的计费。而普通用户能查询自己一段时间内的计费。可以查看不同**的计费,**CPU,内存,存储等的花费。可以查看不同队列的计费。可以查看一个时间段花费的历史趋势图。管理员可以查看花费Top5的用户。 生产供货要求 自合同签署之日起30日内将所列清单项目运送至招标方指定位置。根据采购方的需求安装调试。 售后服务要求 整机质保3年。 培训要求 1.中标人提供理论计算方向培训视频课程,提供课程平台证明(包括但不限于锂电池、机器学习、催化、光伏材料等)。 2.中标人应就软硬件设备的安装、检验、调试、使用和维护,为采购人指定的操作工作人员进行技术培训,直到工作人员能全部熟练掌握运行操作、维修保养技术,能达到正确检修、维护、排除一般故障为止,采购人受训人员的培训费用由中标人承担。 3.核心软硬件使用由原厂商负责培训,保证各类人员掌握相应的知识及操作。培训对象:最终操作用户、系统管理员。 (1)培训方式:技术培训、操作培训; (2)培训地点:线上; (3)时间与人员:由采购人确定 (4)提供课程培训,包括但不限于 固体与表面理论,锂电池,机器学习,激发态等科研方向 电话支持:5x8小时;质保期限:3年;响应时间:4小时;商品承诺:原厂全新未拆封正品;安装调试需严格按照采购方提出的要求进行; |