售后要求 | 1. Sothis-AI集群管理平台:提供容器化人工智能训练平台。包涵Caffe和TensorFlow等主流深度学习框架,提供SSH和图形化Web接口,支持单机和分布式训练,并提供容器生命周期管理、权限管理、镜像仓库等功能;提供满足GPU服务器要求的License永久授权,运维服务支持1年。 2.Notebook服务:提供一站式开发环境服务,提供TensorFlow、PyTorch等开发框架,提供JupyterLab、VS Code、RStudio等开发工具,支持服务实例的暂停和重启,支持开发环境自定义 3.数据集管理:支持进行用户数据集更新,删除、克隆等 4.模型训练:支持基于docker容器的模型训练功能。对TensorFlow、PyTorch等框架提供在线模型编辑功能,用户可自定义训练使用的框架版本,容器数量,GPU数量,内存,GPU型号等**,并且可以实时查看训练日志,监控各容器内**使用状况;支持基于Horovod的弹性计算及训练过程的自动掉点恢复,以提高训练效率及任务稳定性;支持定义任务的最小进程比例,任务进程可在指定范围内进行自动扩缩,在活跃进程小于最小比例时自动暂停 5.镜像管理:支持公有镜像管理,用户可以订阅平台公有的容器镜像**进行使用;管理员可以向公有镜像库上传镜像**;支持私有镜像管理,将私有镜像分享至公有镜像库,供其他用户订阅和使用。支持本地镜像上传和自定义;支持用户自定义镜像,包括在线固化,本地上传,从DockerHub拉取,基于Dockerfile在线制作等模式。提供镜像制作进度和日志查询功能;支持镜像推送,支持用户将自定义镜像或订阅镜像推送至训练、调优、推理等图形化流程进行使用。用户推送的镜像仅对自身生效,不影响平台其他用户 6.容器端口:支持用户自定义容器的服务端口,支持http和socket等端口模式,提供软件功能截图证明材料;支持界面化开启或关闭Socket端口,支持socket端口池管理,可定义内外网端口段、外网访问地址等信息 |