基于事件实现扩容水位超量告警

本文介绍如何基于E-HPC节点扩容事件,结合事件总线和函数计算实现扩容水位超量告警。背景信息 E-HPC配合事件总线EventBridge,可以将E-HPC集群的操作投递到云服务专用事件总线。在此基础上,结合函数计算,可以更加灵活地将E-HPC事件进行二...

构建调度器插件

您需要先构建自定义调度器插件后,才可以在E-HPC控制台创建带有插件的集群。本文以LSF插件为例,为您介绍构建调度器插件的具体操作。操作步骤 在本地机器上创建插件目录结构。调度器插件目录结构的更多信息,请参见 调度器插件组成。mkdir/...

身份管理

推荐的做法是使用RAM身份(即RAM用户和RAM角色)来访问 E-HPC。RAM用户 RAM用户需要由阿里云账号(即主账号)或拥有管理员权限的RAM用户、RAM角色来创建,且必须在获得授权后才能登录控制台或使用API访问阿里云账号下的资源。对于RAM用户的...

使用VNC远程可视化

开启方式如下:创建新的集群时,您可以在 软件配置 页开启VNC功能,系统将自动安装VNC服务。对于已有集群,您可以在集群的 软件管理 页安装VNC服务。具体操作,请参见 安装软件。连接可视化服务 登录 弹性高性能计算控制台。在顶部菜单栏...

UnTagResources-为指定资源解绑标签

目前仅支持 cluster,即 E-HPC 集群。cluster ResourceId array 是 资源 ID,最多 50 个。string 是 资源 ID,最多 50 个。ehpc-hz-xxxx TagKey array 否 资源的标签键,最多 20 个。string 否 资源的标签键。TestKey All boolean 否 是否...

混合云主控模式最佳实践

本文以E-HPC云上集群将线下已有计算节点纳入管理的场景为例,介绍混合云主控模式集群(SGE调度器)的部署方案。重要 本文的部署方案仅支持使用SGE调度器,并且需要 提交工单 申请开通白名单才能使用。背景信息 在HPC生命科学领域,大部分...

ListTagResources-查询资源绑定的标签信息

目前仅支持 cluster,即 E-HPC 集群。cluster ResourceId array 否 资源 ID,最多 50 个。string 否 资源 ID,最多 50 个。ehpc-hz-xxxx Tag object[]否 标签列表,最多 20 个。Key string 否 标签键。TestKey Value string 否 标签值。...

GetUserImage-将OSS中的镜像拉取到集群中

调用GetUserImage将您保存在OSS中的自有镜像,拉取到指定集群中,并按E-HPC标准镜像管理方式进行管理。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试...

产品规格

本文为您介绍E-HPC产品推荐使用的规格及其应用场景。E-HPC支持所有的ECS实例规格。为更好地匹配E-HPC的高性能计算特点,下文推荐了几种规格,建议您根据应用场景选择使用。关于ECS实例规格的更多信息,请参见 实例规格族 和 选型最佳实践。...

配置集群巡检

E-HPC支持集群巡检功能,可以定时检查集群运行环境,帮助您了解集群状态,及时发现集群问题。功能介绍 集群巡检是E-HPC提供的集群运维功能,可以通过云助手在集群各节点中执行相关脚本,用于检查集群运行环境是否正常,包括检查集群各项...

导入OSS作业文件到集群中

上传数据 至OSS 您可以将作业数据及执行文件上传至对象存储OSS,操作步骤如下:选择与E-HPC集群相同的地域开通OSS服务。具体操作,请参见 开通OSS服务。创建存储作业的存储空间。具体步骤,请参见 创建存储空间。上传作业文件。具体步骤,...

GetClusterVolumes-查询挂载到集群的存储资源

调用GetClusterVolumes查询挂载到E-HPC指定集群中的存储资源。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,...

SyncUsers-同步本地集群用户到线上混合云集群

您可以调用 ListRegions 查询可以使用 E-HPC 的地域列表。cn-hangzhou ClusterId string 是 集群 ID。您可以调用 ListClusters 查询可以使用 E-HPC 的集群列表。ehpc-hz-gh5WKb*返回参数 名称 类型 描述 示例值 object Schema of Response ...

InspectImage-展示镜像构建信息

操作 访问级别 资源类型 条件关键字 关联操作 ehpc:InspectImage 全部资源*无 无 请求参数 名称 类型 必填 描述 示例值 ClusterId string 否 需获取构建信息的镜像所在的 E-HPC 集群 ID。ehpc-hz-ibug699*ContainerType string 否 容器镜像...

TagResources-为指定资源创建并绑定标签

目前仅支持 cluster,即 E-HPC 集群。cluster ResourceId array 是 资源 ID,最多 50 个。string 是 资源 ID,最多 50 个。ehpc-hz-xxxx Tag object[]是 标签列表,最多 20 个。Key string 否 标签键。一旦传入该值,则不允许为空字符串。...

DeleteCluster-释放一个集群

ehpc-hz-QKKVqO*ReleaseInstance string 否 是否释放由 E-HPC 创建的 ECS 实例。默认值:true true 返回参数 名称 类型 描述 示例值 object TaskId string 任务 ID。F1AB6D8D-E185-4D94-859C-7CE7B8B7*RequestId string 请求 ID。F1AB6D8D-...

ListPreferredEcsTypes-查询推荐的ECS实例规格

查询 E-HPC 推荐的 ECS 实例规格。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,可以在RAM权限策略语句的 ...

通过RAM用户分权管理集群

E-HPC基于RAM实现了以下两个功能,您可以根据需求创建多个RAM用户,并为其分配不同的集群或者控制台权限,实现分权限、精细化管理。功能名称 功能说明 适用场景 为集群绑定RAM用户 默认情况下,集群没有绑定任何RAM用户,此时阿里云账号...

安装脚本配置说明

如果您创建集群后需要安装自定义软件或者配置软件环境,可以设置安装脚本。集群所有节点启动并安装好自动部署的软件后,会自动下载并执行安装脚本。本文介绍安装脚本中配置参数说明。使用场景 使用系统镜像创建集群后,需要在创建集群后...

ListUsers-查询集群用户列表

wheel:sudo 权限组,适用于需要管理集群的管理员,除提交、调试作业外,还可以执行 sudo 命令进行安装软件、重启节点等操作。wheel 示例 正常返回示例 JSON 格式 {"PageSize":1,"RequestId":"04F0F334-1335-436C-A1D7-6C044FE7*",...

ListCustomImages-查询自定义和共享的镜像列表

查询E-HPC产品支持的自定义和共享的镜像列表。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,可以在RAM权限策略...

ListCommunityImages-查询社区镜像

04F0F334-1335-436C-A1D7-6C044FE73368 Images object[]E-HPC 支持的自定义镜像和共享镜像的列表。Status string 镜像状态。可能值:UnAvailable:不可用 Available:可用 Creating:创建中 CreateFailed:创建失败 Available ...

应用适配概述

HPC应用 由于HPC系列应用本身就是支持传统的RDMA环境,因此可以无缝适配eRDMA的能力,可以通过MPI和LibFabric的调用实现对eRDMA的支持。具体应用,请参见 基于RDMA增强型实例部署HPC应用。Spark应用 可以选择通过JVERBS的方式,需要一定的...

DeleteNodes-批量删除计算节点

ehpc-hz-FYUr32*ReleaseInstance boolean 否 是否释放由 E-HPC 创建的节点。默认值:true true Sync boolean 否 是否直接删除节点。取值范围:true:是 false:否 false Instance object[]是 待删除的节点信息。Id string 否 要删除的计算...

设置调度器参数

调度器是集群上调度作业的软件,负责分发作业、处理作业优先级、按需分配计算节点资源(如vCPU、内存、节点个数)等。您可以根据作业大小,预估使用的节点资源和作业完成时间,设置集群的调度器参数,从而提高资源使用率。本文介绍如何在...

ListVolumes-列出用户的存储卷

1 Volumes object[]挂载到 E-HPC 集群的文件系统信息数组。VolumeId string 文件系统 ID。bc8a*ClusterName string 集群名称。cluster1 RemoteDirectory string 文件系统挂载的远程目录。test1 VolumeMountpoint string 挂载点地址。bc8a*-...

QueryServicePackAndPrice-查询服务包和按量付费信息

cn-hangzhou ServicePack object []E-HPC 服务包列表。EndTime integer 服务包到期时间。Unix 时间戳类型,表示从 1970-1-1 00:00:00 UTC 计算起的秒数。1612705988 Capacity integer 服务包规格。单位:核。2000 StartTime integer 服务包...

附录:调度器插件的常用OpenAPI说明

流程说明 流程说明如下:调用 AddNodes 接口后,云管控开始生产计算节点资源,即启动硬件配置、软件配置等操作。软件配置阶段,在安装调度器过程中,系统会定时地调用服务检测功能(SchedServiceCheck),检测调度器是否安装成功。若不成功...

ResetNodes-批量重置计算节点

接口说明 重置节点后,节点的系统和软件将恢复初始状态。如无特殊需要(如故障修复等),请勿重置处于运行中状态的节点,以免作业无法正常运行。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,Open...

AddUsers-批量新增集群用户

wheel:sudo 权限组,适用于需要管理集群的管理员,除提交、调试作业外,还可以执行 sudo 命令进行安装软件、重启节点等操作。N 的取值范围:1~100 users Async boolean 否 采用异步消息链路新增用户。默认值:false。false 返回参数 名称 ...

UpdateQueueConfig-更新队列资源组和计算节点实例信息

您可以调用 ListPreferredEcsTypes 接口获取 E-HPC 推荐的节点规格信息。ecs.n1.tiny DeploymentSetId string 否 部署集 ID。您可以通过 DescribeDeploymentSets 获取部署集 ID,当前仅支持网络低时延策略的部署集。ds-bp1frxuzdg87zh4pzq*...

SetSchedulerInfo-设置调度器信息

您可以通过调用 ListRegions 获取 E-HPC 支持的地域 ID。cn-hangzhou ClusterId string 是 集群 ID。您可以通过调用 ListClusters 获取集群 ID。ehpc-hz-FYUr32*PbsInfo object[]否 PBS 调度器信息列表。AclLimit object[]否 队列限制信息...

ModifyUserGroups-批量修改用户所属用户组

wheel:sudo 权限组,适用于需要管理集群的管理员,除提交、调试作业外,还可以执行 sudo 命令进行安装软件、重启节点等操作。users Async boolean 否 采用异步消息链路修改用户权限组。默认值:false。false 返回参数 名称 类型 描述 示例...

ListNodes-查询集群中节点列表

true:E-HPC 创建 false:非 E-HPC 创建 true RegionId string 地域 ID。cn-hangzhou VSwitchId string 交换机 ID。vsw-bp1e47optm9g58zcu*IpAddress string 节点 IP 地址。172.16.*.*ExpiredTime string 包年包月付费节点到期时间。如果是...

ListJobsWithFilters-查询作业详情

您可以调用 ListRegions 查询可以使用 E-HPC 的地域列表。cn-hangzhou CreateTimeStart string 否 作业最早提交时间。格式为 Unix 时间戳,表示从 1970-01-01T00:00:00Z 起所经过的秒数。1647427667 CreateTimeEnd string 否 作业最晚提交...

配置自动伸缩

在页面右上角,阅读并选中《E-HPC服务条款》,单击 确认。(可选)查看集群自动伸缩示意图。您可以通过集群自动伸缩示意图了解您配置的伸缩策略在自动伸缩的过程中,节点数随时间推移的变化,以及在关键时间点实例扩容和缩容所耗费时间。...

ListServerlessJobs-查询Serverless作业列表

您可以调用 ListRegions 查询可以使用 E-HPC 的地域列表。cn-hangzhou ClusterId string 是 集群 ID。您可以通过调用 ListClusters 获取集群 ID。ehpc-hz-FYUr32*PageNumber long 否 页码。起始值:1,默认值:1。1 PageSize long 否 每页...

SubmitServerlessJob-提交Serverless作业

调用SubmitServerlessJob提交Serverless作业到E-HPC集群。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,可以在...

新功能发布记录

2021-10-27 全部 管理Fileset 数据流动 文件存储CPFS 2.0 文件存储CPFS 2.0版本支持更高的性能,更丰富的功能,为AI训练和HPC高性能计算提供高性能的并行文件存储服务。2020-09-30 全部 什么是文件存储CPFS 文件存储CPFS 1.0(商用)文件...

ListNodesByQueue-查询单个集群节点信息

NoSpot CreatedByEhpc boolean 是否由 E-HPC 创建的节点。true RegionId string 地域 ID。cn-hangzhou VSwitchId string 交换机 ID。vsw-bp1e47optm9g58zcu*IpAddress string 节点私网 IP 地址。172.168.*.*ExpiredTime string 包年包月...
共有89条 < 1 2 3 4 ... 89 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
弹性高性能计算 威胁情报服务 云数据库 RDS 智能接入网关 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用