创建集群模板

在使用数据开发工作流完成作业任务时,如果您只关注作业任务是否完成,可以使用集群模板功能快速建立集群调度系统会在工作流启动时按照模板创建一个集群,然后将作业下发到该集群上执行。当工作流结束后,调度系统会自动释放该集群。...

调度集群管理概述

Dataphin支持连接不同调度集群,并将所有集群可用于调度的资源进行统一管理,使每个租户可以使用不同集群的资源用于创建自定义资源组,从而解决跨Region数据传输以及资源隔离等问题。使用限制 当前仅支持基于最新架构部署的客户使用调度...

在ACK集群部署多租户任务调度管理

为解决以上问题,您可以使用ACK集群来管理大规模集群的管理系统,其较为完善的生态为企业打造大规模任务调度系统扫清了障碍,简化了企业集群管理系统搭建的流程。用户角色 企业的任务调度系统中通常有两类角色,分别为提交任务的开发人员...

工作流编辑

选择集群模板:表示调度系统在工作流启动时先按模版创建一个集群,然后将作业下发到该集群上执行。在工作流结束后,调度系统会自动释放该集群,详情请参见 创建集群模板。说明 选择当前已存在集群 的下拉列表中只会出现当前项目已关联的...

名词解释

系统会自动选取合适的工作节点执行具体的容器集群调度处理工作。其核心概念是 Container Pod。一个 Pod 由一组工作于同一物理工作节点的容器构成。这些组容器拥有相同的网络命名空间、IP以及存储配额,也可以根据实际情况对每一个 Pod ...

修改工作流集群配置

aliyun adcp UpdateHubClusterFeature-VSwitches"[\"vsw-xxx\",\"vsw-xxx\",\"vsw-xxx\"]"-ClusterId设置集群调度模式 工作流集群 支持以下两种调度模式。库存优先调度:创建集群的默认调度模式,创建按量ECI实例运行工作流保证供给。在此...

如何接入日志服务

阿里巴巴分布式任务调度系统SchedulerX 2.0提供日志服务,您无需修改代码,只需增加一个Log4j或Logback的配置,即可在控制台看到每次任务调度(包括分布式任务)的业务日志。本文介绍如何通过SchedulerX接入并查看日志服务。前提条件(可选...

ACK One概述

云上弹性:可以将阿里云ECS节点和弹性容器实例ECI加入到本地K8s集群中,由本地K8s集群调度云上计算资源,应对IDC资源不足和突发业务流量。智能调度 利用容器服务ACK调度器,实现Gang Scheduling、CPU拓扑感知、ECI弹性调度等高阶调度能力。...

原理优势

主要包括如下方面:更加灵活的资源调度 更加丰富的权限开放 更低的使用成本 更加强大的企业级数据库服务 更加灵活的资源调度 您可以在集群内部按照业务实际情况进行资源调度,最大化使用集群的主机资源。在初始创建集群时,提供紧凑分配和...

调度DLA Spark任务

还提供了SDK以及Spark-Submit工具用于提交Spark作业、查询作业状态、获取作业日志等功能,详情请参见:SDK安装与使用 Spark-Submit命令行工具 您可以利用上述工具,使用第三方任务编排调度系统(例如 Apache Airflow)打造自己的工作流。

多可区同时快速弹性扩容

当业务压力增大时,有多可区均衡调度策略的应用希望可以自动扩容出多个可用区的实例满足集群调度水位。本文介绍如何在多可区实现快速弹性扩容。前提条件 已选择多个可用区,并在每个可用区创建好vSwtich,需要在哪些可用区弹出就...

多可区同时快速弹性扩容

当业务压力增大时,有多可区均衡调度策略的应用希望可以自动扩容出多个可用区的实例满足集群调度水位。本文介绍如何在多可区实现快速弹性扩容。前提条件 已选择多个可用区,并在每个可用区创建好vSwtich,需要在哪些可用区弹出就...

通过命令行提交作业

E-HPC支持PBS、SLURM、SGE等作业调度系统,本文介绍如何使用三种调度系统,通过命令行提交作业。准备工作 创建集群用户。具体操作,请参见 创建用户。集群用户用于登录集群,进行编译软件、提交作业等操作,本文创建的用户示例如下:用户名...

E-HPC集群调度器插件

本文为您介绍E-HPC集群调度器插件的概念及组成。什么是调度器插件 E-HPC作为一款PaaS平台,集成了常用的开源调度器提供平台级服务。当您的业务需要迁移到云上时,往往需要将云下的调度器集成至云上,但因HPC行业调度器众多,且不同调度器...

创建集群

资源分配策略 专属集群资源调度的默认分配策略:均衡分配:最大化追求更稳定的系统表现,优先从未分配资源或已分配资源较少的主机中分配资源。紧凑分配:最大化追求更充分的资源利用率,优先从创建时间较早且已分配资源较多的主机中分配...

创建集群

资源分配策略 专属集群资源调度的默认分配策略:均衡分配:最大化追求更稳定的系统表现,优先从未分配资源或已分配资源较少的主机中分配资源。紧凑分配:最大化追求更充分的资源利用率,优先从创建时间较早且已分配资源较多的主机中分配...

集群概述

共享存储 E-HPC集群的用户数据、调度器信息、作业共享数据等信息均会存储在文件系统,以供集群所有节点共享访问。E-HPC支持以下几类文件系统:NAS:包括通用型NAS和极速型NAS。CPFS:支持CPFS-NFS和CPFS-POSIX两种挂载方式。其他:非阿里云...

基本概念

调度调度器指集群调度作业的软件。域账号 E-HPC支持创建NIS和LDAP两种域账号服务。NIS:网络信息服务(Network Information Service),是一种集中身份管理的方式。您可以在NIS服务器上建立用户,当新节点加入到NIS中时,便可以使用...

SetSchedulerInfo-设置调度器信息

默认值:20000 20000 SchedMaxQueuedJobs integer 否 集群调度的最大排队作业数。若集群排队作业数量超过此数值则无法再继续提交作业。默认值:10000 10000 SlurmInfo object[]否 Slurm 调度器信息列表。BackfillInterval integer 否 ...

调度概述

ACK Scheduler是ACK基于Kubernetes Scheduling Framework扩展机制,针对不同任务负载、不同弹性资源的统一调度系统。ACK Scheduler支持不同弹性资源的混合调度、异构资源的精细化调度、批量计算的任务调度等,提升应用的性能和集群整体资源...

使用GPU拓扑感知调度(Tensorflow版)

本文介绍如何使用GPU拓扑感知调度来提升TensorFlow分布式训练的训练速度。前提条件 已创建ACK Pro集群,且集群的实例规格类型选择为 GPU云服务器。更多信息,请参见 创建Kubernetes托管版集群。已安装 Arena。已安装GPU拓扑感知调度组件。...

管理工作流定义

工作流定义是通过拖拽任务节点并建立任务节点之间的关联创建可视化的DAG(有向无环图)。本文为您介绍如何创建工作流及工作流定义的相关操作。前提条件 已新建项目,详情请参见 管理项目。创建工作流 进入项目管理页面。使用阿里云账号...

节点管理

节点是集群组成的基本元素,以运行应用负载。它既可以是虚拟机,也可以是物理机,具体视业务而定。每个节点都包含运行 Pod 所需的基本组件,包括 Kubelet、Kube-proxy、容器运行时等。您可以通过容器应用服务控制台对节点进行管理。说明 ...

配置eci-profile

在eci-profile中,您可以自定义selector,selector可以根据Pod的Label或者Pod所属Namespace的Label筛选Pod,满足selector筛选条件的Pod会自动调度到ECI。ECI Effect 对于ECI的一些功能特性,例如指定ECS实例规格,启用镜像缓存,设置NTP...

配置eci-profile

在eci-profile中,您可以自定义selector,selector可以根据Pod的Label或者Pod所属Namespace的Label筛选Pod,满足selector筛选条件的Pod会自动调度到ECI。ECI Effect 对于ECI的一些功能特性,例如指定ECS实例规格,启用镜像缓存,设置NTP...

配置eci-profile

在eci-profile中,您可以自定义selector,selector可以根据Pod的Label或者Pod所属Namespace的Label筛选Pod,满足selector筛选条件的Pod会自动调度到ECI。ECI Effect 对于ECI的一些功能特性,例如指定ECS实例规格,启用镜像缓存,设置NTP...

计算资源优化

基于云基础设施的操作系统优化 阿里云提供了Alibaba Cloud Linux操作系统镜像,是阿里云基于龙蜥社区(OpenAnolis)的龙蜥操作系统(Anolis OS)打造的操作系统发行版,在兼容RHEL/CentOS生态的同时,为云上应用程序提供安全、稳定、高性能...

CoreDNS

CoreDNS是ACK集群和 ACK Edge集群 中默认采用的DNS服务发现插件,ACK Serverless集群 支持选择CoreDNS组件进行服务发现。本文为您介绍CoreDNS组件信息、使用说明和变更记录。组件介绍 CoreDNS提供了Kubernetes集群内部服务的域名解析能力。...

集群检查项及修复方案

索引 集群检查项 集群升级检查 集群迁移检查 组件检查 节点池检查 异常检查项修复方案 废弃API说明 集群检查项 集群升级检查 Kubernetes自身的复杂性,以及升级K8s版本时引入的运行时变更、API废弃、特性变更等操作,导致集群升级存在较高...

虚拟节点调度方案对比及介绍

ACK集群基础版 和 ACK专有集群 调度方式 典型场景 优先级调度 优先缩容ECI Pod 是否推荐使用 相关操作文档 labels:alibabacloud.com/eci=true 只调度到虚拟节点。不支持 支持 推荐。通过虚拟节点将Pod调度到ECI上运行 UnitedDeployment 将...

使用Gang scheduling

以下使用方式,对于1.22版本的集群调度器版本需要高于1.22.15-4.0;对于1.24版本的集群调度器版本需要高于1.24.6-4.0。您可以使用以下两种方式使用Gang scheduling策略。创建对应的PodGroup自定义资源,通过 pod-group.scheduling.sigs...

使用Gang scheduling

以下使用方式,对于1.22版本的集群调度器版本需要高于1.22.15-4.0;对于1.24版本的集群调度器版本需要高于1.24.6-4.0。您可以使用以下两种方式使用Gang scheduling策略。创建对应的PodGroup自定义资源,通过 pod-group.scheduling.sigs...

提交作业

作业是E-HPC集群进行高性能计算的基本工作单元,包括Shell脚本、可执行文件等。本文介绍如何使用E-HPC客户端提交作业。准备工作 提交作业前,您需要准备好作业文件,并上传到E-HPC集群中。E-HPC客户端支持以下两种方式上传作业文件:通过...

功能发布记录

2023-09-08 创建Serverless集群 在Serverless集群中提交作业 2023年8月 功能名称 变更类型 功能描述 发布时间 相关文档 支持的调度器 优化 更新集群支持的调度器。2023-08-29 集群概述 2023年6月 功能名称 变更类型 功能描述 发布时间 相关...

Tair集群无感扩缩容

本文列举社区版Redis集群、云数据库Redis集群版扩缩容方案的不足,并介绍 云原生内存数据库Tair 集群版无感扩缩容方案。社区版Redis集群版通常会涉及到数据节点弹性扩缩容、分片间的数据迁移等需求,但业界常见的扩缩容方案仍存在一些问题...

基础监控

混部资源总量越大,说明集群中可供应混部的空闲物理资源越多,通过在离线混部调度更多应用的潜在收益越大。混部资源分配量 分为CPU和内存两个资源维度,分别展示了集群当前为应用混部已分配的CPU资源量和内存资源量。如上图所示,集群...

Tair集群无感扩缩容介绍

本文列举社区版Redis集群、云数据库Redis集群版扩缩容方案的不足,并介绍Tair集群版无感扩缩容方案。社区版Redis集群版通常会涉及到数据节点弹性扩缩容、分片间的数据迁移等需求,但业界常见的扩缩容方案仍存在一些问题,例如按Key迁移速度...

通过控制台提交作业

作业指提交到E-HPC集群进行高性能计算的基本工作单元,包括Shell脚本、可执行文件等,具体作业执行顺序根据您设置的队列以及调度器决定。E-HPC管理控制台提供了作业相关的提交作业、停止作业、查看作业状态等功能,本文介绍如何使用E-HPC...

集群高可用架构推荐配置

高可用性(High Availability,HA)是指系统的设计能够确保服务可靠性和持续性的一种特性。容器服务 Kubernetes 版 基于Kubernetes架构提供了多种集群高可用保障机制,以确保集群控制面、节点与节点池、工作负载、负载均衡等维度的高可用,...

FTP Check节点

该节点通常作为DataWorks调度系统与其他调度系统之间传递信号使用。本文为您介绍使用FTP Check节点的流程和注意事项。前提条件 已创建FTP数据源。已创建好业务流程,详情请参见 创建业务流程。背景信息 FTP Check节点的典型应用场景:当...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库专属集群 云数据库 Redis 版 云原生数据仓库AnalyticDB MySQL版 开源大数据平台 E-MapReduce 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用