作业调度如何玩-作业调度如何玩文档介绍内容-阿里云

舰队管理概述

随着Kubernetes集群的广泛应用，企业往往需要...作业分发：离线作业多集群调度，选择适合的集群运行离线作业。全局监控：多集群监控大盘，一个监控大盘查看所有集群的监控指标。相关文档 ACK One概述开启舰队管理功能管理关联集群 ArgoCD

术语表

Job Transcode Job 转码作业转码作业，一个转码作业由一路输入及一路输出构成，作业会被加入到管道中，管道中的作业会被调度引擎调度到转码系统进行转码。AnalysisJob Analysis Job 预置模板分析作业预置模板分析作业由输入文件及分析...

迁移助手与迁云服务

DataWorks迁移助手支持将开源调度引擎的作业迁移至DataWorks，支持作业跨云、跨Region、跨账号迁移，实现DataWorks作业快速克隆部署，同时DataWorks团队联合大数据专家服务团队，上线迁云服务，帮助您快速实现数据与任务的上云。...

SetSchedulerInfo-设置调度器信息

SchedInterval 指调度周期，单位：秒调度周期指运行多个作业之间时间间隔，如设置为 60，表示本次作业开始运行 60 秒后才能开始运行下次作业。默认值：60 60 SchedMaxJobs integer 否集群调度的最大作业数。若集群排队和运行的作业数总和...

DataStudio概述

本文为您介绍什么是DataStudio，以及DataStudio支持的Hologres节点功能。简介 DataWorks基于Hologres、MaxCompute等大数据计算引擎，为您...一键表数据同步您可以使用DataStudio导入MaxCompute数据至Hologres，并可以提交调度周期性作业。

计算成本控制

另外，调度频繁也会引起SQL作业费用的增加，调度频繁可能会产生任务的堆积，在后付费的情况下会造成排队现象，如果任务多又出现了排队，那么第二天的账单就会异常。通过如下策略进行SQL作业计算成本控制：避免频繁调度。MaxCompute是批量...

Airflow调度DLA Spark作业

您可以直接将开源Spark命令行工具包替换成DLA Spark命令行工具包，并进行简单的配置即可使用Airflow调度DLA Spark作业。重要云原生数据湖分析（DLA）产品已退市，云原生数据仓库 AnalyticDB MySQL 版湖仓版支持DLA已有功能，并提供更多的...

临时查询

export ENV_ABC=12345 java-jar abc.jar 调度参数设置作业运行YARN队列、内存、虚拟核数、优先级和执行用户等信息。当未设置这些参数时，作业会直接采用Hadoop集群的默认值。说明内存设置用于设置启动器Launcher的内存配额。在作业设置 ...

作业编辑

背景信息本文为您提供作业编辑的相关操作，具体如下：新建作业设置作业在作业中添加注解运行作业作业可执行操作作业提交模式说明前提条件已创建项目或已被加入到项目中，详情请参见项目管理。新建作业进入数据开发的项目列表页面...

设置基线优先级与YARN队列优先级的映射关系

在YARN中，通过作业的YARN队列优先级，决定YARN优先为哪个作业分配资源，即优先调度运行哪个作业。更多YARN介绍，详情请参见 YARN概述。DataWorks中您可通过如下方式配置调度运行节点任务时使用的YARN队列：方式一（YARN队列全局配置）：...

调度至Arm虚拟节点

如果您的集群中既有Arm虚拟节点，又有非Arm虚拟节点（例如x86虚拟节点），为了确保只兼容Arm架构的工作负载调度到Arm虚拟节点，或多架构镜像优先调度到Arm虚拟节点，您可以基于Kubernetes原生调度配置来实现。前提条件集群：已创建 ACK ...

调度至Arm虚拟节点

如果您的集群中既有Arm虚拟节点，又有非Arm虚拟节点（例如x86虚拟节点），为了确保只兼容Arm架构的工作负载调度到Arm虚拟节点，或多架构镜像优先调度到Arm虚拟节点，您可以基于Kubernetes原生调度配置来实现。前提条件集群：已创建ACK集群...

E-HPC集群调度器插件

E-HPC提供了调度器插件作为平台的外扩组件，在E-HPC现有调度器类型或版本不满足当前业务时，您可以通过该插件构建自定义调度器并接入E-HPC平台的能力。本文为您介绍E-HPC集群调度器插件的概念及组成。什么是调度器插件 E-HPC作为一款PaaS...

通过DataWorks管理作业

Lindorm计算引擎兼容CDH（Cloudera's Distribution Including Apache Hadoop），支持通过大数据开发治理平台DataWorks开发、管理、调度、运维分布式计算作业。作业类型包括交互式SQL查询、SQL作业、JAR作业、Python作业等。本文介绍如何...

EMR数据开发（旧版）停止全面支持公告

停止全面支持时间 2023年9月30日0点影响您在停止全面支持时间点前创建的数据开发（旧版）项目不会受到影响，可正常使用EMR数据开发（旧版）模块，包括运行作业和工作流调度，但阿里云不再提供EMR数据开发（旧版）的用户答疑、问题解决和...

EMR数据开发停止更新公告

停止更新时间 2022年2月21日21点影响您在停更时间点前创建的数据开发项目不会受到影响，可正常使用EMR数据开发模块，包括运行作业和工作流调度。如果您后续需要更丰富的数据开发功能，推荐迁移至DataWorks构建工作流，EMR已经跟DataWorks...

开发ODPS Spark任务

MaxCompute Spark作业可通过 Local模式、Cluster模式执行，此外，您也可在DataWorks中运行MaxCompute Spark离线作业（Cluster模式），以便与其它类型执行节点集成和调度。本文为您介绍如何通过DataWorks实现MaxCompute Spark作业的配置与...

开发ODPS Spark任务

MaxCompute Spark作业可通过 Local模式、Cluster模式执行，此外，您也可在DataWorks中运行MaxCompute Spark离线作业（Cluster模式），以便与其它类型执行节点集成和调度。本文为您介绍如何通过DataWorks实现MaxCompute Spark作业的配置与...

开发PyODPS 3任务

DataWorks为您提供PyODPS 3节点，您可以在该节点中直接使用Python代码编写MaxCompute作业，并进行作业的周期性调度。本文为您介绍如何通过DataWorks实现Python任务的配置与调度。前提条件已创建PyODPS 3节点，详情请参见创建并管理...

开发PyODPS 3任务

DataWorks为您提供PyODPS 3节点，您可以在该节点中直接使用Python代码编写MaxCompute作业，并进行作业的周期性调度。本文为您介绍如何通过DataWorks实现Python任务的配置与调度。前提条件已创建PyODPS 3节点，详情请参见创建并管理...

使用Logview查看作业运行信息

Instance信息部分，您可以单击Status查看当前队列的Status详细信息，包含四种状态：Waiting：说明当前作业正在MaxCompute中处理，并没有提交到分布式调度系统（Fuxi）中运行。Waiting List:n：说明作业已提交至分布式调度系统（Fuxi）排队...

什么是弹性高性能计算E-HPC

调度器服务器：运行调度器客户端，管理调度节点，处理作业提交。域账号服务器：管理集群内的用户。计算节点：运行高性能计算作业，其配置决定了E-HPC集群的总体性能。安全组是一种虚拟防火墙，具备集群节点状态检测和数据包过滤能力，用于...

管理手动任务

打开该开关，您还可以选择配置以下参数：调度队列：指定作业提交的YARN队列。任务执行容器内存（MB）：指定作业执行容器的内存。默认值为1024。虚拟核数：指定作业执行容器的虚拟核数（vCores）。默认值为1。优先级：指定作业执行容器的...

作业诊断

获取作业各节点的启停调度信息。获取作业各节点的标准输入输出日志。Spark结果输出建议打印到StdOut，Spark的log4j日志则默认输出到StdErr。Logview的时效性为3～5天。当本地磁盘已满时，StdOut和StdErr会被清理掉。在浏览器中打开日志输出...

管理工作流定义

打开该开关，您还可以选择配置以下参数：调度队列：指定作业提交的YARN队列。任务执行容器内存（MB）：指定作业执行容器的内存。默认值为1024。虚拟核数：指定作业执行容器的虚拟核数（vCores）。默认值为1。优先级：指定作业执行容器的...

作业运维（新版）

常用运维场景示例查看具体作业运行详情运维场景您需要查看某个DataWorks小时调度节点发起的作业运行情况或需要对指定的MaxCompute作业进行审计。操作步骤登录 MaxCompute管理控制台的作业运维页面。根据实际需要设置时间范围。单击...

AI负载调度

本文介绍弹性资源调度、AI任务调度、异构资源调度和任务队列调度，帮助用户提升集群的资源利用率和作业运行效率。弹性调度 ACK为不同弹性资源提供了混合调度的能力。功能描述参考文档弹性调度阿里云提供了不同种类的弹性资源，如ECS和...

工作流使用案例

配置工作流调度您可以打开工作流调度开关并配置工作流调度参数，调度系统会按照参数定时运行相关工作流，并将作业下发到指定集群上执行。以下介绍配置工作流的基本属性、调度属性和告警设置。完成工作流设计后，单机画布右上角配置按钮...

创建和执行Spark作业

本文介绍如何在数据湖分析控制台创建和执行Spark作业。准备事项您需要在提交作业之前先...使用DMS进行Spark作业编排和任务周期调度，请参考文档 DMS任务编排调度Spark任务训练机器学习模型。DLA Spark作业配置，请参考文档作业配置指南。

工作原理

调度和执行场景一个作业可生成一个或多个实例，无论是正常被调度还是您触发异常实例重试的情况，同时只有一个实例处于运行中，不存在多个实例并发执行的情况。主要的调度与执行场景如下表所示。场景说明场景一：从当前时间开始执行时序...

工作原理

调度和执行场景一个作业可生成一个或多个实例，无论是正常被调度还是您触发异常实例重试的情况，同时只有一个实例处于运行中，不存在多个实例并发执行的情况。主要的调度与执行场景如下表所示。场景说明场景一：从当前时间开始执行下探...

StarRocks

DataWorks的StarRocks节点可进行StarRocks任务的开发和周期性调度，以及与其他作业的集成操作。本文为您介绍使用StarRocks节点进行任务开发的主要流程。背景信息 StarRocks是新一代极速全场景MPP（Massively Parallel Processing）数据库，...

ClickHouse SQL

DataWorks的ClickHouse SQL节点可进行ClickHouse SQL任务的开发和周期性调度，以及与其他作业的集成操作。本文为您介绍使用ClickHouse SQL节点进行任务开发的主要流程。前提条件已创建业务流程。数据开发（DataStudio）基于业务流程执行...

Oracle节点

DataWorks的Oracle节点可进行Oracle任务的开发和周期性调度，以及与其他作业的集成操作。本文为您介绍使用Oracle节点进行任务开发的主要流程。背景信息 Oracle是用于存储和处理数据的关系型数据库管理系统（RDBMS），为您提供可靠、高效且...

SQL Server节点

DataWorks的SQL Server节点可进行SQL Server任务的开发和周期性调度，以及与其他作业的集成操作。本文为您介绍使用SQL Server节点进行任务开发的主要流程。背景信息 SQL Server是用于存储和处理数据的关系型数据库管理系统（RDBMS），为您...

PostgreSQL节点

DataWorks的PostgreSQL节点可进行PostgreSQL任务的开发和周期性调度，以及与其他作业的集成操作。本文为您介绍使用PostgreSQL节点进行任务开发的主要流程。背景信息 PostgreSQL是一款功能强大、灵活的开源关系型数据库管理系统（RDBMS），...

云原生AI套件概述

云原生AI套件以Kubernetes容器服务为底座，向下封装对各类异构资源的统一管理，向上提供标准Kubernetes集群环境和API，以运行各核心组件，实现资源运维管理、AI任务调度和弹性伸缩、数据访问加速、工作流编排、大数据服务集成、AI作业生命...

AnalyticDB for MySQL

DataWorks的AnalyticDB for MySQL节点可进行AnalyticDB for MySQL任务的开发和周期性调度，以及与其他作业的集成操作。本文为您介绍使用AnalyticDB for MySQL节点进行任务开发的主要流程。前提条件已购买相应版本服务。购买DataWorks标准...

管道概述

基本概念管道有启用、禁用两种状态，管道被暂停时，媒体处理服务不再调度此管道中的作业执行，直到管道被重新启用为止，已在执行中的作业不受影响。管道中的任务可以有多种优先级。通过API提交的任务可以自定义优先级，最高为10，最低为1...

Flag参数列表

如果提交作业时设置的Quota Tag和某个Quota组属性中的Quota Tag相等，作业就会被优先调度到这个Quota组中。否则，会被调度到所属项目空间指定的Quota组中。执行如下语句进行设置。set odps.task.quota.preference.tag=payasyougo 说明该...

作业调度如何玩

新品推荐