作业调度能干啥-作业调度能干啥文档介绍内容-阿里云

术语表

Job Transcode Job 转码作业转码作业，一个转码作业由一路输入及一路输出构成，作业会被加入到管道中，管道中的作业会被调度引擎调度到转码系统进行转码。AnalysisJob Analysis Job 预置模板分析作业预置模板分析作业由输入文件及分析...

拓扑感知调度

在容器服务 Kubernetes 版中，可以结合Gang调度能力以及拓扑感知调度能力，实现Pod在多个拓扑域中重试，直到找到一个能够满足整个作业拓扑域的功能。更进一步，可以结合容器服务 Kubernetes 版的节点池以及ECS的部署集能力，将Pod调度...

迁移助手与迁云服务

DataWorks迁移助手支持将开源调度引擎的作业迁移至DataWorks，支持作业跨云、跨Region、跨账号迁移，实现DataWorks作业快速克隆部署，同时DataWorks团队联合大数据专家服务团队，上线迁云服务，帮助您快速实现数据与任务的上云。...

SetSchedulerInfo-设置调度器信息

SchedInterval 指调度周期，单位：秒调度周期指运行多个作业之间时间间隔，如设置为 60，表示本次作业开始运行 60 秒后才能开始运行下次作业。默认值：60 60 SchedMaxJobs integer 否集群调度的最大作业数。若集群排队和运行的作业数总和...

计算成本控制

当您发现MaxCompute账单持续上涨，而且成本变得难以管理时，您可以从计算作业着手，通过对SQL作业和MapReduce作业的优化而减少计算成本。本文为您介绍SQL作业和MapReduce作业计算成本的控制方法。预估计算成本您可以在计算前对计算成本...

DataStudio概述

本文为您介绍什么是DataStudio，以及DataStudio支持的Hologres节点功能。简介 DataWorks基于Hologres、MaxCompute等大数据计算引擎，为您...一键表数据同步您可以使用DataStudio导入MaxCompute数据至Hologres，并可以提交调度周期性作业。

设置基线优先级与YARN队列优先级的映射关系

在YARN中，通过作业的YARN队列优先级，决定YARN优先为哪个作业分配资源，即优先调度运行哪个作业。更多YARN介绍，详情请参见 YARN概述。DataWorks中您可通过如下方式配置调度运行节点任务时使用的YARN队列：方式一（YARN队列全局配置）：...

Airflow调度DLA Spark作业

Airflow是比较流行的开源调度工具，可以实现各类工作负载的DAG编排与调度。您可以通过Spark-Submit和Spark-SQL命令行来实现Airflow调度Spark任务。DLA Spark提供了命令行工具包，支持通过Spark-Submit和Spark-SQL方式来提交Spark作业。您...

临时查询

在新建交互式作业对话框中，填写作业名称和作业描述，从作业类型列表中，选择新建的作业类型。E-MapReduce数据开发支持Shell、SparkSQL、Spark Shell和HiveSQL四种类型的临时查询作业。注意创建作业时作业类型一经确定，不能修改。...

作业编辑

背景信息本文为您提供作业编辑的相关操作，具体如下：新建作业设置作业在作业中添加注解运行作业作业可执行操作作业提交模式说明前提条件已创建项目或已被加入到项目中，详情请参见项目管理。新建作业进入数据开发的项目列表页面...

调度至Arm虚拟节点

如果您的集群中既有Arm虚拟节点，又有非Arm虚拟节点（例如x86虚拟节点），为了确保只兼容Arm架构的工作负载调度到Arm虚拟节点，或多架构镜像优先调度到Arm虚拟节点，您可以基于Kubernetes原生调度配置来实现。前提条件集群：已创建 ACK ...

调度至Arm虚拟节点

如果您的集群中既有Arm虚拟节点，又有非Arm虚拟节点（例如x86虚拟节点），为了确保只兼容Arm架构的工作负载调度到Arm虚拟节点，或多架构镜像优先调度到Arm虚拟节点，您可以基于Kubernetes原生调度配置来实现。前提条件集群：已创建ACK集群...

E-HPC集群调度器插件

E-HPC提供了调度器插件作为平台的外扩组件，在E-HPC现有调度器类型或版本不满足当前业务时，您可以通过该插件构建自定义调度器并接入E-HPC平台的能力。本文为您介绍E-HPC集群调度器插件的概念及组成。什么是调度器插件 E-HPC作为一款PaaS...

通过DataWorks管理作业

Lindorm计算引擎兼容CDH（Cloudera's Distribution Including Apache Hadoop），支持通过大数据开发治理平台DataWorks开发、管理、调度、运维分布式计算作业。作业类型包括交互式SQL查询、SQL作业、JAR作业、Python作业等。本文介绍如何...

EMR数据开发（旧版）停止全面支持公告

停止全面支持时间 2023年9月30日0点影响您在停止全面支持时间点前创建的数据开发（旧版）项目不会受到影响，可正常使用EMR数据开发（旧版）模块，包括运行作业和工作流调度，但阿里云不再提供EMR数据开发（旧版）的用户答疑、问题解决和...

EMR数据开发停止更新公告

2022年2月21日21点起，E-MapReduce（简称EMR）数据开发功能停止更新，进入维护状态，会影响创建项目、新建和运行作业、工作流、数据开发运维等功能。如果您还在使用数据开发功能，请尽快迁移到DataWorks构建数据开发平台。本文为您介绍数据...

开发ODPS Spark任务

MaxCompute Spark作业可通过 Local模式、Cluster模式执行，此外，您也可在DataWorks中运行MaxCompute Spark离线作业（Cluster模式），以便与其它类型执行节点集成和调度。本文为您介绍如何通过DataWorks实现MaxCompute Spark作业的配置与...

开发ODPS Spark任务

MaxCompute Spark作业可通过 Local模式、Cluster模式执行，此外，您也可在DataWorks中运行MaxCompute Spark离线作业（Cluster模式），以便与其它类型执行节点集成和调度。本文为您介绍如何通过DataWorks实现MaxCompute Spark作业的配置与...

使用Logview查看作业运行信息

Instance信息部分，您可以单击Status查看当前队列的Status详细信息，包含四种状态：Waiting：说明当前作业正在MaxCompute中处理，并没有提交到分布式调度系统（Fuxi）中运行。Waiting List:n：说明作业已提交至分布式调度系统（Fuxi）排队...

开发PyODPS 3任务

DataWorks为您提供PyODPS 3节点，您可以在该节点中直接使用Python代码编写MaxCompute作业，并进行作业的周期性调度。本文为您介绍如何通过DataWorks实现Python任务的配置与调度。前提条件已创建PyODPS 3节点，详情请参见创建并管理...

开发PyODPS 3任务

DataWorks为您提供PyODPS 3节点，您可以在该节点中直接使用Python代码编写MaxCompute作业，并进行作业的周期性调度。本文为您介绍如何通过DataWorks实现Python任务的配置与调度。前提条件已创建PyODPS 3节点，详情请参见创建并管理...

作业诊断

获取作业各节点的启停调度信息。获取作业各节点的标准输入输出日志。Spark结果输出建议打印到StdOut，Spark的log4j日志则默认输出到StdErr。Logview的时效性为3～5天。当本地磁盘已满时，StdOut和StdErr会被清理掉。在浏览器中打开日志输出...

什么是弹性高性能计算E-HPC

调度器服务器：运行调度器客户端，管理调度节点，处理作业提交。域账号服务器：管理集群内的用户。计算节点：运行高性能计算作业，其配置决定了E-HPC集群的总体性能。安全组是一种虚拟防火墙，具备集群节点状态检测和数据包过滤能力，用于...

管理手动任务

打开该开关，您还可以选择配置以下参数：调度队列：指定作业提交的YARN队列。任务执行容器内存（MB）：指定作业执行容器的内存。默认值为1024。虚拟核数：指定作业执行容器的虚拟核数（vCores）。默认值为1。优先级：指定作业执行容器的...

管理工作流定义

打开该开关，您还可以选择配置以下参数：调度队列：指定作业提交的YARN队列。任务执行容器内存（MB）：指定作业执行容器的内存。默认值为1024。虚拟核数：指定作业执行容器的虚拟核数（vCores）。默认值为1。优先级：指定作业执行容器的...

作业运维（新版）

MaxCompute作业运维功能支持查看历史作业和正在运行的作业，方便您了解作业运行详情及分析作业运行时的资源负载情况，帮助您对作业进行运维管理。功能介绍 MaxCompute的作业运维功能支持查看并运维您当前项目下历史作业和正在运行的作业。...

工作流使用案例

在Databricks数据开发中，您可以在项目空间的作业编辑中创建一组有依赖的作业，然后创建工作流，按照依赖次序定义执行顺序，Databricks工作流支持基于有向无环（DAG）并行执行大数据作业。前提条件通过主账号登录阿里云 Databricks控制台...

AI负载调度

本文介绍弹性资源调度、AI任务调度、异构资源调度和任务队列调度，帮助用户提升集群的资源利用率和作业运行效率。弹性调度 ACK为不同弹性资源提供了混合调度的能力。功能描述参考文档弹性调度阿里云提供了不同种类的弹性资源，如ECS和...

创建和执行Spark作业

本文介绍如何在数据湖分析控制台创建和执行Spark作业。准备事项您需要在提交作业之前先...使用DMS进行Spark作业编排和任务周期调度，请参考文档 DMS任务编排调度Spark任务训练机器学习模型。DLA Spark作业配置，请参考文档作业配置指南。

工作原理

调度和执行场景一个作业可生成一个或多个实例，无论是正常被调度还是您触发异常实例重试的情况，同时只有一个实例处于运行中，不存在多个实例并发执行的情况。主要的调度与执行场景如下表所示。场景说明场景一：从当前时间开始执行时序...

工作原理

调度和执行场景一个作业可生成一个或多个实例，无论是正常被调度还是您触发异常实例重试的情况，同时只有一个实例处于运行中，不存在多个实例并发执行的情况。主要的调度与执行场景如下表所示。场景说明场景一：从当前时间开始执行下探...

StarRocks

DataWorks的StarRocks节点可进行StarRocks任务的开发和周期性调度，以及与其他作业的集成操作。本文为您介绍使用StarRocks节点进行任务开发的主要流程。背景信息 StarRocks是新一代极速全场景MPP（Massively Parallel Processing）数据库，...

ClickHouse SQL

DataWorks的ClickHouse SQL节点可进行ClickHouse SQL任务的开发和周期性调度，以及与其他作业的集成操作。本文为您介绍使用ClickHouse SQL节点进行任务开发的主要流程。前提条件已创建业务流程。数据开发（DataStudio）基于业务流程执行...

Oracle节点

DataWorks的Oracle节点可进行Oracle任务的开发和周期性调度，以及与其他作业的集成操作。本文为您介绍使用Oracle节点进行任务开发的主要流程。背景信息 Oracle是用于存储和处理数据的关系型数据库管理系统（RDBMS），为您提供可靠、高效且...

SQL Server节点

DataWorks的SQL Server节点可进行SQL Server任务的开发和周期性调度，以及与其他作业的集成操作。本文为您介绍使用SQL Server节点进行任务开发的主要流程。背景信息 SQL Server是用于存储和处理数据的关系型数据库管理系统（RDBMS），为您...

PostgreSQL节点

DataWorks的PostgreSQL节点可进行PostgreSQL任务的开发和周期性调度，以及与其他作业的集成操作。本文为您介绍使用PostgreSQL节点进行任务开发的主要流程。背景信息 PostgreSQL是一款功能强大、灵活的开源关系型数据库管理系统（RDBMS），...

云原生AI套件概述

异构计算集群概述开启集群GPU监控共享GPU调度概述 AI任务调度多种调度策略支持：针对AI分布式训练等典型批量任务类型，ACK调度器扩展Kubernetes原生调度框架，支持实现多种典型批量调度策略，包括Gang Scheduling（Coscheduling）、FIFO...

AnalyticDB for MySQL

DataWorks的AnalyticDB for MySQL节点可进行AnalyticDB for MySQL任务的开发和周期性调度，以及与其他作业的集成操作。本文为您介绍使用AnalyticDB for MySQL节点进行任务开发的主要流程。前提条件已购买相应版本服务。购买DataWorks标准...

管道概述

基本概念管道有启用、禁用两种状态，管道被暂停时，媒体处理服务不再调度此管道中的作业执行，直到管道被重新启用为止，已在执行中的作业不受影响。管道中的任务可以有多种优先级。通过API提交的任务可以自定义优先级，最高为10，最低为1...

导入概述

该阶段是指用户提交导入作业后，等待FE调度执行。ETL 非必须。该阶段执行数据的预处理，包括清洗、分区、排序和聚合等。LOADING 该阶段先对数据进行清洗和转换，然后将数据发送给BE处理。当数据全部导入后，进入等待生效过程，此时导入作业...

作业调度能干啥

新品推荐