术语表

Job Transcode Job 转码作业 转码作业,一个转码作业由一路输入及一路输出构成,作业会被加入到管道中,管道中的作业会被调度引擎调度到转码系统进行转码。AnalysisJob Analysis Job 预置模板分析作业 预置模板分析作业由输入文件及分析...

拓扑感知调度

在 容器服务 Kubernetes 版 中,可以结合Gang调度能力以及拓扑感知调度能力,实现Pod在多个拓扑域中重试,直到找到一个能够满足整个作业拓扑域的功能。更进一步,可以结合 容器服务 Kubernetes 版 的节点池以及ECS的部署集能力,将Pod调度...

迁移助手与迁云服务

DataWorks迁移助手支持将开源调度引擎的作业迁移至DataWorks,支持作业跨云、跨Region、跨账号迁移,实现DataWorks作业快速克隆部署,同时DataWorks团队联合大数据专家服务团队,上线迁云服务,帮助您快速实现数据与任务的上云。...

SetSchedulerInfo-设置调度器信息

SchedInterval 指调度周期,单位:秒 调度周期指运行多个作业之间时间间隔,如设置为 60,表示本次作业开始运行 60 秒后才能开始运行下次作业。默认值:60 60 SchedMaxJobs integer 否 集群调度的最大作业数。若集群排队和运行的作业数总和...

计算成本控制

当您发现MaxCompute账单持续上涨,而且成本变得难以管理时,您可以从计算作业着手,通过对SQL作业和MapReduce作业的优化而减少计算成本。本文为您介绍SQL作业和MapReduce作业计算成本的控制方法。预估计算成本 您可以在计算前对计算成本...

DataStudio概述

本文为您介绍什么是DataStudio,以及DataStudio支持的Hologres节点功能。简介 DataWorks基于Hologres、MaxCompute等大数据计算引擎,为您...一键表数据同步 您可以使用DataStudio导入MaxCompute数据至Hologres,并可以提交调度周期性作业

设置基线优先级与YARN队列优先级的映射关系

在YARN中,通过作业的YARN队列优先级,决定YARN优先为哪个作业分配资源,即优先调度运行哪个作业。更多YARN介绍,详情请参见 YARN概述。DataWorks中您可通过如下方式配置调度运行节点任务时使用的YARN队列:方式一(YARN队列全局配置):...

Airflow调度DLA Spark作业

Airflow是比较流行的开源调度工具,可以实现各类工作负载的DAG编排与调度。您可以通过Spark-Submit和Spark-SQL命令行来实现Airflow调度Spark任务。DLA Spark提供了命令行工具包,支持通过Spark-Submit和Spark-SQL方式来提交Spark作业。您...

临时查询

在 新建交互式作业 对话框中,填写 作业名称 和 作业描述,从 作业类型 列表中,选择新建的作业类型。E-MapReduce数据开发支持Shell、SparkSQL、Spark Shell和HiveSQL四种类型的临时查询作业。注意 创建作业作业类型一经确定,不能修改。...

作业编辑

背景信息 本文为您提供作业编辑的相关操作,具体如下:新建作业 设置作业作业中添加注解 运行作业 作业可执行操作 作业提交模式说明 前提条件 已创建项目或已被加入到项目中,详情请参见 项目管理。新建作业 进入数据开发的项目列表页面...

调度至Arm虚拟节点

如果您的集群中既有Arm虚拟节点,又有非Arm虚拟节点(例如x86虚拟节点),为了确保只兼容Arm架构的工作负载调度到Arm虚拟节点,或多架构镜像优先调度到Arm虚拟节点,您可以基于Kubernetes原生调度配置来实现。前提条件 集群:已创建 ACK ...

调度至Arm虚拟节点

如果您的集群中既有Arm虚拟节点,又有非Arm虚拟节点(例如x86虚拟节点),为了确保只兼容Arm架构的工作负载调度到Arm虚拟节点,或多架构镜像优先调度到Arm虚拟节点,您可以基于Kubernetes原生调度配置来实现。前提条件 集群:已创建ACK集群...

E-HPC集群调度器插件

E-HPC提供了调度器插件作为平台的外扩组件,在E-HPC现有调度器类型或版本不满足当前业务时,您可以通过该插件构建自定义调度器并接入E-HPC平台的能力。本文为您介绍E-HPC集群调度器插件的概念及组成。什么是调度器插件 E-HPC作为一款PaaS...

通过DataWorks管理作业

Lindorm计算引擎兼容CDH(Cloudera's Distribution Including Apache Hadoop),支持通过大数据开发治理平台DataWorks开发、管理、调度、运维分布式计算作业作业类型包括交互式SQL查询、SQL作业、JAR作业、Python作业等。本文介绍如何...

EMR数据开发(旧版)停止全面支持公告

停止全面支持时间 2023年9月30日0点 影响 您在停止全面支持时间点前创建的数据开发(旧版)项目不会受到影响,可正常使用EMR数据开发(旧版)模块,包括运行作业和工作流调度,但阿里云不再提供EMR数据开发(旧版)的用户答疑、问题解决和...

EMR数据开发停止更新公告

2022年2月21日21点起,E-MapReduce(简称EMR)数据开发功能停止更新,进入维护状态,会影响创建项目、新建和运行作业、工作流、数据开发运维等功能。如果您还在使用数据开发功能,请尽快迁移到DataWorks构建数据开发平台。本文为您介绍数据...

开发ODPS Spark任务

MaxCompute Spark作业可通过 Local模式、Cluster模式 执行,此外,您也可在DataWorks中运行MaxCompute Spark离线作业(Cluster模式),以便与其它类型执行节点集成和调度。本文为您介绍如何通过DataWorks实现MaxCompute Spark作业的配置与...

开发ODPS Spark任务

MaxCompute Spark作业可通过 Local模式、Cluster模式 执行,此外,您也可在DataWorks中运行MaxCompute Spark离线作业(Cluster模式),以便与其它类型执行节点集成和调度。本文为您介绍如何通过DataWorks实现MaxCompute Spark作业的配置与...

使用Logview查看作业运行信息

Instance信息部分,您可以单击Status查看当前队列的Status详细信息,包含四种状态:Waiting:说明当前作业正在MaxCompute中处理,并没有提交到分布式调度系统(Fuxi)中运行。Waiting List:n:说明作业已提交至分布式调度系统(Fuxi)排队...

开发PyODPS 3任务

DataWorks为您提供PyODPS 3节点,您可以在该节点中直接使用Python代码编写MaxCompute作业,并进行作业的周期性调度。本文为您介绍如何通过DataWorks实现Python任务的配置与调度。前提条件 已创建PyODPS 3节点,详情请参见 创建并管理...

开发PyODPS 3任务

DataWorks为您提供PyODPS 3节点,您可以在该节点中直接使用Python代码编写MaxCompute作业,并进行作业的周期性调度。本文为您介绍如何通过DataWorks实现Python任务的配置与调度。前提条件 已创建PyODPS 3节点,详情请参见 创建并管理...

作业诊断

获取作业各节点的启停调度信息。获取作业各节点的标准输入输出日志。Spark结果输出建议打印到StdOut,Spark的log4j日志则默认输出到StdErr。Logview的时效性为3~5天。当本地磁盘已满时,StdOut和StdErr会被清理掉。在浏览器中打开日志输出...

什么是弹性高性能计算E-HPC

调度器服务器:运行调度器客户端,管理调度节点,处理作业提交。域账号服务器:管理集群内的用户。计算节点:运行高性能计算作业,其配置决定了E-HPC集群的总体性能。安全组是一种虚拟防火墙,具备集群节点状态检测和数据包过滤能力,用于...

管理手动任务

打开该开关,您还可以选择配置以下参数:调度队列:指定作业提交的YARN队列。任务执行容器内存(MB):指定作业执行容器的内存。默认值为1024。虚拟核数:指定作业执行容器的虚拟核数(vCores)。默认值为1。优先级:指定作业执行容器的...

管理工作流定义

打开该开关,您还可以选择配置以下参数:调度队列:指定作业提交的YARN队列。任务执行容器内存(MB):指定作业执行容器的内存。默认值为1024。虚拟核数:指定作业执行容器的虚拟核数(vCores)。默认值为1。优先级:指定作业执行容器的...

作业运维(新版)

MaxCompute作业运维功能支持查看历史作业和正在运行的作业,方便您了解作业运行详情及分析作业运行时的资源负载情况,帮助您对作业进行运维管理。功能介绍 MaxCompute的作业运维功能支持查看并运维您当前项目下 历史作业和正在运行的作业。...

工作流使用案例

在Databricks数据开发中,您可以在项目空间的作业编辑中创建一组有依赖的作业,然后创建工作流,按照依赖次序定义执行顺序,Databricks工作流支持基于有向无环(DAG)并行执行大数据作业。前提条件 通过主账号登录 阿里云 Databricks控制台...

AI负载调度

本文介绍弹性资源调度、AI任务调度、异构资源调度和任务队列调度,帮助用户提升集群的资源利用率和作业运行效率。弹性调度 ACK为不同弹性资源提供了混合调度的能力。功能 描述 参考文档 弹性调度 阿里云提供了不同种类的弹性资源,如ECS和...

创建和执行Spark作业

本文介绍如何在数据湖分析控制台创建和执行Spark作业。准备事项 您需要在提交作业之前先...使用DMS进行Spark作业编排和任务周期调度,请参考文档 DMS任务编排调度Spark任务训练机器学习模型。DLA Spark作业配置,请参考文档 作业配置指南。

工作原理

调度和执行场景 一个作业可生成一个或多个实例,无论是正常被调度还是您触发异常实例重试的情况,同时只有一个实例处于运行中,不存在多个实例并发执行的情况。主要的调度与执行场景如下表所示。场景 说明 场景一:从当前时间开始执行时序...

工作原理

调度和执行场景 一个作业可生成一个或多个实例,无论是正常被调度还是您触发异常实例重试的情况,同时只有一个实例处于运行中,不存在多个实例并发执行的情况。主要的调度与执行场景如下表所示。场景 说明 场景一:从当前时间开始执行下探...

StarRocks

DataWorks的StarRocks节点可进行StarRocks任务的开发和周期性调度,以及与其他作业的集成操作。本文为您介绍使用StarRocks节点进行任务开发的主要流程。背景信息 StarRocks是新一代极速全场景MPP(Massively Parallel Processing)数据库,...

ClickHouse SQL

DataWorks的ClickHouse SQL节点可进行ClickHouse SQL任务的开发和周期性调度,以及与其他作业的集成操作。本文为您介绍使用ClickHouse SQL节点进行任务开发的主要流程。前提条件 已创建业务流程。数据开发(DataStudio)基于业务流程执行...

Oracle节点

DataWorks的Oracle节点可进行Oracle任务的开发和周期性调度,以及与其他作业的集成操作。本文为您介绍使用Oracle节点进行任务开发的主要流程。背景信息 Oracle是用于存储和处理数据的关系型数据库管理系统(RDBMS),为您提供可靠、高效且...

SQL Server节点

DataWorks的SQL Server节点可进行SQL Server任务的开发和周期性调度,以及与其他作业的集成操作。本文为您介绍使用SQL Server节点进行任务开发的主要流程。背景信息 SQL Server是用于存储和处理数据的关系型数据库管理系统(RDBMS),为您...

PostgreSQL节点

DataWorks的PostgreSQL节点可进行PostgreSQL任务的开发和周期性调度,以及与其他作业的集成操作。本文为您介绍使用PostgreSQL节点进行任务开发的主要流程。背景信息 PostgreSQL是一款功能强大、灵活的开源关系型数据库管理系统(RDBMS),...

云原生AI套件概述

异构计算集群概述 开启集群GPU监控 共享GPU调度概述 AI任务调度 多种调度策略支持:针对AI分布式训练等典型批量任务类型,ACK调度器扩展Kubernetes原生调度框架,支持实现多种典型批量调度策略,包括Gang Scheduling(Coscheduling)、FIFO...

AnalyticDB for MySQL

DataWorks的AnalyticDB for MySQL节点可进行AnalyticDB for MySQL任务的开发和周期性调度,以及与其他作业的集成操作。本文为您介绍使用AnalyticDB for MySQL节点进行任务开发的主要流程。前提条件 已购买相应版本服务。购买DataWorks标准...

管道概述

基本概念 管道有启用、禁用两种状态,管道被暂停时,媒体处理服务不再调度此管道中的作业执行,直到管道被重新启用为止,已在执行中的作业不受影响。管道中的任务可以有多种优先级。通过API提交的任务可以自定义优先级,最高为10,最低为1...

导入概述

该阶段是指用户提交导入作业后,等待FE调度执行。ETL 非必须。该阶段执行数据的预处理,包括清洗、分区、排序和聚合等。LOADING 该阶段先对数据进行清洗和转换,然后将数据发送给BE处理。当数据全部导入后,进入等待生效过程,此时导入作业...
共有168条 < 1 2 3 4 ... 168 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
批量计算 音视频通信 开源大数据平台 E-MapReduce 实时计算 Flink版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用