Routine Load

基本原理 Client向FE提交一个Routine Load作业原理如下:+-+|Client|+-+-+|+-+|FE|+-v-+|Routine Load Job|+-+-+-+-+|+-v-+-v-+-v-+|task|task|task|+-+-+-+-+-+-+|+-+|v v v+-+-+-+-+-+|BE|BE|BE|+-+-+-+FE通过JobScheduler将一个导入...

灵骏智算资源组使用指南

查看事件日志 事件日志中记录了这个作业调度以及资源相关的一些进度日志。在 任务详情 页面下方的 事件 页签,查看某个节点的输出日志。在 任务详情 页面下方的 实例 页签,单击实例 操作 列下的 日志,在弹出的对话框中单击事件,查看节点...

使用Azkaban调度MaxCompute

MaxCompute支持您通过Azkaban实现作业调度,帮助您高效地完成高频数据分析工作。本文以通过MaxCompute客户端执行命令(Command)的方式为例为您介绍如何使用Azkaban调度SQL作业。背景信息 Azkaban是一套作业调度系统,可以调度Command、...

管理工作

重要 周期调度工作流创建后,需要将 调度状态 开启,才能在生效时间点触发运行。失败重试次数 为工作流中的节点统一设置失败重试的次数,默认失败不重试。失败通知 工作流节点失败时默认的通知邮箱。资源队列 工作流的部署目标,详情请参见...

项目管理

创建Databricks 数据洞察集群后,您可以在数据开发中创建项目,并在项目中进行作业的编辑和工作流的调度。新建项目之后,您可以对项目进行管理,为项目关联集群资源、添加项目成员以及设置全局变量。前提条件 已创建集群,详情请参见 集群...

使用负载热点打散重调度

koord-descheduler模块工作原理 ack-koordinator组件提供koord-descheduler模块,其中LowNodeLoad插件负责感知负载水位并完成热点打散重调度工作。与Kubernetes原生的Descheduler的插件LowNodeUtilization不同,LowNodeLoad是根据节点真实...

通过虚拟节点将Pod调度到ECI上运行

工作原理 阿里云弹性容器实例ECI(Elastic Container Instance)是面向容器设计的无服务器弹性计算服务,提供了免运维、强隔离、能快速启动的容器运行环境。使用ECI时,您无需购买和管理底层ECS服务器,可以更加关注容器应用而非底层基础...

导入概述

在导入流程中主要负责导入执行计划的生成和导入任务的调度工作。BE Backend,StarRocks系统的计算和存储节点。在导入流程中主要负责数据的ETL和存储。Tablet StarRocks表的逻辑分片,一个表按照分区、分桶规则可以划分为多个分片,详情请...

导入概述

在导入流程中主要负责导入执行计划的生成和导入任务的调度工作。BE Backend,StarRocks系统的计算和存储节点。在导入流程中主要负责数据的ETL和存储。Tablet StarRocks表的逻辑分片,一个表按照分区、分桶规则可以划分为多个分片,详情请...

云原生AI套件概述

场景二:高效运行AI等异构工作负载 云原生AI套件兼容TensorFlow、PyTorch、Horovod、Spark、Flink等主流开源或者用户自有的各种计算引擎和运行时,统一运行各类异构工作负载,统一管理作业生命周期,统一调度任务工作流,保证任务规模和...

迁移Batch批量计算到分布式工作流Argo集群

功能映射 功能分类 Batch批量计算 Argo Workflows 用户体验 批量计算CLI Argo Workflows CLI Json定义作业 YMAL定义作业 SDK SDK 核心能力 作业(Jobs)工作流(Workflows)Array jobs 工作流(Workflows)Loops Job dependencies 工作流...

通过命令行提交作业

E-HPC支持PBS、SLURM、SGE等作业调度系统,本文介绍如何使用三种调度系统,通过命令行提交作业。准备工作 创建集群用户。具体操作,请参见 创建用户。集群用户用于登录集群,进行编译软件、提交作业等操作,本文创建的用户示例如下:用户名...

分布式工作流Argo集群概述

分布式工作流Argo集群(简称 工作流集群)采用无服务器模式,使用阿里云弹性容器实例ECI运行工作流,通过优化Kubernetes集群参数,实现大规模工作流的高效弹性调度,同时配合抢占式ECI实例,优化成本。本文介绍 工作流集群 的控制台操作...

Node Labels特性使用

说明 这里只介绍Node Labels配置节点映射最方便的centralized模式便于理解工作原理,EMR-5.11.1及之后版本和EMR-3.45.1及之后版本已经默认使用 yarn.node-labels.configuration-type=distributed 模式,无需使用本文提供的手动添加命令,...

快速入门

本文为您介绍如何通过阿里云E-MapReduce(简称EMR)控制台,快速创建EMR Studio集群并开展交互式开发和工作流调度工作。背景信息 如果您想了解更多Zeppelin、Jupyter和Airflow的信息,请参见以下内容:Zeppelin概述 管理JupyterHub 定期...

工作原理

本文介绍智能巡检的背景信息、工作原理、功能特性、基本概念、调度与执行场景和使用建议。背景信息 基于时间的数据(例如日志、指标)日积月累后会积累大量的数据。例如,某个服务每天产生1000万条数据,则一年大约为36亿条数据。对于这些...

通用计算资源配额

调度策略 选择合适的调度策略,提高算力资源的利用率,取值如下:智能策略 均衡策略 遍历策略 FIFO策略 关于各个调度策略的原理介绍,请参见 调度策略。关联工作空间 选择所属的工作空间后,该资源配额将与该工作空间绑定。描述 对资源配额...

使用Kettle调度MaxCompute

MaxCompute支持您通过ETL工具Kettle实现MaxCompute作业调度。您可以通过拖拽控件的方式,方便地定义数据传输的拓扑结构。本文为您介绍如何通过MaxCompute JDBC驱动,连接Kettle和MaxCompute项目并调度作业。背景信息 Kettle是一款开源的ETL...

文档修订记录

EMR Hive数据整库离线同步至MaxCompute 2023.4.17 优化体验 管理控制 在创建DataWorks工作空间时,您需要选择工作空间所在地域,默认情况下DataWorks工作空间所在地域对应的时区即为调度时区(即任务定时调度时间所使用的时区)。...

前言

工作原理 创建 App:创建 App 时,将运行作业需要的软件或脚本安装在自定义的镜像中,并设置资源的默认配置,以及输入输出的格式。提交 App 作业:提交作业时,按照上述资源配置启动虚拟机镜像或 Docker 镜像,使用用户输入的数据运行软件...

湖仓版作业调度

云原生数据仓库AnalyticDB MySQL版 湖仓版(3.0)的作业调度提供离线SQL应用、Spark应用的复杂任务流功能,具备灵活的ETL数据处理、数据开发等能力。使用流程 前提条件 如果通过阿里云账号(主账号)登录,使用作业调度功能需要满足以下两...

项目空间运维与监控

对于需要复盘操作记录时,可以通过 审计日志 功能,查询具体操作记录,如下图:工作流运维 工作流的运维主要围绕作业信息展示和调度告警展开,其中包含作业流程监控,作业图形化展示、变更审计日志等功能。实例信息展示 当需要监控工作流...

工作流编辑

E-MapReduce工作流支持基于有向无环图(DAG)并行执行大数据作业,您可以通过E-MapReduce控制台管控工作调度以及查看工作流的执行状态。背景信息 本文为您提供工作流编辑的相关操作介绍,具体如下:新建工作流 编辑工作流 配置工作调度...

MaxCompute分区表数据导入

在日常工作中会经常需要进行数据导入,此时可以借助DataWorks的强大调度作业编排能力,实现周期性调度,配置一个调度作业覆盖数据导入两个场景,详情请参见 DataWorks作业案例。考虑到作业较为复杂,所以可以利用DataWorks的迁移助手功能...

任务编排(公测)

任务编排是一个全托管的工作调度服务,通过可视化的操作界面轻松地编排批作业运行的顺序,构建数据仓库,在实时计算Flink版平台实现开发、调度、部署和运维一体化。重要 任务编排目前为公测功能,公测阶段不保障服务等级协议SLA。如果您...

确认表血缘

确认表血缘 同空间下确认上游表血缘 节点周期写入某张表某个分区的数据,大部分场景都是采用调度参数来动态实现,您可参考 调度参数,了解调度参数的替换原理。若您需要依赖同工作空间某节点,则可检查其调度参数的配置情况。开发环境确认...

开发PyODPS 3任务

DataWorks为您提供PyODPS 3节点,您可以在该节点中直接使用Python代码编写MaxCompute作业,并进行作业的周期性调度。本文为您介绍如何通过DataWorks实现Python任务的配置与调度。前提条件 已创建PyODPS 3节点,详情请参见 创建并管理...

使用Gang scheduling

ACK基于新版的Kube-scheduler框架实现Gang scheduling的能力,解决原生调度器无法支持All-or-Nothing作业调度的问题。本文介绍如何使用Gang scheduling。重要提示 请预留足够资源:使用弹性节点池时请保证弹性节点池的最大资源量以及节点...

使用Gang scheduling

ACK基于新版的Kube-scheduler框架实现Gang scheduling的能力,解决原生调度器无法支持All-or-Nothing作业调度的问题。本文介绍如何使用Gang scheduling。重要提示 请预留足够资源:使用弹性节点池时请保证弹性节点池的最大资源量以及节点...

YARN概述

YARN是Hadoop系统的核心组件,主要功能包括负责在Hadoop集群中的资源管理,负责对作业进行调度运行以及监控。基本概念 名称 描述 ResourceManager 负责集群的资源管理与调度,为运行在YARN上的各种类型作业分配资源。非HA集群部署在EMR的...

E-MapReduce的审计事件

CloneFlow 克隆工作流。CloneFlowJob 克隆作业。Create 登录产品售卖页面进行的购买操作。CreateBackup 创建备份。CreateBackupPlan 创建备份计划。CreateCluster 创建新集群。CreateClusterBootstrapAction 创建集群引导脚本。...

DMS作业调度

本文介绍 AnalyticDB PostgreSQL版 如何通过DMS的作业调度功能,实现定时调度RDS PostgreSQL数据库的数据。功能介绍 本次作业调度使用OSS作为中间态的存储,调度任务会将数据从RDS PostgreSQL数据库加载到OSS上,再使用 AnalyticDB ...

PAI-TF概述

MaxCompute全局计算调度服务能够将PAI-TF作业自动调度至相应的GPU集群,并将基于CPU集群的数据预处理作业和基于GPU集群的模型训练作业连接起来。GPU卡映射 PAI-TF支持将不同算子(Operators)指定至特定的CPU或GPU上。基于GPU卡映射,您...

工作调度

工作流调度至少要有2个Job,且有依赖关系。如果只有一个Job,请直接使用任务管理。工作流支持跨应用编排,可以将不同应用下的任务进行编排。使用限制 当前只有Java任务支持数据传输,分布式Java任务请使用MapReduce模型进行数据传输。使用 ...

高级功能:全局变量

在PAI工作流中配置的全局变量值仅用于在线运行工作流使用,离线调度时会使用调度中配置的参数值替换运行。本示例以以下工作流为例,源数据包括两个分区的数据。准备源数据。配置全局变量。具体步骤请参见 示例1:工作流内组件公用参数。本...

工作原理

调度与执行 一个作业可生成一个或多个实例,无论是正常被调度还是您触发异常实例重试的情况,同时只有一个实例处于运行中,不存在多个实例并发执行的情况。主要的调度与执行场景如下:场景一:从当前时间开始文本分析作业。从当前时间发起...

注册集群概述

支持跨集群作业任务调度,提供面向多集群优化的TensorFlow、Spark、CronJob等作业任务分发和调度。AI推理:提供GPU共享,资源利用率可提高约300%。支持异构资源弹性伸缩,提供云上云下统一的弹性调度管理。CPU智能调度:针对裸机的智能CPU...

CPU拓扑感知调度

在以下场景中,建议使用CPU拓扑感知调度工作负载为计算密集型。应用程序对CPU敏感。运行在神龙裸金属(Intel、AMD)等多核机器上。通过在物理机上部署两个4核8 GB的Nginx并进行压测,发现在Intel(104核)、AMD(256核)的物理机上,使用...

YARN资源配置

EMR会在创建集群和新增节点组第一次扩容时会配置一次 yarn.scheduler.maximum-allocation-mb,保证该值大于创建集群时所有节点和新增节点组扩容时扩容节点的 yarn.nodemanager.resource.memory-mb,避免作业无法调度。节点组升配或者手动...

产品功能

多种调度任务类型 在定时调度工作调度中支持基于多语言的多种任务类型。Java 针对Java应用,依赖Java SDK接入,运行Java应用中的某个方法。更多信息,请参见 Java任务。脚本任务 在线编写脚本运行,支持Shell、Python等脚本。更多信息...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
开源大数据平台 E-MapReduce 批量计算 音视频通信 实时计算 Flink版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用