大数据 etl 调度-大数据 etl 调度文档介绍内容-阿里云

计算节点配置说明

如果需要查看历史日期的调度结果，如前几天的调度数据结果，可以使用补数据功能，具体操作，请参见新建补数据计划。调度周期支持按月、周、天、小时和分钟调度。具体时间根据选择的周期客户自定义具体开始和结束的时间。时间表达式根据...

计算节点配置说明

如果需要查看历史日期的调度结果，如前几天的调度数据结果，可以使用补数据功能，具体操作，请参见新建补数据计划。调度周期支持按月、周、天、小时和分钟调度。具体时间根据选择的周期客户自定义具体开始和结束的时间。时间表达式根据...

典型场景

云原生数据仓库PostgreSQL版支持对海量数据的复杂ETL进行处理，这些操作任务也可以被DataWorks调度。同时它还支持高性能的在线分析能力，可以通过Quick BI、DataV、Tableau、帆软等即时查询数据，并将数据以报表形式展现。大数据分析平台 ...

步骤五：设置离线节点的调度信息

如果需要查看历史日期的调度结果，如前几天的调度数据结果，可以使用补数据功能，具体操作，请参见新建补数据计划。2021-10-28~2021-11-05 调度周期调度的执行周期，支持月、周、天、小时和分钟。天具体时间自定义具体开始的时间。18时...

步骤五：设置离线节点的调度信息

如果需要查看历史日期的调度结果，如前几天的调度数据结果，可以使用补数据功能，具体操作，请参见新建补数据计划。2021-10-28~2021-11-05 调度周期调度的执行周期，支持月、周、天、小时和分钟。天具体时间自定义具体开始的时间。18时...

资源监控

说明调度资源大盘的资源监控数据来源于Prometheus，请确保您后台部署的Prometheus监控服务处于正常状态，否则监控数据可能有误或无法展示。操作步骤使用元仓账号或系统管理员账号进入元仓租户。在Dataphin首页，单击顶部菜单栏管理中心...

产品功能

数据偏移时间 SchedulerX可以处理有数据状态的任务，在创建任务的时候设置调度时间，而实际上处理的数据时间可能和任务执行时间不一致，可以配置时间偏移，调度时间+时间偏移即数据时间。例如一个任务是每天00:30运行，但是实际上要处理前...

RDS SQL Server实例间的迁移

由于全量数据迁移会并发执行INSERT操作，导致目标数据库的表产生碎片，因此全量迁移完成后目标数据库的表存储空间会比源实例的表存储空间大。请确认DTS对数据类型为FLOAT或DOUBLE的列的迁移精度是否符合业务预期。DTS会通过 ROUND(COLUMN,...

MyBase SQL Server迁移至RDS SQL Server

由于全量数据迁移会并发执行INSERT操作，导致目标数据库的表产生碎片，因此全量迁移完成后目标数据库的表存储空间会比源实例的表存储空间大。请确认DTS对数据类型为FLOAT或DOUBLE的列的迁移精度是否符合业务预期。DTS会通过 ROUND(COLUMN,...

自建SQL Server迁移至AnalyticDB for PostgreSQL

数据传输服务DTS（Data Transmission Service）支持将自建SQL Server迁移至云原生数据仓库AnalyticDB PostgreSQL版，帮助您轻松实现数据的传输，用于实时数据分析。前提条件该迁移任务仅支持在新版控制台配置。自建SQL Server数据库支持...

PolarDB PostgreSQL版（兼容Oracle）间迁移

由于全量数据迁移会并发执行INSERT操作，导致目标数据库的表产生碎片，因此全量迁移完成后目标数据库的表存储空间会比源实例的表存储空间大。请确认DTS对数据类型为FLOAT或DOUBLE的列的迁移精度是否符合业务预期。DTS会通过 ROUND(COLUMN,...

应用场景

云原生数据仓库AnalyticDB MySQL版为千万家企业级客户提供了数据处理ETL、实时在线分析、核心报表、大屏和监控能力，为广大商家和消费者提供稳定的离线和在线数据服务。本文介绍云原生数据仓库AnalyticDB MySQL版的五个使用场景：实时数...

数据质量概述

数据质量帮助您第一时间感知源端数据的变更与ETL（Extract Transformation Load）中产生的脏数据，自动拦截问题任务，有效阻断脏数据向下游蔓延。避免任务产出不符合预期的问题数据，影响正常使用和业务决策。同时也能显著降低问题处理的...

新建并启用物理表质量检查计划

如果需要查看历史日期的调度结果，如前几天的调度数据结果，可以使用补数据功能，具体操作，请参见新建补数据计划。具体时间选择规则计划运行的时间点。分区产出检测开启该项后，质量任务将在配置时间范围内，进行分区产出检测，该时间...

简介

栅格化GIS应用及航天航空遥感应用 HBase Ganos提供了针对栅格数据管理的通用化模型支持，能够有效支撑大规模遥感影像数据和GIS栅格GRID数据的存储、查询和基础分析处理能力，包括ETL工具支持遥感影像重投影、拼接、切片、入库，支持OGC WMS...

配置同步任务（新控制台）

数据传输服务DTS（Data Transmission Service）提供的数据同步功能简单易用，您只需在新版控制台上进行简单操作，即可完成整个数据同步作业的配置。注意事项本文仅简单介绍数据同步任务的通用配置流程，不同的同步链路在配置数据同步任务...

设计阶段

设计完毕后，最终将产出供开发人员参照实施开发的ETL设计文档、数据探查文档、调度设计文档，为需求的有效实现打下坚实基础。设计阶段的流程包括以下步骤：数据探查数据探查的目的是了解数据的形态，找到潜在问题与风险。数据探查是决定...

快速体验

数据加工使用 DataWorks数据开发（DataStudio）模块，将日志数据通过函数正则等方式拆解为可分析字段，并与用户信息表加工汇总产出基本的用户画像数据，并提交调度系统，结合DataWorks调度参数实现周期性数据清洗操作。学习如下内容：如何...

创建CDH Spark节点

Spark是一个通用的大数据分析引擎，具有高性能、易用和普遍性等特点，可用于进行复杂的内存分析，构建大型、低延迟的数据分析应用。...大规模ETL任务：进行大数据集的抽取、转换和加载，为数据仓库或其他存储系统准备数据。

实验介绍

数据采集数据加工配置数据质量监控数据可视化展现目标人群开发工程师、数据分析师、产品运营等存在数仓数据获取与数据分析洞察人员。涉及产品本案例涉及以下产品：一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集，...

逻辑表调度配置概述

对于逻辑表任务，您需定义任务的调度相关属性，包括调度属性、上游依赖、调度参数等。本文为您介绍逻辑表任务调度的相关内容。逻辑表调度配置入口请参见逻辑表任务配置入口，进入逻辑表任务配置页面。单击调度配置，进入逻辑表调度配置 ...

整体架构

BSP模式，通过DAG进行任务切分，分批调度，满足有限资源下大数据量计算，支持计算数据落盘。羲和计算引擎提供自动切换能力，即当查询使用MPP模式无法在一定耗时内完成时，系统会自动切换为BSP模式进行执行。湖仓版新增的开源Spark计算引擎...

导入概述

为了更好地满足各种不同的业务场景，StarRocks支持多种数据模型，StarRocks中存储的数据需要按照特定的模型进行组织。本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景，以及一些最佳实践案例和常见问题。背景信息...

功能发布记录（2023年）

生成SQL、改写SQL、纠正SQL错误、生成SQL注释），帮助您轻松、高效地完成数据ETL及数据分析工作，节省大量时间和精力。2023.10.30 西南1（成都）华北3（张家口）华北2（北京）华东2（上海）华南1（深圳）华东1（杭州）华北6（乌兰察布）...

RDS SQL Server同步至云原生数据仓库 AnalyticDB ...

数据传输服务DTS（Data Transmission Service）支持将 RDS SQL Server 同步至云原生数据仓库AnalyticDB MySQL版 3.0，帮助您轻松实现数据的传输，用于实时数据分析。前提条件已创建源 RDS SQL Server 实例，支持的版本，请参见同步方案...

RDS SQL Server同步至云原生数据仓库 AnalyticDB ...

数据传输服务DTS（Data Transmission Service）支持将 RDS SQL Server 同步至云原生数据仓库AnalyticDB MySQL版 3.0，帮助您轻松实现数据的传输，用于实时数据分析。前提条件已创建源 RDS SQL Server 实例，支持的版本，请参见同步方案...

云数据库MongoDB版（分片集群架构）间的双向同步

数据传输服务DTS（Data Transmission Service）支持云数据库MongoDB版（分片集群架构）间的双向同步，适用于异地多活（单元化）、数据异地容灾等多种应用场景。本文介绍双向数据同步的配置步骤。前提条件已创建源和目标云数据库MongoDB...

云数据库MongoDB版（分片集群架构）间的双向同步

数据传输服务DTS（Data Transmission Service）支持云数据库MongoDB版（分片集群架构）间的双向同步，适用于异地多活（单元化）、数据异地容灾等多种应用场景。本文介绍双向数据同步的配置步骤。前提条件已创建源和目标云数据库MongoDB...

AUTO模式核心特性及典型场景

热点分裂——有效解决数据热点对于热点数据，PolarDB-X 支持两种处理方式：第一种方案是将热点数据所在的分区数据迁移到特定的数据节点，让热点数据以独享存储资源的方式服务业务，能够实现热点数据不影响非热点数据的业务。具体操作步骤...

从Amazon RDS Oracle迁移至阿里云RDS MySQL

注意事项 DTS在执行全量数据迁移时将占用源库和目标库一定的读写资源，可能会导致数据库的负载上升，在数据库性能较差、规格较低或业务量较大的情况下（例如源库有大量慢SQL、存在无主键表或目标库存在死锁等），可能会加重数据库压力，...

导入概述

为了更好地满足各种不同的业务场景，StarRocks支持多种数据模型，StarRocks中存储的数据需要按照特定的模型进行组织。本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景，以及一些最佳实践案例和常见问题。背景信息...

公交出行：启迪公交

PolarDB-X 专注解决海量数据存储、超高并发吞吐、大表瓶颈以及复杂计算效率等数据库瓶颈问题，历经各届天猫双十一及阿里云各行业客户业务的考验，助力企业加速完成业务数字化转型。本文介绍启迪公交如何通过 PolarDB-X 应对业务挑战。所属...

SLS的OSS投递数据源

使用DLA的Serverless Spark及Presto引擎能够计算和分析DLA元数据管理的全域数据，可以支持ETL后数据交付、低频全量日志数据分析、日志数据关联DB数据分析等业务场景。操作步骤登录 Data Lake Analytics管理控制台。在左侧导航栏，单击 ...

版本发布记录

接入DataWorks任务调度接入DataWorks任务调度，使得用户能够可视化轻松定制数据湖分析的数据处理流程，实现云上大数据WorkFlow。接入函数计算接入函数计算，使得用户能够基于这两款Serverless化云产品，构建云原生Serverless工作流。接入...

常见问题

一般来说，追赶固定的数据量时，调度周期越大，追赶速度越快。例如：追赶一天的数据量，调度周期为1分钟时，需要执行1440个实例，每个实例运行20秒。追赶一天的数据量，调度周期为1小时时，需要执行24个实例，每个实例运行2分钟。日志服务...

权限管理与规范化数据开发

其中生产环境的MaxCompute访问身份即调度访问身份，是开发任务发布到生产环境进行周期性调度运行时所使用的身份，通常情况下为保证调度任务顺利进行，比起开发者自己的身份来，调度访问身份往往拥有较大数据范围读写权限。生产环境...

文档修订记录

DataWorks数据安全治理路线 2023年12月更新记录时间特性类别描述产品文档 2023.12.29 新增功能数据开发若您要在DataWorks中进行数据建模、数据开发或使用运维中心周期性调度任务，需先将已创建的数据源或集群绑定至数据开发...

工作原理

大部分场景下，连续生成的实例的调度时间是连续的，可处理完整的数据集。SQL时间窗口：定时SQL任务运行时，日志服务仅分析该时间范围内的数据。SQL时间窗口基于调度时间计算而得，左闭右开格式，且与实例的创建时间、执行时间无关。例如...

数据存储冷热分层

云原生数据仓库AnalyticDB PostgreSQL版支持冷热分层存储，可以将访问频次低的热表转换为冷表存储到OSS中，以降低存储成本。本文介绍数据存储冷热分层的使用限制和使用方法。说明本文中将存储在本地磁盘的数据表称为热表，将存储在远端...

Spark概述

使用场景离线ETL 离线ETL主要应用于数据仓库，对大规模的数据进行抽取（Extract）、转换（Transform）和加载（Load），其特点是数据量大，耗时较长，通常设置为定时任务执行。在线数据分析（OLAP）在线数据分析主要应用于BI（Business ...

大数据 etl 调度

新品推荐