数据 ETL-数据 ETL文档介绍内容-阿里云

什么是云原生数据湖分析

支持 Kudu 支持支持 ECS自建Druid数据库数据支持支持何时使用DLA DLA主要围绕数据湖存储OSS提供一站式的云原生数据湖分析与计算方案，如果您有如下的痛点可以使用DLA：寻求一站式的数据湖解决方案，从数据高效入湖、数据的ETL、机器...

新建自定义函数

通过新建自定义函数，并与公共计算节点相关联，便于快速对数据进行ETL处理或者在数据标准中引用，自动形成质量规则。本文介绍如何创建自定义函数。前提条件已新建函数资源代码包，具体操作，请参见新建函数资源。背景信息支持为函数使用...

新建自定义函数

通过新建自定义函数，并与公共计算节点相关联，便于快速对数据进行ETL处理或者在数据标准中引用，自动形成质量规则。本文介绍如何创建自定义函数。前提条件已新建函数资源代码包，具体操作，请参见新建函数资源。背景信息支持为函数使用...

应用场景

技术领域从技术领域的角度，实时计算Flink版主要用于以下场景：实时ETL和数据流实时ETL和数据流的目的是实时地把数据从A点投递到B点。在投递的过程中可能添加数据清洗和集成的工作，例如实时构建搜索系统的索引、实时数仓中的ETL过程等。...

聚合支付：Ping+

在线交易业务轻量OLAP类业务场景，使用 PolarDB-X 分析型只读实例，避免此前将OLTP业务数据通过ETL等方式同步至异构分析数据源，降低业务架构的链路复杂度，以节省运维及预算成本。通过 PolarDB-X 分库分表，将数据库水平拆分有效解决了...

数据准备快速入门

数据准备（轻量ETL）可以将数据源表或者数据集中的数据进行清洗、聚合、关联和合并等操作，并将加工后的数据输出，让不会写SQL代码的业务人员能够低成本完成BI可视化数据的准备。常规流程为在数据源模块建立数据库连接后，开发者将数据源表...

T+1多库合并建仓

使用多库合并建仓功能时，DLA需要有删除OSS数据的权限，以便进行从OSS数据到RDS数据的ETL（Extract Transform Load）操作，请参见授权DLA删除OSS文件。同步时间设置将RDS数据同步至OSS的时间。系统默认的数据同步时间是00:30，您可以根据...

Quick BI v4.5版本说明

数据准备（轻量ETL）数据源和数据集列表页增加入口，日期格式字段聚合结果类型优化。新增对于本地文件、clickhouse、ADB3.0、SQLServer数据源的特殊日期格式识别。Quick引擎抽取加速支持按月周抽取。变更内容自助取数自助取数支持导出纯...

规格及选型

案例二：互联网SaaS用户用户为互联网SaaS客户，需要建立数据中台，涉及多数据源包括RDS、Flink、OSS等，期待在平台上完成数据的ETL流程，实现多源处理以及分析侧不同场景的混合负载支持，需要高稳定性保证，同时平台对接数据应用支持报表...

Insert Into

将已经在Doris表中的数据进行ETL转换并导入到一个新的Doris表中，适合使用INSERT INTO SELECT语法。创建一种外部表，如MySQL外部表映射一张MySQL系统中的表，或者创建Broker外部表来映射HDFS上的数据文件。然后通过INSERT INTO SELECT语法...

数据订阅操作指导

数据订阅功能可以帮助您获取数据库的实时增量数据，适用于缓存更新策略、业务异步解耦、异构数据源的数据实时同步和复杂ETL的数据实时同步等多种业务场景。本文介绍数据订阅功能的具体使用流程，帮助您快速掌握创建、监控、管理数据订阅...

功能特性

数据迁移数据迁移功能帮助您实现同构或异构数据源之间的数据迁移，适用于数据上云迁移、阿里云内部跨实例数据迁移、数据库拆分扩容等业务场景功能集功能功能描述参考文档同构迁移逻辑迁移支持同构数据库间的数据迁移。自建MySQL...

SLS的OSS投递数据源

使用DLA的Serverless Spark及Presto引擎能够计算和分析DLA元数据管理的全域数据，可以支持ETL后数据交付、低频全量日志数据分析、日志数据关联DB数据分析等业务场景。操作步骤登录 Data Lake Analytics管理控制台。在左侧导航栏，单击 ...

Spark Load

基本概念 Spark ETL：在导入流程中主要负责数据的ETL工作，包括全局字典构建（BITMAP类型）、分区、排序和聚合等。Broker：是一个独立的无状态进程。封装了文件系统接口，提供StarRocks读取远端存储系统中文件的能力。全局字典：保存了数据...

计算资源组管理

ETL 面向数据湖或数据仓库生产场景，提供大规模数据集高吞吐计算能力，弹性计算资源池按需伸缩。属性参数规则。说明属性参数类型为JSON格式。名称适用资源组类型示例值默认值取值范围描述 WORKERS OLAP 4 4[4,1024]作业工作节点数...

导入概述

在导入流程中主要负责数据的ETL和存储。Tablet StarRocks表的逻辑分片，一个表按照分区、分桶规则可以划分为多个分片，详情请参见数据分布。基本原理导入执行流程如下图所示。一个导入作业主要分为以下五个阶段。阶段描述 PENDING 非...

导入概述

在导入流程中主要负责数据的ETL和存储。Tablet StarRocks表的逻辑分片，一个表按照分区、分桶规则可以划分为多个分片，详情请参见数据分布。基本原理导入执行流程如下图所示。一个导入作业主要分为以下五个阶段。阶段描述 PENDING 非...

查询场景

业务背景 ETL场景指的是数据仓库中进行批量的数据清洗、转换和加工计算，通常扫描数据量比较大、计算逻辑复杂、关联表数量较多，计算时间比较长。ETL场景性能测试标准为TPC-DS测试集，更多信息可参见 TPC-DS测试集。测试环境 AnalyticDB ...

Insert Into

如果将已经在StarRocks表中的数据进行ETL转换并导入到一个新的StarRocks表中，则可以使用INSERT INTO SELECT语句。您可以创建一种外部表。例如，MySQL外部表映射一张MySQL系统中的表。然后通过INSERT INTO SELECT语句将外部表中的数据导入...

周期任务基本运维操作

补数据实例需要对当前任务及下游任务执行补过去某一时间段或未来某段时间的数据的操作，即需要对历史或未来时间段的数据进行ETL操作。人为针对当前周期任务手动触发补数据操作，并生成补数据实例。生成补数据实例的同时触发补数据实例执行...

功能特性

OSS数据源一键入湖通过DLA控制台配置数据源（RDS数据源、ECS自建数据库数据）和目标OSS数据仓库，系统按照您设定的数据同步时间自动、无缝的帮您把数据源中的数据同步到目标数据仓库OSS中，同时在数据仓库和DLA中创建与数据源表相同的表...

Teradata应用迁移至AnalyticDB PostgreSQL

本指南在将TD数仓应用迁移至 AnalyticDB PostgreSQL 云化数仓过程中，秉承充分复用旧系统架构、ETL算法、数据结构和工具的原则，需对原加工脚本进行转换，另外，需对历史数据进行迁移，并保证数据的准确性，完整性。对数据仓库基础数据平台...

计算层高可用

Batch模式对于类似ETL等数据清洗任务，这类任务计算时间长，计算资源消耗大，如果依然查询级别重试，整体重试代价过大时用户无法接受。对于Batch模式，Stage by Stage的计算模型下的计算failover可以做到任务粒度的failover，将失败的代价...

自建SQL Server通过物理网关迁移上云

是否支持数据加工ETL 不支持。支持。是否支持表级别数据过滤不支持。支持。是否支持库级别过滤支持。支持。迁移说明类型说明源库限制仅支持Windows上的SQL Server，且桌面Windows版本不能低于XP，服务器Windows版本不能低于2003。源...

自建SQL Server通过物理网关迁移上云

是否支持数据加工ETL 不支持。支持。是否支持表级别数据过滤不支持。支持。是否支持库级别过滤支持。支持。迁移说明类型说明源库限制仅支持Windows上的SQL Server，且桌面Windows版本不能低于XP，服务器Windows版本不能低于2003。源...

Serverless Presto概述

因此它采用全内存流水线化的执行引擎，相较于其它引擎会把中间数据落盘的执行方式，Presto在执行速度上有很大的优势，特别适合用来做Adhoc查询、BI分析、轻量级ETL等数据分析工作。阿里云数据湖分析团队在Presto之上又进行了很多的优化，...

运维中心概述

补数据实例需要对当前节点及下游节点执行补过去某一时间段或未来某段时间的数据的操作，即需要对历史或未来时间段的数据进行ETL操作。人为针对当前周期任务手动触发补数据操作，并生成补数据实例。人为针对周期任务进行补数据操作后，会...

数据传输服务（上传）场景与工具

数据同步服务：您可以通过数据集成（DataWorks）任务，提取、转换、加载（ETL）数据到MaxCompute。数据投递：您可以通过DataHub、SLS、Kafka版服务的MaxCompute Sink Connector、Blink 将数据投递至MaxCompute。开源工具及插件：您可以...

支持的云服务

MaxCompute和DataWorks提供完善的ETL、数据分析、数据地图、数据治理和数据仓库管理能力，并支持SQL、MapReduce、Graph等多种经典的分布式计算模型，能够更快速地解决用户海量数据计算问题，有效降低企业成本，保障数据安全。更多DataWorks...

什么是PolarDB MySQL企业版

无需ETL，数据分析更实时更稳定。多主多写（多主集群）所有节点同时支持读写服务，写负载可线性扩展。节点之间切换5~10s，在途事务不中断。全球多活容灾跨地域容灾，地域级故障可继续提供服务。高资源利用率，容灾集群可提供读写服务。...

Reserve参数说明

etlOperatorSetting 否 ETL的数据处理语句。更多信息，请参见数据处理DSL语法。etlOperatorColumnReference 否 T+1业务专用的字段，ETL算子。configKeyMap 否 ETL算子配置信息。syncArchitecture 否同步拓扑，取值为：oneway：单向同步。...

支持的数据库

数据同步数据同步功能帮助您实现数据源之间的数据实时同步，适用于数据异地多活、数据异地灾备、本地数据灾备、跨境数据同步、查询与报表分流、云BI及实时数据仓库等多种业务场景。同步支持的数据库、版本和同步类型以及配置文档，请参见...

查询ETL任务详情

返回数据名称类型示例值描述 RequestId String 224DB9F7-3100-4899-AB9C-C938BCCB43E7 请求ID。Success Boolean true 请求是否成功，如果失败则返回false。ErrCode String InvalidJobId 传入的ETL任务ID错误，找不到对应的任务。...

查询ETL任务日志

返回数据名称类型示例值描述 DynamicCode String 403 与本次请求相关的动态错误码。DynamicMessage String present environment is not support,so skip.与本次请求相关的动态错误信息。ErrCode String InvalidJobId 传入的ETL任务ID...

Interactive型资源组的优先级队列与并发控制

队列名配置参数默认值说明（对单个资源组）LOWEST(ETL)队列 XIHE_ENV_QUERY_ETL_MAX_CONCURRENT_SIZE 20 单个前端节点LOWEST队列的最大可运行查询数为20。XIHE_ENV_QUERY_ETL_MAX_QUEUED_SIZE 200 单个前端节点LOWEST队列的最大可排队...

ETL工作流快速体验

教程列表 DataWorks当前支持的ETL工作流模板列表如下：说明 ETL工作流模板载入数据开发模块后，您可通过查看虚拟节点（业务流程第一个节点）查看案例详情。教程（点击链接快速体验）涉及产品涉及模块 DataWorks版本要求教程描述网站...

名称类型描述示例值 object ETL name string job name ETL description string job description ETL displayName string job displayName ETL configuration ETLConfiguration 数据加工配置 createTime long 创建时间 lastModifiedTime ...

典型场景

ETL离线数据处理面对复杂SQL优化和海量数据大规模聚合分析等挑战，云原生数据仓库AnalyticDB PostgreSQL版具有如下技术优势：支持标准SQL、OLAP窗口函数和存储过程。ORCA分布式SQL优化器，复杂查询免调优。MPP多节点全并行计算，PB级数据...

设计阶段

完成需求阶段的工作后，数据产品经理会产出最终版本的产品...数据流设计 ETL过程中，数据流向有如下限制：数据流向仅支持由低到高，即ODS->DWD->DWS->ADS。数据不能跨层引用、逆向引用。DWS层不同集市的数据不能相互引用，必须沉淀到DWD层。

构建数据仓库

数据开发：基于DataWorks进行数据全链路研发，包括数据集成、数据开发和ETL、转换及计算等开发，以及数据作业的调度、监控、告警等。DataWorks提供数据开发链路的安全管控的能力，以及基于DataWorks数据服务模块提供统一数据服务API能力。...

数据 ETL

新品推荐