大数据数据平台-大数据数据平台文档介绍内容-阿里云

Oracle数据源

由于主备数据同步存在一定的时间差，在网络延迟等特定情况下，会导致备库同步恢复的数据与主库有较大差别，从备库同步的数据不是一份当前时间的完整镜像。一致性约束 Oracle在数据存储划分中属于RDBMS系统，对外可以提供强一致性数据查询...

MariaDB数据源

MariaDB数据源为您提供读取和写入MariaDB的双向通道，本文为您介绍DataWorks的MariaDB数据同步能力支持情况。支持的MariaDB版本离线读写支持MariaDB 5.5.x、MariaDB 10.0.x、MariaDB 10.1.x、MariaDB 10.2.x、MariaDB 10.3.x版本，且离线...

Redis数据源

DataWorks数据集成支持使用Redis Writer将数据写至Redis，本文为您介绍DataWorks的Redis数据离线写入能力。使用限制数据导入过程仅支持使用独享数据集成资源组。使用Redis Writer向Redis写入数据时，如果Value类型是List，重跑同步任务的...

DataWorks模块使用说明

使用流程与主要子模块 DataWorks为您提供从端到端的一站式数据开发治理平台，数据处理流程主要包括以下几个阶段。各个阶段DataWorks的主要子模块如下。数据集成子模块：数据集成功能说明：数据集成是稳定高效、弹性伸缩的数据同步平台，...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

HybridDB for MySQL数据源

HybridDB for MySQL数据源为您提供读取和写入HybridDB for MySQL的双向功能，本文为您介绍DataWorks的HybridDB for MySQL数据同步能力支持情况。使用限制离线同步支持读取视图表。HybridDB for MySQL Reader插件支持读取表和视图。表字段...

什么是数据资源平台

协同数据同步：数据同步可实现离线、实时多源异构数据的便捷同步或接入，系统可提供完善的数据接入配置、数据模板配置、数据同步任务运行监控等功能，有效保障数据接入的稳定性和可控性，满足各类平台、数据源及应用系统间的数据汇聚需求...

Kafka数据源

实时同步写入数据到Kafka时，写入的格式为内置的JSON格式，写入数据为包含数据库变更消息的数据、业务时间和DDL信息的所有数据，数据格式详情请参见附录：消息格式。同步任务类型写入Kafka value 的格式源端字段类型写入时的处理方式 ...

RestAPI（HTTP形式）数据源

RestAPI数据源为您提供读取和写入RestAPI双向通道的功能，本文为您介绍DataWorks的RestAPI数据同步的能力支持情况。使用限制目前该数据源仅支持独享数据集成资源组。目前不支持设置超时参数，当前DataWorks内置的请求超时时间是60s,如果...

DataHub数据源

DataHub数据源作为数据中枢，为您提供读取和写入DataHub数据库的双向通道，能够快速解决海量数据的计算问题。本文为您介绍DataWorks的DataHub数据同步的能力支持情况。支持的版本 DataHub Reader通过DataHub的Java SDK读取DataHub中的数据...

PostgreSQL数据源

否无 fetchSize 该配置项定义了插件和数据库服务器端每次批量数据获取条数，该值决定了数据集成和服务器端的网络交互次数，能够较大地提升数据抽取性能。说明 fetchSize 值过大（>2048）可能造成数据同步进程OOM。否 512 PostgreSQL ...

MySQL分库分表同步至Hologres（方案2.0）

限流：考虑到速度过高可能对数据库造成过大的压力从而影响生产，数据集成同时提供了限速选项，您可以通过限流控制同步速率，从而保护读取端数据库，避免抽取速度过大，给数据库造成太大的压力。限速最小配置为1MB/S，最高上限为30MB/s。离...

Vertica数据源

否无 fetchSize 该配置项定义了插件和数据库服务器端每次批量数据获取条数，该值决定了数据集成和服务器端的网络交互次数，能够较大地提升数据抽取性能。说明 fetchSize 值过大（>2048）可能造成数据同步进程OOM。否 1,024 Writer脚本Demo...

DB2数据源

DB2数据源作为数据中枢，为您提供读取和写入DB2数据库的双向通道，能够快速解决海量数据的计算问题。本文为您介绍DataWorks的DB2数据同步的能力支持情况。支持的版本 DB2 Reader和DB2 Writer使用的DB2驱动版本为 IBM Data Server Driver ...

EMR Hive数据整库离线同步至MaxCompute

背景信息 Hive是基于Hadoop的一个数据仓库工具，用来进行数据的提取、转化、加载，可以存储、查询和分析存储在Hadoop中的大规模数据。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成...

AnalyticDB for PostgreSQL数据源

AnalyticDB for PostgreSQL数据源提供读取和写入AnalyticDB for PostgreSQL的双向功能，本文为您介绍DataWorks的AnalyticDB for PostgreSQL数据同步的能力支持情况。使用限制离线同步支持读取视图表。支持的版本支持版本最高至7.0（含）...

离线同步任务调优

在数据库性能限制的情况下，同步速度并非越快越好，考虑到速度过高可能对数据库造成过大的压力从而影响生产，数据集成支持了限速选项，您可根据业务合理配置该值。详情请参见：限制同步速度。数据同步速度的影响因素数据同步速度受来源与...

选型配置说明

HDFS、YARN、Hive、Spark、Presto、Impala、JindoData、DeltaLake、Hudi、Iceberg、OpenLDAP、Knox、Kyuubi等 Dataflow 实时数据流场景，其中核心组件Flink是阿里云提供的基于Apache Flink和E-MapReduce Hadoop构建的企业级大数据计算平台...

准备数据

在数据准备阶段，您需要同步原始数据至MaxCompute。前提条件已完成准备环境。已新增MaxCompute数据源。详情请参见创建MaxCompute数据源。准备数据源通过RDS创建MySQL实例，获取RDS实例ID。详情请参见快速创建RDS MySQL实例。在RDS控制...

数据管理

阿里云EMR Delta Lake提供了强大的数据处理能力，可以帮助您管理和操作数据，确保数据的质量和一致性。本文为您介绍EMR Delta Lake如何进行删除、更新与合并数据等操作。DELETE 该命令用于删除数据。示例如下。SQL DELETE FROM delta_table...

流程管控

任务运行前校验示例任务提交前校验示例任务发布前校验示例您可以通过DataWorks的开放平台、数据治理等功能模块，实现在关键节点对数据开发流程的管控校验。涉及的功能模块运行前校验提交前校验发布前校验流程管控能力引导介绍数据...

GBase8a数据源

否无 fetchSize 该配置项定义了插件和数据库服务器端每次批量数据获取条数，该值决定了数据集成和服务器端的网络交互次数，能够较大地提升数据抽取性能。说明 fetchSize 值过大（>2048）可能造成数据同步进程OOM。否 1,024 Writer脚本Demo...

IoT数据自动化同步至云端解决方案

物联网的体系结构包括设备、网络、平台、分析、应用和安全，其中分析部分的主要内容为大数据分析。大数据分析是大数据完成数据价值化的重要手段之一，而进行大数据分析的第一步是让数据成功上云。解决方案 IoT数据自动化同步至云端解决方案...

整库离线同步至OSS

您需要在数据集成同步任务配置前，配置好您需要同步的源端和目标端数据库，以便在同步任务配置过程中，可通过选择数据源名称来控制同步任务的读取和写入数据库。同步解决方案支持的数据源及其配置详情请参见支持的数据源与读写能力。说明 ...

MaxCompute湖仓一体概述

本文介绍如何通过MaxCompute和异构数据平台构建湖仓一体（本功能处于公测阶段）。湖仓一体搭建 MaxCompute湖仓一体方案通过数据仓库MaxCompute和数据湖共同实现。当前支持的湖仓一体构建方式如下：通过MaxCompute、数据湖构建DLF和对象存储...

典型场景

大数据分析平台对于MaxCompute、Hadoop和Spark中保存的海量数据，可通过采用数据集成服务（DataX）或通过对象存储服务（OSS），快速批量导入到云原生数据仓库AnalyticDB PostgreSQL版，帮助您实现高性能分析处理和在线数据探索。...

MySQL数据源

MySQL数据源为您提供读取和写入MySQL的双向通道，本文为您介绍DataWorks的MySQL数据同步的能力支持情况。支持的MySQL版本离线读写：支持MySQL 5.5.x、MySQL 5.6.x、MySQL 5.7.x、MySQL 8.0.x，兼容 Amazon RDS for MySQL、Azure MySQL。离...

DataWorks On EMR使用说明

背景信息开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。阿里云...

Lindorm数据源

DataWorks数据集成支持使用Lindorm Reader和Lindorm Writer插件读取和写入Lindorm双向通道的功能，本文为您介绍DataWorks的Lindorm数据读取与写入能力。使用限制 Lindorm不需要在DataWorks上配置数据源，可直接使用脚本模式配置任务，通过...

SelectDB数据源

DataWorks数据集成支持使用SelectDB ...否无 flushInterval 数据写入批次的时间间隔（单位：ms），如果 maxBatchRows 和 batchSize 参数设置的很大，则可能还未达到设置的数据量大小，系统就会根据写入的时间间隔执行数据导入。否 30000

SAP HANA数据源

SAP HANA数据源为您提供读取和写入SAP HANA双向通道的功能，本文为您介绍DataWorks的SAP HANA数据同步的能力支持情况。使用限制离线同步支持读取视图表。目前该数据源仅支持独享数据集成资源组。支持的字段类型 SAP HANA Reader针对SAP ...

SQL Server数据源

由于主备数据同步存在一定的时间差，特别在于某些特定情况，例如网络延迟等问题，导致备库同步恢复的数据与主库有较大差别，从备库同步的数据不是一份当前时间的完整镜像。一致性约束 SQL Server在数据存储划分中属于RDBMS系统，对外可以...

DRDS（PolarDB-X）数据源

DRDS（PolarDB-X）数据源为您提供读取和写入DRDS（PolarDB-X）双向通道的功能，本文为您介绍DataWorks的DRDS（PolarDB-X）数据同步的能力支持情况。支持的版本实时读取支持DRDS（PolarDB-X 1.0）和PolarDB-X 2.0的非只读实例。创建DRDS...

Doris数据源

DataWorks数据集成支持使用Doris Writer导入表数据至Doris。本文为您介绍DataWorks的Doris数据同步能力支持情况。支持的Doris版本 Doris Writer使用的驱动版本是MySQL Driver 5.1.47，该驱动支持的内核版本如下。驱动能力详情请参见 Doris...

AnalyticDB for MySQL 3.0数据源

AnalyticDB for MySQL 3.0数据源为您提供读取和写入 AnalyticDB for MySQL 3.0双向通道的功能，本文为您介绍DataWorks的AnalyticDB for MySQL 3.0数据同步的能力支持情况。使用限制 ADB湖仓版数据源不支持在公共资源组配置以及运行同步任务...

数据开发概述

DataWorks数据开发（DataStudio）模块用于定义周期调度任务的开发及调度属性，与运维中心配合使用，面向各引擎（MaxCompute、Hologres、EMR等）提供可视化开发主界面，支持智能代码开发、多引擎混编工作流、规范化任务发布等能力，帮助您...

MaxCompute表数据

包括数据检索、数据预览、查看元数据详情、查看数据血缘关系、分类分组管理数据表等操作。本文为您介绍如何在数据地图查看和管理MaxCompute表。前提条件已绑定MaxCompute引擎至当前工作空间，绑定后DataWorks会面向引擎自动采集元数据，...

数据上云工具

MaxCompute平台支持丰富的数据上传和下载工具（其中大部分工具已经在GitHub公开源代码，以开源社区的方式进行维护）。您可以根据实际应用场景，选择合适的工具进行数据的上传和下载。阿里云数加产品 MaxCompute客户端（Tunnel通道系列）...

EMR Hive数据整库离线同步至MaxCompute

背景信息 Hive是基于Hadoop的一个数据仓库工具，用来进行数据的提取、转化、加载，可以存储、查询和分析存储在Hadoop中的大规模数据。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成...

数据服务集群

DataServing是阿里云E-MapReduce提供的基于Apache HBase的数据服务集群类型。本文为您介绍数据服务集群支持的特性，适用场景以及技术架构。特性介绍 Apache HBase是具有高可靠性、高性能、列存储、可伸缩、实时读写的开源NoSQL分布式系统。...

大数据 数据平台

新品推荐

大数据数据平台