由于主备数据同步存在一定的时间差,在网络延迟等特定情况下,会导致备库同步恢复的数据与主库有较大差别,从备库同步的数据不是一份当前时间的完整镜像。一致性约束 Oracle在数据存储划分中属于RDBMS系统,对外可以提供强一致性数据查询...
MariaDB数据源为您提供读取和写入MariaDB的双向通道,本文为您介绍DataWorks的MariaDB数据同步能力支持情况。支持的MariaDB版本 离线读写 支持MariaDB 5.5.x、MariaDB 10.0.x、MariaDB 10.1.x、MariaDB 10.2.x、MariaDB 10.3.x版本,且离线...
DataWorks数据集成支持使用Redis Writer将数据写至Redis,本文为您介绍DataWorks的Redis数据离线写入能力。使用限制 数据导入过程仅支持使用 独享数据集成资源组。使用Redis Writer向Redis写入数据时,如果Value类型是List,重跑同步任务的...
使用流程与主要子模块 DataWorks为您提供从端到端的一站式数据开发治理平台,数据处理流程主要包括以下几个阶段。各个阶段DataWorks的主要子模块如下。数据集成 子模块:数据集成 功能说明:数据集成是稳定高效、弹性伸缩的数据同步平台,...
数据资源平台提供了一站式数据资产定义、生产、管理与服务平台,提供企业级数据资产构建能力和一致性使用体验,助力客户快速构建数据智能平台,实现数据资源统一管理,挖掘潜在规律,优化业务决策,让大数据真正的驱动客户业务。...
HybridDB for MySQL数据源为您提供读取和写入HybridDB for MySQL的双向功能,本文为您介绍DataWorks的HybridDB for MySQL数据同步能力支持情况。使用限制 离线同步支持读取视图表。HybridDB for MySQL Reader插件支持读取表和视图。表字段...
协同 数据同步:数据同步可实现离线、实时多源异构数据的便捷同步或接入,系统可提供完善的数据接入配置、数据模板配置、数据同步任务运行监控等功能,有效保障数据接入的稳定性和可控性,满足各类平台、数据源及应用系统间的数据汇聚需求...
实时同步写入数据到Kafka时,写入的格式为内置的JSON格式,写入数据为包含数据库变更消息的数据、业务时间和DDL信息的所有数据,数据格式详情请参见 附录:消息格式。同步任务类型 写入Kafka value 的格式 源端字段类型 写入时的处理方式 ...
RestAPI数据源为您提供读取和写入RestAPI双向通道的功能,本文为您介绍DataWorks的RestAPI数据同步的能力支持情况。使用限制 目前该数据源仅支持 独享数据集成资源组。目前不支持设置超时参数,当前DataWorks内置的请求超时时间是60s,如果...
DataHub数据源作为数据中枢,为您提供读取和写入DataHub数据库的双向通道,能够快速解决海量数据的计算问题。本文为您介绍DataWorks的DataHub数据同步的能力支持情况。支持的版本 DataHub Reader通过DataHub的Java SDK读取DataHub中的数据...
否 无 fetchSize 该配置项定义了插件和数据库服务器端每次批量数据获取条数,该值决定了数据集成和服务器端的网络交互次数,能够较大地提升数据抽取性能。说明 fetchSize 值过大(>2048)可能造成数据同步进程OOM。否 512 PostgreSQL ...
限流:考虑到速度过高可能对数据库造成过大的压力从而影响生产,数据集成同时提供了限速选项,您可以通过限流控制同步速率,从而保护读取端数据库,避免抽取速度过大,给数据库造成太大的压力。限速最小配置为1MB/S,最高上限为30MB/s。离...
否 无 fetchSize 该配置项定义了插件和数据库服务器端每次批量数据获取条数,该值决定了数据集成和服务器端的网络交互次数,能够较大地提升数据抽取性能。说明 fetchSize 值过大(>2048)可能造成数据同步进程OOM。否 1,024 Writer脚本Demo...
DB2数据源作为数据中枢,为您提供读取和写入DB2数据库的双向通道,能够快速解决海量数据的计算问题。本文为您介绍DataWorks的DB2数据同步的能力支持情况。支持的版本 DB2 Reader和DB2 Writer使用的DB2驱动版本为 IBM Data Server Driver ...
背景信息 Hive是基于Hadoop的一个数据仓库工具,用来进行数据的提取、转化、加载,可以存储、查询和分析存储在Hadoop中的大规模数据。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成...
AnalyticDB for PostgreSQL数据源提供读取和写入AnalyticDB for PostgreSQL的双向功能,本文为您介绍DataWorks的AnalyticDB for PostgreSQL数据同步的能力支持情况。使用限制 离线同步支持读取视图表。支持的版本 支持版本最高至7.0(含)...
在数据库性能限制的情况下,同步速度并非越快越好,考虑到速度过高可能对数据库造成过大的压力从而影响生产,数据集成支持了限速选项,您可根据业务合理配置该值。详情请参见:限制同步速度。数据同步速度的影响因素 数据同步速度受来源与...
HDFS、YARN、Hive、Spark、Presto、Impala、JindoData、DeltaLake、Hudi、Iceberg、OpenLDAP、Knox、Kyuubi等 Dataflow 实时数据流场景,其中核心组件Flink是阿里云提供的基于Apache Flink和E-MapReduce Hadoop构建的企业级大数据计算平台...
在数据准备阶段,您需要同步原始数据至MaxCompute。前提条件 已完成 准备环境。已新增MaxCompute数据源。详情请参见 创建MaxCompute数据源。准备数据源 通过RDS创建MySQL实例,获取RDS实例ID。详情请参见 快速创建RDS MySQL实例。在RDS控制...
阿里云EMR Delta Lake提供了强大的数据处理能力,可以帮助您管理和操作数据,确保数据的质量和一致性。本文为您介绍EMR Delta Lake如何进行删除、更新与合并数据等操作。DELETE 该命令用于删除数据。示例如下。SQL DELETE FROM delta_table...
任务运行前校验示例 任务提交前校验示例 任务发布前校验示例 您可以通过DataWorks的开放平台、数据治理等功能模块,实现在关键节点对数据开发流程的管控校验。涉及的功能模块 运行前校验 提交前校验 发布前校验 流程管控能力引导介绍 数据...
否 无 fetchSize 该配置项定义了插件和数据库服务器端每次批量数据获取条数,该值决定了数据集成和服务器端的网络交互次数,能够较大地提升数据抽取性能。说明 fetchSize 值过大(>2048)可能造成数据同步进程OOM。否 1,024 Writer脚本Demo...
物联网的体系结构包括设备、网络、平台、分析、应用和安全,其中分析部分的主要内容为大数据分析。大数据分析是大数据完成数据价值化的重要手段之一,而进行大数据分析的第一步是让数据成功上云。解决方案 IoT数据自动化同步至云端解决方案...
您需要在数据集成同步任务配置前,配置好您需要同步的源端和目标端数据库,以便在同步任务配置过程中,可通过选择数据源名称来控制同步任务的读取和写入数据库。同步解决方案支持的数据源及其配置详情请参见 支持的数据源与读写能力。说明 ...
本文介绍如何通过MaxCompute和异构数据平台构建湖仓一体(本功能处于公测阶段)。湖仓一体搭建 MaxCompute湖仓一体方案通过数据仓库MaxCompute和数据湖共同实现。当前支持的湖仓一体构建方式如下:通过MaxCompute、数据湖构建DLF和对象存储...
大数据分析平台 对于MaxCompute、Hadoop和Spark中保存的海量数据,可通过采用数据集成服务(DataX)或通过对象存储服务(OSS),快速批量导入到 云原生数据仓库AnalyticDB PostgreSQL版,帮助您实现高性能分析处理和在线数据探索。...
MySQL数据源为您提供读取和写入MySQL的双向通道,本文为您介绍DataWorks的MySQL数据同步的能力支持情况。支持的MySQL版本 离线读写:支持MySQL 5.5.x、MySQL 5.6.x、MySQL 5.7.x、MySQL 8.0.x,兼容 Amazon RDS for MySQL、Azure MySQL。离...
背景信息 开源大数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。阿里云...
DataWorks数据集成支持使用Lindorm Reader和Lindorm Writer插件读取和写入Lindorm双向通道的功能,本文为您介绍DataWorks的Lindorm数据读取与写入能力。使用限制 Lindorm不需要在DataWorks上配置数据源,可直接使用脚本模式配置任务,通过...
DataWorks数据集成支持使用SelectDB ...否 无 flushInterval 数据写入批次的时间间隔(单位:ms),如果 maxBatchRows 和 batchSize 参数设置的很大,则可能还未达到设置的数据量大小,系统就会根据写入的时间间隔执行数据导入。否 30000
SAP HANA数据源为您提供读取和写入SAP HANA双向通道的功能,本文为您介绍DataWorks的SAP HANA数据同步的能力支持情况。使用限制 离线同步支持读取视图表。目前该数据源仅支持 独享数据集成资源组。支持的字段类型 SAP HANA Reader针对SAP ...
由于主备数据同步存在一定的时间差,特别在于某些特定情况,例如网络延迟等问题,导致备库同步恢复的数据与主库有较大差别,从备库同步的数据不是一份当前时间的完整镜像。一致性约束 SQL Server在数据存储划分中属于RDBMS系统,对外可以...
DRDS(PolarDB-X)数据源为您提供读取和写入DRDS(PolarDB-X)双向通道的功能,本文为您介绍DataWorks的DRDS(PolarDB-X)数据同步的能力支持情况。支持的版本 实时读取 支持DRDS(PolarDB-X 1.0)和PolarDB-X 2.0的非只读实例。创建DRDS...
DataWorks数据集成支持使用Doris Writer导入表数据至Doris。本文为您介绍DataWorks的Doris数据同步能力支持情况。支持的Doris版本 Doris Writer使用的驱动版本是MySQL Driver 5.1.47,该驱动支持的内核版本如下。驱动能力详情请参见 Doris...
AnalyticDB for MySQL 3.0数据源为您提供读取和写入 AnalyticDB for MySQL 3.0双向通道的功能,本文为您介绍DataWorks的AnalyticDB for MySQL 3.0数据同步的能力支持情况。使用限制 ADB湖仓版数据源不支持在公共资源组配置以及运行同步任务...
DataWorks数据开发(DataStudio)模块用于定义周期调度任务的开发及调度属性,与运维中心配合使用,面向各引擎(MaxCompute、Hologres、EMR等)提供可视化开发主界面,支持智能代码开发、多引擎混编工作流、规范化任务发布等能力,帮助您...
包括数据检索、数据预览、查看元数据详情、查看数据血缘关系、分类分组管理数据表等操作。本文为您介绍如何在数据地图查看和管理MaxCompute表。前提条件 已绑定MaxCompute引擎至当前工作空间,绑定后DataWorks会面向引擎自动采集元数据,...
MaxCompute平台支持丰富的数据上传和下载工具(其中大部分工具已经在GitHub公开源代码,以开源社区的方式进行维护)。您可以根据实际应用场景,选择合适的工具进行数据的上传和下载。阿里云数加产品 MaxCompute客户端(Tunnel通道系列)...
背景信息 Hive是基于Hadoop的一个数据仓库工具,用来进行数据的提取、转化、加载,可以存储、查询和分析存储在Hadoop中的大规模数据。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成...
DataServing是阿里云E-MapReduce提供的基于Apache HBase的数据服务集群类型。本文为您介绍数据服务集群支持的特性,适用场景以及技术架构。特性介绍 Apache HBase是具有高可靠性、高性能、列存储、可伸缩、实时读写的开源NoSQL分布式系统。...