数据集成工作原理-数据集成工作原理文档介绍内容-阿里云

实时数据消费概述

实时数据源消费 Kafka数据集成是实时分析功能的另一个组件，它允许 AnalyticDB PostgreSQL版数据库实时地从Kafka Topic中消费数据。为您提供了一个强大的工具，用于结合流处理和批处理的数据分析。更多信息，请参见实时数据源集成。使用...

离线同步日志分析

当任务长时间处于等待数据集成任务执行资源的状态时，可能是其他任务运行占用该资源组上的资源导致当前任务无资源执行而处于等待状态，您可以通过以下方案解决此类问题：待占用该数据集成资源组的任务（即运行在该资源组上的任务）执行成功...

数据传输与迁移概述

类型典型场景数据库批量同步 数据集成-离线数据同步。数据上云搬站 MMA。本地文件上传 odps控制台-Tunnel命令上传。其它自定义上传 SDK写入-批量数据通道（Tunnel）。离线数据流式写入（数据通道）场景特征。流式数据写入（7天24小时不...

MySQL分库分表同步至MaxCompute

本文以MySQL分库分表实时写入MaxCompute场景为例，为您介绍如何通过数据集成同步分库分表数据至MaxCompute。前提条件已完成MaxCompute和MySQL数据源配置。您需要将数据库添加至DataWorks上，以便在同步任务配置时，可通过选择数据源名称来...

MySQL整库实时同步至OSS数据湖

本文以MySQL实时入湖写入至OSS场景为例，为您介绍如何通过数据集成实时入湖。前提条件已购买合适规格的独享数据集成资源组。详情请参见：新增和使用独享数据集成资源组。已完成MySQL和OSS数据源配置，以便在同步任务配置时，可通过选择...

MySQL分库分表同步至MaxCompute

本文以MySQL分库分表实时写入MaxCompute场景为例，为您介绍如何通过数据集成同步分库分表数据至MaxCompute。前提条件已完成MaxCompute和MySQL数据源配置。您需要将数据库添加至DataWorks上，以便在同步任务配置时，可通过选择数据源名称来...

技术架构选型

在数据模型设计之前，您需要首先完成技术架构...其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。

整库离线同步至MaxCompute

步骤六：运行资源设置该同步方案将分别创建全量离线同步任务和增量离线同步任务，您可以在此步骤配置任务名称及任务执行所使用的调度资源组与数据集成任务执行资源组，同时，数据集成提供数据库最大连接数、并发数等配置的默认值，如果您...

数据迁移或同步方案概览

本文汇总了 PolarDB-X 1.0 支持的数据迁移或同步的方案。说明下表中√表示支持，×表示...大√数据集成：从MaxCompute导入到 PolarDB-X 1.0。从 PolarDB-X 1.0 导出到MaxCompute。详细操作步骤，请参见DataWorks文档 数据集成 相关内容。大√

Elasticsearch数据源

工作原理 Elasticsearch Reader的工作原理如下：通过Elasticsearch的_search scroll slice（即游标分片）方式实现，slice结合数据集成任务的task多线程分片机制使用。根据Elasticsearch中的Mapping配置，转换数据类型。更多详情请参见 ...

DataWorks数据集成服务关联角色

数据集成支持RAM角色授权模式。本文为您介绍如何获取DataWorks数据集成相关的RAM角色列表、删除服务关联角色，以及子账号如何创建服务关联角色所需要的权限。应用场景当您通过RAM角色授权模式创建DataWorks数据源时，请选择相关的自定义...

数据集成

DataWorks数据集成支持复杂网络环境下的数据同步，您可在数据开发...调度参数在数据集成的使用原理，详情请参见 数据集成使用调度参数的相关说明。调度参数在数据集成的应用场景，详情请参见场景：调度参数在数据集成的典型应用场景。

Kafka单表实时入湖OSS（HUDI）

本文以Kafka实时入湖写入至OSS场景为例，为您介绍如何通过数据集成实时入湖。使用限制 Kafka的版本需要大于等于0.10.2小于等于2.2.0。本实践仅支持使用独享数据集成资源组。准备独享数据集成资源组并与数据源网络连通在进行数据同步前，...

独享数据集成资源组

在数据集成任务高并发执行且无法错峰运行的情况下，需要专有的计算资源组来保障数据快速、稳定的传输时，建议您选择使用DataWorks的独享数据集成资源组。本文为您概要介绍独享数据集成资源组。功能介绍独享数据集成资源组的功能亮点如下：...

MySQL整库周期性增全量同步至MaxCompute

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据集成，在下拉框中选择对应工作空间后单击进入数据集成。在页面中的创建同步任务后选择来源为 MySQL，去向为 MaxCompute，单击开始创建，开始配置同步任务。配置同步...

数据传输服务（上传）场景与工具

说明对于离线数据的同步，推荐您优先使用数据集成，详情请参见 数据集成概述。流式数据通道写入 MaxCompute流式数据通道服务提供了以流式的方式将数据写入MaxCompute的能力，使用与原批量数据通道服务不同的一套全新的API及后端服务。流式...

操作手册

集成配置接入数据总线的应用，对项目隔离空间内的数据...进入项目详情内的“数据集成”页面，可以看到当前项目中涉及到的数据模型列表：进入“授权”操作页面，进行授权操作：此外，你也可以点击模型列表右侧的“管理”按钮，直接操作数据。

技术架构选型

其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。icmsDocProps={'productMethod':'created','...

离线集成管道通道配置

操作步骤请参见 数据集成入口，进入数据集成页面。在数据集成页面，按照下图操作指引，选择您需配置的离线集成任务并进入通道配置对话框。在通道配置对话框中，配置参数。参数描述容错配置错误数用于定义管道中允许的最大错误数。...

离线集成管道通道配置

操作步骤请参见 数据集成入口，进入数据集成页面。在数据集成页面，按照下图操作指引，选择您需配置的离线集成任务并进入通道配置对话框。在通道配置对话框中，配置参数。参数描述容错配置错误数用于定义管道中允许的最大错误数。...

跨账号授权配置

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据集成，在下拉框中选择对应工作空间后单击进入数据集成。新增RDS、Hive或Kafka数据源。关键参数：参数说明接入方式数据源类型阿里云实例阿里云实例模式实例所属账号 ...

数据集成权限列表

本文为您介绍数据集成的操作权限列表。符号说明 Y 表示该角色有此功能权限；N 表示该角色无此功能权限；表示该角色与此功能权限无关。更多角色说明自定义项目角色是Dataphin基于产品的功能，对数仓规划、数据集成、数据开发、项目资产权限...

根据标签筛选实例

在左侧导航栏，根据需要设置标签的实例类型选择数据迁移、数据同步、数据订阅或 数据集成。在页面顶部选择实例所属地域。在实例列表页，单击标签。图 1.打开标签列表选择目标标签键和标签值。说明新建标签或更新现有标签后，需要先...

数据集成权限列表

本文为您介绍数据集成的操作权限列表。符号说明 Y 表示该角色有此功能权限；N 表示该角色无此功能权限；表示该角色与此功能权限无关。更多角色说明自定义项目角色是Dataphin基于产品的功能，对数仓规划、数据集成、数据开发、项目资产权限...

技术架构选型

其中，Dataphin的数据集成及同步负责完成源业务系统数据引入。MaxCompute作为整个大数据开发过程中的离线计算引擎。Dataphin则基于OneData方法论——OneModel、OneID、OneService，囊括了数据建模研发、运维中心、监控报警、数据资产等在内...

一键实时同步至Hologres

说明 DataWorks的离线同步任务通过调度资源组将其下发到数据集成任务执行资源组上执行，所以离线同步任务除了涉及数据集成任务执行资源组外，还会占用调度资源组资源。如果使用了独享调度资源组，将会产生调度实例费用。您可通过任务下发...

一键实时同步至AnalyticDB for MySQL 3.0

您需要在数据集成同步任务配置前，配置好您需要同步的源端和目标端数据库，以便在同步任务配置过程中，可通过选择数据源名称来控制同步任务的读取和写入数据库。同步任务支持的数据源及其配置详情请参见支持的数据源及同步方案。说明数据...

流式ETL

实时数据集成：ETL强大的流式数据转换处理能力大幅提升数据集成效率，低代码的开发方式也进一步降低了数据集成的难度和成本，让企业专注于数据价值实现。实时数据仓库：行业领先的流数据处理能力帮助企业快速搭建实时数据仓库。离线数仓...

Kafka实时ETL同步至Hologres

准备独享数据集成资源组并与数据源网络连通在进行数据同步前，需要完成您的独享数据集成资源组和数据源的网络连通，详情请参见配置网络连通。说明 Kafka与Hologres支持的网络类型如下：Kafka:指定VPC网络、公网。Hologres:指定VPC网络、...

什么是ETL

实时数据集成：ETL强大的流式数据转换处理能力大幅提升数据集成效率，低代码的开发方式也进一步降低了数据集成的难度和成本，让企业专注于数据价值实现。实时数据仓库：行业领先的流数据处理能力帮助企业快速搭建实时数据仓库。离线数仓...

计费说明-全托管

000 4500 60C240G 101,500 5000 60C240G 110,000 数据处理单元统计规则：数据处理单元总量=（数据同步任务数+数据集成任务数）/3+计算任务数（离线和实时）+明细逻辑表总数+[向上取整（指标数/10）]其中：前200个数据集成任务不纳入统计，...

一键实时同步至DataHub

说明 DataWorks的离线同步任务通过调度资源组将其下发到数据集成任务执行资源组上执行，所以离线同步任务除了涉及数据集成任务执行资源组外，还会占用调度资源组资源。如果使用了独享调度资源组，将会产生调度实例费用。您可通过任务下发...

应用场景

访问频度极高业务如社交网络、电子商务、游戏、广告等。可以将访问频度非常高的数据存储在云数据库 Memcache 版中，底层数据存储在 RDS ...通过数据集成服务可自助实现数据在云数据库 Memcache 版与 MaxCompute 间的同步，简化数据操作流程。

MongoDB数据源

数据集成特殊数据类型：combine 类型离线读（MongoDB Reader）说明 Combine 支持 数据集成自定义类型。如果type配置为 combine，MongoDB Reader会移除已配置的Column对应Key后，将整个Document其他所有信息进行JSON序列化输出，详细示例请...

一键实时同步至Elasticsearch

说明 DataWorks的离线同步任务通过调度资源组将其下发到数据集成任务执行资源组上执行，所以离线同步任务除了涉及数据集成任务执行资源组外，还会占用调度资源组资源。如果使用了独享调度资源组，将会产生调度实例费用。您可通过任务下发...

云产品集成

您可以使用 DataWorks 添加 ApsaraDB For OceanBase 数据源，管理 OceanBase 数据库中的数据，通过数据集成功能，实现在复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。在 DataWorks 添加 ApsaraDB For OceanBase ...

什么是DataWorks

产品架构 DataWorks十多年沉淀数百项核心能力，通过智能数据建模、全域数据集成、高效数据生产、主动数据治理、全面数据安全、数据分析服务六大全链路数据治理的能力，帮助企业治理内部不断上涨的“数据悬河”，释放企业的数据生产力。...

配置同步任务中的数据来源和去向

右键单击步骤2 中新建的业务流程下的 数据集成，选择新建数据集成节点>数据同步，输入同步节点名称。双击步骤3 中创建的节点，配置数据同步任务的数据来源（Reader）、数据去向（Writer）、字段映射、通道控制信息。数据来源（Reader...

整库迁移与批量上云

DataWorks支持您在 数据集成主站新建整库离线同步方案，快速将来源数据源内所有表上传至目标数据源，帮助您节省大量初始化数据上云的批量任务创建时间。支持的数据源当前DataWorks支持各类数据源的数据整库迁移至MaxCompute、OSS、...

MySQL分库分表同步至Hologres（方案2.0）

登录 DataWorks控制台，单击左侧导航栏的 数据集成，在下拉框中选择对应工作空间后单击进入数据集成。在数据集成 首页单击创建我的数据同步，进入同步方案配置页面。在任务名称区域配置当前方案名称。在同步类型区域根据业务需要...

数据集成工作原理

新品推荐