大数据集成技术-大数据集成技术文档介绍内容-阿里云

技术架构选型

其中，Dataphin的数据集成及同步负责完成源业务系统数据引入。MaxCompute作为整个大数据开发过程中的离线计算引擎。Dataphin则基于OneData方法论——OneModel、OneID、OneService，囊括了数据建模研发、运维中心、监控报警、数据资产等在内...

TerminateDISyncInstance

下线数据集成实时同步任务。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action String 是 ...

系统管理

上传数据至EMR Hive、Hologres引擎：仅支持使用独享资源组（即数据分析>系统管理相应引擎必须配置为独享调度资源组和独享数据集成资源组）。所选资源组需绑定至待接收数据的表所在的DataWorks工作空间，且需确保数据上传任务使用的数据源...

独享资源组模式

独享数据集成资源组独享数据集成资源组创建成功后，您需要在配置数据集成任务时修改任务运行资源。在资源组列表>独享资源组页面，单击相应资源后的修改归属工作空间，绑定独享数据集成资源组归属的工作空间。在数据集成任务的编辑页面...

场景：调度参数在数据集成的典型应用场景

调度参数可以同于数据集成任务配置的各个阶段。本文为您介绍调度参数的典型应用场景。背景信息 DataWorks数据集成结合调度参数使用，可实现以下场景：场景说明相关文档增量数据同步部分Reader插件可通过调度参数实现每次调度只同步指定...

数据集成调度策略说明

DTS的数据集成功能可根据调度策略的配置，定期地将源库中的结构和存量数据迁移至目标库中。通过该功能可以帮助您构建更加灵活的数据仓库（例如构建T+1的周期性数仓），本文介绍数据集成的策略、限制及适用场景。支持的数据库支持全量数据...

UpdateDIProjectConfig

调用UpdateDIProjectConfig修改当前工作空间中数据集成同步解决方案任务默认的全局配置。当前DataWorks仅支持为同步解决方案任务中的实时同步DDL消息处理策略设置默认的全局配置。如果您的同步解决方案任务包含实时同步任务，则配置 DDL...

查看历史信息

进入数据集成页面。在Dataphin首页，单击研发，进入数据开发页面。在数据开发页面，单击项目名称后的图标，选择数据开发的项目空间（Dev 或 Basic 项目）。如果您当前访问的是 Dev 或 Basic 项目，且项目空间为您的数据开发空间，...

查看历史信息

进入数据集成页面。在Dataphin首页，单击研发，进入数据开发页面。在数据开发页面，单击项目名称后的图标，选择数据开发的项目空间（Dev 或 Basic 项目）。如果您当前访问的是 Dev 或 Basic 项目，且项目空间为您的数据开发空间，...

1.1.6版本

新功能发布数字工厂 1）主数据功能可自定义查询属性增加元数据定义复制功能增加系统管理员主数据清理功能 2）边缘数据集成 增加脚本智能提示和补全功能增加日期类函数 3）增加工业应用集成页面和所属权限的层级关系声明和角色授权功能...

同阿里云主账号访问

在进行数据同步前，您需要确保用于执行同步任务的独享数据集成资源组与您将要同步的数据来源端与目的端数据源的网络连通性。本文为您介绍数据源与DataWorks工作空间同阿里云主账号时如何进行网络连通。背景信息网络连通方案选择取决于数据...

概述

本文为您介绍如何通过Tunnel、DataHub、LogHub以及DataWorks数据集成将日志数据迁移至MaxCompute。方案说明适用场景 Tunnel 通过MaxCompute的Tunnel功能，将日志数据上传至MaxCompute。详情请参见通过Tunnel迁移日志数据至MaxCompute。...

实时同步字段格式

本文为您介绍数据集成实时同步字段的格式及附加列。数据集成实时同步MySQL或Oracle数据的记录格式如下。sequence_id_operation_type_execute_time_before_image_after_image_字段1 字段2 字段3 增量事件的记录 ID，值唯一且递增。操作类型...

数据同步概述

背景说明如果您是在 2020年4月之后购买的Dataphin，则数据同步能力通过数据集成功能实现（即系统不再提供数据同步的功能入口）。数据集成为您提供简单高效、安全可靠的数据同步平台。更多信息，请参见 数据集成概述。重要因数据同步...

数据同步概述

背景说明如果您是在 2020年4月之后购买的Dataphin，则数据同步能力通过数据集成功能实现（即系统不再提供数据同步的功能入口）。数据集成为您提供简单高效、安全可靠的数据同步平台。更多信息，请参见 数据集成概述。重要因数据同步...

Oracle数据导入

您需要在数据集成同步任务配置前，配置好您需要同步的源端和目标端数据库，以便在同步任务配置过程中，可通过选择数据源名称来控制同步任务的读取和写入数据库。同步任务支持的数据源及其配置详情请参见支持的数据源及同步方案。说明数据...

数据库实时导入DataHub

为了更加方便让数据库数据实时导入到DataHub，联合数据集成一起开发了“数据库实时导入到DataHub”，尽量简化数据流入DataHub的流程。整体流程如下：使用图解主账号使用方式：打开公有云DataHub Console，选择对应的Project，点击右上角的...

DataWorks节点合集

DataWorks的数据开发（DataStudio）模块为您提供多种类型的节点，包括用于数据同步的数据集成节点，用于数据清洗的引擎计算节点（例如，ODPS SQL、Hologres SQL、EMR Hive），以及可对引擎计算节点进行复杂逻辑处理的通用节点（例如，可...

ListDIProjectConfig

调用ListDIProjectConfig查看当前工作空间中数据集成同步解决方案任务默认的全局配置。当前DataWorks仅支持为同步解决方案任务中的实时同步DDL消息处理策略设置默认的全局配置。如果您的同步解决方案任务包含实时同步任务，则配置 DDL消息...

迁移ECS自建MySQL数据库至MaxCompute

本文为您介绍如何使用独享数据集成资源，将您在ECS上自建的MySQL数据库中的数据，迁移到MaxCompute。前提条件已拥有至少一个绑定专有网络VPC的ECS（请勿使用经典网络），并在ECS上安装好MySQL数据库，数据库中已创建好用户和测试数据。...

MaxCompute作业概述

MaxCompute中数据开发作业主要存在以下三种类型：周期性调度作业、数据集成作业、数据分析作业。典型场景创建作业：创建ODPS SQL节点、数据传输作业：数据集成、数据分析作业。查看作业运行信息：使用Logview查看作业运行信息、在...

创建ClickHouse数据源

ClickHouse数据源创建完成后，可用于进行数据同步、计算任务开发与调度、生成API提供数据服务等应用场景中，各应用场景需要分别使用DataWorks的数据集成资源组、调度资源组、数据服务资源组。您需要根据数据源的应用场景提前准备好对应的...

数仓开发任务流

任务流说明相关文档 数据集成 显示任务流中的数据集成节点：DTS数据迁移节点和离线数据集成节点。数据集成节点在项目空间的标准模式下试运行时，节点会空跑，以免生产数据迁移到测试环境的风险。配置DTS数据迁移节点配置离线数据集成...

迁移ECS自建MySQL数据库至MaxCompute

本文为您介绍如何使用独享数据集成资源，将您在ECS上自建的MySQL数据库中的数据，迁移到MaxCompute。前提条件已拥有至少一个绑定专有网络VPC的ECS（请勿使用经典网络），并在ECS上安装好MySQL数据库，数据库中已创建好用户和测试数据。...

GenerateDISyncTaskConfigForCreating

DataWorks目前仅支持直接使用 CreateDISyncTask 接口创建数据集成离线同步任务，而数据集成实时同步任务和其他同步类型的任务则需要先调用 GenerateDISyncTaskConfigForCreating 和 QueryDISyncTaskConfigProcessResult 接口，获取异步生成...

通过DataWorks导入

您需要在数据集成同步任务配置前，配置好您需要同步的源端和目标端数据库，以便在同步任务配置过程中，可通过选择数据源名称来控制同步任务的读取和写入数据库。同步任务支持的数据源及其配置详情请参见支持的数据源及同步方案。说明数据...

通过DataWorks导入数据

您需要在数据集成同步任务配置前，配置好您需要同步的源端和目标端数据库，以便在同步任务配置过程中，可通过选择数据源名称来控制同步任务的读取和写入数据库。同步任务支持的数据源及其配置详情请参见支持的数据源及同步方案。说明数据...

同步数据

通过阿里云数据集成将ODPS/OSS/MySQL/Oracle/SqlServer中的数据导入分析型数据库MySQL版中。详细操作步骤请参见使用数据集成迁移数据至分析型数据库MySQL版。通过Kettle将关系型数据库、Hbase等NoSQL数据源，以及Excel、Access中的数据...

Oracle同步至Tablestore

本文以Oracle同步至表格存储Tablestore场景为例，为您介绍如何通过数据集成将Oracle的某张表数据实时同步到Tablestore。使用限制本实践仅支持使用独享数据集成资源组。前提条件已完成来源数据源、去向数据源的配置。本实践以Oracle作为...

上传管道脚本

背景信息上传管道脚本，详情请参见 数据集成权限列表。操作步骤登录 Dataphin控制台。在Dataphin控制台页面，选择工作区地域后，单击进入Dataphin>>。进入数据集成页面。在Dataphin首页，单击研发。在数据开发页面，单击项目名称后...

跨账号授权配置

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据集成，在下拉框中选择对应工作空间后单击进入数据集成。新增RDS、Hive或Kafka数据源。关键参数：参数说明接入方式数据源类型阿里云实例阿里云实例模式实例所属账号 ...

DLF中数据入湖功能停止更新公告

为了确保您业务连续性，建议您采用其他方式进行数据入湖，推荐使用 数据集成概述或 Flink CDC：如 MySQL CDC DataStream Connector。停止更新功能数据湖构建（DLF）产品，数据入湖功能。说明数据湖构建（DLF）产品其他功能正常使用，不...

MySQL整库周期性增全量同步至Hive

本实践仅支持使用独享数据集成资源组，您需购买并配置独享资源组，保障资源组与MySQL数据源、Hive数据源网络连通，独享数据集成资源组的购买与配置操作请参见新增和使用独享数据集成资源组。创建同步任务登录并进入 数据集成子模块页面，...

数据传输与迁移概述

类型典型场景数据库批量同步 数据集成-离线数据同步。数据上云搬站 MMA。本地文件上传 odps控制台-Tunnel命令上传。其它自定义上传 SDK写入-批量数据通道（Tunnel）。离线数据流式写入（数据通道）场景特征。流式数据写入（7天24小时不...

离线同步写入MongoDB数据

DataWorks的数据集成为您提供MongoDB Writer插件，可从其他数据源中读取数据，并将数据同步至MongoDB。本文以一个具体的示例，为您演示如何通过数据集成将MaxCompute的数据离线同步至MongoDB。前提条件本实践进行操作时，需满足以下条件。...

DataWorks OpenAPI概述

DataWorks为您提供了涵盖租户、元数据、数据开发、运维中心、数据集成等多个功能模块的OpenAPI接口，不同API的QPS限制、每日调用次数上限和支持使用的DataWorks服务版本存在差异。您可参考本文了解各OpenAPI支持的DataWorks版本及地域、...

跨阿里云主账号访问

您在跨账号进行数据同步任务之前，需要设置并确保执行任务的独享数据集成资源组，与源端及目标端数据库之间的网络连通性。本文将为您介绍在使用跨阿里云账号时，数据库与DataWorks工作空间之间的网络连通操作。背景信息网络连通方案选择取...

创建AnalyticDB for PostgreSQL数据源

仅支持使用独享数据集成资源组、独享调度资源组运行AnalyticDB for PostgreSQL任务，详情请参见新增和使用独享数据集成资源组、新增和使用独享调度资源组；基于AnalyticDB for PostgreSQL数据源创建数据服务API，推荐使用独享数据服务资源...

DataWorks数据集成服务关联角色

数据集成支持RAM角色授权模式。本文为您介绍如何获取DataWorks数据集成相关的RAM角色列表、删除服务关联角色，以及子账号如何创建服务关联角色所需要的权限。应用场景当您通过RAM角色授权模式创建DataWorks数据源时，请选择相关的自定义...

Kafka单表实时入湖OSS（HUDI）

本文以Kafka实时入湖写入至OSS场景为例，为您介绍如何通过数据集成实时入湖。使用限制 Kafka的版本需要大于等于0.10.2小于等于2.2.0。本实践仅支持使用独享数据集成资源组。准备独享数据集成资源组并与数据源网络连通在进行数据同步前，...

大数据集成技术

新品推荐