大数据中台战略流程-大数据中台战略流程文档介绍内容-阿里云

配置RDS MySQL间的数据集成任务

本文以配置RDS MySQL间的数据集成任务为例，介绍数据集成任务的配置流程和注意事项。说明新版DTS控制台暂不支持数据集成功能，您可以在数据管理DMS控制台配置离线集成任务，详情请参见离线集成概述。支持全量数据迁移的数据源均支持数据...

DataWorks On MaxCompute使用说明

二、数据建模与开发模块描述相关文档数据建模数据建模是全链路数据治理的第一步，沉淀阿里巴巴数据中台建模方法论，从数仓规划、数据标准、维度建模、数据指标四个方面，以业务视角对业务的数据进行诠释，让企业内部实现“数同文”的...

配置数据过滤转换

数据过滤插件可以对数据进行规则过滤，例如过滤字段的大小等，符合规则的数据才会被保留。前提条件配置数据过滤节点前，您需要先配置好相应的输入节点，详情请参见实时同步支持的数据源。操作步骤进入数据开发页面。登录 DataWorks...

文档修订记录

QueryPublicModelEngine 2023.10.20 新增功能上传与下载 DataWorks的上传与下载模块，提供了便捷的数据上传功能，支持将多种来源（例如，本地文件、OSS文件）的数据上传至MaxCompute大数据引擎中进行分析处理及相关管理操作，致力于为您...

创建Hologres内部表

登录 DataWorks控制台，单击左侧导航栏的数据建模与开发>数据开发，在下拉框中选择对应工作空间后单击进入数据开发。创建业务流程。如果您已有业务流程，则可以忽略该步骤。鼠标悬停至图标，选择新建业务流程。在新建业务流程 ...

从自建MySQL同步至阿里云消息队列Kafka版

消息队列Kafka版广泛用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等大数据领域，已成为大数据生态中不可或缺的部分。注意事项 DTS在执行全量数据初始化时将占用源库和目标库一定的读写资源，可能会导致数据库的负载上升，在...

虚拟节点

虚拟节点属于控制类节点，它是不产生任何数据的空跑节点（即调度到该节点时，系统直接返回成功，不会真正执行、不会占用资源或阻塞下游节点运行），通常作为业务流程的统筹起始节点，或业务流程中多个分支节点的汇总输出节点使用。...

从ECS上的自建MySQL同步至自建Kafka集群

Kafka是应用较为广泛的分布式、高吞吐量、高可扩展性消息队列服务，普遍用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等大数据领域，是大数据生态中不可或缺的产品之一。通过数据传输服务DTS（Data Transmission Service），...

从ECS上的自建MySQL同步至自建Kafka集群

Kafka是应用较为广泛的分布式、高吞吐量、高可扩展性消息队列服务，普遍用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等大数据领域，是大数据生态中不可或缺的产品之一。通过数据传输服务DTS（Data Transmission Service），...

Quick BI连接MaxCompute

MaxCompute支持您将MaxCompute项目数据接入阿里云Quick BI，对海量数据进行实时在线分析服务，同时支持拖拽式操作和丰富的可视化效果，帮助您轻松自如地完成数据分析、业务数据探查、报表制作等工作。本文为您介绍如何使用Quick BI连接...

规划工作空间

大型数仓，企业数仓公共层，数据中台。优点工作空间成员与组织架构一致，人员组成最稳定，数据安全性最高。同时计算、存储成本归属清晰。工作空间内业务专一，人员可根据业务动态调整，数据链路清晰，易运维。数据架构清晰，共享便利，...

DataWorks数据服务对接DataV最佳实践

DataV通过与DataWorks数据服务的对接，通过交互式分析Hologres连接DataWorks数据服务开发并生成API，快速在DataV中调用API并展现MaxCompute的数据分析结果。数据服务对接DataV产生背景 MaxCompute是阿里巴巴集团自主研究的快速、完全托管的...

创建CDH Spark节点

在对应业务流程中，右键单击 CDH>资源，选择新建资源>CDH JAR，在新建资源对话框中点击上传，选择需要上传的文件。引用CDH JAR资源。打开创建的CDH节点，停留在编辑页面。在 CDH>资源中，找到待引用的资源（示例为 spark-examples_2....

版本发布记录

深度集成的生态接入融合分析和数据回流能力目前支持如下数据源的接入融合分析和数据回流能力，包括对象存储OSS上7种以上结构化、半结构化、以及多种压缩格式的数据文件，表格存储，AnalyticDB，云数据库版或自建数据库（MySQL、...

数据开发：开发者

操作流程步骤一：新建业务流程数据开发基于业务流程组织与开发代码，您需要先新建业务流程，才可进行后续的开发工作。步骤二：新建表 DataWorks支持使用可视化方式创建表，并以目录结构方式在界面展示。数据开发前，您需先在引擎创建用于...

准备环境

本教程以用户画像分析为例，通过使用DataWorks完成数据采集、数据加工、质量监控的全流程操作。为保证您可以顺利完成本教程，您需要准备教程所需的EMR集群、DataWorks工作空间，并做好相关的环境配置。前提条件 大数据开发治理平台...

准备数据

进入业务流程开发面板，并向面板中拖入一个虚拟节点（start）和三个离线同步节点（电量下降趋势数据同步、窃电标志数据同步和指标数据同步）分别填写相应的配置后，单击提交。拖拽连线将start节点设置为三个离线同步节点的上游节点。配置...

创建EMR Hive节点

前提条件数据开发（DataStudio）中已创建业务流程。数据开发（DataStudio）基于业务流程对不同开发引擎进行具体开发操作，所以您创建节点前需要先新建业务流程，操作详情请参见创建业务流程。已创建阿里云EMR集群，并注册EMR集群至...

从自建TiDB同步至云原生数据仓库AnalyticDB MySQL

本文介绍如何使用数据传输服务DTS（Data Transmission Service），结合Kafka集群与TiDB数据库的Pump、Drainer组件，将自建TiDB数据库同步至云原生数据仓库AnalyticDB MySQL。前提条件已创建云原生数据仓库AnalyticDB MySQL 3.0版本，...

ETL工作流快速体验

零售电商GMV分析 DataWorks MaxCompute 数据集成数据开发基于DataWorks提供的智能数据建模产品，使用该产品内置零售电子商务数仓模型，为您介绍DataWorks在数仓搭建过程中的技术栈及流程实现。案例相关文档：零售电商数据建模。视频...

采集数据

本教程以MySQL中的用户基本信息（ods_user_info_d）表及OSS中的网站访问日志数据（user_log.txt）文件，通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d、ods_raw_log_d表为例，为您介绍如何通过DataWorks数据集成实现异构...

配置同步任务中的数据来源和去向

进入 DataWorks控制台，单击对应项目操作栏中的数据开发。单击左侧菜单栏中的数据开发，右键单击业务流程新建一个流程。右键单击步骤2 中新建的业务流程下的数据集成，选择新建数据集成节点>数据同步，输入同步节点名称。双击步骤...

通过函数计算节点实现GitHub实时数据分析与结果发送

DataWorks：在数据集成模块中创建名为“github_events_share”的MySQL数据源，在数据开发模块中创建名为“*_Github十大热门编程语言”的业务流程。案例参数配置服务器地址发送端服务器，格式为smtp.*.com，例如：smtp.163.com。说明以...

购买流程

本文介绍数据传输服务中数据迁移任务、数据同步任务、数据订阅任务和Serverless任务的购买流程。前提条件已注册阿里云账号，注册流程请参见注册阿里云账号。若您要创建按量付费的任务，请确保您的账户余额大于等于100元。费用说明详情...

采集数据

本教程以MySQL中的用户基本信息（ods_user_info_d）表及OSS中的网站访问日志数据（user_log.txt）文件，通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d、ods_raw_log_d表为例，为您介绍如何通过DataWorks数据集成实现异构...

扩展程序概述

产品能力 DataWorks作为阿里云一站式大数据开发与治理平台，在各项能力支持上预设了很多拓展点，例如，在标准模式下，简略来看，节点创建后完成代码开发后，需先提交到开发环境中进行验证，完成后再正式发布到生产环境中，后续每天根据调度...

从自建SQL Server全量迁移至RDS SQL Server

注意事项 DTS在执行全量数据迁移时将占用源库和目标库一定的读写资源，可能会导致数据库的负载上升，在数据库性能较差、规格较低或业务量较大的情况下（例如源库有大量慢SQL、存在无主键表或目标库存在死锁等），可能会加重数据库压力，...

从RDS同步至自建Kafka集群

Kafka是应用较为广泛的分布式、高吞吐量、高可扩展性消息队列服务，普遍用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等大数据领域，是大数据生态中不可或缺的产品之一。通过数据传输服务DTS（Data Transmission Service），...

发布API

当界面提示发布成功后，DataWorks会根据API所属业务流程的关联分组（通过在数据服务中右键业务流程>修改属性可以看到具体的分组名称），将API发布至API网关中的对应分组中。发布成功后您也可以在API网关产品的开放API>API列表中查看已...

公告

显著提升数据治理水平，Dataphin将进一步加强资产治理方向的投入，正式更名为“智能数据建设与治理Dataphin”，希望能够更好的助力企业构建质量可靠、消费便捷、生产安全经济的企业级数据中台。更名公告，请参见 Dataphin更名通知。2020年...

从自建TiDB全量迁移至RDS MySQL

说明若数据传输控制台自动跳转至数据管理DMS控制台，您可以在右下角的中单击，返回至旧版数据传输控制台。在左侧导航栏，单击数据迁移。在迁移任务列表页面顶部，选择迁移的目标集群所属地域。单击页面右上角的创建迁移任务。配置...

PolarDB MySQL版间的单向同步

说明若数据传输控制台自动跳转至数据管理DMS控制台，您可以在右下角的中单击，返回至旧版数据传输控制台。在左侧导航栏，单击数据同步。在同步作业列表页面顶部，选择同步的目标实例所属地域。定位至已购买的数据同步实例，单击配置...

从自建Db2迁移至RDS MySQL

DTS在执行全量数据迁移时将占用源库和目标库一定的读写资源，可能会导致数据库的负载上升，在数据库性能较差、规格较低或业务量较大的情况下（例如源库有大量慢SQL、存在无主键表或目标库存在死锁等），可能会加重数据库压力，甚至导致数据...

从自建Db2迁移至RDS MySQL

DTS在执行全量数据迁移时将占用源库和目标库一定的读写资源，可能会导致数据库的负载上升，在数据库性能较差、规格较低或业务量较大的情况下（例如源库有大量慢SQL、存在无主键表或目标库存在死锁等），可能会加重数据库压力，甚至导致数据...

数据分析概述

功能概述 SQL查询 SQL查询是使用标准的SQL语句，来查询和分析存储在MaxCompute中的大数据，详情请参见 SQL查询。您可以通过编写SQL语句，对有查询权限的数据源进行快速的数据查询与分析操作，详情请参见功能概览。DataWorks SQL查询提供了...

基本概念

数据资产：数据资源平台中存在大量的数据表、标签、API等各类数据资产，数据管理者通过数据汇聚、数据治理、数据分析后，需要对整个平台数据进行统一管控，了解平台的核心数据资产，提供对应的数据资产管理规范。统一服务应用：是调用API...

Flink VVP+DLF数据入湖与分析实践

背景信息阿里云实时计算Flink版是一套基于Apache Flink构建的实时大数据分析平台，支持多种数据源和结果表类型。Flink任务可以利用数据湖统一存储的优势，使用Hudi结果表或Iceberg结果表，将作业的结果输出到数据湖中，实现数据湖分析。在...

从ECS上的自建MySQL同步至PolarDB MySQL版

说明若数据传输控制台自动跳转至数据管理DMS控制台，您可以在右下角的中单击，返回至旧版数据传输控制台。在左侧导航栏，单击数据同步。在同步作业列表页面顶部，选择同步的目标实例所属地域。定位至已购买的数据同步实例，单击配置...

EMR旧版数据开发迁移公告

迁移流程通过使用EMR Workflow，您可以轻松将在EMR旧版数据开发中的工作流和任务导出为兼容Apache Dolphinscheduler的工作流描述JSON文件，通过EMR Workflow的导入功能，您可以快速导入工作流和任务，实现快速的迁移，从而节省大量的迁移...

MySQL节点

登录 DataWorks控制台，单击左侧导航栏的数据建模与开发>数据开发，在下拉框中选择对应工作空间后单击进入数据开发。创建业务流程。如果您已有业务流程，则可以忽略该步骤。鼠标悬停至图标，选择新建业务流程。在新建业务流程 ...

大数据中台战略流程

新品推荐