大数据中台战略流程-大数据中台战略流程文档介绍内容-阿里云

FTP Check节点

背景信息 FTP Check节点的典型应用场景：当DataWorks调度系统中的任务需要访问一个外部数据库时，但由于该数据库的相关数据写入任务不在DataWorks中，DataWorks无法知道该数据库何时完成写入任务并可以被访问。如果DataWorks读取未写入完成...

EMR+DLF数据湖解决方案

操作流程具体操作步骤一：创建采用DLF为元数据服务的EMR DataLake集群步骤二：在DLF中创建元数据库和元数据表步骤三：通过DLF入湖功能创建RDS到数据湖的入湖流程步骤四：通过EMR的Spark、Presto引擎查询DLF表步骤一：创建DLF统一...

元数据抽取

在业务运行中，经常会沉淀到大量数据到数据湖中这部分数据可能是没有像数据仓库一样经过严格的数据管理流程或沉淀规范明确的元数据信息。元数据抽取可以分析数据湖中特定格式的数据，并自动生成元数据信息，通过周期性或手动执行，实现数据...

自定义工单审批流程

数据库实例上有多个不同业务的数据库共用，需要多个业务方都处于审批流程中，按需审批对应业务的操作工单流程。操作步骤步骤一：创建审批节点登录数据管理DMS 5.0。在顶部菜单栏中，选择安全与规范>审批流程。说明若您使用的是极简...

概述

优势云原生数据仓库AnalyticDB PostgreSQL版向量数据库通过自研向量引擎FastANN提供的向量分析能力目前已经在诸多业务中得到了广泛应用，包括阿里巴巴数据中台，阿里巴巴电商新零售业务，阿里云城市大脑，通义千问大模型搭建的问答服务等...

离线集成概述

数据管理DMS离线集成是一种低代码的数据开发工具，您可以组合各类任务节点，形成数据流，通过周期调度运行达到数据加工、数据同步的目的。支持的数据库类型 MySQL：RDS MySQL、PolarDB MySQL版、MyBase MySQL、PolarDB分布式版、AnalyticDB...

创建EMR Presto节点

前提条件数据开发（DataStudio）中已创建业务流程。数据开发（DataStudio）基于业务流程对不同开发引擎进行具体开发操作，所以您创建节点前需要先新建业务流程，操作详情请参见创建业务流程。已创建阿里云EMR集群，并注册EMR集群至...

使用DataWorks（离线与实时）

最佳实践数据库整库离线同步至MaxCompute 整库离线同步至MaxCompute OSS数据离线同步至MaxCompute EMR Hive数据整库离线同步至MaxCompute 数据库增量数据离线同步至MaxCompute RDS增量数据同步至MaxCompute Kafka增量数据同步至MaxCompute...

使用DataWorks

MaxCompute支持通过DataWorks的数据集成功能将MaxCompute中的数据以离线方式导出至其他数据源。当您需要将MaxCompute中的数据导出至其他数据源执行后续数据处理操作时，您可以使用数据集成功能导出数据。本文为您介绍如何将MaxCompute的...

Sugar BI连接MaxCompute

Sugar BI是百度智能云推出的敏捷 BI 和数据可视化平台，MaxCompute支持您将MaxCompute项目数据接入Sugar BI，帮助您轻松完成数据分析和数据可视化工作。本文为您介绍如何使用Sugar BI连接MaxCompute项目，并进行可视化数据分析。前提条件 ...

产品优势

多场景支持：支持离线数仓搭建、数仓提速、离线数据分析、数据中台搭建、大规模数据集成、离线计算、异构数据集成等。低门槛：近乎零代码，简单配置连线后即可满足各项离线数据集成任务，同时任务支持复杂调度。基于资产的虚拟湖：配合数据...

数据库导出

当您需要进行数据库备份、导出数据库表进行数据分析等操作，您可使用数据管理DMS 的数据导出功能，该功能可通过提交工单的方式导出数据库。前提条件数据库类型如下：MySQL系列：自建MySQL、RDS MySQL、PolarDB MySQL版、AnalyticDB ...

MySQL实例间的双向同步

同步源数据库同步目的数据库 RDS MySQL实例 ECS上的自建数据库通过专线、VPN网关或智能网关接入的自建数据库通过数据库网关接入的自建数据库通过云企业网CEN接入的自建数据库 RDS MySQL实例 ECS上的自建数据库通过专线、VPN网关或智能...

普通数据变更

将高风险审批流程中规则DSL区域的模板ID修改为步骤1 中创建的模板ID，并单击提交。单击高风险审批流程规则右侧的启用按钮，再单击确认。执行 DELETE 语句。在首页左侧的数据库实例区域，搜索并单击 poc_prod 数据库。在SQL ...

新零售：特步

业务架构客户价值基于 PolarDB-X+RDS的分布式数据库解决方案+业务中台提升客户数据链路的时效性以及客户业务系统的吞吐能力，使订单、库存、商品、销售的数据能实时从业务端到业务中台再到报表系统做销售业务决策。基于 PolarDB-X+RDS的...

RDS迁移至MaxCompute实现动态分区

本文为您介绍如何使用DataWorks数据集成同步功能自动创建分区，动态地将RDS中的数据迁移至MaxCompute大数据计算服务。前提条件准备DataWorks环境开通MaxCompute。在DataWorks上完成创建业务流程，本例使用DataWorks简单模式。详情请参见 ...

安全规则

本文介绍整个安全规则管理模块包括的安全规则、审批流程线、审批节点三个核心概念。审批节点系统节点系统初始...有数据Owner流程无数据Owner流程敏感等级可以设置某个审批流程线来控制审批流程。机密降为敏感机密降为内部敏感降为内部

PostgreSQL节点

数据开发（DataStudio）基于业务流程执行不同引擎的具体开发操作，因此，创建节点前需先创建业务流程，操作详情请参见创建业务流程。已创建PostgreSQL数据源。您需先将您的PostgreSQL数据库创建为DataWorks的PostgreSQL数据源，才可通过该...

数据仓库研发规范概述

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会...

将云消息队列 Kafka 版的数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能，将云消息队列 Kafka 版集群上的数据迁移至阿里云大数据计算服务MaxCompute，方便您对离线数据进行分析加工。前提条件在开始本教程前，确保您在同一地域中已完成以下操作：云消息队列 Kafka 版 ...

RDS MySQL修改字符集（平滑方案）

由于业务需求，需要变更表的字符集（例如从gbk变更为utf8mb4），如果直接使用ALTER命令修改字符集会锁表，当数据表过大时，对业务的影响较大。本文介绍的操作方法需要先在目标实例中创建表结构信息（新字符集），再通过DTS将源实例的数据...

从PolarDB MySQL版同步到Kafka

Kafka是应用较为广泛的分布式、高吞吐量、高可扩展性消息队列服务，普遍用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等大数据领域，是大数据生态中不可或缺的产品之一。通过数据传输服务DTS（Data Transmission Service），...

确定需求

在基于Dataphin构建与管理企业数据中台之前，首先需要确定数仓构建的目标与需求，进行全面的业务调研。您需要了解真实的业务需求是什么，以及确定整个业务系统能解决什么问题。业务调研充分的业务调研和需求分析是数据仓库建设的基石，...

配置MaxCompute输出

大数据计算服务MaxCompute（原名ODPS）为您提供完善的数据导入方案，能够快速解决海量数据的计算问题。前提条件配置MaxCompute输出节点前，您需要先配置好相应的输入或转换数据源，详情请参见实时同步能力说明。背景信息写入数据不支持...

SelectDB数据源

获取独享数据集成资源组EIP地址如下：数据同步任务开发：SelectDB同步流程指导创建数据源在进行数据同步任务开发时，您需要在DataWorks上创建一个对应的数据源，操作流程请参见创建并管理数据源。下面对SelectDB数据源的几个配置项进行...

MySQL灾备恢复演练

数据库备份DBS 提供恢复演练功能，支持定期演练数据库的恢复流程。您可以通过该功能验证备份数据的准确性与容灾系统的可靠性，确保当发生数据灾难时，容灾系统能够顺利接替生产系统并继续对外提供服务。背景信息通常在灾难发生时，可能...

基于Delta lake的一站式数据湖构建与分析实战

操作流程数据湖构建与分析链路企业构建和应用数据湖一般需要经历数据入湖、数据湖存储与管理、数据湖探索与分析等几个过程。本文主要介绍基于阿里云数据湖构建（DLF）构建一站式的数据入湖与分析实战。其主要数据链路如下：步骤一：服务...

从PolarDB MySQL版同步到Kafka

Kafka是应用较为广泛的分布式、高吞吐量、高可扩展性消息队列服务，普遍用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等大数据领域，是大数据生态中不可或缺的产品之一。通过数据传输服务DTS（Data Transmission Service），...

DataWorks On Hologres使用说明

二、数据建模与开发模块描述相关文档数据建模数据建模是全链路数据治理的第一步，沉淀阿里巴巴数据中台建模方法论，从数仓规划、数据标准、维度建模、数据指标四个方面，以业务视角对业务的数据进行诠释，让企业内部实现“数同文”的...

主备方案介绍

云数据库HBase存储海量大数据，在业务场景中往往承载着重要数据，为保障数据的高可用性和安全性，云数据库HBase提供了主备双活和主备容灾特性。本文介绍云数据库HBase的主备双活和主备容灾特性功能。使用场景主备双活：大数据量随机读响应...

从自建PostgreSQL全量迁移至RDS PostgreSQL

注意事项 DTS在执行全量数据迁移时将占用源库和目标库一定的读写资源，可能会导致数据库的负载上升，在数据库性能较差、规格较低或业务量较大的情况下（例如源库有大量慢SQL、存在无主键表或目标库存在死锁等），可能会加重数据库压力，...

StarRocks

数据开发（DataStudio）基于业务流程执行不同引擎的具体开发操作，因此，创建节点前需先创建业务流程，操作详情请参见创建业务流程。已创建StarRocks数据源。您需先将您的StarRocks数据库创建为DataWorks的StarRocks数据源，详情请参见 ...

创建EMR Impala节点

前提条件数据开发（DataStudio）中已创建业务流程。数据开发（DataStudio）基于业务流程对不同开发引擎进行具体开发操作，所以您创建节点前需要先新建业务流程，操作详情请参见创建业务流程。已创建阿里云EMR集群，并注册EMR集群至...

什么是MaxCompute

MaxCompute是适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效...

数据开发概述

进入数据开发登录 DataWorks控制台，单击左侧导航栏的数据建模与开发>数据开发，在下拉框中选择对应工作空间后单击进入数据开发。数据开发主要功能数据开发（DataStudio）的主要功能介绍如下。您可参考数据开发相关概念辅助理解。...

Hologres SQL节点

Hologres与MaxCompute在底层无缝连接，您无须移动数据，即可使用标准的PostgreSQL语句查询分析MaxCompute中的海量数据，快速获取查询结果。前提条件您在工作空间配置页面添加 Hologres 计算引擎实例后，当前页面才会显示 Hologres 目录...

SQL Server节点

数据开发（DataStudio）基于业务流程执行不同引擎的具体开发操作，因此，创建节点前需先创建业务流程，操作详情请参见创建业务流程。已创建SQL Server数据源。您需先将您的SQL Server数据库创建为DataWorks的SQL Server数据源，才可通过该...

创建安全规则

安全规则是通过一组领域专用语言DSL（Domain Specific Language）对数据库实现精细化管控的规则集合，您在使用DMS的查询、导出、变更等功能时，可以通过安全规则管控这些功能行为，从而在平台内制定和打造数据库的操作规范和研发流程。...

DataWorks On CDP/CDH使用说明

二、数据建模与开发模块说明相关文档数据建模数据建模是全链路数据治理的第一步，沉淀阿里巴巴数据中台建模方法论，从数仓规划、数据标准、维度建模、数据指标四个方面，以业务视角对业务的数据进行诠释，让企业内部实现“数同文”的...

创建及管理外部表

背景信息 Hologres与大数据生态无缝打通，可以直接加速查询外部表数据，也可以将外部表的数据导入至Hologres中处理。Hologres当前仅支持对MaxCompute表进行操作。使用限制 Hologres支持跨工作空间读取外部表数据，您当前使用的账号需要拥有...

大数据中台战略流程

新品推荐