大数据平台功能流程-大数据平台功能流程文档介绍内容-阿里云

产品优势

提高开源组织版本管理效率，快速支持业务创新更多开源软件支持更高软件版本支持覆盖从边缘到AI全场景企业级的服务支持，降低运维成本，缩短故障处理时间来自阿里云和Cloudera的7*24小时大数据专家服务支持快速定位使用中遇到的问题，...

数据质量入门

数据质量帮助您及时感知源端数据的变更与ETL（Extract Transformation Load）中产生的脏数据，自动拦截问题任务，阻断脏数据向下游蔓延。避免任务产出问题数据，影响正常使用和业务决策。本文示例配置表数据质量监控规则，保障产出的表数据...

DLF-Auth

DLF-Auth组件是数据湖构建DLF（Data Lake Formation）产品提供的，通过该组件可以开启数据湖构建DLF的数据权限功能，可以对数据库、数据表、数据列、函数进行细粒度权限控制，实现数据湖上统一的数据权限管理。本文为您介绍如何开启DLF-...

数据资源平台服务关联角色

背景信息数据资源平台服务关联角色（AliyunServiceRoleForDataQ）是在某些情况下，为了完成数据资源平台自身的某个功能，需要获取其他云服务的访问权限，而提供的RAM角色。更多关于服务关联角色的信息，请参见服务关联角色。应用场景 ...

DataWorks模块使用说明

使用流程概览：参考文档：DataWorks数据建模子模块：数据开发（DataStudio）功能说明：数据开发（DataStudio）是一站式大数据开发平台，支持在线开发MaxCompute、EMR、Hologres、CDP、ADB等多种大数据引擎的数据处理任务。它集成了强大的...

功能简介

数据资源平台中的数据标准、数据模型、数据加工场景、数据服务API、云计算资源配置等资产，经过验证最终可沉淀为一个特定的解决方案。支持通过不同的创建方式，灵活的选择解决方案中包含的内容。依托数据资源平台中管理的大量元数据，确保...

迁移Oracle数据至MaxCompute最佳实践

本文为您介绍如何通过DataWorks的数据集成功能，迁移Oracle数据至MaxCompute。前提条件准备DataWorks环境开通MaxCompute。创建工作空间（本文以简单模式的工作空间为例）。在DataWorks上创建业务流程。详情请参见创建业务流程。准备...

流程管控

校验流程如果您使用开放平台功能，配置了对DataStudio中关键操作的事件订阅与事件校验，则当用户进行对应操作时会触发校验流程，以运行前管控为例，管控校验流程如下。配置入口与指导您需要在开放平台中配置订阅DataStudio的事件，并自行...

解决方案

数据资源平台中的数据标准、数据模型、数据加工场景、数据服务API、云计算资源配置等资产，经过验证最终可沉淀为一个特定的解决方案。支持通过不同的创建方式，灵活的选择解决方案中包含的内容。依托数据资源平台中管理的大量元数据，确保...

03创建数据元

通过配置数据元的类型、长度、质量校验函数和引用数据字典，为模型标准化设计及数据治理过程中的质量监控提供规则依据，本章节为您介绍如何新建数据元。前提条件已新建工作组“信息中心(xxzx)”，具体操作，请参见新建工作组。已在工作组...

01创建数据字典并物理化

数据字典帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量，创建并维护逻辑表中使用的数据字典，方便数据元引用数据字典来规范数据元的值域范围，保证关联了字段标准的表及字段可以自动设置数据质量规则，规范数据质量，本章节...

新建维度

维度管理通过分析业务流程、抽象关键业务对象、业务对象属性，并设置为维度及其维度属性，为模型标准化设计及数据治理过程中的质量检测提供依据。本文介绍如何新建维度。背景信息维度和维度属性也是数据标准的一种类型，通常使用维度建模...

新建数据元

数据元管理通过分析业务流程，抽象关键业务对象和业务对象属性，并把关键业务对象新建为数据元，并配置数据元的类型、长度、质量校验函数和引用数据字典，为模型标准化设计及数据治理过程中的质量监控提供规则依据。本文介绍如何新建数据元...

日志服务通过数据集成投递数据

本文将以LogHub数据同步至MaxCompute为例，为您介绍如何通过数据集成功能同步LogHub数据至数据集成已支持的目的端数据源（例如MaxCompute、OSS、Tablestore、RDBMS和DataHub等）。前提条件准备好相关的数据源，详情请参见创建MaxCompute...

DBS沙箱功能概览

相比现有基于大数据平台的历史数据离线分析方案，DBS沙箱功能提供原始数据库SQL接口，不需要开发人员编写离线分析脚本，并由于使用快照存储机制，存储成本也更低。费用说明更多信息，请参见 DBS沙箱费用。后续步骤自建MySQL应急恢复...

全增量同步任务运维

全量补数据该功能适用于MaxCompute目标表由于各种原因出现了数据缺失等正确性问题，需要重新同步全量数据补回全量数据的场景。说明仅一键实时同步至MaxCompute任务支持全量补数据。全量补数据暂不支持分库分表同步任务。单击对应同步任务...

数据保护伞概述

使用流程数据保护伞为您提供敏感数据规则配置、识别敏感数据、查看识别结果、处理敏感数据等管控流程，帮助您在敏感数据产生的事件前、中、后各阶段管控梳理项目中的敏感数据，保障数据安全。具体流程及相关功能介绍如下。步骤一：事前...

Trino概述

支持丰富的数据源：Hive Cassandra Kafka MongoDB MySQL PostgreSQL SQL Server Redis Redshift 本地文件支持高级数据结构，具体如下：数组和Map数据 JSON数据 GIS数据颜色数据功能扩展能力强，提供了多种扩展机制：扩展数据连接器 ...

服务关联角色

背景信息 Cloudera企业数据云平台服务关联角色AliyunServiceRoleForCDP是Cloudera企业数据云平台在某些情况下，为了完成自身的某个功能，需要获取其他云服务的访问权限而提供的RAM角色。更多关于服务关联角色的信息请参见服务关联角色。...

功能概览

1.4 生态融合系出飞天，与阿里云大数据系统深度整合，无缝对接MaxCompute、实时计算、交互式分析等产品，打通整个大数据体系。2.产品功能 2.1 数据接入提供多种SDK、API和Flume、Logstash等第三方插件，让您高效便捷的把数据接入到数据...

DM（达梦）数据源

DM（达梦）数据源作为数据中枢，为您提供读取和写入DM数据库的双向通道，能够快速解决海量数据的计算问题。本文为您介绍DataWorks的DM数据同步的能力支持情况。使用限制离线同步支持读取视图表。DM Reader和DM Writer仅支持使用独享数据...

Presto概述

支持高级数据结构，具体如下：数组和Map数据 JSON数据 GIS（Geographic Information System）数据颜色数据功能扩展能力强，提供了多种扩展机制：扩展数据连接器自定义数据类型自定义SQL函数流水线：基于Pipeline处理模型数据在处理...

管理问题数据

目前仅部分数据质量监控规则支持配置保留问题数据功能，支持保存问题数据的规则，详情请参见：附录：支持保留问题数据的规则列表与问题数据口径。问题数据采集最终将基于您的规则生成数据采集SQL，并在MaxCompute引擎侧执行，此过程将产生...

ClickHouse数据源

ClickHouse数据源为您提供读取和写入ClickHouse双向通道的功能，本文为您介绍DataWorks的ClickHouse数据同步的能力支持情况。支持的版本支持阿里云ClickHouse的20.8、21.8内核版本。您需要确认驱动和您的ClickHouse服务之间的兼容能力，...

DataWorks On CDP/CDH使用说明

背景信息 CDH是Cloudera的开源平台发行版，提供开箱即用的集群管理、集群监控、集群诊断等功能，并支持使用多种组件，助力您执行端到端的大数据工作流程。CDP是跨平台收集和整合客户数据的公共数据平台，可帮助您收集实时数据，并将其构建...

产品安全能力

PolarDB 产品的安全能力可以从访问安全、数据传输安全、数据安全、数据脱敏和安全审计5个方面体现。访问安全 PolarDB 提供的集群白名单功能实现了集群访问安全，集群白名单功能包括集群IP白名单和安全组，创建 PolarDB MySQL版集群后，您...

设备影子概览

物联网平台提供设备影子功能，用于缓存设备上报的状态数据和应用程序下发的指令信息。设备在线时，可以直接获取物联网平台指令；设备离线后，再次上线可以主动拉取物联网平台指令。本文主要介绍设备影子的应用场景和使用方法。什么是设备...

DB2数据源

DB2数据源作为数据中枢，为您提供读取和写入DB2数据库的双向通道，能够快速解决海量数据的计算问题。本文为您介绍DataWorks的DB2数据同步的能力支持情况。支持的版本 DB2 Reader和DB2 Writer使用的DB2驱动版本为 IBM Data Server Driver ...

需求阶段

说明如果企业具备需求相关管理平台，建议通过平台+数据库形式规范化存储不断迭代的每个需求版本。评审需求变更原则上需求评审需由数据产品经理发起评审会议来完成，但如果需求迭代内容不多，评审方式可视情况而定选择邮件或现场会议方式...

准备数据

在数据准备阶段，您需要同步原始数据至MaxCompute。前提条件已完成准备环境。已新增MaxCompute数据源。详情请参见创建MaxCompute数据源。准备数据源通过RDS创建MySQL实例，获取RDS实例ID。详情请参见快速创建RDS MySQL实例。在RDS控制...

基于AnalyticDB构建企业数仓

同步速率设置同步速率可以保护读取端数据库，以避免抽取速度过大，给源库造成太大的压力。同步速率建议限流，结合源库的配置，请合理配置抽取速率。错误记录数错误记录数，表示脏数据的最大容忍条数。独享数据集成资源组选择任务运行的...

数据及时性监控

基于MaxCompute的离线任务对数据产出有严格的时间要求，在确保数据准确性的前提下，还需要让数据能够及时提供服务。本文为您介绍如何使用DataWorks智能监控的规则管理功能监控数据的及时性。前提条件如果您想使用完整的智能监控功能，需要...

开发管控：管理者

作为工作空间的管理者，在使用数据开发（DataStudio）时，您可以针对用户的开发行为实施有效的管控措施，进行开发流程、数据安全、审计等相关操作，本文将帮助您快速掌握DataStudio的相关功能，实现对数据开发过程的有效管控。背景信息 ...

查看计量大屏

数据服务提供了计量大屏功能，您可以通过该功能查看各类可视化图表和统计数据，包括工作空间下的API总数、总调用次数以及总执行时长用量等信息，帮助您全面了解API的调用情况。同时，您也可以针对单个API查看监控图表，获取API网关状态码、...

我的主页

在我的主页页面，您可以了解目前空间构建平台的功能、现有的时空基底数据、查看数据资源详情、上传数据、查看账号权限和近期打开项目的快速入口。用户指南：展示空间构建平台目前的功能，包括空间数据管理、空间数据加工和时空基底...

系统角色

您可根据各角色适用的群体、及支持使用的DMS功能，授予用户DMS系统角色。角色说明权限普通用户使用数据库进行数据查询与变更、表结构查看与变更等操作。可以是企业的研发人员、测试人员、产品人员、运营人员、数据分析师等。主账号下的...

我的主页

在我的主页页面，您可以了解目前空间构建平台的功能、现有的时空基底数据、查看数据资源详情、上传数据、查看账号权限和近期打开项目的快速入口。用户指南：展示空间构建平台目前的功能，包括空间数据管理、空间数据加工和时空基底...

典型场景

基于湖构建数据平台，支持BI、挖掘等业务对象存储OSS可以作为湖存储，DLA基于OSS构建一站式的大数据平台。具体包括构建数据湖、数据ETL、交互式查询、机器学习等功能。构建数据湖实时数据湖：支持DB的CDC与消息数据（如Kafka）入湖，构建...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户...，赋能技术团队具备大数据平台建设、架构设计、AI算法建模以及运维保障能力...

数据归档

通过数据归档OSS功能，用户能够将低频访问、数据量大的表转储至OSS，并通过原生InnoDB的访问方式去读取冷表数据。数据归档DDL操作如下：归档 ALTER TABLE$table_name ENGINE_ATTRIBUTE='{"OSS":"Y"}';取回 ALTER TABLE$table_name ENGINE_...

大数据平台功能流程

新品推荐