大数据 dmp 功能框架-大数据 dmp 功能框架文档介绍内容-阿里云

文档修订记录

Check节点 2024.1.12 新增功能最佳实践新增DataWorks大数据安全治理实践新增指南，为您介绍数据安全治理的常见思路、DataWorks产品的安全能力，以及在DataWorks上基于“基础防护建设”、“数据安全防护措施”、“数据安全持续运营”三个...

客户案例

MaxCompute已被广泛应用于各大领域处理云上大数据，帮助众多企业解决了海量数据分析问题，同时降低企业运维成本，企业人员可更专注于业务开发。本文为您介绍MaxCompute的精选客户案例。MaxCompute的全量客户案例信息，请参见行业客户案例...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力，本文以一个零售电商行业的数仓搭建实验为例，为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现，帮助您深入了解阿里云...

采集数据

本教程以MySQL中的用户基本信息（ods_user_info_d）表及OSS中的网站访问日志数据（user_log.txt）文件，通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d、ods_raw_log_d表为例，为您介绍如何通过DataWorks数据集成实现异构...

采集数据

本教程以MySQL中的用户基本信息（ods_user_info_d）表及OSS中的网站访问日志数据（user_log.txt）文件，通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d、ods_raw_log_d表为例，为您介绍如何通过DataWorks数据集成实现异构...

测试数据构建

数据管理DMS的测试数据构建功能拥有强大的算法引擎，支持批量生成各类随机值、地区名、虚拟IP地址等信息，可以大大减轻准备测试数据的负担。本文介绍构建测试数据的方法。前提条件支持的数据库类型：MySQL：RDS MySQL、PolarDB MySQL版、...

时序引擎版本说明

为提升用户体验，云原生多模数据库 Lindorm会不定期地发布版本，用于丰富云产品功能或修复已知缺陷。您可以参阅本文了解Lindorm时序引擎的版本更新说明，选择在业务低峰期升级实例的时序引擎版本。如何查看或升级实例的时序引擎版本您可以...

我是管理员

数据归档数据归档功能定时将大表的数据归档至其他数据库，支持源表数据删除、表空间整理回收等功能。数据库迁移通过创建工单实现数据库迁移、校验和清理的闭环操作。运维管理通知管理可根据您的业务需求，订阅不同功能模块的消息事件，...

数据归档概述

当线上数据库中的历史数据（访问率很低的数据）越来越多，占用的存储越来越大，以至于会影响数据库的查询性能与业务运转，此时您可以使用数据管理DMS 的数据归档功能，周期性地将指定表的数据归档至其他数据库或存储服务中。同时，该功能...

功能特性

Hudi存储数据导入与导出功能集功能功能描述参考文档 大数据数据源 Maxcompute数据源 AnalyticDB for MySQL支持通过外表、DataWorks两种方式将MaxCompute数据导入至数仓版或湖仓版集群，也支持通过外表将AnalyticDB for MySQL数仓版...

数据分析：即时快速分析

功能概述数据分析支持基于个人视角的数据上传、公共数据集、表搜索与收藏、在线SQL取数、SQL文件共享、SQL查询结果下载及用电子表格进行大屏幕数据查看等产品功能。适用场景适合更多非专业数据开发人员，如数据分析、产品、运营等工作...

敏感数据保护概览

如果您有对敏感数据进行管控和脱敏的需求，可以使用数据管理DMS 的敏感数据保护功能对数据库进行扫描，识别、脱敏和管理敏感数据。背景信息通过敏感数据保护功能，可帮助企业及时有效地发现与识别敏感数据资产，避免敏感数据滥用，有效...

什么是DataWorks

推荐配置推荐原因功能：推荐购买专业版，专业版满足企业专业的数据仓库构建需求，覆盖数据开发、任务运维、数据地图、数据质量等绝大部分功能。资源：推荐购买独享数据集成资源组，以支持更好的同步体验，支持离线同步、实时同步、全...

什么是MaxCompute

MaxCompute是适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效...

新功能发布记录

OceanBase 数据库的数据至 RocketMQ 支持 OceanBase 数据库至 Kafka 的同步 DDL 功能，方便用户及时感知 Schema 变化同步 OceanBase 数据库的数据至 Kafka 目标端 Kafka/DataHub/RocketMQ 支持 Debezium JSON 格式，方便对接下游大数据...

管理敏感数据

如果您需要对RDS实例中的敏感数据进行管控和脱敏，可以使用数据管理DMS提供的敏感数据保护功能。费用请参见敏感数据保护功能定价。功能介绍数据管理DMS的敏感数据管理提供如下功能：提供敏感数据资产大盘，解决企业敏感数据分布的统一纳...

我是安全管理员

解决方案数据归档概述数据归档功能支持定时将大表的数据归档至其他数据库，同时支持源表数据删除、表空间整理回收等。一键建仓一键创建实时同步的数据仓库，数据在秒级的延迟下，同步至AnalyticDB MySQL版数据库中。数据库迁移通过创建...

功能特性

EMR on ECS 功能集功能功能描述参考文档集群管理创建集群您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架，以进行大规模数据处理和分析等操作。创建集群释放集群在完成EMR集群任务后及时释放集群，可以释放资源...

生成测试数据

背景信息 OceanBase 开发者中心（OceanBase Developer Center，ODC）提供模拟数据功能供用户在测试数据库性能或者验证功能等需要大量模拟数据的场景下，能够快速根据表中的字段类型生成数据。注意事项单次模拟数据上限为 1 亿行。拥有检查...

我是DBA

解决方案数据归档数据归档功能支持定时将大表的数据归档至其他数据库，同时支持源表数据删除、表空间整理回收等。一键建仓一键创建实时同步的数据仓库，数据在秒级的延迟下，同步至AnalyticDB MySQL版数据库中。数据库迁移通过创建工单...

计算引擎版本说明

为提升用户体验，云原生多模数据库 Lindorm 会不定期地发布版本，用于丰富云产品功能或修复已知缺陷。您可以参阅本文了解Lindorm计算引擎的版本更新说明。查看计算引擎版本进入SparkUI界面。如何进入，请参见进入SparkUI界面。单击 ...

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境，作为阿里云E-MapReduce的一部分，它提供了EMR Notebook和EMR Workflow两个核心功能。通过EMR Workbench，您可以轻松进行数据开发，以及交互式数据分析，并设计复杂的数据处理工作...

DLF中数据入湖功能停止更新公告

本文为你说明DLF中的数据入湖功能停止更新说明，DLF其他功能正常使用，不受影响。数据湖构建（DLF）产品的数据入湖功能已于2023年02月15日停止更新，但会持续运维已有数据入湖作业。为了确保您业务连续性，建议您采用其他方式进行数据入湖...

DataWorks on EMR数据安全方案

数据安全能力：任务管理 DataWorks提供了大数据开发运维等能力，其中工作空间、安全中心等功能模块可实现对大数据计算任务的管理。工作空间：通过DataWorks的工作空间规划可以实现工作空间的人员管理、设置大数据作业可见性和可运维性。...

2021年

2021-03-16 全部地域更新或删除数据（UPDATE|DELETE）MERGE INTO 表操作 ACID语义 MaxCompute管家作业诊断功能发布 MaxCompute管家发布的慢作业、错作业诊断功能，可以帮助大数据开发者和分析师在日常作业运维中，对慢作业和错作业进行...

大数据安全治理的难点

存储众所周知，大数据系统以数据类型多（结构化、非结构化、半结构化）、数据量大（动辄PB级别）著称，某些巨头组织一天就能新增数十万甚至数百万张表，如此体量给数据分级分类带来了极大挑战，通过人工进行数据分级分类显然是不现实的，...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

客户案例

DataWorks在多个行业中均有典型的案例落地，帮助多个行业的企业解决数据痛点，挖掘数据价值，本文为您介绍典型行业中已落地的客户案例。新零售行业：大润发云上数据中台建设客户架构如下。客户简介为了快速数字化转型，拥抱新零售，...

事务拆分

如果您的业务框架将所有请求都封装到非自动提交的事务中，导致主实例负载过大，您可以开通RDS PostgreSQL的数据库代理功能，该功能默认支持事务拆分，能够在保证业务中读写一致性的前提下，将事务内写操作发生之前的读请求转发到只读实例，...

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。说明上图中，虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示：数据产生：业务系统每天会产生大量结构化的...

购买指引

场景1：新用户推荐配置推荐配置推荐原因功能：推荐购买专业版，专业版满足企业专业的数据仓库构建需求，覆盖数据开发、任务运维、数据地图、数据质量等绝大部分功能。资源：推荐购买独享数据集成资源组，以支持更好的同步体验，支持离...

数据标准

数据是由特定的环境产生的，这些环境因素包括生产者、时间、系统等，从而造成了同一个语义的数据，有多种不同的定义方法，给后期进行数据汇集和整合带来障碍。因此，数据处理的前奏就是数据标准化，数据标准作为一个统一的数据共识，在标准...

场景：配置增量数据离线同步任务

离线同步任务支持您通过配置类似的数据过滤功能来决定同步全量数据还是增量数据，配置过滤条件时，将只同步满足过滤条件的数据。同时，过滤条件可以结合调度参数使用，实现过滤条件随任务调度时间的动态变化，进而实现增量数据的同步。该...

概述

若集群中某些库表的数据几乎没有更新、插入和修改操作，且读取频率非常低，如果您有降本需求，可以使用 PolarDB MySQL版提供的冷数据归档功能，将这部分数据转存至低成本的OSS上存储，以降低数据存储成本。本章节介绍了冷数据归档方法、...

创建Oracle数据源

通过创建Oracle数据源能够实现Dataphin读取Oracle的业务数据或向Oracle写入数据。本文为您介绍如何创建Oracle数据源。背景信息 Oracle是一款可移植好、可靠性好、适应高、功能强大的关系型数据库。如果您使用的是Oracle，在对接Dataphin...

创建Oracle数据源

通过创建Oracle数据源能够实现Dataphin读取Oracle的业务数据或向Oracle写入数据。本文为您介绍如何创建Oracle数据源。背景信息 Oracle是一款可移植好、可靠性好、适应高、功能强大的关系型数据库。如果您使用的是Oracle，在对接Dataphin...

MaxFrame概述

MaxFrame是阿里云自研的分布式计算框架，结合MaxCompute Notebook、镜像管理等功能提供了一套完整的Python开发生态，让用户可以用更符合Python社群开发习惯的方式使用MaxCompute弹性计算资源及数据接口进行大规模数据处理、分析及数据挖掘...

实时数据消费概述

实时数据消费功能包含高速数据导入API和实时数据源消费两部分，可实现数据直接写入Segment（分片单元），避免通过COPY或INSERT方式造成的Master写入负载高的问题，也可实现使用 AnalyticDB PostgreSQL版单产品直接消费Kafka数据。功能简介...

功能发布记录（2024年）

2024-03 功能名称描述发布时间发布地域使用客户相关文档新版补数据功能上线周期任务开发完成并提交发布后会按照调度配置定时运行，若您希望在指定时间段运行周期任务，可使用补数据功能。补数据可通过补历史或未来一段时间的数据，...

场景：调度参数在数据集成的典型应用场景

场景四：同步历史数据基于调度参数可根据业务时间将参数自动替换为对应的值这一特性，当您创建任务当天需要将历史数据进行补齐时，您可使用补数据功能，补数据支持补历史一段时间的数据或者未来一段时间的数据，调度参数将在任务调度时...

大数据 dmp 功能框架

新品推荐