大数据系统的必要要素-大数据系统的必要要素文档介绍内容-阿里云

大数据安全治理的难点

通常，大数据系统中的工作流涉及多部门、多责任人且跨系统的数据，如何才能协调好这些业务系统准时、保质保量地产出数据，避免出现因业务系统宕机/脏数据导致数据延时产出、产出脏数据，关乎到企业数据业务的连续性问题甚至高层的信任问题...

IoT数据自动化同步至云端解决方案

但同步至大数据系统或传统数据库的数据，需要使用专业的数据同步系统。下图为您展示使用DataWorks数据集成完成OSS数据同步至大数据系统的解决方案流程。新建离线同步节点，详情请参见通过向导模式配置离线同步任务。选择数据来源OSS进行...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多信息，请参见 Apache Hudi官网。权限说明仅支持超级管理员、数据源管理员、...

DataWorks On EMR使用说明

背景信息开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。阿里云...

文档修订记录

Check节点 2024.1.12 新增功能最佳实践新增DataWorks大数据安全治理实践新增指南，为您介绍数据安全治理的常见思路、DataWorks产品的安全能力，以及在DataWorks上基于“基础防护建设”、“数据安全防护措施”、“数据安全持续运营”三个...

应用场景

前端的监控系统和大数据处理系统会利用 TSDB 的数据查询和计算分析能力进行业务监控和分析结果的实时展现。电力化工及工业制造监控分析传统电力化工以及工业制造行业需要通过实时的监控系统进行设备状态检测，故障发现以及业务趋势分析。...

应用场景

同时MongoDB动态模式存储方式也非常适合存储多重系统的异构数据，满足移动App应用的需求。物联网应用云数据库MongoDB具有高性能和异步数据写入功能，特定场景下可达到内存数据库的处理能力。同时，云数据库MongoDB中的分片集群实例，可按...

冷热分层

背景信息在海量大数据场景下，随着业务和数据量的不断增长，性能和成本的权衡成为大数据系统设计面临的关键挑战。Delta Lake是新型数据湖方案，推出了数据流入、数据组织管理、数据查询和数据流出等特性，同时提供了数据的ACID和CRUD操作...

基本概念

DTS 数据传输服务（Data Transmission Service，简称DTS）支持关系型数据库（RDBMS）、非关系型数据库（NoSQL）、数据多维分析（OLAP）等数据源间的数据交互，集数据同步、迁移、订阅、集成、加工于一体，帮助您构建安全、可扩展、高可用的...

点热力层（v3.x版本）

过滤器打开过滤器，选择已创建的数据过滤器或新建数据过滤器，并配置数据过滤器脚本，实现数据的筛选功能。详情请参见管理数据过滤器。数据响应结果实时展示了组件所使用的数据。当组件数据源发生变化时，数据响应结果会对应展示最新的...

支持的云服务

AnalyticDB for MySQL 云原生数据仓库 AnalyticDB MySQL 版（AnalyticDB for MySQL）是海量数据实时高并发在线分析（Realtime OLAP）云计算服务，与MaxCompute结合应用于大数据驱动业务系统的场景。通过MaxCompute离线计算挖掘，产出高质量...

点热力层（v3.x版本）

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

数仓分层

在本教程中，从交易数据系统的数据经过DataWorks数据集成，同步到数据仓库的ODS层。经过数据开发形成事实宽表后，再以商品、地域等为维度进行公共汇总。整体的数据流向如下图所示。其中，ODS层到DIM层的ETL（萃取（Extract）、转置...

分析业务过程

为理清数据之间的逻辑关系和流向，首先需要理解用户的业务过程，了解过程中涉及到的数据系统。您可以采用过程分析法，将整个业务过程涉及的每个环节一一列清楚，包括技术、数据、系统环境等。在分析企业的工作职责范围（部门）后，您也可以...

分析业务过程

为理清数据之间的逻辑关系和流向，首先需要理解用户的业务过程，了解过程中涉及到的数据系统。您可以采用过程分析法，将整个业务过程涉及的每个环节一一列清楚，包括技术、数据、系统环境等。在分析企业的工作职责范围（部门）后，您也可以...

数仓分层

在本教程中，从交易数据系统的数据经过DataWorks数据集成，同步到数据仓库的ODS层。经过数据开发形成事实宽表后，再以商品、地域等为维度进行公共汇总。整体的数据流向如下图所示。其中，ODS层到DIM层的ETL（萃取（Extract）、转置...

创建GreenPlum数据源

通过创建GreenPlum数据源能够实现Dataphin读取GreenPlum的业务数据或向GreenPlum写入数据。本文为您介绍如何创建GreenPlum数据源。背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

概述

本节为不熟悉关系数据库管理系统的人介绍 SQL 语言。将讨论创建、填充、查询和更新表等基本操作以及示例。还将讨论视图、外键和事务等更高级的概念。PolarDB PostgreSQL版（兼容Oracle）是关系数据库管理系统（RDBMS）。这意味着它是用于...

快照概述

数据库文件系统快照基于云盘快照，它是一种便捷高效的数据容灾手段，用于对文件系统的数据进行备份。什么是数据库文件系统快照数据库文件系统快照是某一时间点文件系统状态的备份文件，文件系统部署在云盘上，因此文件系统快照服务实际上...

新建Doris数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可根据标签给数据源进行分类...

数据质量管理流程

在业务系统的数据生成过程中进行卡点校验。详情请参见离线数据加工卡点。对数据风险点进行监控，包括数据的质量风险和及时性。详情请参见：数据质量风险监控数据及时性监控$icmsDocProps={'productMethod':'created','language':'zh-CN',...

数据质量管理流程

在业务系统的数据生成过程中进行卡点校验。详情请参见离线数据加工卡点校验。对数据风险点进行监控，包括数据的质量风险和及时性。详情请参见：数据质量风险监控数据及时性监控$icmsDocProps={'productMethod':'created','language':'zh-...

数据分析概述

DataWorks提供的数据分析平台，可以流畅地进行数据处理、分析、加工及可视化操作。在数据分析板块中，您不仅可以在线洞察数据，还可以编辑和共享数据。本文为您介绍数据分析平台的优势、功能、权限等概要信息。产品优势与本地数据分析相比...

创建快照

数据库文件系统快照基于云盘快照，它是一种便捷高效的数据容灾手段，用于对文件系统的数据进行备份。前提条件进行快照创建时，数据库文件系统必须处于已挂载或待挂载状态。说明如果文件系统处于待挂载的状态，则需要保证文件系统有...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大...

高压缩引擎（X-Engine）介绍

大量数据共享数据库系统的内存、缓存空间、磁盘IOPS等，导致性能问题。数据量太大导致数据备份时间过长甚至备份失败；同时如何存放备份数据也是一个问题。针对如上问题，一种做法是对历史数据做归档，将长期不使用的数据迁移至以文件形式...

敏感数据溯源

DataWorks的数据溯源功能，支持通过提取数据泄露文件中数据的水印信息，帮助您定位到可能会泄露目标数据的责任人。本文为您介绍如何创建溯源任务，并通过该任务查找可能会泄露数据的责任人。前提条件已创建数据识别规则，详情请参见配置...

配置DM（达梦）输出组件

配置DM（达梦）输出组件，可以将外部数据库中读取的数据写入到DM（达梦），或从大数据平台对接的存储系统中将数据复制推送至DM（达梦），进行数据整合和再加工。本文为您介绍如何配置DM（达梦）输出组件。前提条件已创建DM（达梦）数据源...

配置DM（达梦）输出组件

配置DM（达梦）输出组件，可以将外部数据库中读取的数据写入到DM（达梦），或从大数据平台对接的存储系统中将数据复制推送至DM（达梦），进行数据整合和再加工。本文为您介绍如何配置DM（达梦）输出组件。前提条件已创建DM（达梦）数据源...

使用MaxCompute控制台（离线）

查看上传记录提交上传后，若数据量较大，需要耗费一些时间，您无需在提交页面一直等待，可后续通过单击数据上传页面右上角的查看上传记录查看通过该功能上传数据的详情记录。说明通过该页面的查看上传记录查询到的记录详情也包含...

数据查询

在集群管理系统的左侧导航栏中，选择数据查询>数据查询（兼容HBase）。设置筛选条件，包括 namespace 和表。可选：输入列簇、row key、start key（分区起始Key）、end key（分区终止Key）和limit（显示条数）。单击查询，界面将展示目标...

配置ArgoDB输出组件

配置ArgoDB输出组件，可以将外部数据库中读取的数据写入到ArgoDB，或从大数据平台对接的存储系统中将数据复制推送至ArgoDB，进行数据整合和再加工。本文为您介绍如何配置ArgoDB输出组件。使用限制 ArgoDB输出组件支持写入文件格式为orc、...

使用DataWorks

MaxCompute支持通过DataWorks的数据集成功能将MaxCompute中的数据以离线方式导出至其他数据源。当您需要将MaxCompute中的数据导出至其他数据源执行后续数据处理操作时，您可以使用数据集成功能导出数据。本文为您介绍如何将MaxCompute的...

技术面临的挑战与革新

分布式事务与集中式事务的优劣事务处理是数据库保证ACID语义的核心功能，因为数据库系统需要处理大量的并发事务，为了保证并发事务能够尽可能高效的并发执行而又互不干扰，发展出若干种技术，比如多版本并发处理(MVCC)，乐观并发处理(OCC)...

配置FTP输入组件

FTP输入组件适用于从FTP中将数据读取至大数据平台对接的存储系统内，进行数据整合和再加工。本文为您介绍如何配置FTP输入组件。前提条件已创建FTP数据源，详情请参见创建FTP数据源。进行FTP输入组件属性配置的账号，需具备该数据源的同步...

配置FTP输入组件

FTP输入组件适用于从FTP中将数据读取至大数据平台对接的存储系统内，进行数据整合和再加工。本文为您介绍如何配置FTP输入组件。前提条件已创建FTP数据源，详情请参见创建FTP数据源。进行FTP输入组件属性配置的账号，需具备该数据源的同步...

大数据系统的必要要素

新品推荐