大数据的系统组成-大数据的系统组成文档介绍内容-阿里云

大数据安全治理的难点

同时，大数据系统基于“存储、用户、入口、流转、交付”等多方面的特点，存在诸多安全治理难点。数据安全治理的关键问题数据安全治理能否清楚、准确地回答如下问题，将从侧面反映安全治理项目是否能有效地落地。哪些资产需要被保护？您有...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

数据分析整体趋势

Hadoop也在早期的MapReduce接口基础上增加了SQL接口，SQL语法逐渐成为大数据分析系统的标准配置。随着AWS，Azure，Alibaba，Google等云厂商的出现，云原生分布式数据仓库成为目前数据分析技术的主要解决方案，代表性云服务包括Amazon ...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多信息，请参见 Apache Hudi官网。权限说明仅支持超级管理员、数据源管理员、...

DataWorks On EMR使用说明

背景信息开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。阿里云...

文档修订记录

Tablestore数据源 Tablestore Stream数据源 2023.4.7 新增功能数据集成 DataWorks数据集成支持使用IoT Reader插件读取物联网企业实例数据服务中提供的系统表、产品表、自定义存储表。IoT数据源 2023年3月更新记录时间特性类别描述 ...

应用场景

前端的监控系统和大数据处理系统会利用 TSDB 的数据查询和计算分析能力进行业务监控和分析结果的实时展现。电力化工及工业制造监控分析传统电力化工以及工业制造行业需要通过实时的监控系统进行设备状态检测，故障发现以及业务趋势分析。...

简介

HBase Ganos是什么 HBase Ganos是阿里云推出的一款包含管理空间几何数据、时空轨迹、专题栅格、遥感影像的时空大数据引擎系统。系统兼容开源GeoMesa、GeoServer等生态，内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等，...

应用场景

云数据库MongoDB版支持单节点、副本集和分片集群三种部署架构，具备安全审计、时间点备份等多项企业能力。在互联网、物联网、游戏、金融等...大数据应用：使用云数据库MongoDB作为大数据的云存储系统，随时进行数据提取分析，掌握行业动态。

冷热分层

背景信息在海量大数据场景下，随着业务和数据量的不断增长，性能和成本的权衡成为大数据系统设计面临的关键挑战。Delta Lake是新型数据湖方案，推出了数据流入、数据组织管理、数据查询和数据流出等特性，同时提供了数据的ACID和CRUD操作...

基本概念

DTS 数据传输服务（Data Transmission Service，简称DTS）支持关系型数据库（RDBMS）、非关系型数据库（NoSQL）、数据多维分析（OLAP）等数据源间的数据交互，集数据同步、迁移、订阅、集成、加工于一体，帮助您构建安全、可扩展、高可用的...

点热力层（v3.x版本）

如果系统反应延迟，您可以单击右侧的图标，查看数据响应结果，也可以单击右侧的图标，获取组件的最新数据。您也可以单击查看示例，查看当前组件的响应结果示例。禁止加载态勾选复选框，在组件更新和预览数据看板时，将看不到组件初始化...

支持的云服务

AnalyticDB for MySQL 云原生数据仓库 AnalyticDB MySQL 版（AnalyticDB for MySQL）是海量数据实时高并发在线分析（Realtime OLAP）云计算服务，与MaxCompute结合应用于大数据驱动业务系统的场景。通过MaxCompute离线计算挖掘，产出高质量...

点热力层（v3.x版本）

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

快照概述

什么是数据库文件系统快照数据库文件系统快照是某一时间点文件系统状态的备份文件，文件系统部署在云盘上，因此文件系统快照服务实际上基于云盘快照，对某个文件系统打快照相当于对该文件系统所部署的所有云盘同时打快照。文件系统第一份...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

数仓分层

在本教程中，从交易数据系统的数据经过DataWorks数据集成，同步到数据仓库的ODS层。经过数据开发形成事实宽表后，再以商品、地域等为维度进行公共汇总。整体的数据流向如下图所示。其中，ODS层到DIM层的ETL（萃取（Extract）、转置...

数仓分层

在本教程中，从交易数据系统的数据经过DataWorks数据集成，同步到数据仓库的ODS层。经过数据开发形成事实宽表后，再以商品、地域等为维度进行公共汇总。整体的数据流向如下图所示。其中，ODS层到DIM层的ETL（萃取（Extract）、转置...

创建快照

数据库文件系统快照基于云盘快照，它是一种便捷高效的数据容灾手段，用于对文件系统的数据进行备份。前提条件进行快照创建时，数据库文件系统必须处于已挂载或待挂载状态。说明如果文件系统处于待挂载的状态，则需要保证文件系统有...

数据仓库研发规范概述

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会...

高压缩引擎（X-Engine）介绍

随着业务发展，数据库系统中会积累大量访问频率很低甚至为0的数据，这些数据的积累容易导致如下问题：历史数据和最新数据存储在同一数据库系统中，导致磁盘空间不足。大量数据共享数据库系统的内存、缓存空间、磁盘IOPS等，导致性能问题。...

数据分析概述

DataWorks提供的数据分析平台，可以流畅地进行数据处理、分析、加工及可视化操作。在数据分析板块中，您不仅可以在线洞察数据，还可以编辑和共享数据。本文为您介绍数据分析平台的优势、功能、权限等概要信息。产品优势与本地数据分析相比...

技术面临的挑战与革新

可以说存储计算分离是云时代数据库产品的事实主流架构，无论是OLAP还是OLTP的系统，越来越多的系统地已经采用了此架构或者是正在向着此方向演进发展。分布式事务与集中式事务的优劣事务处理是数据库保证ACID语义的核心功能，因为数据库...

敏感数据溯源

DataWorks的数据溯源功能，支持通过提取数据泄露文件中数据的水印信息，帮助您定位到可能会泄露目标数据的责任人。本文为您介绍如何创建溯源任务，并通过该任务查找可能会泄露数据的责任人。前提条件已创建数据识别规则，详情请参见配置...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大...

使用MaxCompute控制台（离线）

查看上传记录提交上传后，若数据量较大，需要耗费一些时间，您无需在提交页面一直等待，可后续通过单击数据上传页面右上角的查看上传记录查看通过该功能上传数据的详情记录。说明通过该页面的查看上传记录查询到的记录详情也包含...

数据质量管理流程

数据质量的管理流程包括业务数据资产定级、加工卡点、风险点监控和及时性监控，您可以构建属于自己的数据质量保障体系。数据质量管理的流程图如下。数据质量管理的流程说明如下：分析业务场景，对数据流转链路上的整个依赖关系，进行资产...

数据质量管理流程

数据质量的管理流程包括业务数据资产定级、加工卡点、风险点监控和及时性监控，您可以构建属于自己的数据质量保障体系。数据质量管理的流程图如下。数据质量管理的流程说明如下：分析业务场景，对数据流转链路上的整个依赖关系，进行资产...

使用DataWorks

MaxCompute支持通过DataWorks的数据集成功能将MaxCompute中的数据以离线方式导出至其他数据源。当您需要将MaxCompute中的数据导出至其他数据源执行后续数据处理操作时，您可以使用数据集成功能导出数据。本文为您介绍如何将MaxCompute的...

数据查询

在开发调试或者生产运维过程中，往往需要去HBase中查询某条数据。除了使用HBase shell来写Get、Scan请求，Lindorm insight提供了一个简单的SQL查询入口，您可以使用SQL语法来查询HBase增强版宽表数据。前提条件已登录目标集群的集群管理...

数据查询

Lindorm宽表引擎在集群管理系统中提供了SQL查询入口，您可以使用SQL语法来查询Lindorm宽表数据。本节介绍通过集群管理系统查询宽表数据。前提条件已登录目标实例的集群管理系统，具体操作请参见登录集群管理系统。使用限制为确保数据...

配置DM（达梦）输出组件

配置DM（达梦）输出组件，可以将外部数据库中读取的数据写入到DM（达梦），或从大数据平台对接的存储系统中将数据复制推送至DM（达梦），进行数据整合和再加工。本文为您介绍如何配置DM（达梦）输出组件。前提条件已创建DM（达梦）数据源...

冷热分离

背景信息在海量大数据场景下，一张表中的部分业务数据随着时间的推移仅作为归档数据或者访问频率很低，同时这部分历史数据体量非常大，比如订单数据或者监控数据，降低这部分数据的存储成本将会极大的节省企业的成本。因此，如何以极简的...

配置FTP输入组件

FTP输入组件适用于从FTP中将数据读取至大数据平台对接的存储系统内，进行数据整合和再加工。本文为您介绍如何配置FTP输入组件。前提条件已创建FTP数据源，详情请参见创建FTP数据源。进行FTP输入组件属性配置的账号，需具备该数据源的同步...

配置FTP输入组件

FTP输入组件适用于从FTP中将数据读取至大数据平台对接的存储系统内，进行数据整合和再加工。本文为您介绍如何配置FTP输入组件。前提条件已创建FTP数据源，详情请参见创建FTP数据源。进行FTP输入组件属性配置的账号，需具备该数据源的同步...

API概览

快照链是一个数据库文件系统所有快照组成的关系链，一个文件系统对应一条快照链。ListSnapshotLinks 查询快照链查询某个地域下满足条件的快照链。自动快照策略自动快照策略 CreateAutoSnapshotPolicy 创建自动快照策略在指定地域下创建...

公交出行：启迪公交

PolarDB-X 专注解决海量数据存储、超高并发吞吐、大表瓶颈以及复杂计算效率等数据库瓶颈问题，历经各届天猫双十一及阿里云各行业客户业务的考验，助力企业加速完成业务数字化转型。本文介绍启迪公交如何通过 PolarDB-X 应对业务挑战。所属...

PolarDB PostgreSQL版（兼容Oracle）间的迁移

确保您在整个迁移过程中得到必要的支持，降低迁移风险，并最终实现平稳、高效的系统迁移。前提条件已创建源和目标 PolarDB PostgreSQL版（兼容Oracle）数据库集群，详情请参见创建PolarDB PostgreSQL版（兼容Oracle）集群。已将源和目标 ...

大数据 的系统组成

新品推荐

大数据的系统组成