大数据基本原理-大数据基本原理文档介绍内容-阿里云

支持的云服务

数据集成 MaxCompute可以通过数据集成功能加载不同数据源（例如MySQL数据库）的数据，也可以通过数据集成把MaxCompute的数据导出到各种业务数据库。数据集成功能已集成在DataWorks上，您可以直接在DataWorks上配置MaxCompute数据源并读写...

常见问题

在数据水印的基础上，数据安全中心通过系统内置的异常事件检测，对运维高危操作、异常访问、拖库攻击、数据库注入、数据库外联、数据库高危操作等行为进行监控告警，覆盖传统数据库的基础上，还支持对象存储OSS、大数据平台MaxCompute以及...

什么是Dataphin

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出，一站式提供数据采、建、管、用全生命周期的大数据能力，以助力企业显著提升数据治理水平，构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算...

原理架构

本文简单介绍数据同步服务的整个系统架构及基本实现原理。系统架构数据同步服务的逻辑架构图：全量同步：负责将表数据从源端数据库同步到目的端数据库，支持异构数据库间同步。增量同步：负责将源端的增量数据同步到目的端，主要包含 ...

概述

基本原理 一个ZooKeeper集群需要由奇数个（2N+1）节点构成，通过内部选举协议选出一个Leader节点，其余为Follower节点。写入数据时，由Leader节点负责统一协调写请求，至少（N+1）个节点投票成功才能确定本次数据写入成功，因此至少有（N+1...

离线同步能力说明

数据集成的离线同步功能为您提供数据读取（Reader）和写入插件（Writer），方便您通过定义来源与去向数据源，并结合DataWorks调度参数使用，将源端数据库中全量或增量数据的同步至目标数据库中。本文为您介绍离线同步的相关能力。使用限制 ...

接入数据库

结构化数据：RDS、PolarDB、PolarDB-X 1.0（原DRDS）、Redis、MongoDB、OceanBase、自建数据库 大数据：TableStore、MaxCompute、ADB-MySQL、AnalyticDB for PostgreSQL（即ADB-PG）说明仅OSS不支持。前提条件已购买 DSC 服务并完成 DSC ...

SQL查询

工作空间已配置数据源：DataWorks的数据源分为引擎绑定时默认创建的引擎数据源和在数据源配置界面创建的自建数据源，若要操作非引擎数据源，请确保已创建数据源，详情请参见创建并管理数据源。已拥有某数据源在数据分析模块的查询权限：...

散点层

重要该配置项为一个数组，配合数据分级使用，从类型1到类型n为递增的设置，例：类型1设置为10，则表示value值为0~10的数据将展示为10的大小，类型2设置为20，则表示value值为11~20的数据将展示为20的大小，如果数据分级配置项设置为3级，...

数据可视化展现

即已通过数据开发DataStudio将数据加工为用户画像基本数据。数据分析场景本案例通过数据分析对用户画像数据进行可视化与分析，具体分析场景如下：场景图示城市注册人数排行榜分析注册会员访问次数年龄分布注册会员访问次数性别分布 ...

散点层

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

数据可视化展现

即已通过数据开发DataStudio将数据加工为用户画像基本数据。数据分析场景本案例通过数据分析对用户画像数据进行可视化与分析，具体分析场景如下：场景图示城市注册人数排行榜注册会员访问次数年龄分布注册会员访问次数性别分布男女...

配置数据质量监控

已通过数据开发DataStudio将数据加工为用户画像基本数据。背景信息数据质量是支持多种异构数据源的质量校验、通知、管理服务的一站式平台。数据质量以数据集（DataSet）为监控对象，目前支持MaxCompute数据表监控。当离线MaxCompute数据...

冷数据归档常见问题

归档为CSV格式的数据的数据量可能会比归档为ORC格式的数据的数据量更大。为什么归档后的冷数据及文件在主账号下面的OSS上看不到？PolarDB 的冷数据存储在系统默认的OSS上，不在客户的OSS里，所以客户无法看到。目前只支持在PolarDB控制台上...

配置数据质量监控

已通过数据开发DataStudio将数据加工为用户画像基本数据。背景信息数据质量是支持多种异构数据源的质量校验、通知、管理服务的一站式平台。数据质量以数据集（DataSet）为监控对象，目前支持MaxCompute数据表监控。当离线MaxCompute数据...

创建混合分区

混合分区原理如下图所示：混合分区的基本原理是将分区表中的分区存储在不同的存储介质上，以达到冷热数据分离管理的目的。比如将热数据存储在本地PFS上，冷数据存储在OSS上，这样可以极大地降低冷数据的存储成本，且不影响热数据的查询性能...

离线同步常见问题

读取Loghub同步某字段有数据但是同步过来为空读取Loghub同步少数据读取Loghub字段映射时读到的字段不符合预期读取kafka配置了endDateTime来指定所要同步的数据的截止范围，但是在目的数据源中发现了超过这个时间的数据 Kafka中数据量少...

同步时源库为Db2 for LUW的注意事项及限制

说明如为增量同步任务，DTS要求源数据库的数据日志保存24小时以上，如为全量同步和增量同步任务，DTS要求源数据库的数据日志至少保留7天以上（您可在全量同步完成后将数据日志保存时间设置为24小时以上），否则DTS可能因无法获取数据日志...

数据服务入门

步骤一：创建数据源并配置网络连通性使用数据服务创建API前，您需将数据库或数据仓库添加为DataWorks的数据源，并保障数据服务资源组与您的目标数据源网络连通，以便调用API时DataWorks可成功访问数据源。说明 DataWorks工作空间将集群或...

技术架构选型

在数据模型设计之前，您需要首先完成技术架构...其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。

MongoDB实例空间使用率高问题

compact⽆效 compact的基本原理并不是⽴⻢开辟新的空间存放数据来替换原来的⽂件，⽽是将数据不断地往前⾯的空间空洞挪动，所以在某些场景下虽然存在空间空洞，但内部的compact算法并不能保证肯定可以复⽤这些空洞，我们称之为compact无效...

技术架构选型

其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。icmsDocProps={'productMethod':'created','...

平滑扩容

本文将介绍 PolarDB-X 1.0 平滑扩容的基本原理。当逻辑库对应的底层存储已经达到物理瓶颈时，需要对底层存储进行水平扩展。例如当磁盘余量接近30%时，您可以在控制台上通过平滑扩容来改善。平滑扩容是一种在线水平扩容方式，通过把原有的分...

导入概述

基本原理 导入执行流程如下图所示。一个导入作业主要分为以下五个阶段。阶段描述 PENDING 非必须。该阶段是指用户提交导入作业后，等待FE调度执行。Broker Load和Spark Load包括该步骤。ETL 非必须。该阶段执行数据的预处理，包括清洗、...

导入概述

基本原理 导入执行流程如下图所示。一个导入作业主要分为以下五个阶段。阶段描述 PENDING 非必须。该阶段是指用户提交导入作业后，等待FE调度执行。ETL 非必须。该阶段执行数据的预处理，包括清洗、分区、排序和聚合等。LOADING 该阶段先...

MapReduce

本文仅对MapReduce的基本原理做简单介绍，更多详情请参见 Hadoop Map/Reduce教程。说明您无法通过MapReduce读写外部表中的数据。应用场景 MapReduce支持下列场景：搜索：网页爬取、倒排索引、PageRank。Web访问日志分析：分析和挖掘用户...

功能特性

本文介绍使用Spark SelectDB Connector同步数据至云数据库 SelectDB 版的基本原理和使用方式。通过Spark导入数据通过DataX导入数据本文介绍使用DataX SelectDB Writer同步数据至云数据库 SelectDB 版。通过DataX导入数据 OSS Load 云数据...

透明数据加密概述

RDS PostgreSQL支持透明数据加密（Transparent Data Encryption，简称TDE），对数据文件进行实时加密和解密，保护用户数据隐私，本文介绍透明数据加密的基本概念和加密原理。什么是透明数据加密透明数据加密指对数据文件执行实时I/O加密和...

DataWorks On EMR使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

Transaction Table2.0概述

详细的架构原理和相关操作指导请参见架构原理、基本操作。以下为核心功能简介。表数据格式：新类型表，Transactional Table2.0，高效支持增/全量数据的存储和读写。如果设置Primary Key，则可支持Upsert格式记录写入。近实时增量导入：...

实时同步任务告警设置最佳实践

其基本原理为数据处理时间与数据在源端生产时间差。此告警指标为核心告警指标，建议所有重要实时同步任务（Kafka源端实时同步任务建议使用消息堆积量指标监控）均配置。告警阈值根据业务实际需要设置，建议告警阈值为分钟级别，防止由于...

Stream Load

本文为您介绍Stream Load导入的基本原理、使用示例和最佳实践。背景信息 Stream Load是一种同步的导入方式，通过发送HTTP请求将本地文件或数据流导入到StarRocks中。Stream Load同步执行导入并返回导入结果。您可以直接通过请求的返回值...

Stream Load

本文为您介绍Stream Load导入的基本原理、使用示例和最佳实践。背景信息 Stream Load是一种同步的导入方式，通过发送HTTP请求将本地文件或数据流导入到StarRocks中。Stream Load同步执行导入并返回导入结果。您可以直接通过请求的返回值...

Stream Load

本文为您介绍Stream Load导入的基本原理、基本操作、系统配置以及最佳实践。适用场景 Stream Load主要适用于导入本地文件或通过程序导入数据流中的数据。说明本文部分内容来源于Apache Doris，详情请参见 Stream load。基本原理 下面为您...

DataWorks On CDP/CDH使用说明

一、数据集成 DataWorks的数据集成模块为您提供读取和写入数据至CDP/CDH Hive、CDP/CDH HBase的能力，您需要将Hive或HBase组件创建为 DataWorks的 Hive或HBase数据源，实现将其他数据源的数据同步至Hive或HBase数据源，或将Hive或HBase数据...

DataWorks On MaxCompute使用说明

DataWorks基于云原生大数据计算服务MaxCompute 轻松构建离线数仓分析系统。MaxCompute可通过DataWorks提供的可视化方式配置任务工作流、周期性调度执行任务及元数据管理，保障数据生产及管理的高效稳定。本文为您介绍在DataWorks上开发...

DataWorks On Hologres使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

文档修订记录

Check节点 2024.1.12 新增功能最佳实践新增DataWorks大数据安全治理实践新增指南，为您介绍数据安全治理的常见思路、DataWorks产品的安全能力，以及在DataWorks上基于“基础防护建设”、“数据安全防护措施”、“数据安全持续运营”三个...

通用云盘IO加速功能技术介绍

当出现大规模数据读写或频繁数据读写请求时，IO操作可能成为系统瓶颈。因此，阿里云RDS产品推出新的存储类型——通用云盘。在兼容ESSD云盘所有特性的基础上，通用云盘采用三级存储架构对不同类型的数据和缓存进行分级管理和读写，并且引入...

查询备份数据

查询备份与恢复备份的区别区别项查询备份数据恢复备份功能原理按需找到目标历史备份时间点的备份数据集，将备份数据集保存至临时实例中，可通过DMS控制台在临时实例的SQL窗口中对历史数据进行查询。通过数据备份和日志备份进行恢复，...

大数据基本原理

新品推荐