大数据的概念及特点是什么意思-大数据的概念及特点是什么意思文档介绍内容-阿里云

确认表血缘

任务配置上下游节点依赖前，您需先确认当前节点的表血缘关系（例如，表数据间的血缘关系、表产出的分区数据），基于血缘关系配置节点的调度依赖。本文为您介绍如何确认表血缘，以及未基于表血缘配置节点依赖的影响。背景信息确认表血缘，...

RDS术语

DMS Data Management，数据管理，是一种阿里云提供的图形化的数据管理工具，集数据管理、结构管理、访问安全、BI图表、数据趋势、数据轨迹、性能与优化和服务器管理于一体的数据管理服务。支持MySQL、SQL Server、PostgreSQL、MongoDB、...

逻辑结构说明

核心概念简要含义数据板块数据板块定义了数据仓库的多种命名空间，是一种系统级的概念对象。当数据的业务含义存在较大差异时，您可以创建不同的数据板块，让各成员独立管理不同的业务，后续数据仓库的建设将按照数据板块进行划分。主题...

RDS术语

DMS Data Management，数据管理，是一种阿里云提供的图形化的数据管理工具，集数据管理、结构管理、访问安全、BI图表、数据趋势、数据轨迹、性能与优化和服务器管理于一体的数据管理服务。支持MySQL、SQL Server、PostgreSQL、MongoDB、...

RDS术语

DMS Data Management，数据管理，是一种阿里云提供的图形化的数据管理工具，集数据管理、结构管理、访问安全、BI图表、数据趋势、数据轨迹、性能与优化和服务器管理于一体的数据管理服务。支持MySQL、SQL Server、PostgreSQL、MongoDB、...

创建数据库

若要使用云数据库RDS，您需要在实例中创建数据库。本文介绍如何为RDS PostgreSQL实例创建数据库。概念实例：实例是虚拟化的数据库服务器。您可以在一个实例中创建和管理多个数据库。数据库：数据库是以一定方式储存在一起、能与多个用户...

应用场景

可以将访问频度非常高的数据存储在云数据库 Memcache 版中，底层数据存储在 RDS 中。大型促销类业务大型促销秒杀系统，系统整体访问压力非常大。一般的数据库根本无法承载这样的读取压力，可选用云数据库 Memcache 版存储。带有计数器的...

规范定义最佳实践

当数据的业务含义存在较大差异时，您可以创建不同的数据板块，让各成员独立管理不同的业务，后续数据仓库的建设将按照数据板块进行划分。在Dataphin中，项目可以归属至数据板块以实现规范建模功能，同一个数据板块中可能包含多个不同的项目...

规范定义最佳实践

当数据的业务含义存在较大差异时，您可以创建不同的数据板块，让各成员独立管理不同的业务，后续数据仓库的建设将按照数据板块进行划分。在Dataphin中，项目可以归属至数据板块以实现规范建模功能，同一个数据板块中可能包含多个不同的项目...

整体架构

云原生数据仓库AnalyticDB MySQL版是阿里巴巴自主研发、经过超大规模以及核心业务验证的PB级实时数据仓库。概述自2012年第一次在集团发布上线以来，AnalyticDB MySQL版至今已累计迭代发布近百个版本，支撑起集团内的电商、广告、物流、...

划分数据域

数据域是联系较为紧密的数据主题的集合，是业务对象高度概括的概念，目的是便于管理和应用数据。通常，您需要阅读各源系统的设计文档、数据字典和数据模型，研究逆向导出的物理数据模型。进而，可以进行跨源的主题域合并，跨源梳理出整个...

概述

数据备份物理空间大小如下图所示：说明 PolarDB 集群数据备份物理空间大小（上图中①所示）：指数据备份的收费对象，物理空间大小是指所有数据备份（快照）独占的物理空间大小之和，PolarDB集群的数据与多个数据备份（快照）会复用相同的...

一键建仓

数据管理DMS一键建仓功能可以实现一键创建实时同步的数据仓库，数据可在秒级的延迟下，同步至AnalyticDB MySQL版数据库中，帮助您更实时、准确地掌握业务情况，以便更好地进行业务分析和决策，提升业务效果。本文介绍如何在数据管理DMS中...

划分主题域

主题域是联系较为紧密的数据主题的集合，是业务对象高度概括的概念层次归类，目的是便于数据的管理和应用。划分流程通常您需要阅读各源系统的设计文档、数据字典和数据模型设计文档，研究逆向导出的物理数据模型。然后，进行跨源的主题域...

管理数据库

创建RDS MariaDB实例后，您需要在实例中创建与您业务相关的数据库。RDS MariaDB支持通过控制台、SQL命令、API接口管理数据库，包括创建、删除数据库。背景信息概念实例：实例是虚拟化的数据库服务器。您可以在一个实例中创建和管理多个...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

管理数据库

创建RDS MySQL实例后，您需要在实例中创建与您业务相关的数据库。RDS MySQL支持通过控制台、SQL命令、API接口管理数据库，包括创建、删除数据库。背景信息概念实例：实例是虚拟化的数据库服务器。您可以在一个实例中创建和管理多个数据库...

概述

数据备份物理空间大小如下图所示：说明 PolarDB 集群数据备份物理空间大小（上图中①所示）：指数据备份的收费对象，物理空间大小是指所有数据备份（快照）独占的物理空间大小之和，PolarDB集群的数据与多个数据备份（快照）会复用相同的...

产品概述

产品特点稳定对于绝大部分应用而言，关系型数据库所承担的职责是整个数据管理系统中最为核心和基础的，不光直接影响到终端用户的服务体验，同时也是业务数据的最后一道保险，所以稳定性是数据库最核心的选型因素。PolarDB-X 1.0 的稳定性...

受众与核心能力

产品受众从事数据开发、算法开发等岗位的技术人员从事销售运营、商业智能分析等岗位的业务人员从事数据安全与合规工作的管理人员从事数据应用开发的开发人员把控公司核心数据资产的管理人员核心能力基于DataWorks，您可以获得如下...

典型场景

基于湖构建数据平台，支持BI、挖掘等业务对象存储OSS可以作为湖存储，DLA基于OSS构建一站式的大数据平台。具体包括构建数据湖、数据ETL、交互式查询、机器学习等功能。构建数据湖实时数据湖：支持DB的CDC与消息数据（如Kafka）入湖，构建...

数据导入概览

从阿里云对象存储OSS导入数据至图数据库GDB实例图数据库GDB服务端集成有数据导入模块，可以获取您提供的.csv格式的OSS数据文件，并将其解析为图中的点数据和边数据，然后将点数据和边数据导入至图数据库GDB实例。步骤步骤说明 ① 将需要...

冷热分层

本文介绍冷数据的特点和适应场景，通过表格存储Tablestore和Delta Lake结合示例，演示数据的冷热分层。冷热分层可以充分利用计算和存储资源，以低成本承载更优质服务。背景信息在海量大数据场景下，随着业务和数据量的不断增长，性能和...

Flink_SQL任务开发方式

Dataphin的Flink_SQL任务支持多种开发方式，包括原生DDL+DML开发、使用Dataphin元表进行开发、使用Dataphin数据源表进行开发、以及使用计算源物理表进行开发，且不同开发方式所创建的表支持任意混用，包括镜像表。不同开发方式的使用方法、...

发展历程

关键性里程碑 2009年9月，ODPS（即现在的MaxCompute）大数据平台飞天项目正式启动。2010年10月，阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月，平台的单集群规模已达到5000台。2014年7月，平台开始对外提供服务，完全替换...

管理数据集

数据集是基于特定数据库和SQL查询生成，并且以二维表呈现的一种数据集合。本文介绍创建、编辑、删除数据集的方法。注意事项数据分析后续所有的分析工作、仪表盘制作和大屏制作都是基于数据集进行的，因此在进行其他功能前，必须先创建数据...

应用场景

数据审计智能解析数据库及大数据的通信流量，细粒度审计数据访问行为，通过对数据源全量行为的审计溯源、危险攻击的实时告警、风险语句的智能预警，为您最敏感的数据库资产做好最安全的监控保障。个人信息合规可精准区分和保护个人数据，...

核心概念的层次结构

核心概念说明 Project（项目）项目是MaxCompute的基本组织单元，类似于传统数据库的Database或Schema的概念，是进行多用户隔离和访问控制的主要边界。更多项目信息，请参见项目。Table（表）表是MaxCompute的数据存储单元。更多表信息，...

应用场景

云数据库MongoDB版支持单节点、副本集和分片集群三种部署架构，具备安全审计、时间点备份等多项企业能力。在互联网、物联网、游戏、金融等领域被广泛采用。读写分离应用云数据库MongoDB采用三节点副本集的高可用架构，三个数据节点位于...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

常见问题

1.售前咨询渠道尊敬的“准”大数据专家服务用户您好：如果您准备购买阿里云大数据专家服务，但是遇到如服务范围、规格、服务选择等售前方面的问题，您可以通过钉钉与我们联系，您将“当面”获得阿里云大数据专家咨询专家的建议。...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

项目

项目（Project）是MaxCompute的基本组织单元，它类似于传统数据库的Database或Schema的概念，是进行多用户隔离和访问控制的主要边界。项目中包含多个对象，例如表（Table）、资源（Resource）、函数（Function）和实例（Instance）等，您...

01新建模型目录

具有数据量大，查询计算较慢的特点。DWS：全称Data Warehouse Summary，汇总数据层，存储以事实表为基础，以维度为单位的统计度量。DIM：全称Dimension，公共维度层，是在存储层的基础上清洗脏数据、筛选有价值数据，并且对明细数据层的...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

数据治理

数据地图为什么数据地图数据总览页存储量和存储趋势图相差较大？数据地图血缘展示延迟问题数据地图新建表搜不到当前表业务逻辑变更如何通知下游？哪些类型的Hive表支持在数据地图中预览？数据保护伞数据保护伞为什么有时候查询脱敏有...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

InfluxDB®️介绍

云数据库 InfluxDB®版是一款专门处理高写入和查询负载的时序数据库，完全兼容开源InfluxDB 1.8版本，用于存储大规模的时序数据并进行实时分析，包括来自DevOps监控、应用指标和IoT传感器上的数据。主要特点 InfluxDB®是您处理时序数据的...

大数据的概念及特点是什么意思

新品推荐