大数据分层-大数据分层文档介绍内容-阿里云

创建数仓分层

数仓分层、数据域、业务过程、数据集市、主题域等要素，共同确定了您此次建模的逻辑数仓架构。其中，数据域及业务过程位于公共层，用于公共层数据模型的构建。数据集市及主题域位于应用层，用于面向具体业务应用的模型构建。数仓分层保障了...

冷热分层

说明本文主要讨论按照数据创建时间的冷热数据分层。冷数据特点数据量大：相对于热数据，冷数据通常需要保存较长时间，甚至永久保存。成本管控：数据量大且访问频率较低，不宜投入过多成本。性能要求低：相较于普通的TP请求查询，无需在...

功能特性

冷热数据分层存储大规格分层存储社区兼容版大存储型集群支持添加云盘和扩容磁盘。大规格分层存储企业版共享存储OSS 共享存储企业版采用存算分离架构，多节点共享一份存储。OSS存储存储底层采用OSS，相比社区版存储单价大幅降低。企业...

查看并管理数仓分层

快速了解数据模型的分层规划，后续将对应数据表挂载至合理的分层中。查看数仓分层详情。单击对应的数仓分层进入该分层的详情页。在基本信息区域，即可查看目标数仓分层的英文缩写、英文名、中文名、负责人、分层归属、模型类型、创建人...

配置及使用数仓分层检查器

也可单击图标，使用业务大类英文缩写、数据集市英文缩写、主题域英文缩写等多种类别的来定义规则。可自由组合。说明不同模型（例如，应用表、维度表）定义规则时可选类别存在差异，具体请以实际界面为准。指标规则：选择修饰词、原子指标...

数仓分层

数据仓库的分层和各层级用途如下图所示。数据引入层ODS（Operation Data Store）：存放未经过处理的原始数据至数据仓库系统，结构上与源系统保持一致，是数据仓库的数据准备区。主要完成基础数据引入到MaxCompute的职责，同时记录基础数据...

分层存储

您可以根据数据的访问频率，将某些表或分区的存储类型设置为低频存储或长期存储，实现数据的冷热分层，以降低数据存储费用。申请开通使用目前分层存储处于邀测阶段，如需您需要使用此功能，请单击申请开通，在新功能试用申请页面申请...

数仓分层

数据仓库的分层和各层级用途如下图所示。数据引入层ODS（Operation Data Store）：存放未经过处理的原始数据至数据仓库系统，结构上与源系统保持一致，是数据仓库的数据准备区。主要完成基础数据引入到MaxCompute的职责，同时记录基础数据...

冷数据分层存储计费规则

本文介绍开启冷数据分层存储后，在冷数据存储方面的计费规则。计费规则当开启冷数据分层存储后，PolarDB PostgreSQL版支持将集群的冷数据转存至低成本的OSS上进行存储，以降低数据存储成本。说明更多关于冷数据分层存储的详细介绍，请...

冷数据分层存储计费规则

本文介绍开启冷数据分层存储后，在冷数据存储方面的计费规则。计费规则当开启冷数据分层存储后，PolarDB PostgreSQL版（兼容Oracle）支持将集群的冷数据转存至低成本的OSS上进行存储，以降低数据存储成本。说明更多关于冷数据分层存储...

冷数据分层存储计费规则

本文介绍开启冷数据分层存储后，在冷数据存储方面的计费规则。计费规则当开启冷数据分层存储后，PolarDB PostgreSQL版（兼容Oracle）支持将集群的冷数据转存至低成本的OSS上进行存储，以降低数据存储成本。说明更多关于冷数据分层存储...

数仓规划概述

使用DataWorks进行数据建模时，数仓架构师或者模型小组成员可以在数仓规划页面对数据分层、业务分类、数据域、业务过程、数据集市、主题域进行设计。完成设计后，模型设计师在建模过程中可以依赖数仓规划中的数据分层、业务分类、数据域、...

创建逻辑模型：应用表

数据分层是将相同功能作用的表挂载至统一的数据层，方便您查找使用。应用表通常挂载于应用数据层，用于将一个统计粒度（维度或维度组合）及该粒度下的多个指标汇总输出，为后续的业务查询，数据分发等提供基础。您也可以根据业务需求，选择...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

【通知】AnalyticDB PostgreSQL发布7.0版

冷热数据分层存储：支持冷热数据分层存储，可实现对历史数据的归档和存储压缩，降低冷数据存储成本。增强场景化分析能力：提供更全面的全文检索能力，可以更有效地支撑日志分析等海量文本数据分析场景业务。SQL ANSI-2011标准语法：支持...

创建逻辑模型：汇总表

数据分层是将相同功能作用的表挂载至统一的数据层，方便您查找使用。汇总表通常挂载于汇总数据层，用于将一个统计粒度（维度或维度组合）及该粒度下的多个派生指标汇总输出，为后续的业务查询，数据分发等提供基础。您也可以根据业务需求，...

常见问题

1.售前咨询渠道尊敬的“准”大数据专家服务用户您好：如果您准备购买阿里云大数据专家服务，但是遇到如服务范围、规格、服务选择等售前方面的问题，您可以通过钉钉与我们联系，您将“当面”获得阿里云大数据专家咨询专家的建议。...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。...

开启和使用冷数据分层存储

为了支持这类场景的降本需求，PolarDB PostgreSQL版冷数据分层存储功能支持将大对象字段单独进行冷存，其余字段的存储保持不变。LOB字段支持SQL一键冷存，具体使用方式如下：创建带有大对象字段的表 CREATE TABLE test_large_object(id ...

开启和使用冷数据分层存储

为了支持这类场景的降本需求，PolarDB PostgreSQL版（兼容Oracle）冷数据分层存储功能支持将大对象字段单独进行冷存，其余字段的存储保持不变。LOB字段支持SQL一键冷存，具体使用方式如下：创建带有大对象字段的表 CREATE TABLE test_large...

开启和使用冷数据分层存储

为了支持这类场景的降本需求，PolarDB PostgreSQL版（兼容Oracle）冷数据分层存储功能支持将大对象字段单独进行冷存，其余字段的存储保持不变。LOB字段支持SQL一键冷存，具体使用方式如下：创建带有大对象字段的表 CREATE TABLE test_large...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起，DataWorks不断沉淀阿里巴巴大数据建设方法论，支撑数据中台建设，同时与...

发展历程

关键性里程碑 2009年9月，ODPS（即现在的MaxCompute）大数据平台飞天项目正式启动。2010年10月，阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月，平台的单集群规模已达到5000台。2014年7月，平台开始对外提供服务，完全替换...

应用场景

数据分析业务云数据库 Memcache 版搭配大数据计算服务 MaxCompute。实现对大数据的分布式分析处理，适用于商业分析、挖掘等大数据处理场景。通过数据集成服务可自助实现数据在云数据库 Memcache 版与 MaxCompute 间的同步，简化数据操作...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

IoT数据自动化同步至云端解决方案

大数据分析是大数据完成数据价值化的重要手段之一，而进行大数据分析的第一步是让数据成功上云。解决方案 IoT数据自动化同步至云端解决方案主要包括存储原始数据和同步数据至分析系统两部分。IoT设备大量的数据通常以半结构化的形式存储。...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

DataWorks on EMR数据安全方案

在大数据领域，阿里云为企业用户提供了一整套数据安全方案，包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例，为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

复合指标

已创建数据分层，用于承载复合指标。您需根据需求选择合适的分层。详情请参见创建数仓分层。汇总数据层：用于承载公共层的复合指标。应用数据层：用于承载应用层的复合指标。已创建业务过程，或数据集市/主题域，用于确定复合指标所反映的...

大数据安全治理的难点

存储众所周知，大数据系统以数据类型多（结构化、非结构化、半结构化）、数据量大（动辄PB级别）著称，某些巨头组织一天就能新增数十万甚至数百万张表，如此体量给数据分级分类带来了极大挑战，通过人工进行数据分级分类显然是不现实的，...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

自媒体：易撰

所属行业：自媒体网站地址：易撰客户介绍长沙营智信息技术有限公司是专业的新媒体大数据服务商，其旗下知名品牌易撰，基于新媒体大数据挖掘技术及NLP算法分析，为各内容创客、广告主提供全面、科学、精准的大数据分析服务以及大数据架构...

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。说明上图中，虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示：数据产生：业务系统每天会产生大量结构化的...

DMS支持的数据库

关系型数据库 MySQL SQL Server PostgreSQL MariaDB OceanBase MySQL模式 OceanBase Oracle模式 OceanBase ODP Oracle DB2 达梦数据库 OpenGauss 数据仓库 ClickHouse SelectDB NoSQL数据库 Redis MongoDB 大数据 Hive 录入他云/自建数据库...

简介

系统兼容开源GeoMesa、GeoServer等生态，内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等，结合云数据库HBase强大的分布式存储能力以及Spark分析平台能力，广泛应用于空间、时空、遥感大数据存储、查询、分析与数据挖掘...

数据分析整体趋势

大数据与数据库一体化：早期大数据技术以牺牲一定程度一致性为基础提供分布式能力，解决了传统单机数据库的扩展性不足问题，在MapReduce基础上提供了标准SQL接口，架构上也逐步采用了部分MPP数据库技术；另一方面，分布式数据库也快速发展...

使用Python SDK创建分层存储Logstore

更多信息，请参见 数据分层存储概述。您可以通过日志服务控制台，开启智能分层存储功能。具体操作，请参见开启智能存储分层。注意事项本示例以华东1（杭州）的公网Endpoint为例，其公网Endpoint为 https://cn-hangzhou.log.aliyuncs.com ...

大数据分层

新品推荐