大数据平台和数据仓库-大数据平台和数据仓库文档介绍内容-阿里云

发展历程

2022年自研一体化大数据计算平台和数据仓库产品ODPS获世界互联网领先科技成果奖。在TPCx-BB 100TB标准测试中，连续6次获得全球冠军，保持性能和性价比第一。Forrester：每两年一次的全球云数仓评测中，进入卓越表现者象限，国内唯一。进入...

数据仓库研发规范概述

本文将为您介绍数据仓库研发规范的阶段规划、角色职责和整体流程。在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发...

存储层弹性

AnalyticDB MySQL 的存储节点除了进行数据存储，还提供数据写入、数据查找和数据扫描等能力。如果读写性能出现瓶颈需要到控制台手动扩容弹性IO资源。弹性IO资源（Elastic IO Unit，简称EIU）是弹性模式集群版（新版）衡量实例存储性能的...

影响查询性能的因素

背景信息集群规格 AnalyticDB MySQL版集群支持多种规格（更多详情，请参见规格），不同集群规格的CPU核数、内存大小和数据存储介质等属性不同，处理子任务的能力也就不同，因此您需要结合业务查询特征来选择集群规格。例如，以Join或...

数据标准

数据是由特定的环境产生的，这些环境因素包括生产者、时间、系统等，从而造成了同一个语义的数据，有...说明目前使用DDM进行数据建模可以进行逻辑建模和物理建模，但物理建模仅支持MaxCompute和Hive两种大数据引擎，不支持自定义数据源类型。

典型场景

大数据分析平台对于MaxCompute、Hadoop和Spark中保存的海量数据，可通过采用数据集成服务（DataX）或通过对象存储服务（OSS），快速批量导入到云原生数据仓库AnalyticDB PostgreSQL版，帮助您实现高性能分析处理和在线数据探索。...

产品系列

适用场景包含构建海量数据实时写入和复杂ETL计算的实时数据仓库、大数据量的复杂查询、历史数据分析、日志分析等业务场景。数仓版（3.0）弹性模式包括两种形态：单机版和集群版。单机版单机版即单节点部署，不具备分布式能力。单机版支持...

聚水潭：云原生数据仓库助力企业实现商业洞察

本文介绍聚水潭通过引入 AnalyticDB PostgreSQL版构建企业级云...离在线一体 AnalyticDB PostgreSQL版离线+实时数据仓库增加了订单处理能力，扩展了业务种类，极大地提升了聚水潭SaaS协同平台的业务处理能力和体验，支撑其业务量快速增长。

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

无感集成（Zero-ETL）

为了解决这些问题，阿里云瑶池数据库提供了无感集成（Zero-ETL）功能，可以快速构建业务系统（OLTP）和数据仓库（OLAP）之间的数据同步链路，将业务系统（OLTP）的数据自动进行提取、转换清洗和加载到数据仓库（OLAP），从而一站式完成数据...

什么是MaxCompute

MaxCompute适用于大型互联网企业的数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘等。详细发展历程、产品荣誉及客户案例请参见发展历程和客户案例。MaxCompute还深度融合了阿里云如下产品：DataWorks ...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

客户案例

互联网行业：快狗打车云上大数据仓库 客户架构如下。客户简介快狗打车则一直坚持通过“连接网络化”、“运力共享化”、“过程数据化”、“匹配智能化”等数字信息化解决方案，将闲散运力统一整合到平台上，通过大数据将运力精准匹配市场...

添加用户和数据源

添加用户登录云原生数据仓库AnalyticDB PostgreSQL版控制台。单击左侧导航栏中的数据平台。在系统用户列表区域，单击添加用户。在添加用户面板，配置以下信息。配置说明授权用户选择需要授权的阿里云账号或RAM用户。用户角色 ...

快速体验

主要操作流程操作目的维度建模使用DataWorks的智能数据建模完成对业务数据仓库的模型规范制定及数据分层、数据域、业务过程等信息的设定，完成逻辑模型的设计，并将逻辑模型发布生成物理表。DataWorks智能建模会将创建的模型表发布到...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起，DataWorks不断沉淀阿里巴巴大数据建设方法论，支撑数据中台建设，同时与...

数仓分层

在阿里巴巴的数据体系中，我们建议将数据仓库分为三层，自下而上为：数据引入层（ODS，Operation Data Store）、数据公共层（CDM，Common Data Model）和数据应用层（ADS，Application Data Service）。数据仓库的分层和各层级用途如下图所...

通过Flink读写AnalyticDB PostgreSQL数据

背景信息云原生数据仓库AnalyticDB PostgreSQL版是一种大规模并行处理（MPP）数据仓库服务，可提供海量数据在线分析服务。实时计算Flink版是基于Apache Flink构建的⼀站式实时大数据分析平台，内置丰富上下游连接器，满足不同业务场景的...

数仓分层

在阿里巴巴的数据体系中，我们建议将数据仓库分为三层，自下而上为：数据引入层（ODS，Operation Data Store）、数据公共层（CDM，Common Data Model）和数据应用层（ADS，Application Data Service）。数据仓库的分层和各层级用途如下图所...

应用场景

云原生数据仓库AnalyticDB MySQL版为千万家企业级客户提供了数据处理ETL、实时在线分析、核心报表、大屏和监控能力，为广大商家和消费者提供稳定的离线和在线数据服务。本文介绍云原生数据仓库AnalyticDB MySQL版的五个使用场景：实时数...

产品优势

AnalyticDB MySQL版提供融合数据库、大数据技术于一体的云原生企业级数据仓库服务，高度兼容MySQL，支持毫秒级更新，亚秒级查询。无论是数据湖中的非结构化或半结构化数据，还是数据库中的结构化数据，您都可使用 AnalyticDB MySQL 构建...

应用场景

该方案优势如下：全托管免运维弹性扩展能力开放数据湖架构一站式的数据开发平台数据查询与分析场景在传统数据平台下，数据仓库工程师和数据分析师通常面临两个不同的环境，甚至使用不同的引擎和语法，导致数据指标和算子行为存在差异...

使用数据集成迁移数据到AnalyticDB MySQL 2.0

支持的数据源类型数据集成提供丰富的数据源支持，如下所示：文本存储（FTP/SFTP/OSS/多媒体文件等）数据库（RDS/DRDS/MySQL/PostgreSQL等）NoSQL（Memcache/Redis/MongoDB/HBase等）大数据（MaxCompute/云原生数据仓库AnalyticDB MySQL版 ...

互联网行业实时BI分析

本文以某互联网公司为例，介绍如何将DB业务数据和日志数据实时同步到云原生数据仓库AnalyticDB MySQL版中，然后通过Quick BI进行实时可视化数据分析。相对于传统的关系型数据库，云原生数据仓库AnalyticDB MySQL版只需要毫秒级时间，...

数据分析整体趋势

这些云原生数据仓库技术分别起源于数据库和大数据，提供标准SQL接口和ACID保证，底层存储通过Share Everything或Share Nothing实现资源池化和横向扩展能力。资源隔离，数据共享是目前业务应用对云原生数据仓库的普遍需求。综上所述，数据...

全文检索

人们通常选择数据库或数据仓库存储文本数据，但是将文本数据中有价值的信息提取出来并进行高效分析，往往需要涉及多个数据处理系统配合来实现，用户的使用门槛通常较高、维护成本较大。通常在使用数据仓库进行文本数据的加工和分析时，离不...

无感数据集成（Zero-ETL）

为了解决这些问题，阿里云瑶池数据库提供了无感集成（Zero-ETL）功能，可以快速构建业务系统（OLTP）和数据仓库（OLAP）之间的数据同步链路，将业务系统（OLTP）的数据自动进行提取、转换清洗和加载到数据仓库（OLAP），从而一站式完成数据...

Teradata应用迁移至AnalyticDB PostgreSQL

本文介绍如何将Teradata数据和应用迁移到云原生数据仓库AnalyticDB PostgreSQL版。迁移原则云原生数据仓库AnalyticDB PostgreSQL版对Teradata语法有着很好的兼容。本指南在将TD数仓应用迁移至 AnalyticDB PostgreSQL 云化数仓过程中，...

操作流程

新建数据字典并物理化通过新建并维护数据模型中使用的数据字典，制定并管理平台遵循的统一数据标准，为数据元、指标、维度引用数据字典提供数据基础，帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。具体操作，请参见新建...

通过任务编排实现跨库数据同步

本文通过在任务编排中创建跨库Spark任务，实现了定期将在线库中的订单表和商品表同步到数据仓库中进行数据分析，并将分析结果回流在线库中供管理者查询。前提条件准备一个MySQL数据库作为在线库，用于存放订单表和商品表，且您拥有该数据...

云产品集成

大数据开发治理平台 DataWorks DataWorks 是一款为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。您可以使用 DataWorks 添加 ApsaraDB For OceanBase 数据源，管理 OceanBase 数据库中的数据，通过数据集成...

什么是云原生数据仓库AnalyticDB MySQL版

云原生数据仓库AnalyticDB MySQL版是基于湖仓一体架构打造的实时数仓，高度兼容MySQL，支持毫秒级更新，亚秒级查询。无论是数据湖中的非结构化或半结构化数据，还是数据库中的结构化数据，您都可使用 AnalyticDB MySQL 构建企业的数据分析...

配置跨库Spark SQL节点

示例：某消费服务平台使用的是MySQL数据库，需要在数据仓库 AnalyticDB PostgreSQL版中对消费数据进行消费金额、消费笔数等的统计分析，将统计分析后的数据回传到消费服务平台上，供用户进行在线查询。将MySQL中的增量消费数据同步到 ...

新建数据字典

数据字典管理支持创建并维护数据模型中使用的数据字典，制定并管理平台遵循的统一数据标准，为数据元、指标、维度的值域设置中引用数据字典提供数据基础，帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。本文为您介绍如何...

客户案例

MaxCompute已被广泛应用于各大领域处理云上大数据，帮助众多企业解决了海量数据分析问题，同时降低企业运维成本，企业人员可更专注于业务开发。本文为您介绍MaxCompute的精选客户案例。MaxCompute的全量客户案例信息，请参见行业客户案例...

数据加工过程卡点校验

整个流程中，先有数据加工，才有数据仓库模型和数据仓库代码的建设。因此，保障数据加工过程中的质量是保障离线数据仓库整体数据质量的重要环节。您可以通过DataWorks、MaxCompute Studio、MaxCompute SDK提交各种任务加工MaxCompute中的...

什么是数据管理DMS

AnalyticDB PostgreSQL版：云原生数据仓库AnalyticDB PostgreSQL版是一种大规模并行处理（MPP）数据仓库服务，可提供海量数据在线分析服务。OSS：对象存储服务OSS（Object Storage Service）是阿里云提供的海量、安全、低成本、高可靠的云...

功能简介

通过数据标准的管理功能，模型设计者可通过设计标准数据元素，定义关键业务对象、业务对象属性及值域，规范标准数据字典，制定并管理平台遵循的统一数据标准，帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。模型标准设计 ...

新建数据字典

数据字典管理支持创建并维护数据模型中使用的数据字典，制定并管理平台遵循的统一数据标准，为数据元、指标、维度的值域设置中引用数据字典提供数据基础，帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。本文为您介绍如何...

01创建数据字典并物理化

数据字典帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量，创建并维护逻辑表中使用的数据字典，方便数据元引用数据字典来规范数据元的值域范围，保证关联了字段标准的表及字段可以自动设置数据质量规则，规范数据质量，本章节...

大数据平台和数据仓库

新品推荐