数据质量保障原则

一致性 一致性通常体现在跨度很大的数据仓库中。例如,某公司有很多业务数仓分支,对于同一份数据,在不同的数仓分支中必须保证一致性。例如,从在线业务库加工到数据仓库,再到各个数据应用节点,用户ID必须保持同一种类型,且长度也要...

什么是MaxCompute

MaxCompute提供离线和实时的数据接入,支持规模数据计算及查询加速能力,为您提供面向多种计算场景的数据仓库解决方案及分析建模服务。MaxCompute还为您提供完善的数据导入方案以及多种经典的分布式计算模型,您可以不必关心分布式计算和...

产品系列

适用场景包含构建海量数据实时写入和复杂ETL计算的实时数据仓库数据量的复杂查询、历史数据分析、日志分析等业务场景。数仓版(3.0)弹性模式包括两种形态:单机版和集群版。单机版 单机版即单节点部署,不具备分布式能力。单机版支持...

AnalyticDB MySQL湖仓版(3.0)使用流程

云原生数据仓库AnalyticDB MySQL版(简称ADB,原分析型数据库MySQL版)是云端托管的PB级高并发实时数据仓库,是专注于服务OLAP领域的数据仓库。本指南将指引您完成一次 AnalyticDB MySQL版 集群创建及使用。湖仓版(3.0)快速入门视频指导 ...

AnalyticDB MySQL数仓版(3.0)使用流程

云原生数据仓库AnalyticDB MySQL版(简称ADB,原分析型数据库MySQL版)是云端托管的PB级高并发实时数据仓库,是专注于服务OLAP领域的数据仓库。本指南将指引您完成一次 AnalyticDB MySQL版 集群创建及使用。数仓版(3.0)快速入门视频指导 ...

数仓分层

在阿里巴巴的数据体系中,我们建议将数据仓库分为三层,自下而上为:数据引入层(ODS,Operation Data Store)、数据公共层(CDM,Common Data Model)和数据应用层(ADS,Application Data Service)。数据仓库的分层和各层级用途如下图所...

数仓分层

在阿里巴巴的数据体系中,我们建议将数据仓库分为三层,自下而上为:数据引入层(ODS,Operation Data Store)、数据公共层(CDM,Common Data Model)和数据应用层(ADS,Application Data Service)。数据仓库的分层和各层级用途如下图所...

如何使用T+1全量同步一键建仓

根据业务需要,您也可以在 数据入湖 页面的 任务列表 页签中,在 操作 列单击 执行 随时手动发起数据同步操作,在目标数据仓库OSS中创建与数据源(RDS数据源、ECS自建数据库数据)相同的表结构、在DLA中创建对应的数据仓库表结构。...

数据质量教程概述

在整体数据链路的处理过程中,为保证最终产出数据的质量,您需要对数据仓库ODS、CDM和ADS层的数据分别进行监控。数据仓库分层的定义请参见 数仓分层。本教程基于 搭建互联网在线运行分析平台 教程,ods_user_trace_log、dw_user_trace_log...

数据质量教程概述

在整体数据链路的处理过程中,为保证最终产出数据的质量,您需要对数据仓库ODS、CDM和ADS层的数据分别进行监控。数据仓库分层的定义请参见 数仓分层。本教程基于 搭建互联网在线运行分析平台 教程,ods_user_trace_log、dw_user_trace_log...

数仓分层

基于阿里巴巴OneData方法论最佳实践,在阿里巴巴的数据体系中,建议将数据仓库分为三层:数据引入层(ODS,Operational Data Store)、数据公共层(CDM,Common Dimensions Model)和数据应用层(ADS,Application Data Store)。数据仓库...

羲和分析计算引擎

面向混合负载的查询执行 羲和分析计算引擎也是新一代云原生数据仓库 AnalyticDB MySQL版 提供一体化的数仓服务重要内核。面向海量数据的云原生数仓需要满足不同的数据分析场景,包括在线报表,在线交互式分析,以及ETL等。不同的场景依赖...

数据源开发和生产环境隔离

背景信息 同一个名称的数据源存在开发环境和生产环境两套配置,在配置数据源时,您可基于标准模式工作空间对应底层两个数据库或数据仓库的背景,针对不同环境设置不同的数据源信息。在同步任务执行过程中,可由执行环境控制离线同步任务所...

集成与开发概览

离线集成是一种低代码的数据开发工具,您可以组合各类任务节点,形成数据流,通过周期调度运行达到数据加工、数据同步的目的,进而对在线数据库、数据仓库的数据进行加工处理并同步至目的端。流式ETL。更多信息,请参见 流式ETL。通过可视...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力,本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库 本场景推荐的架构如下。适用行业:全行业...

数据源概述

说明 数据同步基于数据源控制任务读写端数据库,您需要在数据集成同步任务配置前,配置好您需要同步的源端和目标端数据库或数据仓库的相关信息,以便在同步过程中,可通过选择数据源名称来控制同步读取和写入的数据库或数据仓库数据源...

Stage级别诊断结果

大的数据量被广播 Stage输入数据倾斜 Stage输出数据倾斜 较大的数据量被广播 问题 广播(Broadcast)是在两个相邻的Stage间,上游向下游Stage传输数据时所用的一种方法(更多详情,请参见 数据输出类型)。如果某个Stage广播了较多数据,...

查询报错问题

查询报错 QUERY_EXCEED_LIMIT ErrMsg:groups 100000001 exceed limit=>10000000 用户在执行SQL查询用limit处理分页时,如果start值限制10000无法获取10000以后的数据,如:LIMIT 1000000,20。分析型数据库MySQL版对分页数量有限制,即查询...

常见问题

数据同步过程中,可以修改源表中的字段类型,目前仅支持整型数据类型之间、浮点数据类型之间的列类型更改,并且只能将取值范围小的数据类型更改为取值范围大的数据类型,或者将单精度数据类型更改为双精度数据类型。整型数据类型:支持...

数据倾斜诊断

复制分布方式通常只会用在数据量小的表中,如果数据大的表使用复制分布方式,会导致数据急剧膨胀。哈希(HASH)分布 该分布方式会根据分布键HASH值将数据分布到各个计算节点上,该方式的关键在于如何选择分布键,分布键选择不正确时,...

如何查看表和数据库的数据量大小?

执行以下命令,查询表的数据大小(单位MB,不包括索引):select pg_size_pretty(pg_relation_size('<schemaname>.<tablename>'));执行以下命令,查询分区表所有分区的总大小(单位MB,包含表的索引和数据):select schemaname,tablename,...

数据仓库研发规范概述

大数据时代,规范地进行数据资产管理已成为推动互联网、数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范,可以切实提高研发效率,保障数据研发工作有条不紊地运作。而不完善的研发流程,会...

Teradata应用迁移至AnalyticDB PostgreSQL

SQL语句 云原生数据仓库PostgreSQL版和Teradata的部分SQL语法都是兼容的,仅有部分Teradata语法需要进行修改。需要修改的语法如下所示:cast Teradata支持如下的cast语法:cast(XXX as int format '999999')cast(XXX as date format '...

整体架构

云原生数据仓库AnalyticDB MySQL版 是阿里巴巴自主研发、经过超大规模以及核心业务验证的PB级实时数据仓库。概述 自2012年第一次在集团发布上线以来,AnalyticDB MySQL版 至今已累计迭代发布近百个版本,支撑起集团内的电商、广告、物流、...

一键建仓

数据管理DMS一键建仓功能可以实现一键创建实时同步的数据仓库数据可在秒级的延迟下,同步至AnalyticDB MySQL版数据库中,帮助您更实时、准确地掌握业务情况,以便更好地进行业务分析和决策,提升业务效果。本文介绍如何在数据管理DMS中...

索引优化

避免在频繁更新的表上建Bitmap索引:Bitmap索引最适合用户只查询数据而不更新数据的数据仓库应用,不适合有大量并发事务修改数据的OLTP应用。合理使用表达式索引:索引列不必只是表的一列,而是可以是从表的一列或多列计算的函数或标量表达...

数据集成概述

数据集成是稳定高效、弹性伸缩...在数据集成同步任务配置前,您可以在DataWorks 数据源管理 页面,配置好您需要同步的源端和目标端数据库或数据仓库的相关信息,并在同步过程中,通过选择数据源名称来控制同步读取和写入的数据库或数据仓库

面临的业务挑战

数据散乱不一致 传统企业的数据具有多样性,包括结构化、半结构化以及非结构化的数据。数据来源上包含数据库数据、日志数据、对象数据以及已有数仓上的存量数据等。这些不同来源、不同格式的数据,各自又有不同的访问和分析方式,而大量...

其他SQL功能差异

Collation|Charset|Id|Default|Compiled|Sortlen|+-+-+-+-+-+-+|utf8_general_ci|utf8|33|Yes|Yes|1|binary|binary|63|Yes|Yes|1|+-+-+-+-+-+-+2 rows in set(0.00 sec)小写 云原生数据仓库AnalyticDB MySQL的数据(Data)严格区分小写...

存储层弹性

AnalyticDB MySQL 的存储节点除了进行数据存储,还提供数据写入、数据查找和数据扫描等能力。如果读写性能出现瓶颈需要到控制台手动扩容弹性IO资源。弹性IO资源(Elastic IO Unit,简称EIU)是弹性模式集群版(新版)衡量实例存储性能的...

消除数据重分布

根据参与最常见join的数据集的大小选择最大dimension表,而不仅仅是表的大小。如果涉及到一个表的查询普遍带有WHERE语句,只有它的一部分行参与join。对于其它dimension表,根据它们和别的表join的情况,采用它们的主键或外键作为分区键。...

算子级别诊断结果

扫描算子读取字段个数较多 问题 扫描算子会在 AnalyticDB MySQL版 的存储层进行数据的过滤和明细数据的读取,如果SELECT的字段个数较多,需要读取的明细数据也较多,那么就会占用较大的磁盘I/O资源,影响 AnalyticDB MySQL版 集群整体稳定...

监控

例如:您设置了全部资源粒度的 云原生数据仓库AnalyticDB MySQL版 3.0 磁盘使用率大于或等于80%报警,则只要用户名下有 云原生数据仓库AnalyticDB MySQL版 3.0 资源范围 选择 全部资源 时,报警的资源最多1000个,超过1000个可能会导致达到...

构建测试数据

从 TPC官网 下载TPC-DS标准的数据生成工具DSDGEN,编译后生成二进制可执行文件dsdgen。创建存放数据文件的目录。mkdir data1tb 构建测试数据。dsdgen-sc 1000-dir data1tb-TERMINATE N 参数说明如下:参数 说明 示例-sc 测试数据量的大小。...

Flink数据导入

本文介绍如何将开源Flink中的数据导入 AnalyticDB MySQL版 数仓版(3.0)集群。前提条件 下载Flink驱动,并将其部署到Flink所有节点的${flink部署目录}/lib 目录下。您可以根据Flink版本下载对应的驱动:Flink 1.11版本:flink-connector-...

数据膨胀诊断

重要 诊断信息表 diag_bloat_tables 中的数据是按照 ORDER BY bloat_coeff desc,real_size DESC 排序的,即膨胀率越大的表越靠前。如果两个表的膨胀率相同时,数据量大的表更靠前。诊断信息表内部原理是基于PostgreSQL的Statistic ...

数据存储冷热分离

AnalyticDB MySQL版 弹性模式集群版(新版)(3.1.3.3及以上版本)支持表或分区级别的数据存储冷热分离策略。前提条件 AnalyticDB MySQL版 集群需要同时满足以下条件:集群系列需为 弹性模式集群版(新版)。集群内核版本需为3.1.3.3或以上...

全文检索

通常在使用数据仓库进行文本数据的加工和分析时,离不开数据仓库的数据实时写入、全文检索及任务调度等能力。如何使用一套数仓系统完成上述所有功能,往往面临以下几个挑战:数据仓库内核的全文检索功能不够全面。部分数据仓库在全文检索...

概述

解决方案 T+1全量同步一键建仓是指通过DLA控制台配置数据源(RDS、PolarDB for MySQL、MongoDB数据源、ECS自建数据库数据)和目标OSS数据仓库,系统按照您设定的数据同步时间自动、无缝的帮您把数据源中的数据同步到目标数据仓库OSS中,...

什么是数据管理DMS

AnalyticDB PostgreSQL版:云原生数据仓库AnalyticDB PostgreSQL版是一种规模并行处理(MPP)数据仓库服务,可提供海量数据在线分析服务。OSS:对象存储服务OSS(Object Storage Service)是阿里云提供的海量、安全、低成本、高可靠的云...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 RDS 云原生大数据计算服务 MaxCompute 云原生数据仓库AnalyticDB MySQL版 数据库备份 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用