如何确定分区

查看按照ID值分为10个分区后每个分区的数据量。select id%10 as part_id,count(1)from table_name group by id%10;查看每个ID值对应的数据量。select id,count(1)as cnt from table_name group by shop_id order by cnt desc;说明 对于业务...

开发限制

PolarDB-X 高度兼容MySQL协议和语法,但由于分布式数据库和单机数据库存在较的架构差异,存在SQL使用限制。本文将介绍数据库开发过程中的使用限制。常见标识符限制 类型 最大字符长度 取值范围 Database 32 小写字母、数字和下划线(_...

创建Hudi数据

说明 通常情况下,生产数据源和开发数据源需配置非同一个数据源,以使开发数据源与生产数据源的环境隔离,降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源,即相同参数值。参数 描述 存储配置 支持HDFS或OSS存储。...

创建Hudi数据

说明 通常情况下,生产数据源和开发数据源需配置非同一个数据源,以使开发数据源与生产数据源的环境隔离,降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源,即相同参数值。参数 描述 存储配置 支持HDFS或OSS存储。...

JindoFS实战演示

使用Checksum迁移HDFS数据到OSS 使用Checksum迁移HDFS数据到OSS 2021-05-11 通过Checksum算法,你可以在大数据迁移场景中校验数据的完整性、对比数据差异并实现增量迁移。本视频为您介绍如何使用Jindo Distcp迁移HDFS数据到OSS,以及在迁移...

约束与限制

每个表的数据每个分区每个Segment最大128 TB。BLOB数据量 最大1 GB。说明 AnalyticDB PostgreSQL版 使用BYTEA数据类型代替BLOB。每个表的行数 最多2^48行。每个表的列数 最多1600列。每个数据库中的表数 最多42亿个。每个视图中的列数 ...

资源角色

可查看实例上每个数据库的权限开通情况,可授予、回收库表权限。可查询实例下所有数据库中的数据(不包含敏感字段),提交各类数据方案与库表结构的工单。对应于审批节点中 动态计算 的DBA。实例Owner 每个实例可以设置3个实例Owner。云...

外部表常见问题

其原理是通过属性值调整执行计划,控制每个Reducer写入外部表OSS的数据大小,使得OSS Store文件不超过3 GB的限制。set odps.sql.mapper.split.size=256;调整每个Mapper读取数据的大小,单位是MB。set odps.sql.reducer.instances=100;调整...

基本概念

每个项目都是一个数据分析地图,拥有独立的数据源和分析图层。数据源 用户可以在项目中添加数据表,这些数据表可以从已经连接的数据库中选择添加。表类型 项目中支持多种表格类型,每种表格的显示图标都不相同,包括但不限于矢量、栅格、...

备份集查询功能概览

DBS备份数据查询功能,可以在不恢复备份数据情况下,直接查询云存储中备份集的...快速定位数据:库-表-分区的新架构,并且引入 dbs_dla_partition 字段,为每个数据提供备份集版本号,帮助您快速定位数据问题,详情请参见 查询多个备份集。

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

流量诊断

上图是查询秒内读请求数据量最大的五分片,再将属于同一张表的分片聚合在一起,并按照分片读请求数据量的值升序排列后的结果。实时查询热点Key 在左侧导航栏中,选择 流量诊断>topregion/key实时查询。设置筛选条件,包括排序维度、...

topRegion分析

上图是查询秒内读请求数据量最大的五分片,再将属于同一张表的分片聚合在一起,并按照分片读请求数据量的值升序排列后的结果。TopRegion历史快照 TopRegion历史快照支持查询某一历史时间点的热点分片。选择 idc、分组 和 历史快照。...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统 通过数据总线,您可以实时接入APP、WEB、IoT和数据库等产生的异构数据,统一管理,并投递到下游的分析、归档等系统,构建清晰的数据流,让您更好的释放数据的价值。...

基于MaxCompute进行大数据BI分析

本实践以电商行业为例,通过MaxCompute、DataWorks对业务数据和日志数据进行ETL处理,并同步至分析型数据库MySQL(AnalyticDB MySQL)进行实时分析,再通过Quick BI进行可视化展示。背景信息 MaxCompute:用于进行规模数据计算,详情请...

数据格式描述文件

granularitySpec 聚合支持两种聚合方式:uniform和arbitrary,前者以一个固定的时间间隔聚合数据,后者尽量保证每个segments大小一致,时间间隔是不固定的。目前uniform是默认选项。键 格式 描述 是否必须 segmentGranularity 字符串 ...

颜色映射

自然分断 每个分段内部数据的相似性最大,不同分段间的相似性较小,并兼顾每个分段的范围和个数尽量相近。自定义 根据自身需要,自定义设置色块值,分段数值,并支持新增和删除分段。预设模式 说明 当映射类型为连续映射时可配置。由高到低...

约束和限制

目录下面采样最新和最老的文件,每个文件读取前1000行 元数据发现SLS数据源发现历史投递数据 如果投递中途修改了分区格式,不会发现修改前的数据 一键建仓/多库合并支持的数据源网络类型 VPC 一键建仓/多库合并支持的数据源 PolarDB MySQL ...

导入概述

本文为您介绍Doris数据导入支持的数据源、支持的数据格式以及特性。支持的数据源 Doris提供多种数据导入方案,可以针对不同的数据源选择不同的数据导入方式。Stream Load Broker Load Insert Into Routine Load Spark Load JSON格式导入 ...

Quick BI连接MaxCompute

背景信息 智能分析套件Quick BI是一个专为云上用户量身打造的易上手、性能强的大数据分析及可视化平台,可以让每个人都能成为数据分析师。Quick BI不仅是业务人员查看数据的工具,更是数据化运营的助推器。更多Quick BI信息,请参见 Quick ...

管理数据分级

查看数据分级 在 数据分级 页面,查看系统中的数据分级及每个数据分级的详细信息。区域 描述 ① 搜索区 您可以根据数据分级的名称关键字,快速搜索数据分级。② 数据分类信息 为您展示数据分级、数据分级的名称、更新人、更新时间、分级...

管理数据分级

查看数据分级 在 数据分级 页面,查看系统中的数据分级及每个数据分级的详细信息。区域 描述 ① 搜索区 您可以根据数据分级的名称关键字,快速搜索数据分级。② 数据分类信息 为您展示数据分级、数据分级的名称、更新人、更新时间、分级...

业务视角管理:数据专辑

说明 每个数据专辑支持设置0-5个管理员。修改使用说明。移除数据表。进入 数据专辑 页面后,单击目标专辑的名称,进入目标专辑的详情页面。在目标专辑的详情页面中,单击专辑名称下方的 对象列表 页签,在目录列表中,选择目标类目。在目标...

实时同步任务延迟解决方案

对于源端是Kafka、DataHub和Loghub三种类型的实时同步任务,每个分区或者shard只能由一个并发消费,如果存在写入源端系统的数据集中在个别分区或者shard,而其他分区或shard数据很少的情况,则很可能导致数据倾斜分区或shard的消费瓶颈,...

数据倾斜诊断

AnalyticDB PostgreSQL版 提供的智能诊断数据倾斜功能,可以小时定期自动诊断数据库内的所有表,并生成相应的诊断信息表,供您检测库内所有表的倾斜情况。注意事项 智能诊断数据倾斜功能仅支持存储弹性模式实例,且内核版本须满足以下...

列存索引如何实现高效数据过滤

PolarDB IMCI按RowGroup组织数据每个RowGroup包含64K行。对于每一列的列索引,其存储都采用的是无序且追加写的格式。因此,IMCI无法像InnoDB的普通有序索引那样,可以精确地过滤掉不符合要求的数据。在读取DataPack时,需要从磁盘中加载...

创建Aliyun HBase数据

说明 通常情况下,生产数据源和开发数据源需配置非同一个数据源,以使开发数据源与生产数据源的环境隔离,降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源,即相同参数值。参数 描述 服务类型 根据数据源HBase选择...

分析业务过程

数据什么情况下会更新,更新的逻辑是什么。业务过程可以是单个业务事件,例如交易的支付、退款等;也可以是某个事件的状态,例如当前的账户余额等;还可以是一系列相关业务事件组成的业务流程。具体取决于您分析的是某些事件过去发生情况...

分析业务过程

数据什么情况下会更新,更新的逻辑是什么。业务过程可以是单个业务事件,例如交易的支付、退款等;也可以是某个事件的状态,例如当前的账户余额等;还可以是一系列相关业务事件组成的业务流程。具体取决于您分析的是某些事件过去发生情况...

常见问题

什么情况下我需要使用数据湖构建?如何申请数据湖构建产品的公测资格?请使用阿里云 主账号 进行公测资格申请(请如实填写公司信息),审批通过后即可访问数据湖构建的控制台。注意,子账号无法申请产品公测权限。数据湖构建如何收费?公测...

深度解析PolarDB数据库并行查询技术

通常来说,每个worker只有所有数据的一个分片,只在一个数据分片上做GROUP BY是有极的风险得到错误的GROUP BY结果的,因为同一GROUP分组的数据可能不只是在本WORKER的数据分片上,也可能在其它WORKER的数据分片中,被其它WORKER所持有。...

集群容灾能力

数据容灾 在Hadoop分布式文件系统(HDFS)中,一个文件的数据均是分块存储的,一个数据块保存有多副本(默认为3),并且尽量保证这些数据块副本分布在不同的机架之上。一般情况下,HDFS的副本系数是3,存放策略是将一个副本存放在...

分析业务过程

数据什么情况下会更新,更新逻辑是什么。业务过程可以是单个业务事件(例如交易的支付、退款),也可以是某个事件的状态(例如当前的账户余额),还可以是一系列相关业务事件组成的业务过程。具体取决于您分析的是某些事件过去的发生情况...

磁盘空间诊断

表 对于占用空间较数据库,可以通过客户端连接到该数据库,执行 \d 查看该数据每个表的空间占用情况。查询WAL日志 执行以下SQL可查看当前WAL日志占用空间:SELECT pg_size_pretty(SUM(size))FROM pg_ls_waldir();一般WAL占用空间较...

Tunnel命令常见问题

上传数据时,每个Session的生命周期是一天,因源表数据,导致Session超时任务失败,如何解决?上传Session太多导致上传速度慢,如何解决?导入数据的最后一列为什么会多出\r符号?使用Tunnel Upload命令上传数据时,默认用逗号进行列...

磁盘空间诊断

表 对于占用空间较数据库,可以通过客户端连接到该数据库,执行 \d 查看该数据每个表的空间占用情况。查询WAL日志 执行以下SQL可查看当前WAL日志占用空间:SELECT pg_size_pretty(SUM(size))FROM pg_ls_waldir();一般WAL占用空间较...

窗口函数

percent_rank()→bigint 返回数据集中每个数据的排名百分比。结果是根据(r-1)/(n-1)其中 r 是由 rank()计算的当前行排名,n是当前窗口分区内总的行数。rank()→bigint 返回数据集中每个值的排名。排名值是根据当前行之前的行数加1,不包含...

容量中心

可查看每个表的 表名、行数、磁盘使用大小、数据大小、宏块使用率、分区数量 和 自增列使用率。查看集群容量信息。当选择所有租户时,不再显示数据库和数据表筛选,改为展示集群下不同租户的存储、分区副本、CPU、内存的图表信息。右侧展示...

产品优势

产品功能全 功能涵盖数据传输、开发、生产、治理、安全全领域,每个领域深度覆盖大数据全生命周期,轻松帮助企业应对在搭建数仓、搭建数据中台、数字化转型项目中遇到的难题。支持复杂网络环境、常见数据源的数据同步上云以及实时、历史...

PostgreSQL逻辑备份

注意事项 对于PostgreSQL数据库的逻辑备份,包含RDS PostgreSQL、PolarDB PostgreSQL或其他数据源类型为PostgreSQL的数据库,DBS备份计划的备份维度是库级别,即每个DBS备份计划只能备份一个数据库。如果有多个库需要备份,需要购买多个DBS...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库备份 DBS 云原生大数据计算服务 MaxCompute 云数据库 RDS 数据传输服务 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用