Hive、MySQL、Oracle数据类型映射表

在进行数据迁移或集成操作时,即当您需要将其他数据数据导入MaxCompute或将MaxCompute数据导出至其他数据库时,您需要参照数据类型映射表,设置表字段的数据类型映射关系。正确的数据类型映射关系可以确保数据在不同数据库中能够正确地...

Online DDL

② 如果原来的Range/Range Columns没有定义MAXVALUE分区或原来的List/List Columns没有定义DEFAULT分区,增加分区的操作无须回填数据,否则就需要回填部分分区数据。③ 对于Range/Range Columns的删除分区,如果删除的分区是最后一个分区,...

生命周期

MaxCompute表的生命周期(Lifecycle),指表(分区数据从最后一次更新的时间算起,在经过指定的时间后没有变动,则此表(分区)将被MaxCompute自动回收。这个指定的时间就是生命周期。通过设置生命周期可以实现自动数据清理或数据保留,...

Hive

本实例展示如何将Hive数据加载到DLA Ganos进行分析。Hive是Hadoop生态系统中的一个被广泛使用的数据仓库工具,主要用来进行Hadoop中的大规模数据的提取、转化、加载、查询和分析等操作。Hive数据仓库工具能将存储在HDFS系统中的结构化的...

同步 OceanBase 数据库的数据至 Kafka

从指定的分区删除数据 ALTER TABLE…TRUNCATE PARTITION 创建索引 CREATE INDEX 删除索引 DROP INDEX 添加表的备注 COMMENT ON TABLE 表重命名 RENAME TABLE 重要 重命名后的表名需要在同步对象范围之内。操作步骤 登录 OceanBase 管理...

数据建模诊断

分区字段不合理判定规则 如果表中有10%以上的分区记录条数不在合理区间则视为不合理,具体的判定规则见下表:节点数 二级分区数据行数 1 1600 w~16000 w 2 6400 w~64000 w 4~6 12800 w~128000 w 8~14 19200 w~192000 w 16~30 25600 w~...

概述

支持灵活的分区调度管理,方便对不同分区数据进行隔离。与MySQL分区表的差异 对比项 PolarDB-X 分区表 MySQL分区表 分区分布位置 不同分区自动分布到不同的数据节点,实现单机资源的突破 所有分区必须在主节点,共享单机资源。支持分区策略...

热点散列

对于Range和List分区,分区数据是按照用户的定义来划分的,对于HASH策略的分区,PolarDB-X采用的是一致性HASH算法,将分区键的值映射为一个具体的哈希值,进而映射到分区所在的哈希空间。对分区键分布均衡(例如分区键是主键),且采用的是...

Sqoop概述

背景信息 常见数据传输场景如下:将MySQL数据导入HDFS 将HDFS数据导入MySQL 将Hive数据导入MySQL 将MySQL数据导入Hive 将MySQL数据导入OSS 将OSS数据导入MySQL 使用SQL作为导入条件 将MySQL数据导入HDFS 在Master节点上执行如下命令。...

使用Hive查询JindoFS上的数据

Apache Hive是Hadoop生态中广泛使用的SQL引擎之一,让用户可以使用SQL实现分布式的查询,Hive数据主要以undefinedDatabase、Table和Partition的形式进行管理,通过指定位置(Location)对应到后端的数据。JindoFS配置 以EMR-3.35版本为例...

Quick BI新建hive数据源后将简单SQL放到数据集中运行...

问题描述 Quick BI新建hive数据源后将简单SQL放到数据集中运行报错io.grpc.StatusRuntimeException:INTERNAL:java.sql.SQLException:org.apache.spark.sql.catalyst.parser.ParseException,错误情况如下:问题原因 将spark数据源当作hive...

基本数据库对象及概念

当有新的二级分区数据被加载时,分析型数据库MySQL版会以二级分区列的键值排序,删除最小键值的二级分区。为什么要限制二级分区数?过多的二级分区会占用计算节点大量的内存,导致系统容易不稳定。所以我们一般建议二级分区数不要超过90个...

分区和列操作

具备修改表权限(Alter)的用户 本文中的命令您可以在如下工具平台执行:MaxCompute客户端 使用SQL分析连接 使用云命令行(odpscmd)连接 使用DataWorks连接 MaxCompute Studio 删除分区 为已存在的分区表删除分区。修改分区的更新时间 ...

CDH Hive数据抽样采集器

您可以通过DataWorks的数据抽样采集器功能,从CDH Hive表中随机抽取表的部分数据用于数据保护伞的敏感数据识别。如果您在数据保护伞中配置了脱敏规则,那么在数据地图表详情页面进行数据预览时,命中的敏感字段将会被脱敏。本文为您介绍...

Superset(仅对存量用户开放)

使用Superset访问Hive数据库 Superset提供了SQLAlchemy以多种语言支持各种各样的数据库,包括MySQL、Oracle、PostgreSQL和Microsoft SQL Server等关系型数据库,以及Hive、Presto和Druid等大数据查询引擎。这里以E-MapReduce Hadoop集群...

数据集成支持的数据

数据集成支持离线集成、实时集成、整库迁移集成方式。本文为您介绍离线集成、实时集成、整库迁移支持的数据源类型...目标准数据源 MaxCompute、Kafka、Hive、DataHub 创建MaxCompute数据源 创建Kafka数据源 创建Hive数据源 创建DataHub数据

DataWorks On CDP/CDH使用说明

一、数据集成 DataWorks的数据集成模块为您提供读取和写入数据至CDP/CDH Hive、CDP/CDH HBase的能力,您需要将Hive或HBase组件创建为 DataWorks的 Hive或HBase数据源,实现将其他数据源的数据同步至Hive或HBase数据源,或将Hive或HBase数据...

二级分区表(2.0版)

二级分区使用场景 一般情况下,当一级分区数据量随时间增大到超过单个一级分区记录数最佳值(2000万~3000万)时,可以考虑设计二级分区。二级分区可以理解为按队列方式管理分区个数,当超过最大定义数,最小值分区自动删除,循环使用空间,...

访问列存数据

分区 删除分区 您可以通过DELETE FROM语法指定WHERE条件匹配分区来删除分区,示例如下。USE lindorm_columnar;DELETE FROM mydb.mytable WHERE city='beijing';DML 表 在表中插入数据 示例一:USE lindorm_columnar;INSERT INTO mydb....

分区热力图

单击上方 DN视图 按钮可以切换到存储节点视角,分区数据热点信息将以存储节点的维度来展示,方便分析数据在物理存储节点间是否均衡,是否存在数据过热的物理存储节点。图 1.库表视图 图 2.DN视图 左侧直方图:各个矩形分别代表当前实例下的...

分区热力图

单击上方 DN视图 按钮可以切换到存储节点视角,分区数据热点信息将以存储节点的维度来展示,方便分析数据在物理存储节点间是否均衡,是否存在数据过热的物理存储节点。图 1.库表视图 图 2.DN视图 左侧直方图:各个矩形分别代表当前实例下的...

Check节点

步骤三:配置任务调度 如您需要周期性使用Check节点进行分区数据检查,可单击节点编辑页面右侧的 调度配置,根据业务需求配置该节点任务的调度信息。详情请参见 任务调度属性配置概述。Check节点与普通调度节点一样,需设置调度依赖、调度...

访问Hive数据

云原生多模数据库 Lindorm 计算引擎提供完善的Hive数仓能力,支持用户通过Hive或Spark SQL定义数仓生产处理逻辑并开发相关作业。本文介绍如何使用SQL访问Hive数据。前提条件 已开通Lindorm实例的计算引擎服务,具体操作请参见 开通与变配。...

存储成本优化

如果小时调度的统计任务也按天分区数据每小时追加,则每小时将多读取大量的无用数据,增加不必要的费用。您可以根据实际的业务情况选择分区字段,除了日期和时间,也可以使用其他的枚举值个数相对固定的字段,例如渠道、国家和省份地市。...

Hadoop生态外表联邦分析

OK#导入数据 hive>INSERT INTO TABLE sales_info_rcfile SELECT*FROM sales_info;查看 hive>SELECT*FROM sales_info_rcfile;AnalyticDB PostgreSQL版 实例访问数据。postgres=CREATE EXTERNAL TABLE salesinfo_hivercprofile(location text...

使用须知

建议使用Hive Metastore来管理数据源的元数据,具体请参见 访问Hive数据。Spark SQL lindorm_columnar 读写Lindorm列存使用的数据源。访问Lindorm列存数据(邀测中)lindorm_table 读写Lindorm宽表引擎使用的数据源。访问宽表数据 lindorm_...

配置连接器

Hive连接器 kudu 使用Kudu连接器可以查询、插入和删除存储在Kudu里的数据。Kudu连接器 iceberg 使用Iceberg连接器可以查询Iceberg格式的数据文件。Iceberg连接器 mysql 使用MySQL连接器可以在外部MySQL实例中查询和创建表。MySQL连接器 ...

TRUNCATE PARTITION

本文档介绍了从指定的子分区删除所有数据,并保留完整的子分区结构的方法。语法 ALTER TABLE…TRUNCATE PARTITION 命令用于从指定的子分区删除所有数据,并保留完整的子分区结构:ALTER TABLE table_name TRUNCATE PARTITION partition...

数据输入输出

processed_df.to_odps_table("test_processed_odps_table")如果表为分区表,read_odps_table 方法会读取所有分区的数据,因此如果存在多个分区,您可以通过 partitions 参数读取部分的分区数据:df=md.read_odps_table("parted_odps_table...

Quick BI连接hive数据源报错:"Required field&39;...

问题描述 Quick BI连接hive数据源报错:"Required field&39;client_protocol&39;is unset!Struct:TOpenSessionReq(client_protocol:null,configuration:{use:database=group3_dm}。问题原因 hive版本属于cdh hive,quick bi支持的是apache ...

配置MaxCompute输入组件

同时支持填写范围分区,如/*query*/ds>=202101 and ds,则采集202101至202108的分区数据。分区不存在时 可选择以下策略,处理当指定分区不存在时的场景:置任务失败:终止该任务并置失败。置任务成功,无写入数据:任务正常运行成功,无...

第三方认证文件管理

DataWorks的数据同步功能支持第三方身份认证机制,您需要提前在DataWorks的...支持Kerberos认证的数据源 Kerberos支持的数据源类型及配置指引如下所示:数据源类型 配置指引 HBase 配置HBase数据源 HDFS 配置HDFS数据Hive 配置Hive数据

配置MaxCompute输入组件

同时支持填写范围分区,如/*query*/ds>=202101 and ds,则采集202101至202108的分区数据。分区不存在时 可选择以下策略,处理当指定分区不存在时的场景:置任务失败:终止该任务并置失败。置任务成功,无写入数据:任务正常运行成功,无...

配置hosts

Presto on ACK提供了自定义hosts功能,当Presto on ACK集群读取EMR on ECS集群的Hive数据时,该功能可以提供正确的域名解析配置。本文为您介绍如何配置hosts。背景信息 如果没有正确配置hosts,则可能遇到以下报错提示。java....

电子商务

根据数据量和存储总时间,按月(201712)间隔,每月一个二级分区,每个二级分区数据量为:1193万=550亿/(128个一级分区)/(3年×12个月)。创建表的SQL语句如下:CREATE TABLE t_fact_orders(order_id varchar COMMENT '',customer_id ...

配置规则:按表(单表)

可新建多个质量监控校验同一张表的不同分区,每个质量监控关联不同的质量规则,达到同一张表不同分区数据质量校验逻辑不同的目的。定义质量监控的触发方式,即是否在调度节点运行时触发规则校验,还是需要手动触发才会进行该表质量校验。...

迁移指南

添加和删除分区:Delta lake自动跟踪表中的分区集,并在添加或删除数据时更新列表。因此,不需要运行ALTER TABLE[ADD|DROP]PARTITION或MSCK。加载单个分区:作为一种优化,有时您可能会直接加载您感兴趣的数据分区。例如,spark.read....

ODS层设计规范

ODS增量表 按天分区 有对应全量表,最多保留最近14天分区数据。无对应全量表,需要永久保留数据。ODS ETL过程临时表 按天分区 最多保留最近7天分区。DBSync非去重数据 按天分区 由应用通过中间层保留历史数据,默认ODS层不保留历史数据。...

ALTER TABLE

删除分区 为已存在的分区表删除分区。MaxCompute支持通过条件筛选方式删除分区。如果您希望一次性删除符合某个规则条件的多个分区,可以使用表达式指定筛选条件,通过筛选条件匹配分区并批量删除分区。限制条件 每个分区过滤子句只能访问...

2021年

如果您希望一次性删除符合某个规则条件的一个或多个分区,可以使用表达式指定筛选条件,通过筛选条件匹配分区并批量清空分区数据。清空分区数据 2021-11-02 新增MaxCompute Studio可视化管理资源内容。新说明 MaxCompute Studio的Project ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据传输服务 云数据库 RDS 数据库备份 云数据库 Redis 版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用