附加/分离分区

例如:假设分区A引用了分区B作为外键,若从分区B中分离一个分区B_p1,则会对分区A加上共享。上述语法中还可以指定 CONCURRENTLY 或 FINALIZE:如果指定 CONCURRENTLY,则会在低级别锁定上运行,以避免阻塞可能正在访问分区的其他...

附加/分离分区

例如:假设分区A引用了分区B作为外键,若从分区B中分离一个分区B_p1,则会对分区A加上共享。上述语法中还可以指定 CONCURRENTLY 或 FINALIZE:如果指定 CONCURRENTLY,则会在低级别锁定上运行,以避免阻塞可能正在访问分区的其他...

pg_repack

PolarDB PostgreSQL版(兼容Oracle)支持通过pg_repack插件对表空间进行重新“包装”,回收碎片空间,有效解决因对全大量更新等操作引起的膨胀问题。pg_repack无需获取排它,相比CLUSTER或VACUUM FULL更加轻量化。注意事项 pg_repack...

pg_repack

其余步骤pg_repack只需要持有原的ACCESS SHARE,不阻塞对原的 INSERT、UPDATE 和 DELETE 操作,但会阻塞 DDL 操作。pg_repack需要额外的存储空间来保存新和日志,因此剩余存储空间大小需要至少是被repack大小的两倍。对带有...

Broker Load

Broker Load支持一次导入任务涉及多张,每个Broker Load导入任务可通过多个data_desc声明多张来实现多导入。每个单独的data_desc可以指定属于该的数据源地址,可以用多个file_path来指定导入同一个的多个文件。Broker Load保证了...

Broker Load

推荐超时时间的计算方式为:超时时间>((总文件大小(MB)*待导入的及相关Roll up的个数)/(30*导入并发数))公式中的30为目前BE导入的平均速度,表示30 MB/s。例如,如果待导入数据文件为1 GB,待导入包含2个Rollup,当前的导入...

通过ES-Hadoop将HDFS中的数据写入Elasticsearch

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具,可以让数据在Elasticsearch和Hadoop之间双向移动,无缝衔接Elasticsearch与Hadoop服务,充分使用Elasticsearch的快速搜索及Hadoop批处理能力,实现交互式数据处理。...

通过ES-Hadoop实现Hive读写阿里云Elasticsearch数据

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具,可以让数据在Elasticsearch和Hadoop之间双向移动,无缝衔接Elasticsearch与Hadoop服务,充分使用Elasticsearch的快速搜索及Hadoop批处理能力,实现交互式数据处理。...

作业配置说明

如果为OSS路径,您需要配置对应的配置项,包括:spark.hadoop.fs.oss.endpoint、spark.hadoop.fs.oss.accessKeyId、spark.hadoop.fs.oss.accessKeySecretspark.hadoop.fs.oss.impl。重要 通过JDBC方式连接计算引擎时,JAR包仅支持上传至...

PolarDB死锁

本文主要介绍了利用DAS的分析功能与SQL洞察功能进行死锁定位的方法。背景信息 死锁是关系型数据库系统中最为常见的错误,出现在不同事务中同时对某些数据访问加时,都要等待对方请求中的数据而无法获取。数据库系统会自动牺牲回滚...

抢占式DDL

若此时只读节点的上存在访问的事务,MDL同步线程便会被阻塞。如果在超时时间内,只读节点始终无法获得MDL-X,客户端则会返回错误 ERROR 8007(HY000):Fail to get MDL on replica during DDL synchronize。对于含有多个只读节点的 ...

什么是EMR on ECS

与自建Hadoop集群对比 开源大数据开发平台EMR与自建Hadoop集群的优势对比如下所示。对比项 阿里云EMR 自建Hadoop集群 成本 支持按量和包年包月付费方式,集群资源支持灵活调整,数据分层存储,资源使用率高。无额外软件License费用。需...

管理Hive Catalog

配置Hive Catalog后,您可以在Flink开发控制台直接读取Hive元数据,无需再手动注册Hive,提高作业开发的效率且保证数据的正确性。本文为您介绍如何配置Hive元数据、创建和使用Hive Catalog等。背景信息 您可以将Hive Catalog配置文件和...

Hudi连接器

Hudi是一种数据湖的存储格式,在Hadoop文件系统之上提供了更新数据和删除数据的能力,以及消费变化数据的能力。EMR Trino已经将相关JAR包集成至独立的Hudi Plugin里面,EMR Hudi连接器目前支持查询COW和MOR。背景信息 EMR Hudi的详细信息...

通过HDFS Shell连接并使用文件引擎

HDFS Shell是Hadoop分布式文件系统(HDFS)提供的命令行工具。Lindorm文件引擎100%兼容HDFS协议,您可以通过HDFS Shell工具交互式管理文件引擎中存储的文件,例如文件查询、文件删除、文件权限管理和修改文件名称等。本文介绍通过HDFS ...

Spark批式读写Iceberg

本文以Spark 3.x操作Iceberg为例,介绍如何通过Spark DataFrame API以批处理的方式读写Iceberg。前提条件 已创建Hadoop集群,详情请参见 创建集群。说明 此文档仅适用于EMR-3.38.0及后续版本与EMR-5.4.0及后续版本的Hadoop集群。操作...

Kudu连接器

背景信息 本文为您介绍Kudu连接器相关的内容和操作,具体如下:修改Kudu连接器配置 数据查询 数据类型映射 支持的Presto SQL语法 创建 增加列 前提条件 已创建Presto集群和Hadoop集群,且Hadoop集群选择了Kudu服务,详情请参见 创建集群...

数据湖构建的审计事件

操作审计记录了用户通过OpenAPI或控制台等方式操作云资源时产生的管控事件,数据湖构建支持在操作审计中查询的事件如下所示。事件名称 事件含义 AbortLock 中止元数据。BatchCreatePartitions 批量新增元数据的分区。...

REINDEX

CONCURRENTLY 使用此选项时,PolarDB 将重建索引,而不在上采取任何阻止并发插入、更新或删除的;标准的索引重建将会锁定上的写操作(而不是读操作),直到它完成。对于临时,REINDEX 始终是非并发的,因为没有其他会话可以访问它们...

环境准备

使用Hive/HadoopMR来访问表格存储中的前,您需要完成JDK、Hadoop环境、Hive环境、表格存储Java SDK和阿里云EMR SDK的安装。使用Hive/HadoopMR来访问表格存储中的 通过 表格存储 及 E-MapReduce 官方团队发布的依赖包,可以直接使用Hive...

Hadoop集群迁移至DataLake集群

本文将详细阐述如何将您已有的旧版数据湖集群(Hadoop),高效地迁移至数据湖集群(DataLake),以下分别简称“旧集群”和“新集群”。迁移过程将充分考虑旧集群的版本、元数据类型以及存储方式,并针对这些因素,提供适应新集群的迁移策略...

HBase

使用Databricks 读写云数据库HBase数据 通过Spark建读取云数据库HBase数据%sql-使用org.apache.hadoop.hbase.spark创建spark CREATE DATABASE IF NOT EXISTS test_hbase;USE test_hbase;DROP TABLE IF EXISTS spark_on_hbase;CREATE ...

如何兼容Hbase 1.0以前的版本

TableName 类 在HBase 1.0.0 之前的版本中,创建时可以使用 String 类型的名,但是 HBase 1.0.0 之后需要使用类 org.apache.hadoop.hbase.TableName。最新的代码如下所示:String tableName="MyTable;or byte[]tableName=Bytes.toBytes...

搭建与管理(基于Hadoop

通过MaxCompute与Hadoop构建湖仓一体方案旨在实现对海量数据的统一管理、存储和分析,提供了一个既能处理结构化、半结构化数据,又能满足高并发分析需求的一体化数据平台。本文为您介绍如何通过MaxCompute与Hadoop构建湖仓一体,以及管理湖...

项目

外部项目无法被独立创建和使用,需要配合数据湖集成,用以实现访问和管理Hadoop集群Hive数据库中的数据,或数据湖构建DLF中的数据。详情参见 MaxCompute湖仓一体。外部项目本身没有执行作业的权限,需要关联到MaxCompute项目,通过...

使用OSS-HDFS作为HBase的底层存储

TABLE bar 1 row(s)Took 0.0138 seconds 退出HBase Shell后,执行以下命令验证数据。命令格式如下。hadoop fs-ls oss:/${OSS-HDFS服务的域名}/{dir} 例如,执行以下命令。hadoop fs-ls oss:/test_bucket....

兼容版本SDK概述

MaxCompute兼容版本的MapReduce与Hadoop MapReduce兼容性的详细列表,如下所示。类型 接口 是否兼容 Mapper void map(KEYIN key,VALUEIN value,org.apache.hadoop.mapreduce.Mapper.Context context)是 Mapper void run(org.apache....

GetPartitions

调用GetPartitions获取的所有分区信息。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求参数 名称 类型 是否必选 示例值 描述 Action String 是 ...

GetPartition

InputFormat String org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat 的InputFormat。Location String oss:/data/xxx 的路径。OutputFormat String org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat ...

创建集群

Zookeeper:提供独立的分布式一致性服务,适用于大规模的Hadoop集群、HBase集群和Kafka集群。Presto:是基于内存的分布式SQL交互式查询引擎。支持多种数据源,适合PB级海量数据的复杂分析,以及跨数据源的查询。(可选)高级设置 配置项 ...

Dataphin逻辑的生命周期和计算引擎的关系

概述 Dataphin逻辑的生命周期和计算引擎的关系。详细信息 如果计算引擎是MaxCompute就会逻辑生命周期会生效,如果是Hadoop就不会生效。适用于 Dataphin

EMR-3.25.x版本说明

Impala 修复Impala无法访问lzo的问题。HDFS 移除mongo-hadoop的相关JAR包。Zookeeper 升级至3.5.6版本。YARN 适配tez-ui,yarn-site 页签支持添加配置项 yarn.resourcemanager.system-metrics-publisher.enabled=true。Bigboot 升级至2.2...

GetTable

调用GetTable获取给定的详细信息。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求参数 名称 类型 是否必选 示例值 描述 Action String 是 GetTable ...

CreateTable

OutputFormat String 是 org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat 的OutputFormat信息。Parameters Map 否 SD属性。String 否 key001=value001 SD属性。SerDeInfo Object 是 的序列化和反序列信息。Name ...

AddPartitions

InputFormat String 是 org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat 的InputFormat。Location String 否 oss:/data/xxxx 的路径。OutputFormat String 是 org.apache.hadoop.hive.ql.io.parquet....

常见问题

解决方法:您需要在执行查询Hudi的命令时,添加上 set hive.input.format=org.apache.hudi.hadoop.hive.HoodieCombineHiveInputFormat。Spark查询Hudi分区裁剪不生效?问题原因:可能是在分区字段包含/(正斜线)的情况下,分区字段...

Spark常见问题

使用AccessKey鉴权,配置示例如下:val conf=new SparkConf().setAppName("jindo-sdk-demo")#配置access-key鉴权参数.set("spark.hadoop.fs.oss.accessKeyId",").set("spark.hadoop.fs.oss.accessKeySecret","<YourAccessKeySecret>")使用...

访问OSS-HDFS数据源

具体操作,请参见 通过Hadoop Shell命令访问。登录 云原生数据仓库AnalyticDB MySQL控制台,在左上角选择集群所在地域。在左侧导航栏,单击 集群列表,在 湖仓版(3.0)页签,单击目标集群ID。在左侧导航栏,单击 作业开发>Spark Jar 开发...

配置连接器

连接器名称 配置文件 hive-hadoop2 hive.properties kudu kudu.properties mysql mysql.properties iceberg iceberg.properties hudi hudi.properties delta delta.properties jmx jmx.properties 示例:修改Hive连接器 在EMR控制台的...

访问MaxCompute数据源

时只写名。输入以下语句,单击 执行SQL(F8),并在弹窗中,单击 继续执行。向中写入数据。INSERT INTO odps.spark_on_maxcompute.spark_test values(1,'aaa',101),(2,'bbb',102);输入以下语句,单击 执行SQL(F8),并在弹窗中,...
共有70条 < 1 2 3 4 ... 70 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
阿里邮箱 数字证书管理服务(原SSL证书) 开源大数据平台 E-MapReduce 弹性公网IP 商标服务 短信服务
新人特惠 爆款特惠 最新活动 免费试用