Hadoop

本文主要介绍如何使用DLA Spark访问用户VPC中的HADOOP集群(开启kerberos认证的集群暂不支持)。前提条件 您已开通数据湖分析DLA(Data Lake Analytics)服务。如何开通,请参见 开通云原生数据湖分析服务。您已登录云原生数据库分析DLA...

对象存储服务路径

HDFS文件路径 基于HDFS的文件路径格式如下:HDFS:/<user_name>@[:]/path_to/file 如不指定user_name参数,会自动使用hadoop。host与port为HDFS配置文件中的RPC访问地址与接口。为保证数据导入的性能,请确保云数据库与HDFS集群在同一个VPC...

对象存储服务路径

HDFS文件路径 基于HDFS的文件路径格式如下:HDFS:/<user_name>@[:]/path_to/file 如不指定user_name参数,会自动使用hadoop。host与port为HDFS配置文件中的RPC访问地址与接口。为保证数据导入的性能,请确保云数据库与HDFS集群在同一个VPC...

配置OSS/OSS-HDFS Credential Provider

使用Hadoop Credential Providers存储AccessKey信息 上面基本配置方式中的 fs.oss.accessKeyId 和 fs.oss.accessKeySecret 将会明文配置在 core-site.xml 中,您可以将其以加密对方式存储至Hadoop Credential Providers文件中。使用Hadoop...

配置OSS/OSS-HDFS Credential Provider

使用Hadoop Credential Providers存储AccessKey信息 上面基本配置方式中的 fs.oss.accessKeyId 和 fs.oss.accessKeySecret 将会明文配置在 core-site.xml 中,您可以将其以加密对方式存储至Hadoop Credential Providers文件中。使用Hadoop...

对象存储服务路径

HDFS文件路径 基于HDFS的文件路径格式如下:HDFS:/<user_name>@[:]/path_to/file 如不指定user_name参数,会自动使用hadoop。host与port为HDFS配置文件中的RPC访问地址与接口。为保证数据导入的性能,请确保云数据库与HDFS集群在同一个VPC...

常见命令

您可以在已经创建好的E-MapReduce(简称EMR)集群中,直接使用Alluxio Shell命令来对Alluxio中的文件进行操作,也可以使用Hadoop Shell命令操作Alluxio中的文件。本文为您介绍Alluxio的常见命令。前提条件 已创建集群,并选择了Alluxio服务...

测试环境

本次测试采用3种不同的测试场景,针对开源自建的Hadoop+Spark集群与阿里云云原生数据湖分析DLA Spark在执行Terasort基准测试的性能做了对比分析。本文档主要介绍了3种不同测试场景下的测试环境配置要求。环境配置要求 测试环境总体要求:自...

概述

ADD/DROP PARTITION支持分区粒度的MDL 在线分区维护 EXCHANGE PARTITION支持分区粒度的MDL REBULD/REORGANIZE PARTITION支持分区粒度的MDL 二级分区支持子分区粒度的MDL DDL功能 普通与分区的ONLINE DDL 普通转分区ONLINE ...

使用Druid

背景信息 E-MapReduce将Druid作为单独的集群类型,主要基于以下几方面的考虑:E-MapReduce Druid可以完全脱离Hadoop使用。大数据量情况下,E-MapReduce Druid对内存要求比较高,尤其是Broker和Historical节点。E-MapReduce Druid本身资源...

查询并下载数据

使用Hadoop计算源时,支持开启Impala任务,开启后除支持创建HIVE_SQL即席查询任务外,还支持创建IMPALA_SQL即席查询任务。因Impala基于内存计算,IMPALA_SQL即席查询相对于HIVE_SQL即席查询具备更好的查询响应。同时Dataphin支持IMPALA_...

在文件存储 HDFS 版上使用Apache HBase

本文主要介绍在 文件存储 HDFS 版 上使用Apache HBase的方法。前提条件 已开通 文件存储 HDFS 版 服务并创建文件系统实例和挂载点。具体操作,请参见 文件存储HDFS版快速入门。已为Hadoop集群所有节点安装JDK,且JDK版本不低于1.8。已部署...

对象存储服务路径

Ganos支持基于阿里云对象存储服务(OSS)、MinIO和...如不指定user_name参数,会自动使用hadoop。host与port为HDFS配置文件中的RPC访问地址与接口。为保证数据导入的性能,请确保云数据库与HDFS集群在同一个VPC下,并使用内网地址进行访问。

FUSE使用说明

通过JindoFS的FUSE客户端,将JindoFS集群上的文件映射到本地磁盘,您可以像访问本地磁盘一样访问JindoFS集群上的数据,无需再使用 hadoop fs-ls jfs:/<namespace>/方式访问数据。挂载 说明 依次在每个节点上执行挂载操作。使用SSH方式登录...

FUSE使用说明

通过JindoFS的FUSE客户端,将JindoFS集群上的文件映射到本地磁盘,您可以像访问本地磁盘一样访问JindoFS集群上的数据,无需再使用 hadoop fs-ls jfs:/<namespace>/方式访问数据。挂载 说明 依次在每个节点上执行挂载操作。使用SSH方式登录...

FUSE使用说明

通过JindoFS的FUSE客户端,将JindoFS集群上的文件映射到本地磁盘,您可以像访问本地磁盘一样访问JindoFS集群上的数据,无需再使用 hadoop fs-ls jfs:/<namespace>/方式访问数据。挂载 说明 依次在每个节点上执行挂载操作。使用SSH方式登录...

FUSE使用说明

通过JindoFS的FUSE客户端,将JindoFS集群上的文件映射到本地磁盘,您可以像访问本地磁盘一样访问JindoFS集群上的数据,无需再使用 hadoop fs-ls jfs:/<namespace>/方式访问数据。挂载 说明 依次在每个节点上执行挂载操作。使用SSH方式登录...

FUSE使用说明

通过JindoFS的FUSE客户端,将JindoFS集群上的文件映射到本地磁盘,您可以像访问本地磁盘一样访问JindoFS集群上的数据,无需再使用 hadoop fs-ls jfs:/<namespace>/方式访问数据。挂载 说明 依次在每个节点上执行挂载操作。使用SSH方式登录...

FUSE使用说明

通过JindoFS的FUSE客户端,将JindoFS集群上的文件映射到本地磁盘,您可以像访问本地磁盘一样访问JindoFS集群上的数据,无需再使用 hadoop fs-ls jfs:/<namespace>/方式访问数据。挂载 说明 依次在每个节点上执行挂载操作。使用SSH方式登录...

FUSE使用说明

通过JindoFS的FUSE客户端,将JindoFS集群上的文件映射到本地磁盘,您可以像访问本地磁盘一样访问JindoFS集群上的数据,无需再使用 hadoop fs-ls jfs:/<namespace>/方式访问数据。挂载 说明 依次在每个节点上执行挂载操作。使用SSH方式登录...

FUSE使用说明

通过JindoFS的FUSE客户端,将JindoFS集群上的文件映射到本地磁盘,您可以像访问本地磁盘一样访问JindoFS集群上的数据,无需再使用 hadoop fs-ls jfs:/<namespace>/方式访问数据。挂载 说明 依次在每个节点上执行挂载操作。使用SSH方式登录...

JindoFS FUSE使用说明

通过JindoFS的FUSE客户端,将JindoFS集群上的文件映射到本地磁盘,您可以像访问本地磁盘一样访问JindoFS集群上的数据,无需再使用 hadoop fs-ls jfs:/<namespace>/方式访问数据。挂载 说明 依次在每个节点上执行挂载操作。使用SSH方式登录...

Hudi连接器

Hudi是一种数据湖的存储格式,在Hadoop文件系统之上提供了更新数据和删除数据的能力,以及消费变化数据的能力。EMR Trino已经将相关JAR包集成至独立的Hudi Plugin里面,EMR Hudi连接器目前支持查询COW和MOR。背景信息 EMR Hudi的详细信息...

如何兼容Hbase 1.0以前的版本

Connection 接口 HBase 1.0.0 及以上的版本中废除了 HConnection 接口,并推荐使用 org.apache.hadoop.hbase.client.ConnectionFactory 类,创建一个实现 Connection 接口的类, ConnectionFactory 取代已经废弃的 ConnectionManager 和 ...

应用场景

消费者可以使用Hadoop、MaxCompute等离线仓库存储和Storm、Spark等实时在线分析系统对日志进行统计分析。云消息队列 Kafka 版 用于数据聚合具备以下优势:应用与分析解耦:构建应用系统和分析系统的桥梁,并将它们之间的关联解耦。高可扩展...

常见问题

用Hadoop批量索引时,要将segments的deep storage设置为hdfs,local的方式会导致MR作业处于UNDEFINED状态,这是因为远程的YARN集群无法在reduce task下创建local的segments目录。(此针对独立E-MapReduce Druid集群)。错误提示 Failed to ...

SHOW METADATA LOCK

本文将介绍如何在 PolarDB-X 上使用 SHOW METADATA LOCK 语句查询持有的事务。背景信息 PolarDB-X 在创建全局二级索引时使用了内建的METADATA LOCK,保证事务以及数据的一致性。在已有上建立全局二级索引通常需要较长的时间,若此时...

SHOW METADATA LOCK

本文将介绍如何在 PolarDB-X 1.0 上使用SHOW METADATA LOCK语句查询持有的事务。背景信息 PolarDB-X 1.0 在创建全局二级索引时使用了内建的METADATA LOCK,保证事务以及数据的一致性。在已有上建立全局二级索引通常需要较长的时间,若...

清理空间(pg_repack)

RDS PostgreSQL支持通过插件pg_repack在线清理空间,有效解决因对全大量更新等操作引起的膨胀问题。pg_repack无需获取排它,相比CLUSTER或VACUUM FULL更加轻量化。前提条件 请确保实例大版本满足要求,本插件具体支持的实例大版本...

pg_repack

PolarDB PostgreSQL版(兼容Oracle)支持通过pg_repack插件对表空间进行重新“包装”,回收碎片空间,有效解决因对全大量更新等操作引起的膨胀问题。pg_repack无需获取排它,相比CLUSTER或VACUUM FULL更加轻量化。注意事项 pg_repack...

pg_repack

被repack的仍然存在,但是可能残留了repack过程中创建的对象,需要及时清理,否则可能影响使用:被repack的上可能残留 repack_trigger 触发器,需要使用 DROP TRIGGER 命令删除。被repack的上可能残留临时索引 index_,需要使用 ...

显式锁定

防止死锁的最好方法通常是保证所有使用一个数据库的应用都以一致的顺序在多个对象上获得。在上面的例子里,如果两个事务以同样的顺序更新那些行,那么就不会发生死锁。我们也应该保证一个事务中在一个对象上获得的第一个是该对象需要的...

HDFS服务(JindoFS服务)元数据导出使用说明(试用)

本文为您介绍如何使用OSS-HDFS服务元数据导出功能。使用元数据导出功能,您可以将当前OSS-HDFS Bucket下的文件元数据清单导出到OSS,格式为JSON文件,方便您对元数据进行统计分析。元数据导出说明 配置Jindo命令行工具,应配置对应OSS-HDFS...

环境准备

使用Hive/HadoopMR来访问表格存储中的前,您需要完成JDK、Hadoop环境、Hive环境、表格存储Java SDK和阿里云EMR SDK的安装。使用Hive/HadoopMR来访问表格存储中的 通过 表格存储 及 E-MapReduce 官方团队发布的依赖包,可以直接使用Hive...

REINDEX

CONCURRENTLY 使用此选项时,PolarDB 将重建索引,而不在上采取任何阻止并发插入、更新或删除的;标准的索引重建将会锁定上的写操作(而不是读操作),直到它完成。对于临时,REINDEX 始终是非并发的,因为没有其他会话可以访问它们...

存储说明

Hadoop YARN也会使用所有的数据盘作为计算的临时存储。OSS 在E-MapReduce集群中,您可以将OSS作为HDFS使用。E-MapReduce可以方便的读写OSS上的数据,所有使用HDFS的代码经过简单的修改即可以访问OSS的数据。例如:读取HDFS中的数据。sc....

从OSS迁移数据

建议您使用Hadoop版本不低于2.7.3,本文档中使用Hadoop版本为Apache Hadoop 2.7.3,修改Hadoop 配置信息,详情参见 使用开源HDFS客户端访问。在Hadoop集群所有节点上安装JDK,本操作要求JDK版本不低于1.8。在Hadoop集群安装OSS客户端...

通过整库迁移配置集成任务

使用最新非空分区:来源库为MaxCompute时,支持使用当前的最新非空分区(max_pt)作为需同步的分区,如该不存在任何有数据的分区,则任务报错并置失败。Hive来源库不支持配置。说明 来源库为FTP时,不支持数据过滤配置。参数配置 ...

Broker Load

每个单独的data_desc可以指定属于该的数据源地址,可以多个file_path来指定导入同一个的多个文件。Broker Load保证了单次导入的多张之间原子性成功或失败。data_desc常见参数如下所示。data_desc:DATA INFILE('file_path',.)...

动态加载UDF

如果HDFS或OSS访问失败,请尝试使用 hadoop fs-ls 命令,确认集群的每个节点能否直接访问到对应文件。如果某个Worker节点无法访问,可以在对应Worker节点的 server.log 日志文件中查找原因。操作流程 步骤一:环境准备 步骤二:增加UDF ...
共有73条 < 1 2 3 4 ... 73 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
开源大数据平台 E-MapReduce 弹性公网IP 短信服务 人工智能平台 PAI 金融分布式架构 对象存储
新人特惠 爆款特惠 最新活动 免费试用