hadoop 存储框架-hadoop 存储框架文档介绍内容-阿里云

从自建HDFS迁移数据

背景介绍在某些场景下面，我们需要从自建的Hadoop中存储的数据迁移到Lindorm的文件引擎当中。适用范围阿里云ECS自建Hadoop集群中的数据迁移到文件引擎。准备工作开通文件引擎，详情请参见开通指南。修改Hadoop 配置信息，详情请参见 ...

使用Hadoop Credential Providers存储AccessKey信息说明 Hadoop Credential Provider详情的使用方法，请参见 CredentialProvider API Guide。fs.jfs.cache.oss.accessKeyId、fs.jfs.cache.oss.accessKeySecret 和 fs.jfs.cache.oss....

基于Hadoop集群支持Delta Lake或Hudi存储机制

涉及模块对应阿里云产品说明开源Hadoop 本地机房搭建Hadoop集群云上虚拟机搭建Hadoop集群阿里云E-MapReduce 原始数据存储在Hadoop集群中。基于Hadoop集群支持Delta Lake或Hudi湖仓一体架构前提条件已创建MaxCompute项目（非External...

成本

AnalyticDB PostgreSQL版采用计算节点本地存储的模式，支持行式存储和列式存储，支持非易失存储、固态硬盘、机械硬盘等多种存储介质，支持单节点最大10TB存储空间。在此基础之上，AnalyticDB PostgreSQL版进一步提供了存储压缩能力、OSS...

配置OSS/OSS-HDFS Credential Provider

使用Hadoop Credential Providers存储AccessKey信息上面基本配置方式中的 fs.oss.accessKeyId 和 fs.oss.accessKeySecret 将会明文配置在 core-site.xml 中，您可以将其以加密对方式存储至Hadoop Credential Providers文件中。使用Hadoop...

配置OSS/OSS-HDFS Credential Provider

使用Hadoop Credential Providers存储AccessKey信息上面基本配置方式中的 fs.oss.accessKeyId 和 fs.oss.accessKeySecret 将会明文配置在 core-site.xml 中，您可以将其以加密对方式存储至Hadoop Credential Providers文件中。使用Hadoop...

Node Labels特性使用

主备切换后，新的Active节点无法读到本地存储的Node Labels信息，所以必须将 yarn.node-labels.fs-store.root-dir 配置为分布式存储路径，例如/tmp/node-labels 或者${fs.defaultFS}/tmp/node-labels（EMR Hadoop默认文件系统为分布式HDFS...

存储说明

存储价格估算如下：本地盘实例存储为0.04 元/GB/月 OSS标准型存储为0.12 元/GB/月 OSS归档型存储为0.033 元/GB/月 OSS深度归档型存储为0.015 元/GB/月高效云盘存储为0.35 元/GB/月 SSD云盘存储为1.00 元/GB/月说明实际价格请以控制台...

HDFS数据源

支持的版本目前不支持阿里云文件存储HDFS版。使用限制离线读使用HDFS Reader时，请注意以下事项：由于连通默认资源组到HDFS的网络链路比较复杂，建议您使用独享数据集成资源组完成数据同步任务。您需要确保您的独享数据集成资源组具备...

创建HBase数据源

背景信息 HBase是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是HBase，在导出Dataphin数据至HBase，您需要先完成HBase数据源的创建。更多HBase信息，请参见 HBase官网。使用限制 Dataphin仅支持超级管理员、数据源管理...

Kafka数据接入

connect-status-kafka-ots-sink 死信队列 Topic 用于存储Connect框架的异常数据的Topic。单击配置运行环境显示该参数。该Topic可以和异常数据Topic 为同一个Topic，以节省Topic资源。Topic：建议以connect-error开头。分区数：Topic的...

创建Impala数据源

背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至Impala，您需要先完成Impala数据源的创建。更多Impala信息，请参见 Impala官网。权限说明 Dataphin仅支持超级管理员、...

创建Impala数据源

背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至Impala，您需要先完成Impala数据源的创建。更多Impala信息，请参见 Impala官网。权限说明 Dataphin仅支持超级管理员、...

使用Fuse-DFS挂载文件存储 HDFS 版

vim hadoop-2.8.5-src/hadoop-hdfs-project/hadoop-hdfs-native-client/src/main/native/fuse-dfs/fuse_options.c 执行以下命令编译Hadoop源码中hadoop-hdfs-project模块下的hadoop-hdfs-native-client子模块。cd hadoop-2.8.5-src/mvn ...

设置Dataphin实例的计算引擎为Hadoop

集群存储根目录计算引擎类型为E-MapReduce 5.x Hadoop且集群存储类型为OSS-HDFS时，需填写集群存储根目录。可以通过查看E-MapReduce 5.x Hadoop集群信息获取进行。如下图所示：执行引擎根据实际业务情况，选择计算执行引擎。包括...

在文件存储 HDFS 版上使用Apache HBase

步骤一：Hadoop集群挂载文件存储 HDFS 版实例在Hadoop集群中配置文件存储 HDFS 版实例。具体操作，请参见挂载文件存储 HDFS 版文件系统。步骤二：配置Apache HBase 将Hadoop中配置的core-site.xml复制到${HBASE_HOME}/conf目录下。cp...

文件存储 HDFS 版和对象存储OSS双向数据迁移

本文档介绍文件存储 HDFS 版和对象存储OSS之间的数据迁移操作过程。您可以将文件存储 HDFS 版数据迁移到对象存储OSS，也可以将对象存储OSS的数据迁移到文件存储 HDFS 版。前提条件已开通文件存储 HDFS 版服务并创建文件系统实例和...

在文件存储 HDFS 版上使用Presto

Presto使用maven-shade-plugin插件打包，对引入的Hadoop依赖进行了重命名，文件存储 HDFS 版 Java SDK和Hadoop共用了protobuf-xxx.jar包，Presto通过Hive Metastore读取文件存储 HDFS 版上的数据时，文件存储 HDFS 版获取不到Presto重...

SmartData 3.0.x版本简介

SmartData组件是EMR Jindo引擎的存储部分，为EMR各个计算引擎提供统一的存储、缓存、计算优化以及功能扩展。SmartData组件主要包括JindoFS，JindoTable和相关工具集。本文介绍SmartData（3.0.x）版本的更新内容。JindoFS存储优化改进Jindo...

测试环境

本次测试采用3种不同的测试场景，针对开源自建的Hadoop+Spark集群与阿里云云原生数据湖分析DLA Spark在执行Terasort基准测试的性能做了对比分析。本文档主要介绍了3种不同测试场景下的测试环境配置要求。环境配置要求测试环境总体要求：自...

挂载文件存储 HDFS 版文件系统

本文介绍挂载及卸载文件存储 HDFS 版文件系统的操作。前提条件已为ECS实例安装JDK，且JDK版本不低于1.8。已创建文件存储 HDFS 版文件系统并添加挂载点。具体操作，请参见创建文件系统和添加挂载点。已安装Hadoop客户端，建议您使用...

在文件存储 HDFS 版上使用Apache Flink

export HADOOP_HOME=usr/local/hadoop-2.7.2 export HADOOP_CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath)export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH 执行如下命令使配置...

在文件存储 HDFS 版上使用Apache Spark

export HADOOP_HOME=usr/local/hadoop-2.7.2 export HADOOP_CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath)export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH 执行如下命令使配置...

快速入门

文件存储 HDFS 版适用于互联网行业、金融行业等有大数据计算与存储分析需求的行业客户进行海量数据存储和离线计算的业务场景，充分满足以Hadoop为代表的分布式计算业务类型对分布式存储性能、容量和可靠性的多方面要求。开通文件存储 ...

迁移开源HDFS的数据到文件存储 HDFS 版

说明使用 hadoop distcp 命令将原集群数据迁移至文件存储 HDFS 版时，请注意文件存储 HDFS 版不支持以下参数，其它参数使用和 Hadoop DistCp工具官方说明文档一致。文件存储 HDFS 版及命令行存在限制的更多信息，请参见使用限制。...

安装文件系统SDK

WordCount样例${HADOOP_HOME}/bin/hadoop jar \${HADOOP_HOME}/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount \ inputDir outputDir Grep样例${HADOOP_HOME}/bin/hadoop jar \${HADOOP_HOME}/share/hadoop/...

元数据性能测试

测试环境配置名称配置说明计算VM配置 CPU核数：4核内存：16 GB 机器数量：6台网络带宽：1.5 Gbps 文件存储 HDFS 版配置实例大小：10 TB 吞吐限速：1000 MB/s 软件配置 Apache Hadoop：Hadoop 2.7.6 测试工具 NNbench是Hadoop系统...

SDK示例

本文列出了使用Java代码通过Hadoop FileSystem API对文件存储 HDFS 版文件系统进行常用操作的示例，您可以参考这些示例代码开发您的应用。前提条件已开通文件存储 HDFS 版服务并创建文件系统实例和挂载点。具体操作，请参见文件存储...

文件存储 HDFS 版和数据库MySQL双向数据迁移

步骤一：Hadoop集群挂载文件存储 HDFS 版实例在Hadoop集群中配置文件存储 HDFS 版实例。具体操作，请参见挂载文件系统。步骤二：安装Sqoop 目前Sqoop分为Sqoop1和Sqoop2两个版本，且两个版本并不兼容。本文以Sqoop1的稳定版本Sqoop 1...

E-MapReduce数据迁移

cp~/aliyun-sdk-dfs-1.0.2-beta.jar/opt/apps/ecm/service/hadoop/2.8.5-1.3.1/package/hadoop-2.8.5-1.3.1/share/hadoop/hdfs/在E-MapReduce服务中，对应的路径为/opt/apps/ecm/service/hadoop/x.x.x-x.x.x/package/hadoop-x.x.x-x.x.x/...

集群吞吐性能测试

TestDFSIO的jar包位于开源Hadoop版本的${HADOOP_HOME}/share/hadoop/mapreduce目录下，其中${HADOOP_HOME}为测试机器中的Hadoop安装目录，jar包名为hadoop-mapreduce-client-jobclient-x.x.x-tests.jar，您可通过执行以下命令，查看...

集群存储根路径没有权限，导致集群服务启动失败的问题

dir)hadoop fs-mkdir-p$STAGING_DIR hadoop fs-chmod 777$STAGING_DIR hadoop fs-chown hadoop:hadoop$STAGING_DIR hadoop fs-mkdir-p$STAGING_DIR/history hadoop fs-chmod 775$STAGING_DIR/history hadoop fs-chown hadoop:hadoop$...

Credential Provider使用说明

使用Hadoop提供的命令，存储AccessKey和SecurityToken信息至Credential文件中。命令格式如下。hadoop credential[options]例如，使用全局配置方式，存储AccessKey和Token信息至JECKS文件中，除了使用文件权限保护该文件外，您也可以指定...

Credential Provider使用说明

使用Hadoop提供的命令，存储AccessKey和SecurityToken信息至Credential文件中。命令格式如下。hadoop credential[options]例如，使用全局配置方式，存储AccessKey和Token信息至JECKS文件中，除了使用文件权限保护该文件外，您也可以指定...

环境准备

使用Hive/HadoopMR来访问表格存储中的表前，您需要完成JDK、Hadoop环境、Hive环境、表格存储Java SDK和阿里云EMR SDK的安装。使用Hive/HadoopMR来访问表格存储中的表通过表格存储及 E-MapReduce 官方团队发布的依赖包，可以直接使用Hive...

Hadoop DistCp介绍

Hadoop DistCp（分布式复制）是一个用于大型集群间或集群内数据复制的工具，通过MapReduce实现复制过程中数据的分发、错误处理、恢复及报告。本文为您介绍Hadoop DistCp与Jindo DistCp的区别、Hadoop DistCp使用方法以及常见问题。说明 ...

Hadoop使用JindoSDK访问OSS-HDFS服务

OSS-HDFS服务是一款云原生数据湖存储产品。基于统一的元数据管理能力，在完全兼容HDFS文件系统接口的同时，提供充分的POSIX能力支持，能更好地满足大数据和AI等领域的数据湖计算场景。本文介绍Hadoop如何通过JindoSDK访问OSS-HDFS服务。...

管理Hadoop回收站

Hadoop回收站是Hadoop文件系统的重要功能，可以恢复误删除的文件和目录。本文为您介绍Hadoop回收站的使用方法。背景信息回收站是Hadoop Shell或部分应用（Hive等）对Hadoop FileSystem API在客户端的封装，当客户端配置或者服务端配置打开...

管理Hadoop回收站

Hadoop回收站是Hadoop文件系统的重要功能，可以恢复误删除的文件和目录。本文为您介绍Hadoop回收站的使用方法。背景信息回收站是Hadoop Shell或部分应用（Hive等）对Hadoop FileSystem API在客户端的封装，当客户端配置或者服务端配置打开...

管理Hadoop回收站

Hadoop回收站是Hadoop文件系统的重要功能，可以恢复误删除的文件和目录。本文为您介绍Hadoop回收站的使用方法。背景信息回收站是Hadoop Shell或部分应用（Hive等）对Hadoop FileSystem API在客户端的封装，当客户端配置或者服务端配置打开...

hadoop 存储框架

新品推荐