在文件存储 HDFS 版上使用Apache Tez

./hadoop-mapreduce/hadoop-2.8.5/share/hadoop/hdfs/*:./hadoop-mapreduce/hadoop-2.8.5/share/hadoop/hdfs/lib/*:./hadoop-mapreduce/hadoop-2.8.5/share/hadoop/yarn/*:./hadoop-mapreduce/hadoop-2.8.5/share/hadoop/yarn/lib/*:./...

从OSS迁移数据

建议您使用Hadoop版本不低于2.7.3,本文档中使用Hadoop版本为Apache Hadoop 2.7.3,修改Hadoop 配置信息,详情参见 使用开源HDFS客户端访问。在Hadoop集群所有节点上安装JDK,本操作要求JDK版本不低于1.8。在Hadoop集群安装OSS客户端...

存储空间占用情况

OSS-HDFS服务使用OSS Bucket存储HDFS数据及其辅助数据,这些数据均存储于Bucket中的.dlsdata/路径下,并产生相应的OSS存储容量的计量和计费。OSS-HDFS文件数据块block OSS-HDFS文件的所有数据块block均占用OSS Bucket的存储空间。OSS-HDFS...

在文件存储 HDFS 版上使用Apache Flink

export HADOOP_HOME=usr/local/hadoop-2.7.2 export HADOOP_CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath)export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH 执行如下命令使配置...

在文件存储 HDFS 版上使用Apache Spark

export HADOOP_HOME=usr/local/hadoop-2.7.2 export HADOOP_CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath)export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH 执行如下命令使配置...

Spark对接Kafka

背景信息 E-MapReduce上的Hadoop集群和Kafka集群都是基于纯开源软件,相关编程使用方法可参见官方相应文档。Spark官方文档:streaming-kafka-integration 和 structured-streaming-kafka-integration。E-MapReduce-demo:github地址。访问...

创建EMR Studio集群

高级设置 软件自定义配置:可指定JSON文件对集群中的基础软件(例如Hadoop、Spark和Hive等)进行配置,详细使用方法请参见 软件配置。默认不开启。硬件配置。区域 配置项 描述 付费类型 付费类型 默认包年包月。当前支持的付费类型如下:...

创建集群

软件自定义配置 可指定JSON文件对集群中的基础软件(例如Hadoop、Spark和Hive等)进行配置,详细使用方法请参见 配置自定义软件。默认不开启。说明 针对Hive作业并发量的设置,请参见 如何预估Hive作业并发量的上限值?硬件配置 配置项 ...

使用Fuse-DFS挂载文件存储 HDFS 版

vim hadoop-2.8.5-src/hadoop-hdfs-project/hadoop-hdfs-native-client/src/main/native/fuse-dfs/fuse_options.c 执行以下命令编译Hadoop源码中hadoop-hdfs-project模块下的hadoop-hdfs-native-client子模块。cd hadoop-2.8.5-src/mvn ...

存储说明

Hadoop YARN也会使用所有的数据盘作为计算的临时存储。OSS 在E-MapReduce集群中,您可以将OSS作为HDFS使用。E-MapReduce可以方便的读写OSS上的数据,所有使用HDFS的代码经过简单的修改即可以访问OSS的数据。例如:读取HDFS中的数据。sc....

HDFS DiskBalancer介绍

本文为您介绍HDFS DiskBalancer的使用方法以及主要调优参数。背景信息 HDFS Diskbalancer是Hadoop 3.x提供的一个命令行工具,可以将数据均匀地分布在DataNode的所有磁盘上。不同于HDFS Balancer,HDFS Balancer负责集群范围内的数据平衡,...

在文件存储 HDFS 版上使用Presto

本文主要介绍如何在 文件存储 HDFS 版 上搭建及使用Presto。前提条件 已开通 文件存储 HDFS 版 服务并创建文件系统实例和挂载点。具体操作,请参见 文件存储HDFS版快速入门。已搭建Hadoop集群并且所有集群节点已安装JDK,JDK版本不低于1.8...

Hadoop

本文主要介绍如何使用DLA Spark访问用户VPC中的HADOOP集群(开启kerberos认证的集群暂不支持)。前提条件 您已开通数据湖分析DLA(Data Lake Analytics)服务。如何开通,请参见 开通云原生数据湖分析服务。您已登录云原生数据库分析DLA...

切换为Hadoop原生的JobCommitter

E-MapReduce(简称EMR)集群默认使用JindoCommitter加速大数据作业,解决OSS等对象存储在Spark、MapReduce等作业使用原生Hadoop JobCommitter时遇到的性能和一致性等问题。如果您不想使用默认的JindoCommitter,则可以参照本文切换为Hadoop...

搭建Linux开发环境

spark.sql.catalogImplementation={odps|hive}#如下参数配置保持不变 spark.hadoop.odps.task.major.version=cupid_v2 spark.hadoop.odps.cupid.container.image.enable=true spark.hadoop.odps.cupid.container.vm.engine.type=hyper ...

Jindo DistCp场景化使用指导

本文通过场景化为您介绍如何使用Jindo DistCp。前提条件 已创建相应版本的集群,详情请参见 创建集群。已安装JDK 1.8。根据您使用Hadoop版本,下载 jindo-distcp-<version>.jar。Hadoop 2.7及后续版本,请下载 jindo-distcp-3.0.0.jar。...

Jindo DistCp场景化使用指导

本文通过场景化为您介绍如何使用Jindo DistCp。前提条件 已创建相应版本的集群,详情请参见 创建集群。已安装JDK 1.8。根据您使用Hadoop版本,下载 jindo-distcp-<version>.jar。Hadoop 2.7及后续版本,请下载 jindo-distcp-3.0.0.jar。...

Jindo DistCp场景化使用指导

本文通过场景化为您介绍如何使用Jindo DistCp。前提条件 已创建相应版本的集群,详情请参见 创建集群。已安装JDK 1.8。根据您使用Hadoop版本,下载 jindo-distcp-<version>.jar。Hadoop 2.7及后续版本,请下载 jindo-distcp-3.0.0.jar。...

Jindo DistCp场景化使用指导

本文通过场景化为您介绍如何使用Jindo DistCp。前提条件 已创建相应版本的集群,详情请参见 创建集群。已安装JDK 1.8。根据您使用Hadoop版本,下载 jindo-distcp-<version>.jar。Hadoop 2.7及后续版本,请下载 jindo-distcp-3.0.0.jar。...

搭建与管理(基于Hadoop

通过MaxCompute与Hadoop构建湖仓一体方案旨在实现对海量数据的统一管理、存储和分析,提供了一个既能处理结构化、半结构化数据,又能满足高并发分析需求的一体化数据平台。本文为您介绍如何通过MaxCompute与Hadoop构建湖仓一体,以及管理湖...

Jindo DistCp场景化使用指导

本文通过场景化为您介绍如何使用Jindo DistCp。前提条件 已创建相应版本的集群,详情请参见 创建集群。已安装JDK 1.8。根据您使用Hadoop版本,下载 jindo-distcp-<version>.jar。Hadoop 2.7及后续版本,请下载 jindo-distcp-3.0.0.jar。...

Jindo DistCp场景化使用指导

本文通过场景化为您介绍如何使用Jindo DistCp。前提条件 已创建相应版本的集群,详情请参见 创建集群。已安装JDK 1.8。根据您使用Hadoop版本,下载 jindo-distcp-<version>.jar。Hadoop 2.7及后续版本,请下载 jindo-distcp-3.0.0.jar。...

Jindo DistCp场景化使用指导

本文通过场景化为您介绍如何使用Jindo DistCp。前提条件 已创建相应版本的集群,详情请参见 创建集群。已安装JDK 1.8。根据您使用Hadoop版本,下载 jindo-distcp-<version>.jar。Hadoop 2.7及后续版本,请下载 jindo-distcp-3.0.0.jar。...

Jindo DistCp场景化使用指导

本文通过场景化为您介绍如何使用Jindo DistCp。前提条件 已创建相应版本的集群,详情请参见 创建集群。已安装JDK 1.8。根据您使用Hadoop版本,下载 jindo-distcp-<version>.jar。Hadoop 2.7及后续版本,请下载 jindo-distcp-3.0.0.jar。...

Dataphin如何使用一个Hadoop集群为所有项目创建计算源...

概述 本文为您介绍Dataphin如何使用一个Hadoop集群为所有项目创建计算源从而提供计算与存储资源。详细信息 1.Dataphin一个计算源只可以被一个项目所绑定。2.通过创建不同的Hive DB从而创建不同的计算源来达到一个Hadoop集群创建多个计算源...

文件存储 HDFS 版和数据库MySQL双向数据迁移

本文介绍如何使用Sqoop工具实现 文件存储 HDFS 版 和关系型数据库MySQL之间的双向数据迁移。前提条件 已开通 文件存储 HDFS 版 服务并创建文件系统实例和挂载点。具体操作,请参见 文件存储HDFS版快速入门。已搭建Hadoop集群。建议您使用的...

使用JindoFS SDK免密功能

本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...

使用JindoFS SDK免密功能

本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...

使用JindoFS SDK免密功能

本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...

使用JindoFS SDK免密功能

本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...

使用JindoFS SDK免密功能

本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...

使用JindoFS SDK免密功能

本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...

使用JindoFS SDK免密功能

本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...

使用JindoFS SDK免密功能

本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...

使用JindoFS SDK免密功能

本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...

使用JindoFS SDK免密功能

本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...

阿里云OSS-HDFS服务(JindoFS 服务)Endpoint配置

本文为您介绍阿里云OSS-HDFS服务(JindoFS 服务)Endpoint的配置方法方法一:在访问路径中指定Endpoint(推荐)访问OSS-HDFS服务时,推荐您使用 oss:/<Bucket>.<Endpoint>/格式的访问路径,例如 oss:/example-oss-bucket....

常见问题排查

本文介绍使用 文件存储 HDFS 版 文件系统SDK时遇到的常见问题及排查方法。提示 java.lang.ClassNotFoundException 信息 执行 hadoop 命令或者任务失败,提示 java.lang.ClassNotFoundException:Class ...

Ambari与文件引擎集成

Ambari提供Hadoop组件的安装、运维、监控等功能,您可以使用Ambari管理您的Hadoop集群。本文介绍如何将Ambari与Lindorm文件引擎集成,来替换底层HDFS存储。您可以基于Ambari+Lindorm文件引擎构建云原生存储计算分离的开源大数据系统。前提...

JindoFSx P2P分布式下载配置指南

本文为您介绍P2P分布式下载缓存的使用方法。前提条件 EMR环境:已在E-MapReduce上创建EMR-3.42.0及后续版本、EMR-5.6.0及后续版本的集群,且选择JINDODATA服务,详情请参见 创建集群。非EMR环境:具体请参见 JindoFSx存储加速系统使用指南...
共有38条 < 1 2 3 4 ... 38 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
开源大数据平台 E-MapReduce 弹性公网IP 短信服务 人工智能平台 PAI 金融分布式架构 对象存储
新人特惠 爆款特惠 最新活动 免费试用