hadoop 用户-hadoop 用户文档介绍内容-阿里云

快捷模式与安全模式差异比对

使用该模式绑定EMR引擎时，阿里云主账号或RAM用户在DataWorks运行代码或自动调度任务，都只是下发代码至EMR集群，实际运行的身份为集群内的Hadoop用户。无法做到细粒度的权限控制。说明 Hadoop用户拥有Hadoop集群的所有权限，请谨慎授权。...

EMR集群JindoData升级流程（旧版控制台）

准备软件包和升级脚本登录EMR集群的Master节点，并将下载的patch包放在Hadoop用户的HOME目录下，将patch包解压缩后，使用hadoop用户执行操作。su-hadoop cd/home/hadoop/wget ...

Hadoop

本文主要介绍如何使用DLA Spark访问用户VPC中的HADOOP集群（开启kerberos认证的集群暂不支持）。前提条件您已开通数据湖分析DLA（Data Lake Analytics）服务。如何开通，请参见开通云原生数据湖分析服务。您已登录云原生数据库分析DLA...

Hive Metastore使用加密文件访问RDS

执行以下命令，将凭据文件移动到Hive的配置文件目录，并将该文件的所有者更改为hive用户或hadoop用户。DataLake或Custom集群类型 sudo mv/tmp/hive.jceks$HIVE_CONF_DIR sudo chown hive$HIVE_CONF_DIR/hive.jceks Hadoop集群类型 sudo mv/...

EMR集群JindoSDK升级流程（旧版控制台）

准备软件包和升级脚本登录EMR集群的Master节点，并将下载的patch包放在Hadoop用户的HOME目录下，将patch包解压缩后，使用hadoop用户执行操作。su-hadoop cd/home/hadoop/wget ...

Hive基础操作

执行以下命令，切换为hadoop用户。su-hadoop 执行以下命令，进入Hive命令行。hive 库操作本文示例中的数据库以testdb为例介绍。创建库 create database if not exists testdb;当返回信息包含OK时，表示创建库testdb成功。查看库 desc ...

修复单台JournalNode异常

su emr-user 如果5.7.0或3.41.0之前版本的EMR提示emr-user不存在，可切换至hadoop用户。su hadoop 同步打包后的文件。scp/tmp/jn-current.tar.gz$unhealthy-journal-node:/tmp/$unhealthy-journal-node 需要替换为异常JournalNode节点的...

漏洞公告|Apache Hadoop FileUtil.unTar命令注入漏洞

登录EMR集群的Master节点，并将上一步骤中下载的patch包放在emr-user用户或hadoop用户的HOME目录下。执行以下命令，切换用户并解压缩hadoop-patches-tools.zip包。数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务...

配置自建RDS

执行以下命令，切换为hadoop用户。su-hadoop 执行以下命令，进行初始化。schematool-initSchema-dbType mysql 待初始化成功后，则可以使用自建的RDS作为Hive的元数据库。说明在初始化之前，Hive的Hive MetaStore、HiveServer2和Spark的...

搭建与管理（基于Hadoop）

Kerberos账号：Kerberos授权的具有Hive访问权限的Hadoop用户账号。上传文件：上传Kerberos账号的keytab配置文件。具体生成方式，请参见生成keytab配置文件。表 4.创建目标数据映射参数说明选择外部数据源对象默认与选择外部数据源 ...

漏洞公告|Apache Log4j2远程代码执行漏洞

登录EMR集群的Master节点，并将步骤一中下载的patch包放在 emr-user 或 hadoop 用户的HOME目录下。将patch包解压缩后，使用 emr-user 或 hadoop 用户执行操作。数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务...

Phoenix

执行以下命令，切换为hadoop用户。su-hadoop 执行以下命令，使用Phoenix的命令行工具。opt/apps/PHOENIX/phoenix-current/bin/sqlline.py 您可以使用SQL进行数据查询。常见操作如下：创建表 CREATE TABLE IF NOT EXISTS example(my_pk ...

Hadoop使用JindoSDK访问OSS-HDFS服务

对Hadoop用户而言，无需做数据复制或转换就可以实现像访问本地HDFS一样高效的数据访问，极大提升整体作业性能，降低了维护成本。关于OSS-HDFS服务的应用场景、服务特性、功能特性等更多信息，请参见什么是OSS-HDFS服务。步骤一：创建专有...

查看节点健康状态

节点健康状态展示了当前...host_user_permission_check 检测重要用户的权限，例如hadoop用户、hdfs用户等。无阈值，有一个用户权限检测异常即为异常。host_fault_compensation_check 检测是否发生故障补偿。无阈值，有故障补偿发生即为异常。

YARN高可用特性使用指南

建议将该目录存放在系统盘非/tmp 目录下，并且确保hadoop用户有读写权限（推荐使用/home/hadoop/yarn-nm-recovery），避免/tmp 目录数据丢失和数据盘坏盘处理影响NM服务。yarn.nodemanager.recovery.supervised true 是否在NM退出时保留...

项目管理

在开启安全模式的项目中提交作业时，阿里云账号以默认hadoop用户执行，RAM用户则默认以当前RAM用户同名的EMR用户执行作业。进入数据开发的项目列表页面。通过阿里云账号登录阿里云E-MapReduce控制台。在顶部菜单栏处，根据实际情况选择...

选择付费方式

Hadoop用户上云迁移的付费方式。某个Hadoop集群可能有1个管控节点以及5台计算节点，每台机器32核，相当于是32个CPU，5台计算节点就是160个CPU，对应标准的官方报价是每个月 24000元（此价格未包含折扣或者优惠）。MaxCompute无需考虑管控...

什么是OSS-HDFS服务

对Hadoop用户而言，无需做数据复制或转换就可以实现像访问本地HDFS一样高效的数据访问，极大提升整体作业性能，降低了维护成本。功能特性功能特性说明参考文档回收站当您从OSS-HDFS服务误删除文件时，文件不会立即被彻底删除，而是转...

Node Labels特性使用

重要自定义的分布式路径必须确保文件系统服务正常且hadoop用户能正常读写访问，否则ResourceManager会启动失败。添加节点分区映射时为什么不指定NodeManager端口？EMR集群一个节点上最多只有一个NodeManager进程，所以指定端口没有太大的...

管理引导操作

您指定的脚本默认使用root账户执行，您也可以在脚本中使用 su-hadoop 命令，切换为hadoop用户执行。添加引导操作添加引导操作支持以下两种方式。方式一：创建集群时添加引导操作进入集群管理页面。登录 E-MapReduce控制台。在顶部菜单栏...

DataFlow集群通过Hive Catalog连接数据湖元数据DLF

执行以下命令，切换为hadoop用户并进入Hive命令行。su-hadoop hive 执行以下命令，查看库信息。desc database flink_dlf_hive;说明命令中的 flink_dlf_hive 为上一步骤中创建的数据库的名称。OK flink_dlf_hive oss:/aliyu*/flink_dlf_...

漏洞公告|Apache Kafka Connect远程代码执行漏洞

登录集群的Master节点，并将上一步骤中下载的软件包放在hadoop用户的/usr/lib/目录下。登录集群详情，请参见登录集群。执行以下命令，将安装包复制到worker-1-1节点。su-hadoop scp/usr/lib/kafka-2.12-2.4.1-1.1.5.tar.gz work-1-1:/tmp/...

Hadoop Yarn RPC 0 Day在野利用分析与传播手段披露

通过配置开启了基于HTTP的认证，或通过防火墙或安全组封禁了RESTful API对应的8088端口，但由于他们没有意识到Hadoop同时提供RPC服务，并且访问控制机制开启方式跟REST API不一样，导致用户Hadoop集群中RPC服务所在的8032端口仍然可以未...

YARN调度器

简介 Hadoop YARN的核心组件是ResourceManager，负责集群资源管理与调度，而ResourceManager组件的核心是调度器，负责统筹集群资源，满足应用的资源需求。调度器不仅需要优化整个集群的资源布局，避免热点等问题对应用的影响，最大程度利用...

YARN高安全特性使用指南

说明 yarn.admin.acl=hadoop 配置值的通常格式为用户用户组，前面是用户，后面是用户组，中间使用空格分割，用户和用户组可配置多个，均使用逗号（,）分割。例如，user1,user2 group1,group2，只有用户组的情况下，必须在最前面加上空格...

测试环境

场景三：1 TB测试数据下DLA Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比场景说明：使用自建Spark和DLA Spark分别访问自建Hadoop集群，运行Terasort 1 TB基准测试，对它们的耗时进行对比分析。DLA Spark+OSS配置如下：配置名称 ...

drwxrwx-x+-emrtest hadoop 0 2022-10-21 14:08/tmp/emrtest drwxr-x-x-hadoop hadoop 0 2022-10-21 10:06/tmp/hadoop-yarn drwx-wx-wx-hive hadoop 0 2022-10-21 10:13/tmp/hive drwxr-x-x-hadoop hadoop 0 2022-10-21 10:23/tmp/kyuubi-...

创建项目集群设置

DefaultUser String 否 hadoop 默认Linux提交用户，默认值为hadoop。DefaultQueue String 否 default 默认提交队列，默认值为default。UserList.N RepeatList 否 hadoop Linux提交用户白名单。QueueList.N RepeatList 否 queue1 队列白名单...

搭建Hadoop环境

Hadoop是由Apache基金会使用Java语言开发的分布式开源软件框架，用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的能力进行高速运算和存储。本文介绍如何在Linux操作系统的ECS实例上快速搭建Hadoop分布式环境。前提...

测试结果

1 TB测试数据下DLA Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比结果集群类型运行Terasort基准测试集耗时（min）DLA Spark+OSS 43.5 自建Hadoop+Spark 44.8 您可以将自建Hadoop和DLA Spark混合使用，自建Hadoop集群在高峰期需要...

查询项目集群设置列表

DefaultUser String hadoop 默认提交用户。GmtCreate Long 1541561123000 创建时间。GmtModified Long 1541561123000 修改时间。HostList List"Host":["emr-header-1.cluster-500159692"客户端白名单列表。K8sClusterId String 无保留字段...

修改项目集群设置

DefaultUser String 否 hadoop 默认提交用户。DefaultQueue String 否 default 默认提交队列。UserList.N RepeatList 否 user1 用户列表。QueueList.N RepeatList 否 queue1 队列列表。HostList.N RepeatList 否 emr-header-1 关联主机列表...

测试方法

场景三：1 TB测试数据下DLA Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比准备测试数据在自建Hadoop上生成1 TB Terasort测试数据。使用spark-submit命令向自建Spark集群中提交运行生成1 TB Terasort测试数据的Spark程序。示例如下...

项目管理

参数描述提交作业默认用户设置项目使用所选集群提交作业时的默认用户，默认值是hadoop，默认用户只能有一个。提交作业默认队列设置项目使用所选集群提交作业时的默认队列，默认作业提交到default队列。提交作业用户白名单设置可以提交...

使用CreateCluster API创建集群

选择安装应用必须安装的依赖应用不可同时安装的互斥应用 HDFS Hadoop-Common OSS-HDFS OSS-HDFS Hadoop-Common HDFS Hive Hadoop-Common、YARN 无 Spark2 Hadoop-Common、YARN、Hive Spark3 Spark3 Hadoop-Common、YARN、Hive Spark2 Tez...

配置E-MapReduce服务使用文件存储 HDFS 版

hdfs:/emr-header-1.cluster-125428:9000/user/hive/warehouse/analysis_logs.db/original_log_sh_partitioned|-1|org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat|3|29|22|org.apache.hadoop.mapred.TextInputFormat|...

Jindo DistCp使用说明

Found 6 items-rw-r-2 root hadoop 2252 2020-04-17 20:42/data/incoming/hourly_table/2017-02-01/03/000151.sst-rw-r-2 root hadoop 4891 2020-04-17 20:47/data/incoming/hourly_table/2017-02-01/03/1.log-rw-r-2 root hadoop 4891 ...

MapReduce常见问题

超时10分钟，即会报错，暂时不支持用户自行配置。解决措施这个报错比较常见的原因是Reduce里做了大循环，例如存在长尾数据或者笛卡尔积。您需要尽量减少这种大循环的情况。执行MaxCompute MapReduce时，报错java.security....

数据同步

首先开通RDS MySQL服务，设置好相应的用户、Database和权限（RDS的具体使用请参见概述）。建立一张表并插入一些数据。该建表动作可以在RDS控制台页面方便地完成，这里展示最后的建表语句。CREATE TABLE `sales`(`id` bigint(20)NOT NULL,`...

PySpark开发示例

在Spark客户端 conf 文件夹下的spark-defaults.conf中添加以下配置项（以公共资源为例）：spark.hadoop.odps.cupid.resources=public.python-2.7.13-ucs4.tar.gz spark.pyspark.python=./public.python-2.7.13-ucs4.tar.gz/python-2.7.13-...

hadoop 用户

新品推荐