快捷模式与安全模式差异比对

使用该模式绑定EMR引擎时,阿里云主账号或RAM用户在DataWorks运行代码或自动调度任务,都只是下发代码至EMR集群,实际运行的身份为集群内的Hadoop用户。无法做到细粒度的权限控制。说明 Hadoop用户拥有Hadoop集群的所有权限,请谨慎授权。...

EMR集群JindoData升级流程(旧版控制台)

准备软件包和升级脚本 登录EMR集群的Master节点,并将下载的patch包放在Hadoop用户的HOME目录下,将patch包解压缩后,使用hadoop用户执行操作。su-hadoop cd/home/hadoop/wget ...

Hadoop

本文主要介绍如何使用DLA Spark访问用户VPC中的HADOOP集群(开启kerberos认证的集群暂不支持)。前提条件 您已开通数据湖分析DLA(Data Lake Analytics)服务。如何开通,请参见 开通云原生数据湖分析服务。您已登录云原生数据库分析DLA...

Hive Metastore使用加密文件访问RDS

执行以下命令,将凭据文件移动到Hive的配置文件目录,并将该文件的所有者更改为hive用户或hadoop用户。DataLake或Custom集群类型 sudo mv/tmp/hive.jceks$HIVE_CONF_DIR sudo chown hive$HIVE_CONF_DIR/hive.jceks Hadoop集群类型 sudo mv/...

EMR集群JindoSDK升级流程(旧版控制台)

准备软件包和升级脚本 登录EMR集群的Master节点,并将下载的patch包放在Hadoop用户的HOME目录下,将patch包解压缩后,使用hadoop用户执行操作。su-hadoop cd/home/hadoop/wget ...

Hive基础操作

执行以下命令,切换为hadoop用户。su-hadoop 执行以下命令,进入Hive命令行。hive 库操作 本文示例中的数据库以testdb为例介绍。创建库 create database if not exists testdb;当返回信息包含OK时,表示创建库testdb成功。查看库 desc ...

修复单台JournalNode异常

su emr-user 如果5.7.0或3.41.0之前版本的EMR提示emr-user不存在,可切换至hadoop用户。su hadoop 同步打包后的文件。scp/tmp/jn-current.tar.gz$unhealthy-journal-node:/tmp/$unhealthy-journal-node 需要替换为异常JournalNode节点的...

漏洞公告|Apache Hadoop FileUtil.unTar命令注入漏洞

登录EMR集群的Master节点,并将上一步骤中下载的patch包放在emr-user用户或hadoop用户的HOME目录下。执行以下命令,切换用户并解压缩hadoop-patches-tools.zip包。数据湖(DataLake)、实时数据流(DataFlow)、数据分析(OLAP)、数据服务...

配置自建RDS

执行以下命令,切换为hadoop用户。su-hadoop 执行以下命令,进行初始化。schematool-initSchema-dbType mysql 待初始化成功后,则可以使用自建的RDS作为Hive的元数据库。说明 在初始化之前,Hive的Hive MetaStore、HiveServer2和Spark的...

搭建与管理(基于Hadoop

Kerberos账号:Kerberos授权的具有Hive访问权限的Hadoop用户账号。上传文件:上传Kerberos账号的keytab配置文件。具体生成方式,请参见 生成keytab配置文件。表 4.创建目标数据映射 参数 说明 选择外部数据源对象 默认与 选择外部数据源 ...

漏洞公告|Apache Log4j2远程代码执行漏洞

登录EMR集群的Master节点,并将 步骤一 中下载的patch包放在 emr-user 或 hadoop 用户的HOME目录下。将patch包解压缩后,使用 emr-user 或 hadoop 用户执行操作。数据湖(DataLake)、实时数据流(DataFlow)、数据分析(OLAP)、数据服务...

Phoenix

执行以下命令,切换为hadoop用户。su-hadoop 执行以下命令,使用Phoenix的命令行工具。opt/apps/PHOENIX/phoenix-current/bin/sqlline.py 您可以使用SQL进行数据查询。常见操作如下:创建表 CREATE TABLE IF NOT EXISTS example(my_pk ...

Hadoop使用JindoSDK访问OSS-HDFS服务

Hadoop用户而言,无需做数据复制或转换就可以实现像访问本地HDFS一样高效的数据访问,极大提升整体作业性能,降低了维护成本。关于OSS-HDFS服务的应用场景、服务特性、功能特性等更多信息,请参见 什么是OSS-HDFS服务。步骤一:创建专有...

查看节点健康状态

节点健康状态展示了当前...host_user_permission_check 检测重要用户的权限,例如hadoop用户、hdfs用户等。无阈值,有一个用户权限检测异常即为异常。host_fault_compensation_check 检测是否发生故障补偿。无阈值,有故障补偿发生即为异常。

YARN高可用特性使用指南

建议将该目录存放在系统盘非/tmp 目录下,并且确保hadoop用户有读写权限(推荐使用/home/hadoop/yarn-nm-recovery),避免/tmp 目录数据丢失和数据盘坏盘处理影响NM服务。yarn.nodemanager.recovery.supervised true 是否在NM退出时保留...

项目管理

在开启安全模式的项目中提交作业时,阿里云账号以默认hadoop用户执行,RAM用户则默认以当前RAM用户同名的EMR用户执行作业。进入数据开发的项目列表页面。通过阿里云账号登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择...

选择付费方式

Hadoop用户上云迁移的付费方式。某个Hadoop集群可能有1个管控节点以及5台计算节点,每台机器32核,相当于是32个CPU,5台计算节点就是160个CPU,对应标准的官方报价是每个月 24000元(此价格未包含折扣或者优惠)。MaxCompute无需考虑管控...

什么是OSS-HDFS服务

Hadoop用户而言,无需做数据复制或转换就可以实现像访问本地HDFS一样高效的数据访问,极大提升整体作业性能,降低了维护成本。功能特性 功能特性 说明 参考文档 回收站 当您从OSS-HDFS服务误删除文件时,文件不会立即被彻底删除,而是转...

Node Labels特性使用

重要 自定义的分布式路径必须确保文件系统服务正常且hadoop用户能正常读写访问,否则ResourceManager会启动失败。添加节点分区映射时为什么不指定NodeManager端口?EMR集群一个节点上最多只有一个NodeManager进程,所以指定端口没有太大的...

管理引导操作

您指定的脚本默认使用root账户执行,您也可以在脚本中使用 su-hadoop 命令,切换为hadoop用户执行。添加引导操作 添加引导操作支持以下两种方式。方式一:创建集群时添加引导操作 进入集群管理页面。登录 E-MapReduce控制台。在顶部菜单栏...

DataFlow集群通过Hive Catalog连接数据湖元数据DLF

执行以下命令,切换为hadoop用户并进入Hive命令行。su-hadoop hive 执行以下命令,查看库信息。desc database flink_dlf_hive;说明 命令中的 flink_dlf_hive 为上一步骤中创建的数据库的名称。OK flink_dlf_hive oss:/aliyu*/flink_dlf_...

漏洞公告|Apache Kafka Connect远程代码执行漏洞

登录集群的Master节点,并将上一步骤中下载的软件包放在hadoop用户的/usr/lib/目录下。登录集群详情,请参见 登录集群。执行以下命令,将安装包复制到worker-1-1节点。su-hadoop scp/usr/lib/kafka-2.12-2.4.1-1.1.5.tar.gz work-1-1:/tmp/...

Hadoop Yarn RPC 0 Day在野利用分析与传播手段披露

通过配置开启了基于HTTP的认证,或通过防火墙或安全组封禁了RESTful API对应的8088端口,但由于他们没有意识到Hadoop同时提供RPC服务,并且访问控制机制开启方式跟REST API不一样,导致用户Hadoop集群中RPC服务所在的8032端口仍然可以未...

YARN调度器

简介 Hadoop YARN的核心组件是ResourceManager,负责集群资源管理与调度,而ResourceManager组件的核心是调度器,负责统筹集群资源,满足应用的资源需求。调度器不仅需要优化整个集群的资源布局,避免热点等问题对应用的影响,最大程度利用...

YARN高安全特性使用指南

说明 yarn.admin.acl=hadoop 配置值的通常格式为 用户 用户组,前面是用户,后面是用户组,中间使用空格分割,用户用户组可配置多个,均使用逗号(,)分割。例如,user1,user2 group1,group2,只有用户组的情况下,必须在最前面加上空格...

测试环境

场景三:1 TB测试数据下DLA Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比 场景说明:使用自建Spark和DLA Spark分别访问自建Hadoop集群,运行Terasort 1 TB基准测试,对它们的耗时进行对比分析。DLA Spark+OSS配置如下:配置名称 ...

开启权限认证

drwxrwx-x+-emrtest hadoop 0 2022-10-21 14:08/tmp/emrtest drwxr-x-x-hadoop hadoop 0 2022-10-21 10:06/tmp/hadoop-yarn drwx-wx-wx-hive hadoop 0 2022-10-21 10:13/tmp/hive drwxr-x-x-hadoop hadoop 0 2022-10-21 10:23/tmp/kyuubi-...

创建项目集群设置

DefaultUser String 否 hadoop 默认Linux提交用户,默认值为hadoop。DefaultQueue String 否 default 默认提交队列,默认值为default。UserList.N RepeatList 否 hadoop Linux提交用户白名单。QueueList.N RepeatList 否 queue1 队列白名单...

搭建Hadoop环境

Hadoop是由Apache基金会使用Java语言开发的分布式开源软件框架,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的能力进行高速运算和存储。本文介绍如何在Linux操作系统的ECS实例上快速搭建Hadoop分布式环境。前提...

测试结果

1 TB测试数据下DLA Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比结果 集群类型 运行Terasort基准测试集耗时(min)DLA Spark+OSS 43.5 自建Hadoop+Spark 44.8 您可以将自建Hadoop和DLA Spark混合使用,自建Hadoop集群在高峰期需要...

查询项目集群设置列表

DefaultUser String hadoop 默认提交用户。GmtCreate Long 1541561123000 创建时间。GmtModified Long 1541561123000 修改时间。HostList List"Host":["emr-header-1.cluster-500159692"客户端白名单列表。K8sClusterId String 无 保留字段...

修改项目集群设置

DefaultUser String 否 hadoop 默认提交用户。DefaultQueue String 否 default 默认提交队列。UserList.N RepeatList 否 user1 用户列表。QueueList.N RepeatList 否 queue1 队列列表。HostList.N RepeatList 否 emr-header-1 关联主机列表...

测试方法

场景三:1 TB测试数据下DLA Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比 准备测试数据 在自建Hadoop上生成1 TB Terasort测试数据。使用spark-submit命令向自建Spark集群中提交运行生成1 TB Terasort测试数据的Spark程序。示例如下...

项目管理

参数 描述 提交作业默认用户 设置项目使用所选集群提交作业时的默认用户,默认值是hadoop,默认用户只能有一个。提交作业默认队列 设置项目使用所选集群提交作业时的默认队列,默认作业提交到default队列。提交作业用户白名单 设置可以提交...

使用CreateCluster API创建集群

选择安装应用 必须安装的依赖应用 不可同时安装的互斥应用 HDFS Hadoop-Common OSS-HDFS OSS-HDFS Hadoop-Common HDFS Hive Hadoop-Common、YARN 无 Spark2 Hadoop-Common、YARN、Hive Spark3 Spark3 Hadoop-Common、YARN、Hive Spark2 Tez...

配置E-MapReduce服务使用文件存储 HDFS 版

hdfs:/emr-header-1.cluster-125428:9000/user/hive/warehouse/analysis_logs.db/original_log_sh_partitioned|-1|org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat|3|29|22|org.apache.hadoop.mapred.TextInputFormat|...

Jindo DistCp使用说明

Found 6 items-rw-r-2 root hadoop 2252 2020-04-17 20:42/data/incoming/hourly_table/2017-02-01/03/000151.sst-rw-r-2 root hadoop 4891 2020-04-17 20:47/data/incoming/hourly_table/2017-02-01/03/1.log-rw-r-2 root hadoop 4891 ...

MapReduce常见问题

超时10分钟,即会报错,暂时不支持用户自行配置。解决措施 这个报错比较常见的原因是Reduce里做了大循环,例如存在长尾数据或者笛卡尔积。您需要尽量减少这种大循环的情况。执行MaxCompute MapReduce时,报错java.security....

数据同步

首先开通RDS MySQL服务,设置好相应的用户、Database和权限(RDS的具体使用请参见 概述)。建立一张表并插入一些数据。该建表动作可以在RDS控制台页面方便地完成,这里展示最后的建表语句。CREATE TABLE `sales`(`id` bigint(20)NOT NULL,`...

PySpark开发示例

在Spark客户端 conf 文件夹下的spark-defaults.conf中添加以下配置项(以公共资源为例):spark.hadoop.odps.cupid.resources=public.python-2.7.13-ucs4.tar.gz spark.pyspark.python=./public.python-2.7.13-ucs4.tar.gz/python-2.7.13-...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
短信服务 物联网无线连接服务 开源大数据平台 E-MapReduce 商标服务 云安全中心 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用