hadoop集群的监控-hadoop集群的监控文档介绍内容-阿里云

基于Hadoop集群支持Delta Lake或Hudi存储机制

基于<em>Hadoop集群</em>支持Delta Lake或Hudi存储机制

MaxCompute基于开源的Hadoop集群提供了支持Delta或Hudi存储机制的湖仓一体架构。您可以通过MaxCompute查询到实时数据，即时洞察业务数据变化。背景信息 MaxCompute基于开源的Hadoop集群和阿里云EMR（E-MapReduce）提供了支持Delta Lake或...

自建Hadoop数据迁移到阿里云E-MapReduce

客户在决定上云之后，会将自建Hadoop集群的数据迁移到阿里云自建Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。适用场景本实践方案提供如下场景的最佳实践：基于IPSec VPN隧道+DistCp（Hadoop原生工具），将数据...

准备工作

环境准备已创建阿里云E-MapReduce的Hadoop集群。具体操作，请参见创建集群。已下载E-MapReduce的最新 SDK，SDK包的名称格式为emr-datasources_shaded_*.jar，emr-datasources_shaded_*.jar中包含Tablestore相关的Spark批流Source和Sink。...

使用Druid

EMR-3.11.0及其后续版本...将Hadoop集群的hosts写入到E-MapReduce Druid集群的hosts列表中，注意Hadoop集群的hostname应采用长名形式，如emr-header-1.cluster-xxxxxxxx，且最好将Hadoop的hosts放在本集群hosts之后，例如：.10.157.*.*emr-as....

设置Dataphin实例的计算引擎为Hadoop

如下图所示：已创建集群：可以通过E-MapReduce 5.x Hadoop集群的详情页查看所创建的集群存储类型。如下图所示：NameNode Hadoop支持添加同集群多个HDFS地址，只要有一个地址校验成功，即可完成元数据采集。例如 host=192.xxx.xx.xxx,...

Spark对接Kafka

本文介绍如何在E-MapReduce的Hadoop集群运行Spark Streaming作业，处理Kafka集群的数据。背景信息 E-MapReduce上的Hadoop集群和Kafka集群都是基于纯开源软件，相关编程使用方法可参见官方相应文档。Spark官方文档：streaming-kafka-...

什么是EMR on ECS

与自建Hadoop集群对比开源大数据开发平台EMR与自建Hadoop集群的优势对比如下表所示。对比项阿里云EMR 自建Hadoop集群成本支持按量和包年包月付费方式，集群资源支持灵活调整，数据分层存储，资源使用率高。无额外软件License费用。需...

测试环境

本测试环境需要的OSS实际存储空间为20 TB，但由于考虑到Hadoop集群的本地盘通常不能占满，为了与自建Hadoop进行对比测试，采用的OSS存储空间为30 TB。场景三：1 TB测试数据下DLA Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比场景...

在文件存储 HDFS 版上使用Apache Tez

本文主要介绍在挂载文件存储 HDFS 版 的Hadoop集群上安装及使用Apache Tez。前提条件已开通文件存储 HDFS 版服务并创建文件系统实例和挂载点。具体操作，请参见文件存储HDFS版快速入门。已为Hadoop集群所有节点安装JDK，且JDK版本不...

配置自建RDS

本文介绍如何配置自建的阿里云RDS，作为E-MapReduce（简称EMR）上DataLake集群、Custom集群或Hadoop集群的元数据。前提条件已购买RDS MySQL实例（EMR所有版本均支持MySQL 5.7，仅EMR-3.35.0以上版本、EMR-5.0.0以上版本同时支持MySQL 5.7...

数据迁移

本文为您介绍如何迁移自建Kudu集群的数据到E-MapReduce上的Hadoop集群。前提条件您已自建Kudu集群。已创建E-MapReduce的Hadoop集群，并选择了Kudu服务，详情请参见创建集群。背景信息 EMR Kudu支持社区1.10以及1.11版本，可以使用社区...

创建Hadoop计算源

core-site.xml 上传Hadoop集群的core-site.xml配置文件。hdfs-site.xml 上传Hadoop集群下HDFS的hdfs-site.xml配置文件。说明 OSS-HDFS集群存储类型，不支持上传hdfs-site.xml配置文件。hive-site.xml 上传Hadoop集群下Hive的hive-site.xml...

创建Hive数据源

如下图所示：已创建集群：可以通过E-MapReduce5.x Hadoop集群的详情页查看所创建的集群存储类型。如下图所示：集群存储根目录填写集群存储根目录。可以通过查看E-MapReduce5.x Hadoop集群信息获取进行。如下图所示：重要若填写的路径中...

管理LDAP认证

使用限制 EMR-3.34.0及后续版本或EMR-4.8.0及后续版本的Hadoop集群，支持一键开启LDAP认证。开启LDAP认证进入Hue页面。登录阿里云E-MapReduce控制台。在顶部菜单栏处，根据实际情况选择地域和资源组。单击上方的集群管理页签。在集群...

自治服务概述

默认大盘默认的监控大盘提供了集群监控、租户监控两个维度，可查看一些常见的性能监控指标。您也可以根据需要添加或者编辑大盘，进行更多场景的监控。添加大盘访问监控大盘界面。单击添加大盘。在添加大盘页面中，填写大盘名称，不可...

网络开通流程

例如，当您连接在阿里云E-MapReduce上创建的Hadoop集群时，您需要配置的安全组规则如下图所示。更多配置操作，请参见添加安全组规则。配置HBase集群安全组。将为MaxCompute创建的安全组或ENI IP加入HBase集群的安全组或IP白名单中。例如，...

查看专属集群监控信息

在专属集群监控页面，查看目标专属集群的监控信息。目标专属集群监控概览在主要信息区域，您可以查看以下信息：DU使用率（即文件系统使用率）和总量磁盘使用率和总量 CPU使用率内存使用率专属集群中运行任务的数量目标专属集群监控...

Hadoop

本文主要介绍如何使用DLA Spark访问用户VPC中的HADOOP集群（开启kerberos认证的集群暂不支持）。前提条件您已开通数据湖分析DLA（Data Lake Analytics）服务。如何开通，请参见开通云原生数据湖分析服务。您已登录云原生数据库分析DLA...

数据上云场景

Sqoop执行时，会在原来的Hadoop集群上执行MR作业，可以分布式地将数据传输到MaxCompute上，详情请参见 Sqoop工具的介绍。MMA利用Meta Carrier连接您的Hive Metastore服务，获取Hive Metadata，并利用这些数据生成用于创建MaxCompute表和...

MySQL连接器

使用限制 EMR-3.38.0及后续版本的Hadoop集群或Presto集群，支持配置MySQL连接器。连接的MySQL需要是5.7、8.0版本或更高的版本。Presto的Coordinator和所有Worker节点必须能够访问MySQL，默认端口为3306。暂不支持下列SQL命令：DELETE GRANT...

Hive访问Iceberg数据

说明此文档仅适用于EMR-3.38.0及后续版本与EMR-5.4.0及后续版本的Hadoop集群。使用限制 EMR-3.38.0及后续版本与EMR-5.4.0及后续版本的Hadoop集群，支持Hive读写Iceberg的数据。操作步骤可选：如果您创建的是EMR-3.38.0与EMR-5.4.0版本的...

场景：注册跨账号的EMR集群

对方EMR集群：选择需要注册至DataWorks的EMR集群，此处仅可选择版本为3.38.3或3.38.2且未使用DLF管理元数据的Hadoop集群。更多注册集群的配置详情，请参见注册EMR集群至DataWorks。配置资源组初始化。初次绑定集群、集群服务配置变更或 ...

使用Hadoop作为元仓计算引擎进行元仓初始化

如下图所示：已创建集群：可以通过E-MapReduce5.x Hadoop集群的详情页查看所创建的集群存储类型。如下图所示：集群存储根目录填写集群存储根目录。可以通过查看E-MapReduce5.x Hadoop集群信息获取进行。如下图所示：重要若填写的路径中...

Spark流式写入Iceberg

说明此文档仅适用于EMR-3.38.0及后续版本与EMR-5.4.0及后续版本的Hadoop集群。已在E-MapReduce控制台上，创建Kafka集群，详情请参见创建集群。使用限制 Hadoop集群和Kafka集群需要在同一VPC和交换机下，不支持跨VPC。流式写入方式 Spark ...

Hudi连接器

使用限制仅DataLake集群和EMR-3.38.0及后续版本的Hadoop集群，支持配置Hudi连接器。只支持Hudi COW表的快照查询。部分支持Hudi MOR表的快照查询和读优化查询，但并未覆盖所有场景。因此，在生产环境中使用时需要谨慎考虑。不支持增量查询...

注册EMR集群至DataWorks

跨账号场景下，仅支持注册3.38.3版本和3.38.2版本，且未使用DLF管理元数据的Hadoop集群。您需要将集群注册至DataWorks，后续才可以在DataWorks上使用EMR集群。详情请参见场景：注册跨账号的EMR集群。Spark集群：EMR on ACK 仅支持Spark、...

下线DataNode

随着数据湖技术的普及，越来越多的E-MapReduce（简称EMR）用户选择把数据存放在全托管的数据存储服务中（例如，OSS-HDFS和OSS对象存储等），这样原有的Hadoop集群就不需要很多的DataNode。下线（Decommission）EMR集群的DataNode（Core节点...

在文件存储 HDFS 版上使用Apache Spark

本文主要介绍如何在挂载文件存储 HDFS 版 的Hadoop集群上安装及使用Apache Spark。前提条件已开通文件存储 HDFS 版服务并创建文件系统实例和挂载点。具体操作，请参见文件存储HDFS版快速入门。已为Hadoop集群所有节点安装JDK，且JDK...

JindoFS实战演示

分层更高效，对Hive数仓进行热度/冷度统计分层更高效，对Hive数仓进行热度/冷度统计 2021-07-27 传统的Hadoop集群中，没有对数据进行分层，导致数据量不断增加的同时，存储成本也在大幅增加，计算速度在不断下降。此时，您可以对集群中的...

在文件存储 HDFS 版上使用Apache Flink

本文介绍如何在挂载文件存储 HDFS 版 的Hadoop集群上安装及使用Apache Flink。前提条件已开通文件存储 HDFS 版服务并创建文件系统实例和挂载点。具体操作，请参见文件存储HDFS版快速入门。已为Hadoop集群所有节点安装JDK，且JDK版本不...

xxxx:9083#xxxx为启动hive元数据服务的IP地址 hive.config.resources=usr/local/hadoop-2.7.3/etc/hadoop/core-site.xml,/usr/local/hadoop-2.7.3/etc/hadoop/hdfs-site.xml#配置为您的Hadoop集群中core-site.xml文件的地址将 presto-cli...

开通EMR Doctor（Hadoop集群类型）

E-MapReduce（简称EMR）的数据湖（DataLake）、数据服务（DataServing）和自定义业务场景下的集群默认提供EMR Doctor服务，如果您使用的是旧版数据湖场景下的Hadoop集群类型（EMR-3.41.0之前版本、EMR 4.x版本、EMR-5.6.0之前版本），则...

使用说明

注意事项 EMR-3.35.0及后续版本或EMR-4.9.0及后续版本的Hadoop集群，需要注意以下信息：当您需要使用Hue的Workflow作业时，请在Hue配置页签，删除 app_blacklist 参数值中的 jobbrowser。当您需要使用Hue通过界面浏览或者操作HDFS系统的...

舰队管理概述

随着Kubernetes集群的广泛应用，企业往往需要运行和管理多个Kubernetes集群，由此带来一系列的问题，例如多...全局监控：多集群监控大盘，一个监控大盘查看所有集群的监控指标。相关文档 ACK One概述开启舰队管理功能管理关联集群 ArgoCD

ClickHouse控制台查看监控

云数据库ClickHouse 提供了丰富的性能监控数据，方便您查看和掌握集群的运行状态。本文介绍如何在控制台查看集群监控信息。前提条件已开通阿里云Prometheus服务。已升级云数据库ClickHouse。说明首次使用集群监控时，会在监控告警页面...

查看监控信息

如果存在多个集群，您可以在监控页签内的左上角单击 cluster 选择不同集群，以查看不同集群的监控信息。说明监控指标通过Grafana仪表盘展示，并使用预设的PromQL查询语句。在编辑页面中，您可以修改PromQL以查看不同的监控指标，但是...

监控

E-MapReduce（简称EMR）上的ClickHouse集群提供了完善的监控体系，分为服务监控和节点监控两个维度。本文为您介绍如何查看服务监控和节点监控。前提条件已创建集群，详情请参见创建ClickHouse集群。查看服务监控进入监控大盘页面。登录...

管理Hive Catalog

网络连通后，Flink就可以使用Hadoop集群的配置文件访问Hadoop集群。在OSS控制台新建目录，并将Hive配置文件和Hadoop依赖上传至目标路径。登录 OSS管理控制台 OSS管理控制台。单击 Bucket列表。单击目标Bucket名称。在 oss:/${bucket}/...

API概览

云原生数据库PolarDB 提供以下相关API接口。地域 API 描述 DescribeRegions 该接口...DescribeDBClusterMonitor 该接口用于查询 PolarDB 集群的监控数据采集频率。ModifyDBClusterMonitor 该接口用于修改 PolarDB 集群的监控数据采集频率。

API概览

云原生数据库PolarDB 提供以下相关API接口。地域 API 描述 DescribeRegions 该接口...DescribeDBClusterMonitor 该接口用于查询 PolarDB 集群的监控数据采集频率。ModifyDBClusterMonitor 该接口用于修改 PolarDB 集群的监控数据采集频率。

hadoop集群的监控

新品推荐