基于Hadoop集群支持Delta Lake或Hudi存储机制

MaxCompute基于开源的Hadoop集群提供了支持Delta或Hudi存储机制的湖仓一体架构。您可以通过MaxCompute查询到实时数据,即时洞察业务数据变化。背景信息 MaxCompute基于开源的Hadoop集群和阿里云EMR(E-MapReduce)提供了支持Delta Lake或...

自建Hadoop数据迁移到阿里云E-MapReduce

客户在决定上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。适用场景 本实践方案提供如下场景的最佳实践:基于IPSec VPN隧道+DistCp(Hadoop原生工具),将数据...

准备工作

环境准备 已创建阿里云E-MapReduce的Hadoop集群。具体操作,请参见 创建集群。已下载E-MapReduce的最新 SDK,SDK包的名称格式为emr-datasources_shaded_*.jar,emr-datasources_shaded_*.jar中包含Tablestore相关的Spark批流Source和Sink。...

使用Druid

EMR-3.11.0及其后续版本...将Hadoop集群的hosts写入到E-MapReduce Druid集群的hosts列表中,注意Hadoop集群的hostname应采用长名形式,如emr-header-1.cluster-xxxxxxxx,且最好将Hadoop的hosts放在本集群hosts之后,例如:.10.157.*.*emr-as....

设置Dataphin实例的计算引擎为Hadoop

如下图所示:已创建集群:可以通过E-MapReduce 5.x Hadoop集群的详情页查看所创建的集群存储类型。如下图所示:NameNode Hadoop支持添加同集群多个HDFS地址,只要有一个地址校验成功,即可完成元数据采集。例如 host=192.xxx.xx.xxx,...

Spark对接Kafka

本文介绍如何在E-MapReduce的Hadoop集群运行Spark Streaming作业,处理Kafka集群的数据。背景信息 E-MapReduce上的Hadoop集群和Kafka集群都是基于纯开源软件,相关编程使用方法可参见官方相应文档。Spark官方文档:streaming-kafka-...

什么是EMR on ECS

与自建Hadoop集群对比 开源大数据开发平台EMR与自建Hadoop集群的优势对比如下表所示。对比项 阿里云EMR 自建Hadoop集群 成本 支持按量和包年包月付费方式,集群资源支持灵活调整,数据分层存储,资源使用率高。无额外软件License费用。需...

测试环境

本测试环境需要的OSS实际存储空间为20 TB,但由于考虑到Hadoop集群的本地盘通常不能占满,为了与自建Hadoop进行对比测试,采用的OSS存储空间为30 TB。场景三:1 TB测试数据下DLA Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比 场景...

在文件存储 HDFS 版上使用Apache Tez

本文主要介绍在挂载 文件存储 HDFS 版 的Hadoop集群上安装及使用Apache Tez。前提条件 已开通 文件存储 HDFS 版 服务并创建文件系统实例和挂载点。具体操作,请参见 文件存储HDFS版快速入门。已为Hadoop集群所有节点安装JDK,且JDK版本不...

配置自建RDS

本文介绍如何配置自建的阿里云RDS,作为E-MapReduce(简称EMR)上DataLake集群、Custom集群或Hadoop集群的元数据。前提条件 已购买RDS MySQL实例(EMR所有版本均支持MySQL 5.7,仅EMR-3.35.0以上版本、EMR-5.0.0以上版本同时支持MySQL 5.7...

数据迁移

本文为您介绍如何迁移自建Kudu集群的数据到E-MapReduce上的Hadoop集群。前提条件 您已自建Kudu集群。已创建E-MapReduce的Hadoop集群,并选择了Kudu服务,详情请参见 创建集群。背景信息 EMR Kudu支持社区1.10以及1.11版本,可以使用社区...

创建Hadoop计算源

core-site.xml 上传Hadoop集群的core-site.xml配置文件。hdfs-site.xml 上传Hadoop集群下HDFS的hdfs-site.xml配置文件。说明 OSS-HDFS集群存储类型,不支持上传hdfs-site.xml配置文件。hive-site.xml 上传Hadoop集群下Hive的hive-site.xml...

创建Hive数据源

如下图所示:已创建集群:可以通过E-MapReduce5.x Hadoop集群的详情页查看所创建的集群存储类型。如下图所示:集群存储根目录 填写集群存储根目录。可以通过查看E-MapReduce5.x Hadoop集群信息获取进行。如下图所示:重要 若填写的路径中...

管理LDAP认证

使用限制 EMR-3.34.0及后续版本或EMR-4.8.0及后续版本的Hadoop集群,支持一键开启LDAP认证。开启LDAP认证 进入Hue页面。登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击上方的 集群管理 页签。在 集群...

自治服务概述

默认大盘 默认的监控大盘提供了集群监控、租户监控两个维度,可查看一些常见的性能监控指标。您也可以根据需要添加或者编辑大盘,进行更多场景的监控。添加大盘 访问监控大盘界面。单击 添加大盘。在添加大盘页面中,填写 大盘名称,不可...

网络开通流程

例如,当您连接在阿里云E-MapReduce上创建的Hadoop集群时,您需要配置的安全组规则如下图所示。更多配置操作,请参见 添加安全组规则。配置HBase集群安全组。将为MaxCompute创建的安全组或ENI IP加入HBase集群的安全组或IP白名单中。例如,...

查看专属集群监控信息

在专属集群监控页面,查看目标专属集群的监控信息。目标专属集群监控概览 在 主要信息 区域,您可以查看以下信息:DU使用率(即文件系统使用率)和总量 磁盘使用率和总量 CPU使用率 内存使用率 专属集群中运行任务的数量 目标专属集群监控...

Hadoop

本文主要介绍如何使用DLA Spark访问用户VPC中的HADOOP集群(开启kerberos认证的集群暂不支持)。前提条件 您已开通数据湖分析DLA(Data Lake Analytics)服务。如何开通,请参见 开通云原生数据湖分析服务。您已登录云原生数据库分析DLA...

数据上云场景

Sqoop执行时,会在原来的Hadoop集群上执行MR作业,可以分布式地将数据传输到MaxCompute上,详情请参见 Sqoop工具的介绍。MMA利用Meta Carrier连接您的Hive Metastore服务,获取Hive Metadata,并利用这些数据生成用于创建MaxCompute表和...

MySQL连接器

使用限制 EMR-3.38.0及后续版本的Hadoop集群或Presto集群,支持配置MySQL连接器。连接的MySQL需要是5.7、8.0版本或更高的版本。Presto的Coordinator和所有Worker节点必须能够访问MySQL,默认端口为3306。暂不支持下列SQL命令:DELETE GRANT...

Hive访问Iceberg数据

说明 此文档仅适用于EMR-3.38.0及后续版本与EMR-5.4.0及后续版本的Hadoop集群。使用限制 EMR-3.38.0及后续版本与EMR-5.4.0及后续版本的Hadoop集群,支持Hive读写Iceberg的数据。操作步骤 可选:如果您创建的是EMR-3.38.0与EMR-5.4.0版本的...

场景:注册跨账号的EMR集群

对方EMR集群:选择需要注册至DataWorks的EMR集群,此处仅可选择 版本为3.38.3或3.38.2且未使用DLF管理元数据的Hadoop集群。更多注册集群的配置详情,请参见 注册EMR集群至DataWorks。配置资源组初始化。初次绑定集群、集群服务配置变更 或 ...

使用Hadoop作为元仓计算引擎进行元仓初始化

如下图所示:已创建集群:可以通过E-MapReduce5.x Hadoop集群的详情页查看所创建的集群存储类型。如下图所示:集群存储根目录 填写集群存储根目录。可以通过查看E-MapReduce5.x Hadoop集群信息获取进行。如下图所示:重要 若填写的路径中...

Spark流式写入Iceberg

说明 此文档仅适用于EMR-3.38.0及后续版本与EMR-5.4.0及后续版本的Hadoop集群。已在E-MapReduce控制台上,创建Kafka集群,详情请参见 创建集群。使用限制 Hadoop集群和Kafka集群需要在同一VPC和交换机下,不支持跨VPC。流式写入方式 Spark ...

Hudi连接器

使用限制 仅DataLake集群和EMR-3.38.0及后续版本的Hadoop集群,支持配置Hudi连接器。只支持Hudi COW表的快照查询。部分支持Hudi MOR表的快照查询和读优化查询,但并未覆盖所有场景。因此,在生产环境中使用时需要谨慎考虑。不支持增量查询...

注册EMR集群至DataWorks

跨账号场景下,仅支持注册3.38.3版本和3.38.2版本,且未使用DLF管理元数据的Hadoop集群。您需要将集群注册至DataWorks,后续才可以在DataWorks上使用EMR集群。详情请参见 场景:注册跨账号的EMR集群。Spark集群:EMR on ACK 仅支持Spark、...

下线DataNode

随着数据湖技术的普及,越来越多的E-MapReduce(简称EMR)用户选择把数据存放在全托管的数据存储服务中(例如,OSS-HDFS和OSS对象存储等),这样原有的Hadoop集群就不需要很多的DataNode。下线(Decommission)EMR集群的DataNode(Core节点...

在文件存储 HDFS 版上使用Apache Spark

本文主要介绍如何在挂载 文件存储 HDFS 版 的Hadoop集群上安装及使用Apache Spark。前提条件 已开通 文件存储 HDFS 版 服务并创建文件系统实例和挂载点。具体操作,请参见 文件存储HDFS版快速入门。已为Hadoop集群所有节点安装JDK,且JDK...

JindoFS实战演示

分层更高效,对Hive数仓进行热度/冷度统计 分层更高效,对Hive数仓进行热度/冷度统计 2021-07-27 传统的Hadoop集群中,没有对数据进行分层,导致数据量不断增加的同时,存储成本也在大幅增加,计算速度在不断下降。此时,您可以对集群中的...

在文件存储 HDFS 版上使用Apache Flink

本文介绍如何在挂载 文件存储 HDFS 版 的Hadoop集群上安装及使用Apache Flink。前提条件 已开通 文件存储 HDFS 版 服务并创建文件系统实例和挂载点。具体操作,请参见 文件存储HDFS版快速入门。已为Hadoop集群所有节点安装JDK,且JDK版本不...

使用Presto访问

xxxx:9083#xxxx为启动hive元数据服务的IP地址 hive.config.resources=usr/local/hadoop-2.7.3/etc/hadoop/core-site.xml,/usr/local/hadoop-2.7.3/etc/hadoop/hdfs-site.xml#配置为您的Hadoop集群中core-site.xml文件的地址 将 presto-cli...

开通EMR Doctor(Hadoop集群类型)

E-MapReduce(简称EMR)的数据湖(DataLake)、数据服务(DataServing)和自定义业务场景下的集群默认提供EMR Doctor服务,如果您使用的是旧版数据湖场景下的Hadoop集群类型(EMR-3.41.0之前版本、EMR 4.x版本、EMR-5.6.0之前版本),则...

使用说明

注意事项 EMR-3.35.0及后续版本或EMR-4.9.0及后续版本的Hadoop集群,需要注意以下信息:当您需要使用Hue的Workflow作业时,请在Hue配置页签,删除 app_blacklist 参数值中的 jobbrowser。当您需要使用Hue通过界面浏览或者操作HDFS系统的...

舰队管理概述

随着Kubernetes集群的广泛应用,企业往往需要运行和管理多个Kubernetes集群,由此带来一系列的问题,例如多...全局监控:多集群监控大盘,一个监控大盘查看所有集群的监控指标。相关文档 ACK One概述 开启舰队管理功能 管理关联集群 ArgoCD

ClickHouse控制台查看监控

云数据库ClickHouse 提供了丰富的性能监控数据,方便您查看和掌握集群的运行状态。本文介绍如何在控制台查看集群监控信息。前提条件 已开通阿里云Prometheus服务。已升级 云数据库ClickHouse。说明 首次使用集群监控时,会在 监控告警 页面...

查看监控信息

如果存在多个集群,您可以在 监控 页签内的左上角单击 cluster 选择不同集群,以查看不同集群的监控信息。说明 监控指标通过Grafana仪表盘展示,并使用预设的PromQL查询语句。在编辑页面中,您可以修改PromQL以查看不同的监控指标,但是...

监控

E-MapReduce(简称EMR)上的ClickHouse集群提供了完善的监控体系,分为服务监控和节点监控两个维度。本文为您介绍如何查看服务监控和节点监控。前提条件 已创建集群,详情请参见 创建ClickHouse集群。查看服务监控 进入监控大盘页面。登录...

管理Hive Catalog

网络连通后,Flink就可以使用Hadoop集群的配置文件访问Hadoop集群。在OSS控制台新建目录,并将Hive配置文件和Hadoop依赖上传至目标路径。登录 OSS管理控制台 OSS管理控制台。单击 Bucket列表。单击目标Bucket名称。在 oss:/${bucket}/...

API概览

云原生数据库PolarDB 提供以下相关API接口。地域 API 描述 DescribeRegions 该接口...DescribeDBClusterMonitor 该接口用于查询 PolarDB 集群的监控数据采集频率。ModifyDBClusterMonitor 该接口用于修改 PolarDB 集群的监控数据采集频率。

API概览

云原生数据库PolarDB 提供以下相关API接口。地域 API 描述 DescribeRegions 该接口...DescribeDBClusterMonitor 该接口用于查询 PolarDB 集群的监控数据采集频率。ModifyDBClusterMonitor 该接口用于修改 PolarDB 集群的监控数据采集频率。
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云监控 云数据库 Redis 版 云数据库专属集群 开源大数据平台 E-MapReduce 轻量应用服务器 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用