开通EMR Doctor(Hadoop集群类型)

功能介绍 EMR Doctor是开源大数据集群的管家,提供了一站式的智能诊断和优化服务。通过EMR Doctor,您可以高效地运维大数据集群和服务,持续的优化集群的资源使用率,使集群处于健康稳定的状态,更好的为上层业务提供计算服务。EMR Doctor...

迁移方案

对接自建平台 如果您自建了一套大数据平台,则DataFlow集群也可以轻松集成进您现有的平台中:资源管理与运维 DataFlow集群基于YARN进行资源调度与管理,因此只需要按照集成YARN集群到已有平台的通常操作进行即可。您可以根据需要配置YARN...

注册EMR集群至DataWorks

背景信息 开源大数据开发平台 E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还...

数据集群

E-MapReduce(简称EMR)新版控制台提供了数据集群,一个更灵活、可靠,以及高效的大数据计算集群。同时,您可以基于该集群轻松构建一个可扩展的数据管道。本文为您介绍数据集群支持的特性,以及与旧版Hadoop集群之间的差异。数据集群...

使用独立的Trino集群

背景信息 在使用开源大数据平台E-MapReduce控制台时,您可以在创建DataLake集群、自定义集群或Hadoop集群时选择Trino服务,或者创建独立的Trino集群使用Trino服务。Trino集群具备以下特点:Trino独享集群资源,受其他组件干扰少。支持弹性...

Hadoop集群迁移至DataLake集群

本文将详细阐述如何将您已有的旧版数据集群(Hadoop),高效地迁移至数据集群(DataLake),以下分别简称“旧集群”和“新集群”。迁移过程将充分考虑旧集群的版本、元数据类型以及存储方式,并针对这些因素,提供适应新集群的迁移策略...

注册CDH或CDP集群至DataWorks

背景信息 CDH是Cloudera的开源平台发行版,提供开箱即用的集群管理、集群监控、集群诊断等功能,并支持使用多种组件,助力您执行端到端的大数据工作流程。CDP是跨平台收集和整合客户数据的公共数据平台,可帮助您收集实时数据,并将其构建...

配置StarRocks集群以访问高可用数据集群

如果您所使用的数据集群开启了高可用,那么在查询高可用集群中的HDFS数据时,您需要进行额外的配置。建议您按照本文的操作步骤来配置StarRocks集群,以实现HDFS的高可用性。前提条件 已创建包含了HDFS服务,并且开启了服务高可用的集群...

配置StarRocks集群以访问高安全数据集群

如果您所使用的数据集群开启了Kerberos身份认证,那么在查询高安全集群数据时,您需要使用正确的Kerberos凭证进行身份验证。为了确保您具有合适的权限来访问数据,建议您按照本文的操作步骤来配置StarRocks集群。前提条件 已创建包含了HDFS...

准备工作:获取CDH或CDP集群信息并配置网络连通

背景信息 CDH是Cloudera的开源平台发行版,提供开箱即用的集群管理、集群监控、集群诊断等功能,并支持使用多种组件,助力您执行端到端的大数据工作流程。CDP是跨平台收集和整合客户数据的公共数据平台,可帮助您收集实时数据,并将其构建...

为Spark集群设置元数据

EMR on ACK支持使用数据湖元数据DLF(Data Lake Formation)和自建Hive Metastore元数据两种方式,为Spark集群设置元数据。本文为您介绍如何在EMR on ACK中设置Spark集群的元数据。背景信息 因为数据湖元数据DLF具有高可用和易维护的特点,...

创建集群

本文为您介绍在EMR on ECS上创建集群的操作步骤和相关配置,帮助您快速搭建和管理大数据集群。说明 如果您在2022年12月19日17点(UTC+8)以后第一次创建EMR集群,则不能选择Hadoop、Data Science、Presto、Zookeeper集群类型。前提条件 已...

EMR+DLF数据湖解决方案

步骤三:初始化数据 初始化数据一般常见的几种情况如下:已有大数据集群,需要进行数据迁移,此时可以考虑通过 Jindo DistCp 工具将老集群的数据迁移到OSS中。从RDS/MySQL/Kafka 等业务系统接入数据,此时可以考虑通过实时计算Flink实现...

集群自定义监控报表

集群数据库 io_write_rt SSStore 每次写入平均耗时 集群数据库 io_read_size SSStore 每秒读取数据集群数据库 io_size SSStore 每秒处理数据集群数据库 io_write_size SSStore 每秒写入数据集群数据库 transaction_multi_...

HDFS与ClickHouse间的数据导入与导出

本文为您介绍如何将HDFS中的数据导入至ClickHouse集群以及如何从ClickHouse集群导出数据到HDFS。前提条件 已创建Hadoop集群,详情请参见 创建集群。已创建ClickHouse集群,详情请参见 创建ClickHouse集群。注意事项 本文代码示例中HDFS URL...

集群容灾能力

本文介绍E-MapReduce集群数据容灾和服务容灾能力。数据容灾 在Hadoop分布式文件系统(HDFS)中,每一个文件的数据均是分块存储的,每一个数据块保存有多个副本(默认为3),并且尽量保证这些数据块副本分布在不同的机架之上。一般情况下,...

创建Data Science集群

集群类型 Data Science:主要面向大数据+AI场景,提供Hive和Spark离线大数据ETL和TensorFlow模型训练,您可以选择CPU+GPU的异构计算框架,通过英伟达GPU对部分深度学习算法进行高性能计算。产品版本 默认最新的软件版本。组件版本 展示集群...

新功能发布记录

2024-03-14 管理尽力交付 2023年 2023年10月 功能名称 功能概述 发布时间 相关文档 EMR正式支持倚天云服务器 阿里云E-MapReduce(简称EMR)支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下,具有更高的性...

从Spark导入数据至ClickHouse

本文为您介绍如何将Spark中的数据导入至ClickHouse集群。前提条件 已创建Hadoop集群,详情请参见 创建集群。已创建ClickHouse集群,详情请参见 创建ClickHouse集群。背景信息 关于Spark的更多介绍,请参见 概述。代码示例 代码示例如下。...

从Flink导入数据至ClickHouse

本文为您介绍如何将Flink中的数据导入至ClickHouse集群。前提条件 已创建Flink集群,详情请参见 创建集群。已创建ClickHouse集群,详情请参见 创建ClickHouse集群。背景信息 关于Flink的更多介绍,请参见 Apache Flink。代码示例 代码示例...

EMR元数据迁移到数据湖构建(DLF)

适用场景 从其他大数据集群迁移到阿里云E-MapReduce产品。从阿里云EMR老集群(MySQL做元数据),整体集群需要迁移到阿里云EMR新集群(DLF做元数据)。从阿里云EMR老集群(MySQL做元数据),仅元数据修改为DLF。说明 仅EMR-3.33及后续版本、...

什么是EMR on ECS

与自建Hadoop集群对比 开源大数据开发平台EMR与自建Hadoop集群的优势对比如下表所示。对比项 阿里云EMR 自建Hadoop集群 成本 支持按量和包年包月付费方式,集群资源支持灵活调整,数据分层存储,资源使用率高。无额外软件License费用。需...

开发前准备:绑定数据源或集群

若您要在DataWorks中进行数据建模、数据开发或使用运维中心周期性调度任务,需先将已创建的数据源或集群绑定至数据开发(DataStudio)模块。绑定后,才可读取数据源或集群中的数据,并进行相关开发操作。前提条件 您需根据后续要开发和调度...

快速使用EMR on ACK

重要 创建Spark集群后,如果您需要关联集群,则所选产品版本的大版本号需要和关联的Shuffle Service集群大版本号一致。例如,EMR-5.x-ack版本的Spark集群只能关联EMR-5.x-ack版本的Shuffle Service集群。产品版本 EMR-5.6.0-ack 默认最新的...

创建Gateway集群

您可以通过Gateway集群实现负载均衡和安全隔离,也可以通过Gateway集群向E-MapReduce集群提交作业。本文为您介绍如何在E-MapReduce中创建Gateway集群。前提条件 已经在E-MapReduce中创建了Hadoop集群或Kafka集群,详情请参见 创建集群。...

在EMR集群运行TPC-DS Benchmark

TPC-DS官方工具只包含SQL生成器以及单机版数据生成工具,并不适合大数据场景,所以本文教程中使用的工具和集群信息如下:Hive TPC-DS Benchmark测试工具。该工具是业界最常用的测试工具,是由Hortonworks公司开发,支持使用Hive和Spark运行...

E-MapReduce数据迁移方案

在开发过程中我们通常会碰到需要迁移数据的场景,本文介绍如何将自建集群数据迁移到E-MapReduce集群中。背景信息 适用范围:线下Hadoop到E-MapReduce迁移。线上ECS自建Hadoop到E-MapReduce迁移。迁移场景:HDFS增量上游数据源包括RDS增量...

创建集群

重要 创建Spark集群后,如果您需要关联集群,则所选产品版本的大版本号需要和关联的Shuffle Service集群大版本号一致。例如,EMR-5.x-ack版本的Spark集群只能关联EMR-5.x-ack版本的Shuffle Service集群。Flink:是一个在有界或无界数据流上...

释放集群

请谨慎操作,因为一旦释放集群数据将无法恢复。前提条件 按量付费的集群,请确保待释放集群的状态是创建中、运行中或空闲中。包年包月的集群,请确保集群的状态为运行中或启动失败,且集群不存在任何ECS实例。释放ECS实例,请参见 释放...

Hive统一元数据

EMR上可以支持将数据存放在阿里云OSS中,在大数据量的情况下将数据存储在OSS上会大大降低使用的成本,EMR集群主要用来作为计算资源,在计算完成之后可以随时释放,数据在OSS上,同时也不用再考虑元数据迁移的问题。数据共享。使用统一的...

创建EMR Studio集群

数据开发存储 EMR Studio集群数据都会存在OSS上,即使您的EMR Studio集群销毁了,您可以通过重新创建集群来恢复原有集群的状态(包括您的Notebook以及Airflow调度的作业),并且代码和配置都不会丢失。EMR Studio集群会在您所选OSS路径下...

场景:注册跨账号的EMR集群

该操作必须通过RAM角色访问的方式执行。...创建EMR集群,详情请参见 创建集群。...基于该集群进行数据集成同步操作。详情请参见 数据集成概述。进入运维中心、数据地图,查看集群的更多详细信息。详情请参见 运维中心概述、数据地图概述。

在工作空间创建数据源或注册集群

工作空间创建完成后,您需要先将您的数据库或数据仓库,通过创建数据源的方式添加至DataWorks工作空间,或将您的集群注册至DataWorks工作空间,以便进行数据同步、数据分析与开发、数据调度等操作。本文主要以使用正式开发环境为例,为您...

JindoFS缓存模式

元数据同步策略 缓存模式下可能存在JindoFS集群构建之前,您已经在OSS上保存了大量数据的场景,对于这种场景,后续的数据访问会同步数据和元数据到JindoFS集群数据同步策略为了访问数据都会在本地保留一份;元数据同步策略分为两部分,...

数据迁移

本文为您介绍如何迁移自建Kudu集群数据到E-MapReduce上的Hadoop集群。前提条件 您已自建Kudu集群。已创建E-MapReduce的Hadoop集群,并选择了Kudu服务,详情请参见 创建集群。背景信息 EMR Kudu支持社区1.10以及1.11版本,可以使用社区...

Trino扩缩容

包含Trino组件的集群,当查询速度不符合数据处理要求,或某些查询超出内存总量限制,且调整配置参数也不足以应对使用场景时,可以尝试进行扩容,通过新增Worker节点数的方式来增加Worker数量,从而满足业务需求。当业务高峰期已过或者当...

DataWorks on EMR集群配置最佳实践

DataWorks支持绑定EMR(E-MapReduce)的DataLake(新版数据湖)集群为EMR计算引擎,创建Hive、MR、Presto和Spark SQL等节点,实现EMR任务工作流的配置、定时调度和元数据管理等功能,帮助EMR用户更好地产出数据。本文为您介绍在DataWorks上...

扩容磁盘

当E-MapReduce集群数据存储空间不足时,您可以根据本文进行磁盘(数据盘)扩容。本文为您介绍如何对数据盘进行扩容。前提条件 已在E-MapReduce控制台创建集群,详情请参见 创建集群。使用限制 E-MapReduce控制台仅支持数据盘扩容操作,不...

Spark对接Kafka

本文介绍如何在E-MapReduce的Hadoop集群运行Spark Streaming作业,处理Kafka集群数据。背景信息 E-MapReduce上的Hadoop集群和Kafka集群都是基于纯开源软件,相关编程使用方法可参见官方相应文档。Spark官方文档:streaming-kafka-...

集群管理常见问题

本文汇总了集群管理的常见问题。EMR支持哪些地域?EMR集群是否支持升级版本?高可用集群为什么部署3个Master节点?如何开启磁盘加密?开启后有什么影响?如何清理创建失败的集群?创建集群时报错“ECS库存不足”,该如何处理?是否支持磁盘...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库专属集群 数据库备份 云数据库 RDS 云数据库 Redis 版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用