集群大数据-集群大数据文档介绍内容-阿里云

创建集群

数据分析（OLAP）：将海量数据通过导入或者外表等形式引入到OLAP分析引擎里，例如，ClickHouse、StarRocks，提供高效、实时和灵活的数据分析能力，满足用户画像、人群圈选、BI报表和业务分析等一系列的业务场景。实时数据流（DataFlow）：...

开通EMR Doctor（Hadoop集群类型）

通过EMR Doctor，您可以高效地运维大数据集群和服务，持续的优化集群的资源使用率，使集群处于健康稳定的状态，更好的为上层业务提供计算服务。EMR Doctor目前提供两大块服务：集群健康日报：对存储和计算引擎进行分析，对集群进行全面的...

数据湖集群

E-MapReduce（简称EMR）新版控制台提供了数据湖集群，一个更灵活、可靠，以及高效的大数据计算集群。同时，您可以基于该集群轻松构建一个可扩展的数据管道。本文为您介绍数据湖集群支持的特性，以及与旧版Hadoop集群之间的差异。数据湖集群...

集群自定义监控报表

集群数据库 transaction_commit_rt 事务平均提交耗时 集群数据库 transaction_rollback_rt 事务平均回滚耗时 集群数据库 transaction_rt 事务平均处理耗时 集群数据库 active_session 当前活跃会话数 集群数据库 all_session 当前会话数 ...

EMR+DLF数据湖解决方案

以上两个步骤完成后，您的整个EMR集群的数据访问将会受到数据权限控制，如果没有权限的用户访问集群数据，将会被拒绝。此时可以参考DLF的新增授权，为相应的用户配置合理的数据权限。步骤六（可选）：使用生命周期对数据湖存储进行合理...

EMR Doctor概述

E-MapReduce Doctor（简称EMR Doctor）是E-MapReduce产品自研的面向开源大数据集群的智能运维诊断系统。通过EMR Doctor（即集群管理页面的“健康检查”功能）可以全局了解集群的健康状况和动态走势，为运维决策和资源优化提供有力的信息...

新功能发布记录

2022-07-18 使用ECI弹性调度Flink作业 2022年6月功能名称功能概述发布时间相关文档数据湖集群 E-MapReduce（简称EMR）新版控制台提供了数据湖集群，一个更灵活、可靠，以及高效的大数据计算集群。2022-06-01 数据湖集群 Spark集群关联...

注册EMR集群至DataWorks

背景信息开源大数据开发平台 E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还...

基于Hadoop集群支持Delta Lake或Hudi存储机制

步骤三：基于MaxCompute实时分析Hadoop集群数据基于已创建的MaxCompute项目以及Hadoop集群表数据，创建External Project，用于Hadoop集群，并映射至已创建的MaxCompute项目。后续可通过映射的MaxCompute项目对External Project进行数据...

Hadoop集群迁移至DataLake集群

数据迁移在新集群创建完成后，根据新旧集群不同的存储方式，提供以下迁移方式，以确保旧集群数据能够顺利且准确地迁移到新集群中。旧集群存储新平台存储迁移方式 OSS OSS 无需迁移数据。OSS OSS-HDFS 使用 JindoDistCp使用说明工具进行...

设置集群身份映射

配置该类型映射后，与 Kerberos账号存在映射关系的云账号即拥有相同的CDH集群数据访问权限。前提条件请提前创建所需映射的CDH集群账号。使用Kerberos账号映射前，请确保集群已开启Kerberos服务。使用OPEN LDAP账号映射前，请确保集群已...

配置StarRocks集群以访问高安全数据集群

如果您所使用的数据集群开启了Kerberos身份认证，那么在查询高安全集群数据时，您需要使用正确的Kerberos凭证进行身份验证。为了确保您具有合适的权限来访问数据，建议您按照本文的操作步骤来配置StarRocks集群。前提条件已创建包含了HDFS...

迁移方案

对接自建平台如果您自建了一套大数据平台，则DataFlow集群也可以轻松集成进您现有的平台中：资源管理与运维 DataFlow集群基于YARN进行资源调度与管理，因此只需要按照集成YARN集群到已有平台的通常操作进行即可。您可以根据需要配置YARN...

配置StarRocks集群以访问高可用数据集群

如果您所使用的数据集群开启了高可用，那么在查询高可用集群中的HDFS数据时，您需要进行额外的配置。建议您按照本文的操作步骤来配置StarRocks集群，以实现HDFS的高可用性。前提条件已创建包含了HDFS服务，并且开启了服务高可用的集群...

集群容灾能力

本文介绍E-MapReduce集群数据容灾和服务容灾能力。数据容灾在Hadoop分布式文件系统（HDFS）中，每一个文件的数据均是分块存储的，每一个数据块保存有多个副本（默认为3），并且尽量保证这些数据块副本分布在不同的机架之上。一般情况下，...

从Flink导入数据至ClickHouse

参数说明 dbName ClickHouse集群数据库的名称，默认为default。本文示例为 clickhouse_database_name。tableName ClickHouse集群数据库中表的名称。本文示例为 clickhouse_table_name_all。ckHost ClickHouse集群的Master节点的内网IP地址...

DataFlow集群通过Hive Catalog连接数据湖元数据DLF

EMR-3.38.3及后续版本的EMR集群可以使用数据湖元数据DLF（Data Lake Formation）服务对集群数据进行统一管理，EMR中的Flink组件在开源Flink基础上增加了与DLF适配的功能。本文为您介绍如何在EMR集群上通过Flink SQL创建Hive Catalog连接到...

创建Data Science集群

集群类型 Data Science：主要面向大数据+AI场景，提供Hive和Spark离线大数据ETL和TensorFlow模型训练，您可以选择CPU+GPU的异构计算框架，通过英伟达GPU对部分深度学习算法进行高性能计算。产品版本默认最新的软件版本。组件版本展示集群...

使用独立的Trino集群

背景信息在使用开源大数据平台E-MapReduce控制台时，您可以在创建DataLake集群、自定义集群或Hadoop集群时选择Trino服务，或者创建独立的Trino集群使用Trino服务。Trino集群具备以下特点：Trino独享集群资源，受其他组件干扰少。支持弹性...

开发前准备：绑定数据源或集群

若您要在DataWorks中进行数据建模、数据开发或使用运维中心周期性调度任务，需先将已创建的数据源或集群绑定至数据开发（DataStudio）模块。绑定后，才可读取数据源或集群中的数据，并进行相关开发操作。前提条件您需根据后续要开发和调度...

快速使用EMR on ACK

集群类型 Spark 通用的分布式大数据处理引擎，提供了ETL、离线批处理和数据建模等能力。重要创建Spark集群后，如果您需要关联集群，则所选产品版本的大版本号需要和关联的Shuffle Service集群大版本号一致。例如，EMR-5.x-ack版本的Spark...

功能特性

此外，OceanBase 数据库支持超大规模集群（节点超过 1500 台，最大单集群数据量超过 3 PB，单表数量达到万亿行级别）动态扩展，在 TPC-C 场景中，系统扩展比可以达到 1:0.9，使用户投资的硬件成本被最大化的利用。高可用 OceanBase 数据库...

场景：注册跨账号的EMR集群

该操作必须通过RAM角色访问的方式执行。...创建EMR集群，详情请参见创建集群。...基于该集群进行数据集成同步操作。详情请参见数据集成概述。进入运维中心、数据地图，查看集群的更多详细信息。详情请参见运维中心概述、数据地图概述。

释放集群

请谨慎操作，因为一旦释放集群，数据将无法恢复。前提条件按量付费的集群，请确保待释放集群的状态是创建中、运行中或空闲中。包年包月的集群，请确保集群的状态为运行中或启动失败，且集群不存在任何ECS实例。释放ECS实例，请参见释放...

创建Gateway集群

您可以通过Gateway集群实现负载均衡和安全隔离，也可以通过Gateway集群向E-MapReduce集群提交作业。本文为您介绍如何在E-MapReduce中创建Gateway集群。前提条件已经在E-MapReduce中创建了Hadoop集群或Kafka集群，详情请参见创建集群。...

在EMR集群运行TPC-DS Benchmark

TPC-DS官方工具只包含SQL生成器以及单机版数据生成工具，并不适合大数据场景，所以本文教程中使用的工具和集群信息如下：Hive TPC-DS Benchmark测试工具。该工具是业界最常用的测试工具，是由Hortonworks公司开发，支持使用Hive和Spark运行...

E-MapReduce数据迁移方案

在开发过程中我们通常会碰到需要迁移数据的场景，本文介绍如何将自建集群数据迁移到E-MapReduce集群中。背景信息适用范围：线下Hadoop到E-MapReduce迁移。线上ECS自建Hadoop到E-MapReduce迁移。迁移场景：HDFS增量上游数据源包括RDS增量...

数据迁移

本文为您介绍如何迁移自建Kudu集群的数据到E-MapReduce上的Hadoop集群。前提条件您已自建Kudu集群。已创建E-MapReduce的Hadoop集群，并选择了Kudu服务，详情请参见创建集群。背景信息 EMR Kudu支持社区1.10以及1.11版本，可以使用社区...

扩容磁盘

当E-MapReduce集群的数据存储空间不足时，您可以根据本文进行磁盘（数据盘）扩容。本文为您介绍如何对数据盘进行扩容。前提条件已在E-MapReduce控制台创建集群，详情请参见创建集群。使用限制 E-MapReduce控制台仅支持数据盘扩容操作，不...

注册CDH或CDP集群至DataWorks

背景信息 CDH是Cloudera的开源平台发行版，提供开箱即用的集群管理、集群监控、集群诊断等功能，并支持使用多种组件，助力您执行端到端的大数据工作流程。CDP是跨平台收集和整合客户数据的公共数据平台，可帮助您收集实时数据，并将其构建...

JindoFS缓存模式

元数据同步策略缓存模式下可能存在JindoFS集群构建之前，您已经在OSS上保存了大量数据的场景，对于这种场景，后续的数据访问会同步数据和元数据到JindoFS集群，数据同步策略为了访问数据都会在本地保留一份；元数据同步策略分为两部分，...

Hive统一元数据

EMR上可以支持将数据存放在阿里云OSS中，在大数据量的情况下将数据存储在OSS上会大大降低使用的成本，EMR集群主要用来作为计算资源，在计算完成之后可以随时释放，数据在OSS上，同时也不用再考虑元数据迁移的问题。数据共享。使用统一的...

创建EMR Studio集群

数据开发存储 EMR Studio集群的数据都会存在OSS上，即使您的EMR Studio集群销毁了，您可以通过重新创建集群来恢复原有集群的状态（包括您的Notebook以及Airflow调度的作业），并且代码和配置都不会丢失。EMR Studio集群会在您所选OSS路径下...

创建集群

重要当创建Shuffle Service集群类型时，所关联ACK集群的专属节点池或节点的实例规格必须均为大数据型或者本地SSD，否则部署RSS失败。说明在阿里云EMR for ACK的使用场景中，针对Shuffle Service类型的集群，系统内置了一个名为“rss-pvc-...

使用MirrorMaker 2（on Connect）跨集群同步数据

本文通过示例为您介绍如何使用MirrorMaker 2（简称MM2）on Kafka Connect跨集群同步数据。背景信息使用场景 Kafka MM2适用于下列场景：远程数据同步：通过MM2，Kafka数据可以在不同地域的集群进行传输复制。灾备场景：通过MM2，可以构建...

在工作空间创建数据源或注册集群

工作空间创建完成后，您需要先将您的数据库或数据仓库，通过创建数据源的方式添加至DataWorks工作空间，或将您的集群注册至DataWorks工作空间，以便进行数据同步、数据分析与开发、数据调度等操作。本文主要以使用正式开发环境为例，为您...

Spark对接Kafka

本文介绍如何在E-MapReduce的Hadoop集群运行Spark Streaming作业，处理Kafka集群的数据。背景信息 E-MapReduce上的Hadoop集群和Kafka集群都是基于纯开源软件，相关编程使用方法可参见官方相应文档。Spark官方文档：streaming-kafka-...

存储说明

本文介绍E-MapReduce集群中数据存储相关的信息，包括磁盘角色、云盘与本地盘，以及OSS。背景信息关于存储的类型、性能和相关的限制信息，请参见什么是块存储。存储价格估算如下：本地盘实例存储为0.04 元/GB/月 OSS标准型存储为0.12 元/...

从Kafka导入数据至ClickHouse

您可以通过Kafka表引擎导入数据至ClickHouse集群。本文为您介绍如何将Kafka中的数据导入至ClickHouse集群。前提条件已创建DataFlow集群，且选择了Kafka服务，详情请参见创建集群。已创建ClickHouse集群，详情请参见创建集群。使用限制 ...

HDFS与ClickHouse间的数据导入与导出

HDFS集群数据导入至ClickHouse集群步骤一：创建业务表使用SSH方式登录ClickHouse集群，详情请参见登录集群。执行以下命令，进入ClickHouse客户端。clickhouse-client-h core-1-1-m 说明本示例登录core-1-1节点，如果您有多个Core节点，...

集群大数据

新品推荐