数据分析(OLAP):将海量数据通过导入或者外表等形式引入到OLAP分析引擎里,例如,ClickHouse、StarRocks,提供高效、实时和灵活的数据分析能力,满足用户画像、人群圈选、BI报表和业务分析等一系列的业务场景。实时数据流(DataFlow):...
通过EMR Doctor,您可以高效地运维大数据集群和服务,持续的优化集群的资源使用率,使集群处于健康稳定的状态,更好的为上层业务提供计算服务。EMR Doctor目前提供两大块服务:集群健康日报:对存储和计算引擎进行分析,对集群进行全面的...
E-MapReduce(简称EMR)新版控制台提供了数据湖集群,一个更灵活、可靠,以及高效的大数据计算集群。同时,您可以基于该集群轻松构建一个可扩展的数据管道。本文为您介绍数据湖集群支持的特性,以及与旧版Hadoop集群之间的差异。数据湖集群...
集群数据库 transaction_commit_rt 事务平均提交耗时 集群数据库 transaction_rollback_rt 事务平均回滚耗时 集群数据库 transaction_rt 事务平均处理耗时 集群数据库 active_session 当前活跃会话数 集群数据库 all_session 当前会话数 ...
以上两个步骤完成后,您的整个EMR集群的数据访问将会受到数据权限控制,如果没有权限的用户访问集群数据,将会被拒绝。此时可以参考DLF的 新增授权,为相应的用户配置合理的数据权限。步骤六(可选):使用生命周期对数据湖存储进行合理...
E-MapReduce Doctor(简称EMR Doctor)是E-MapReduce产品自研的面向开源大数据集群的智能运维诊断系统。通过EMR Doctor(即集群管理页面的“健康检查”功能)可以全局了解集群的健康状况和动态走势,为运维决策和资源优化提供有力的信息...
2022-07-18 使用ECI弹性调度Flink作业 2022年6月 功能名称 功能概述 发布时间 相关文档 数据湖集群 E-MapReduce(简称EMR)新版控制台提供了数据湖集群,一个更灵活、可靠,以及高效的大数据计算集群。2022-06-01 数据湖集群 Spark集群关联...
背景信息 开源大数据开发平台 E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还...
步骤三:基于MaxCompute实时分析Hadoop集群数据 基于已创建的MaxCompute项目以及Hadoop集群表数据,创建External Project,用于Hadoop集群,并映射至已创建的MaxCompute项目。后续可通过映射的MaxCompute项目对External Project进行数据...
数据迁移 在新集群创建完成后,根据新旧集群不同的存储方式,提供以下迁移方式,以确保旧集群数据能够顺利且准确地迁移到新集群中。旧集群存储 新平台存储 迁移方式 OSS OSS 无需迁移数据。OSS OSS-HDFS 使用 JindoDistCp使用说明 工具进行...
配置该类型映射后,与 Kerberos账号 存在映射关系的 云账号 即拥有相同的CDH集群数据访问权限。前提条件 请提前创建所需映射的CDH集群账号。使用Kerberos账号映射前,请确保集群已开启Kerberos服务。使用OPEN LDAP账号映射前,请确保集群已...
如果您所使用的数据集群开启了Kerberos身份认证,那么在查询高安全集群数据时,您需要使用正确的Kerberos凭证进行身份验证。为了确保您具有合适的权限来访问数据,建议您按照本文的操作步骤来配置StarRocks集群。前提条件 已创建包含了HDFS...
对接自建平台 如果您自建了一套大数据平台,则DataFlow集群也可以轻松集成进您现有的平台中:资源管理与运维 DataFlow集群基于YARN进行资源调度与管理,因此只需要按照集成YARN集群到已有平台的通常操作进行即可。您可以根据需要配置YARN...
如果您所使用的数据集群开启了高可用,那么在查询高可用集群中的HDFS数据时,您需要进行额外的配置。建议您按照本文的操作步骤来配置StarRocks集群,以实现HDFS的高可用性。前提条件 已创建包含了HDFS服务,并且开启了服务高可用的集群...
本文介绍E-MapReduce集群数据容灾和服务容灾能力。数据容灾 在Hadoop分布式文件系统(HDFS)中,每一个文件的数据均是分块存储的,每一个数据块保存有多个副本(默认为3),并且尽量保证这些数据块副本分布在不同的机架之上。一般情况下,...
参数 说明 dbName ClickHouse集群数据库的名称,默认为default。本文示例为 clickhouse_database_name。tableName ClickHouse集群数据库中表的名称。本文示例为 clickhouse_table_name_all。ckHost ClickHouse集群的Master节点的内网IP地址...
EMR-3.38.3及后续版本的EMR集群可以使用数据湖元数据DLF(Data Lake Formation)服务对集群数据进行统一管理,EMR中的Flink组件在开源Flink基础上增加了与DLF适配的功能。本文为您介绍如何在EMR集群上通过Flink SQL创建Hive Catalog连接到...
集群类型 Data Science:主要面向大数据+AI场景,提供Hive和Spark离线大数据ETL和TensorFlow模型训练,您可以选择CPU+GPU的异构计算框架,通过英伟达GPU对部分深度学习算法进行高性能计算。产品版本 默认最新的软件版本。组件版本 展示集群...
背景信息 在使用开源大数据平台E-MapReduce控制台时,您可以在创建DataLake集群、自定义集群或Hadoop集群时选择Trino服务,或者创建独立的Trino集群使用Trino服务。Trino集群具备以下特点:Trino独享集群资源,受其他组件干扰少。支持弹性...
若您要在DataWorks中进行数据建模、数据开发或使用运维中心周期性调度任务,需先将已创建的数据源或集群绑定至数据开发(DataStudio)模块。绑定后,才可读取数据源或集群中的数据,并进行相关开发操作。前提条件 您需根据后续要开发和调度...
集群类型 Spark 通用的分布式大数据处理引擎,提供了ETL、离线批处理和数据建模等能力。重要 创建Spark集群后,如果您需要关联集群,则所选产品版本的大版本号需要和关联的Shuffle Service集群大版本号一致。例如,EMR-5.x-ack版本的Spark...
此外,OceanBase 数据库支持超大规模集群(节点超过 1500 台,最大单集群数据量超过 3 PB,单表数量达到万亿行级别)动态扩展,在 TPC-C 场景中,系统扩展比可以达到 1:0.9,使用户投资的硬件成本被最大化的利用。高可用 OceanBase 数据库...
该操作必须通过RAM角色访问的方式执行。...创建EMR集群,详情请参见 创建集群。...基于该集群进行数据集成同步操作。详情请参见 数据集成概述。进入运维中心、数据地图,查看集群的更多详细信息。详情请参见 运维中心概述、数据地图概述。
请谨慎操作,因为一旦释放集群,数据将无法恢复。前提条件 按量付费的集群,请确保待释放集群的状态是创建中、运行中或空闲中。包年包月的集群,请确保集群的状态为运行中或启动失败,且集群不存在任何ECS实例。释放ECS实例,请参见 释放...
您可以通过Gateway集群实现负载均衡和安全隔离,也可以通过Gateway集群向E-MapReduce集群提交作业。本文为您介绍如何在E-MapReduce中创建Gateway集群。前提条件 已经在E-MapReduce中创建了Hadoop集群或Kafka集群,详情请参见 创建集群。...
TPC-DS官方工具只包含SQL生成器以及单机版数据生成工具,并不适合大数据场景,所以本文教程中使用的工具和集群信息如下:Hive TPC-DS Benchmark测试工具。该工具是业界最常用的测试工具,是由Hortonworks公司开发,支持使用Hive和Spark运行...
在开发过程中我们通常会碰到需要迁移数据的场景,本文介绍如何将自建集群数据迁移到E-MapReduce集群中。背景信息 适用范围:线下Hadoop到E-MapReduce迁移。线上ECS自建Hadoop到E-MapReduce迁移。迁移场景:HDFS增量上游数据源包括RDS增量...
本文为您介绍如何迁移自建Kudu集群的数据到E-MapReduce上的Hadoop集群。前提条件 您已自建Kudu集群。已创建E-MapReduce的Hadoop集群,并选择了Kudu服务,详情请参见 创建集群。背景信息 EMR Kudu支持社区1.10以及1.11版本,可以使用社区...
当E-MapReduce集群的数据存储空间不足时,您可以根据本文进行磁盘(数据盘)扩容。本文为您介绍如何对数据盘进行扩容。前提条件 已在E-MapReduce控制台创建集群,详情请参见 创建集群。使用限制 E-MapReduce控制台仅支持数据盘扩容操作,不...
背景信息 CDH是Cloudera的开源平台发行版,提供开箱即用的集群管理、集群监控、集群诊断等功能,并支持使用多种组件,助力您执行端到端的大数据工作流程。CDP是跨平台收集和整合客户数据的公共数据平台,可帮助您收集实时数据,并将其构建...
元数据同步策略 缓存模式下可能存在JindoFS集群构建之前,您已经在OSS上保存了大量数据的场景,对于这种场景,后续的数据访问会同步数据和元数据到JindoFS集群,数据同步策略为了访问数据都会在本地保留一份;元数据同步策略分为两部分,...
EMR上可以支持将数据存放在阿里云OSS中,在大数据量的情况下将数据存储在OSS上会大大降低使用的成本,EMR集群主要用来作为计算资源,在计算完成之后可以随时释放,数据在OSS上,同时也不用再考虑元数据迁移的问题。数据共享。使用统一的...
数据开发存储 EMR Studio集群的数据都会存在OSS上,即使您的EMR Studio集群销毁了,您可以通过重新创建集群来恢复原有集群的状态(包括您的Notebook以及Airflow调度的作业),并且代码和配置都不会丢失。EMR Studio集群会在您所选OSS路径下...
重要 当创建Shuffle Service集群类型时,所关联ACK集群的专属节点池或节点的实例规格必须均为大数据型或者本地SSD,否则部署RSS失败。说明 在阿里云EMR for ACK的使用场景中,针对Shuffle Service类型的集群,系统内置了一个名为“rss-pvc-...
本文通过示例为您介绍如何使用MirrorMaker 2(简称MM2)on Kafka Connect跨集群同步数据。背景信息 使用场景 Kafka MM2适用于下列场景:远程数据同步:通过MM2,Kafka数据可以在不同地域的集群进行传输复制。灾备场景:通过MM2,可以构建...
工作空间创建完成后,您需要先将您的数据库或数据仓库,通过创建数据源的方式添加至DataWorks工作空间,或将您的集群注册至DataWorks工作空间,以便进行数据同步、数据分析与开发、数据调度等操作。本文主要以使用正式开发环境为例,为您...
本文介绍如何在E-MapReduce的Hadoop集群运行Spark Streaming作业,处理Kafka集群的数据。背景信息 E-MapReduce上的Hadoop集群和Kafka集群都是基于纯开源软件,相关编程使用方法可参见官方相应文档。Spark官方文档:streaming-kafka-...
本文介绍E-MapReduce集群中数据存储相关的信息,包括磁盘角色、云盘与本地盘,以及OSS。背景信息 关于存储的类型、性能和相关的限制信息,请参见 什么是块存储。存储价格估算如下:本地盘实例存储为0.04 元/GB/月 OSS标准型存储为0.12 元/...
您可以通过Kafka表引擎导入数据至ClickHouse集群。本文为您介绍如何将Kafka中的数据导入至ClickHouse集群。前提条件 已创建DataFlow集群,且选择了Kafka服务,详情请参见 创建集群。已创建ClickHouse集群,详情请参见 创建集群。使用限制 ...
HDFS集群数据导入至ClickHouse集群 步骤一:创建业务表 使用SSH方式登录ClickHouse集群,详情请参见 登录集群。执行以下命令,进入ClickHouse客户端。clickhouse-client-h core-1-1-m 说明 本示例登录core-1-1节点,如果您有多个Core节点,...