集群大数据-集群大数据文档介绍内容-阿里云

为Spark集群设置元数据

EMR on ACK支持使用数据湖元数据DLF（Data Lake Formation）和自建Hive Metastore元数据两种方式，为Spark集群设置元数据。本文为您介绍如何在EMR on ACK中设置Spark集群的元数据。背景信息因为数据湖元数据DLF具有高可用和易维护的特点，...

从Spark导入数据至ClickHouse

参数说明 dbName ClickHouse集群数据库的名称，默认为default。本文示例为 clickhouse_database_name。tableName ClickHouse集群数据库中表的名称。本文示例为 clickhouse_table_name_all。ckHost ClickHouse集群的Master节点的内网IP地址...

什么是EMR on ACK

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。形态对比阿里云EMR提供on ECS和on ACK两种方式，以...

准备工作：获取CDH或CDP集群信息并配置网络连通

背景信息 CDH是Cloudera的开源平台发行版，提供开箱即用的集群管理、集群监控、集群诊断等功能，并支持使用多种组件，助力您执行端到端的大数据工作流程。CDP是跨平台收集和整合客户数据的公共数据平台，可帮助您收集实时数据，并将其构建...

Trino扩缩容

包含Trino组件的集群，当查询速度不符合数据处理要求，或某些大查询超出内存总量限制，且调整配置参数也不足以应对使用场景时，可以尝试进行扩容，通过新增Worker节点数的方式来增加Worker数量，从而满足业务需求。当业务高峰期已过或者当...

什么是EMR on ECS

EMR on ECS将EMR的大数据处理功能与ECS的容器化部署优势相结合，使得您可以更加灵活地配置和管理EMR集群，从而更好地适应复杂的数据处理和分析场景。通过EMR on ECS，您可以快速创建、管理和运维EMR集群，同时也能够更加高效地使用计算和...

集群管理常见问题

您可以在创建集群页面基础配置阶段的高级配置区域，选择是否开启数据盘加密，详情请参见开启数据盘加密。重要仅支持在创建集群时开启数据盘加密，集群创建后无法开启该功能。加密数据盘后，数据盘上的动态数据传输以及静态数据都会被...

数据导入Serverless实例

说明实例必须和源HBase集群（数据导出的集群）在同一个VPC内，否则需要做网络打通。如果数据导入是临时行为，可以采用按量付费的方式，在数据导入完成后可以立刻释放BDS实例。如果您在之前已经购买过LTS，则注意LTS版本需要升级到2.5.4...

集群版-单副本

使用场景数据量较大集群版可以有效地扩展数据规模量大小，相比标准版可提供更大的存储量，例如64 GB、128 GB、256 GB集群版，可以有效的满足数据扩展需求。纯缓存应用单副本集群版的分片服务器由单节点组成，分片服务器某节点出现故障时...

使用Druid

对于独立的E-MapReduce Druid集群，如果您需要存放索引数据至一个Hadoop集群的HDFS，请设置两个集群的连通性（详情请参见与Hadoop集群交互）。在E-MapReduce Druid 配置页面的 common.runtime 页签，配置如下参数。参数描述 druid....

开启数据盘加密

加密数据盘后，数据盘上的动态数据传输以及静态数据都会被加密。如果您的业务存在安全合规要求，则可以使用该功能。您无需自建和维护密钥管理基础设施，就能保护数据的隐私性和自主性，为业务数据提供安全边界。背景信息数据盘加密的详细...

创建StarRocks集群

本文为您介绍创建StarRocks集群的详细操作步骤和相关配置。前提条件已在目标地域创建一个专有网络和交换机，详情请参见创建和管理专有网络和创建和管理交换机。操作步骤进入创建集群页面。登录EMR on ECS控制台。可选：在顶部菜单栏处...

查看集群日报与分析

集群总览分析在集群总览信息中，您可以获取以下图表信息：集群健康度评分趋势图集群分区均衡度趋势图集群分区数量分布饼图集群请求数趋势图总表数、总分区数、总节点数、平均负载、总数据量、总读请求数、总写请求数、总请求数 ...

DataWorks on EMR集群配置最佳实践

DataWorks支持绑定EMR（E-MapReduce）的DataLake（新版数据湖）集群为EMR计算引擎，创建Hive、MR、Presto和Spark SQL等节点，实现EMR任务工作流的配置、定时调度和元数据管理等功能，帮助EMR用户更好地产出数据。本文为您介绍在DataWorks上...

为Spark集群关联RSS

目前Spark Shuffle方案缺点如下：Shuffle Write在大数据量场景下会溢出，导致写放大。Shuffle Read过程中存在大量的网络小包导致的Connection reset问题。Shuffle Read过程中存在大量小数据量的IO请求和随机读，对磁盘和CPU造成高负载。...

查看集群信息

保留集群基本配置信息，包括集群名称和集群ID，但是集群不可用。说明配置信息在集群列表中保留7天。释放失败：集群释放失败。已释放：集群已释放。仅保留集群配置信息，不保存集群作业信息。异常：当前集群异常。集群资源使用量显示集群...

集群资源规格评估建议

根据以上参数，可以计算出以下需求指标：集群总写入流量峰值：数据峰值流入*分区副本因子。集群总读取流量峰值：数据峰值流入*（扇出因子+分区副本因子-1）。数据总存储容量：数据平均流入*数据保留时长*分区副本因子。节点规格推荐通常...

多租户和资源划分

Doris的多租户和资源隔离方案，主要目的是为了多用户在同一Doris集群内进行数据操作时，减少相互之间的干扰，能够将集群资源更合理的分配给各用户。该方案主要分为两部分，一是集群内节点级别的资源组划分，二是针对单个查询的资源限制。...

查询高可用集群中的数据

本文为您介绍如何配置StarRocks实例，以查询高可用集群中的数据。前提条件已创建包含了HDFS服务，并且开启了服务高可用的集群（例如DataLake或Custom类型），详情请参见创建集群。已创建StarRocks实例，详情请参见创建实例。操作步骤 ...

配置项说明

注意请谨慎修改该参数值，避免手动更改分片、副本数目及拓扑逻辑，导致集群数据写入或查询出错。相关文档 ClickHouse参数的详情信息，可以参见以下官方文档：Server Settings Settings MergeTree tables settings 后续步骤如果需要修改或...

GetDoctorHBaseCluster-获取 HBase 集群信息

2023-01-01 返回参数名称类型描述示例值 object 返回数据 Data object 返回数据。Metrics object 指标信息。TableCount object 表数量。Name string 指标名称。tableCount Value long 指标值。10 Unit string 指标单位。Description ...

使用说明

本文为您介绍Mars集群上的操作、MaxCompute读取表以及获取Mars UI地址等更多操作。如果您需要了解开发Mars作业的详细操作指导，详情请参见 Mars。Mars集群操作创建Mars集群执行如下命令创建Mars集群。Mars集群的创建过程较慢，请您耐心...

JindoFS块存储模式

应用场景 E-MapReduce目前提供了三种大数据存储系统，E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS，其中OssFileSystem和JindoFS都是云上存储的解决方案，下表为这三种存储系统和开源OSS各自的特点。特点开源OSS E-...

创建DataFlow Kafka集群

由于业务场景差异很大，所以无法给出通用的集群规划，您需要根据您的实际环境创建集群。通常，建议您选择机型时考虑以下配置：Broker机型的CPU和内存配比为1：4。选择云盘作为数据存储盘。充分考虑云盘的IO吞吐率以及网卡带宽之间的关系。...

配置弹性伸缩（仅Hadoop集群类型）

规定负载伸缩：如果您无法准确的预估大数据计算的波峰和波谷，则可以使用按负载伸缩配置的策略。伸缩规则分为扩容规则和缩容规则，本示例以扩容规则为例介绍。集群关闭弹性伸缩功能后，所有规则会被清空，再次开启弹性伸缩功能时，需要重新...

Hadoop DistCp介绍

Hadoop DistCp（分布式复制）是一个用于大型集群间或集群内数据复制的工具，通过MapReduce实现复制过程中数据的分发、错误处理、恢复及报告。本文为您介绍Hadoop DistCp与Jindo DistCp的区别、Hadoop DistCp使用方法以及常见问题。说明 ...

创建ClickHouse集群

本文为您介绍创建ClickHouse集群的详细操作步骤和相关配置。背景信息机型、内存和磁盘的设置，请参见 Usage Recommendations。前提条件已在目标地域创建一个专有网络和交换机，详情请参见创建和管理专有网络和创建和管理交换机。操作...

ListDoctorReports-批量获取集群报告

其中''低分任务算力内存时(GB*Sec)Top20 ''表根据内存时使用量进行排序，由于大任务对集群整体影响可能更大，建议优先关注。li><strong><span style=''color：#D93026;''>内存利用率较低</span></strong><ul><li>集群整体内存利用率...

管理节点组（Hadoop、Data science和EMR Studio集群）

例如，内存型实例节点（vCore:vMem=1 vCPU:8 GiB）用于大数据离线处理，计算型实例（vCore:vMem=1 vCPU:2 GiB）用于模型训练。前提条件已在EMR控制台创建Hadoop、Data science或EMR studio集群，详情请参见创建集群。使用限制支持新增...

E-MapReduce快速入门

业务场景数据湖选择适合的业务场景，创建集群时阿里云EMR会自动为您配置默认的组件、服务和资源，以简化集群配置，并提供符合特定业务场景需求的集群环境。产品版本 EMR-5.14.0 当前最新的软件版本。服务高可用不开启默认不开启。打开 ...

JMX连接器

数据表 JMX连接器提供了如下两个Schemas：current：包含了Presto集群中每个节点当前的MBean。MBean的名称即为 current 中的表名，如果MBean的名称中包含非标准字符，则需要在查询时使用双引号（"）括起来。示例如下：列出运行时项目中的...

数据服务集群

DataServing是阿里云E-MapReduce提供的基于Apache HBase的数据服务集群类型。本文为您介绍数据服务集群支持的特性，适用场景以及技术架构。特性介绍 Apache HBase是具有高可靠性、高性能、列存储、可伸缩、实时读写的开源NoSQL分布式系统。...

ListClusters-查询集群

查询EMR集群列表。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权信息当前API暂无授权信息透出。请求参数名称类型必填描述示例值 RegionId...

创建集群模板

在使用数据开发工作流完成作业任务时，如果您只关注作业任务是否完成，可以使用集群模板功能来快速建立集群，调度系统会在工作流启动时按照模板创建一个集群，然后将作业下发到该集群上执行。当工作流结束后，调度系统会自动释放该集群。...

Elasticsearch数据迁移至MaxCompute

本文为您介绍如何通过DataWorks数据同步功能，迁移阿里云Elasticsearch集群上的数据至MaxCompute。前提条件已开通MaxCompute服务。开通指导，详情请参见开通MaxCompute和DataWorks。已开通DataWorks服务。开通指导，详情请参见开通...

通过数据湖元数据DLF读写Hudi

EMR-3.38.3及后续版本的DataFlow集群，可以通过数据湖元数据DLF（Data Lake Formation）作为元数据读取DataLake集群或自定义集群中的数据。本文为您介绍Dataflow集群如何连接DLF，并读取Hudi全量数据。前提条件已在E-MapReduce控制台上...

CreateCluster-创建集群

A7D960FA-6DBA-5E07-8746-A63E3E4D*返回参数名称类型描述示例值 object 返回数据 ClusterId string 集群 ID。c-b933c5aac7f7*OperationId string 操作 ID。op-13c37a77c505*RequestId string 请求 ID。DD6B1B2A-5837-5237-ABE4-FF0C...

整体流程和预估时间

1.5 GB/分钟在新集群中进行数据比对 3~5分钟将新集群的数据迁移到原集群集群大小（换算为KB）×集群规格对应的最大IOPS×15%×16 KB/秒例如，若一个集群（4核16 GB，最大IOPS为32000），集群大小为100 GB，备份集（快照）数据大小为10 ...

概述

数据备份物理空间大小如下图所示：说明 PolarDB 集群数据备份物理空间大小（上图中①所示）：指数据备份的收费对象，物理空间大小是指所有数据备份（快照）独占的物理空间大小之和，PolarDB集群的数据与多个数据备份（快照）会复用相同的...

使用CreateCluster API创建集群

集群类型：ClusterType 集群类型，取值范围如下：DATALAKE：数据湖。OLAP：数据分析。DATAFLOW：实时数据流。DATASERVING：数据服务。CUSTOM：自定义混部集群。HADOOP：旧版数据湖（不推荐使用，建议使用数据湖）对应EMR控制台如下图所示。...

集群大数据

新品推荐