大数据集群维护-大数据集群维护文档介绍内容-阿里云

EMR Doctor概述

E-MapReduce Doctor（简称EMR Doctor）是E-MapReduce产品自研的面向开源大数据集群的智能运维诊断系统。通过EMR Doctor（即集群管理页面的“健康检查”功能）可以全局了解集群的健康状况和动态走势，为运维决策和资源优化提供有力的信息...

EMR+DLF数据湖解决方案

步骤三：初始化数据初始化数据一般常见的几种情况如下：已有大数据集群，需要进行数据迁移，此时可以考虑通过 Jindo DistCp 工具将老集群的数据迁移到OSS中。从RDS/MySQL/Kafka 等业务系统接入数据，此时可以考虑通过实时计算Flink实现...

集群自定义监控报表

集群数据库 io_write_rt SSStore 每次写入平均耗时 集群数据库 io_read_size SSStore 每秒读取数据量 集群数据库 io_size SSStore 每秒处理数据量 集群数据库 io_write_size SSStore 每秒写入数据量 集群数据库 transaction_multi_...

新功能发布记录

2024-03-14 管理尽力交付 2023年 2023年10月功能名称功能概述发布时间相关文档 EMR正式支持倚天云服务器阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性...

创建集群

本文为您介绍在EMR on ECS上创建集群的操作步骤和相关配置，帮助您快速搭建和管理大数据集群。说明如果您在2022年12月19日17点（UTC+8）以后第一次创建EMR集群，则不能选择Hadoop、Data Science、Presto、Zookeeper集群类型。前提条件已...

数据湖集群

E-MapReduce（简称EMR）新版控制台提供了数据湖集群，一个更灵活、可靠，以及高效的大数据计算集群。同时，您可以基于该集群轻松构建一个可扩展的数据管道。本文为您介绍数据湖集群支持的特性，以及与旧版Hadoop集群之间的差异。数据湖集群...

功能特性

分布式事务引擎 OceanBase 数据库的分布式事务引擎严格支持事务的 ACID 属性，并且在整个集群内严格支持数据强一致性，是全球唯一一家通过了标准 TPC-C 测试的原生分布式关系型数据库产品。OceanBase 数据库通过 Paxos 协议将事务日志复制...

什么是EMR on ACK

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。形态对比阿里云EMR提供on ECS和on ACK两种方式，以...

查看或申请连接地址

例如：通过公网访问数据库集群进行维护操作。查看连接地址和端口登录 PolarDB控制台。在控制台左上角，选择集群所在地域。找到目标集群，单击集群ID。在基本信息页面的链接地址区域，您可以通过以下任意一种方式来查看连接地址和端口...

查看或申请连接地址

例如：通过公网访问数据库集群进行维护操作。查看连接地址和端口登录 PolarDB控制台。在控制台左上角，选择集群所在地域。找到目标集群，单击集群ID。在基本信息页面的链接地址区域，您可以通过以下任意一种方式来查看连接地址和端口...

什么是EMR on ECS

EMR on ECS将EMR的大数据处理功能与ECS的容器化部署优势相结合，使得您可以更加灵活地配置和管理EMR集群，从而更好地适应复杂的数据处理和分析场景。通过EMR on ECS，您可以快速创建、管理和运维EMR集群，同时也能够更加高效地使用计算和...

数据导入Serverless实例

大量数据从HBase集群导入Serverless集群由于Serverless实例的写入受到购买CU数的限制，如果大量的数据直接通过API写入Serverless实例可能会花费过多时间和消耗过多CU（根据购买CU量的多少，几十GB，几百GB，或者上TB的数据可以定义为大量...

集群版-单副本

使用场景数据量较大集群版可以有效地扩展数据规模量大小，相比标准版可提供更大的存储量，例如64 GB、128 GB、256 GB集群版，可以有效的满足数据扩展需求。纯缓存应用单副本集群版的分片服务器由单节点组成，分片服务器某节点出现故障时...

数据湖元数据管理

适用场景数据湖元数据具有高可用和易维护的特点，因此适合在如下场景下使用数据湖元数据：Databricks 数据洞察集群的生产环境，您无需维护独立的元数据库。横向使用多种大数据计算引擎，例如Databricks 数据洞察、MaxCompute、EMR等，...

集群状态表

名称状态 Creating 创建中 Running 运行中 Deleting 释放中 Deleted 已释放 Rebooting 重启中 NS_MAINTAINING 集群维护中 Switching 主备节点切换中 DBNodeCreating 正在增加节点 DBNodeDeleting 正在删除节点 ClassChanging 正在变更节点...

集群状态表

名称状态 Creating 创建中 Running 运行中 Deleting 释放中 Deleted 已释放 Rebooting 重启中 NS_MAINTAINING 集群维护中 Switching 主备节点切换中 DBNodeCreating 正在增加节点 DBNodeDeleting 正在删除节点 ClassChanging 正在变更节点...

配置StarRocks集群以访问高可用数据集群

如果您所使用的数据集群开启了高可用，那么在查询高可用集群中的HDFS数据时，您需要进行额外的配置。建议您按照本文的操作步骤来配置StarRocks集群，以实现HDFS的高可用性。前提条件已创建包含了HDFS服务，并且开启了服务高可用的集群...

Hadoop DistCp介绍

Hadoop DistCp（分布式复制）是一个用于大型集群间或集群内数据复制的工具，通过MapReduce实现复制过程中数据的分发、错误处理、恢复及报告。本文为您介绍Hadoop DistCp与Jindo DistCp的区别、Hadoop DistCp使用方法以及常见问题。说明 ...

为Spark集群设置元数据

背景信息因为数据湖元数据DLF具有高可用和易维护的特点，所以以下场景适合使用数据湖元数据：当您的EMR集群均为生产环境时，您无需维护独立的元数据库。横向使用多种大数据计算引擎时，元数据可以集中管理。例如，MaxCompute、Hologres和 ...

访问外部数据源

绑定数据源绑定数据源的本质是打通不同VPC之间的网络，即将数据源集群所在VPC与目标Databricks数据洞察集群所在VPC的网络打通。数据源绑定之后，您可以在Notebook或Spark作业里直接访问对应数据源的数据。说明对于数据源绑定场景，如果多...

API概览

ModifyDBClusterMaintainTime 修改实例集群可维护时间段修改指定云数据库ClickHouse集群的可维护时间段。DescribeAllDataSources 查看数据源查看数据源。DescribeAllDataSource 枚举数据库列表枚举实例下所有数据库列表、表列表和列列表...

读写分离

如果您在云上自行搭建代理层实现读写分离，数据在到达数据库之前需要经历多个组件的语句解析和转发，对响应延迟有较大的影响。而PolarDB读写分离中间件隶属于集群组件，相比外部组件而言，能够有效降低延迟，提升处理速度。节点健康检查，...

概述

数据备份物理空间大小如下图所示：说明 PolarDB 集群数据备份物理空间大小（上图中①所示）：指数据备份的收费对象，物理空间大小是指所有数据备份（快照）独占的物理空间大小之和，PolarDB集群的数据与多个数据备份（快照）会复用相同的...

配置StarRocks集群以访问高安全数据集群

如果您所使用的数据集群开启了Kerberos身份认证，那么在查询高安全集群数据时，您需要使用正确的Kerberos凭证进行身份验证。为了确保您具有合适的权限来访问数据，建议您按照本文的操作步骤来配置StarRocks集群。前提条件已创建包含了HDFS...

概述

数据备份物理空间大小如下图所示：说明 PolarDB 集群数据备份物理空间大小（上图中①所示）：指数据备份的收费对象，物理空间大小是指所有数据备份（快照）独占的物理空间大小之和，PolarDB集群的数据与多个数据备份（快照）会复用相同的...

CLB释放和挂载

当您在使用ClickHouse集群实例进行大规模数据处理并希望确保高效负载均衡时，云数据库ClickHouse集群会默认为您挂载CLB。挂载CLB后，ClickHouse集群将实现自动故障转移，通过健康检查分配流量至正常节点，确保集群高可用。挂载CLB属于依赖...

升级数据库大版本

本文介绍云数据库MongoDB支持升级的数据库大版本以及如何升级数据库大版本。注意事项升级分片集群实例的数据库大版本时，实例的协议类型需为 MongoDB协议。升级采用轮转升级的方式进行，升级过程中会自动对实例进行2~3次重启，请在业务低...

集群恢复：按备份集恢复

步骤三、将新集群的数据迁移到原集群确认新集群的数据之后，若您还是想继续使用原集群，您可以使用DTS将数据从新集群迁移回原集群。登录数据传输控制台，在左侧导航栏，单击数据迁移。在迁移任务列表页面顶部，选择迁移的目标集群所属...

集群性能监控下钻

背景信息云数据库 OceanBase 为集群实例、租户和节点都提供了丰富的监控指标，有些监控指标的监控数据在集群实例、租户和节点之间存在关联关系，监控下钻功能将为您提供同一指标在不同维度的数据展示，协助您快速定位到有异常的监控指标，...

整体流程和预估时间

集群恢复分为按时间点恢复和按备份集（快照）恢复，两者的差别在于要恢复至的时间点是否是备份集的时间点。如果是备份集的时间点，则可选择按备份集（快照）恢复，更方便。如果要恢复至的时间不是已有的备份集的时间点，则只能选择按时间点...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

使用独立的Trino集群

如果要使用独立的Trino集群，需要先创建一个DataLake集群、自定义集群或Hadoop集群，或使用已有的DataLake集群、自定义集群或Hadoop集群作为数据集群。创建完独立的Trino集群后，您需要进行以下配置：配置连接器可选：配置数据湖元数据 ...

集群恢复：按时间点恢复

步骤四、将新集群的数据迁移到原集群确认新集群的数据之后，若您还是想继续使用原集群，您可以使用DTS将数据从新集群迁移回原集群。登录数据传输控制台，在左侧导航栏，单击数据迁移。在迁移任务列表页面顶部，选择迁移的目标集群所属...

选型配置说明

Utility工具节点在集群中扮演很重要的角色，存储了大量的集群元数据，并且维护了CDP的管控平台，因此Utility工具节点的可用性至关重要，Utility工具节点的存储仅支持云盘存储，以保证数据的可靠性。Core节点的选型 Core节点主要用于数据...

购买按量付费集群

如果开启存储热备集群，PolarDB 会在当前地域内同时部署主集群（包含互备计算节点+主存储）和存储热备集群，主集群和存储热备集群各保证3副本数据（共6副本数据），具有更高的SLA可靠性保障。如果关闭存储热备集群，则仅保留主集群（3副本...

购买按量付费集群

如果开启存储热备集群，PolarDB 会在当前地域内同时部署主集群（包含互备计算节点+主存储）和存储热备集群，主集群和存储热备集群各保证3副本数据（共6副本数据），具有更高的SLA可靠性保障。如果关闭存储热备集群，则仅保留主集群（3副本...

迁移StarRocks数据至EMR Serverless StarRocks

本文将指导您如何使用StarRocks跨集群数据迁移工具，在源集群保持在线且业务服务不中断的状态下高效、安全地进行数据复制。该工具提供全量及增量同步功能，旨在为您提供一键式解决方案，实现源集群数据无缝迁移至目标集群，确保数据一致性...

Hadoop集群迁移至DataLake集群

本文将详细阐述如何将您已有的旧版数据湖集群（Hadoop），高效地迁移至数据湖集群（DataLake），以下分别简称“旧集群”和“新集群”。迁移过程将充分考虑旧集群的版本、元数据类型以及存储方式，并针对这些因素，提供适应新集群的迁移策略...

全球数据库常见问题

如果从集群与主集群规格相差较大，当主集群写入压力增大时，从集群同步数据，IOPS到达瓶颈时会造成主从同步延时增大，建议升级从集群规格与主集群对齐。GDN集群如何进行主从切换？GDN集群进行主从切换的具体操作请参见切换主集群、...

大数据集群维护

新品推荐