大数据集群搭建视频-大数据集群搭建视频文档介绍内容-阿里云

EMR Doctor概述

E-MapReduce Doctor（简称EMR Doctor）是E-MapReduce产品自研的面向开源大数据集群的智能运维诊断系统。通过EMR Doctor（即集群管理页面的“健康检查”功能）可以全局了解集群的健康状况和动态走势，为运维决策和资源优化提供有力的信息...

EMR+DLF数据湖解决方案

步骤三：初始化数据初始化数据一般常见的几种情况如下：已有大数据集群，需要进行数据迁移，此时可以考虑通过 Jindo DistCp 工具将老集群的数据迁移到OSS中。从RDS/MySQL/Kafka 等业务系统接入数据，此时可以考虑通过实时计算Flink实现...

集群自定义监控报表

集群数据库 io_write_rt SSStore 每次写入平均耗时 集群数据库 io_read_size SSStore 每秒读取数据量 集群数据库 io_size SSStore 每秒处理数据量 集群数据库 io_write_size SSStore 每秒写入数据量 集群数据库 transaction_multi_...

新功能发布记录

2024-03-14 管理尽力交付 2023年 2023年10月功能名称功能概述发布时间相关文档 EMR正式支持倚天云服务器阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性...

创建集群

本文为您介绍在EMR on ECS上创建集群的操作步骤和相关配置，帮助您快速搭建和管理大数据集群。说明如果您在2022年12月19日17点（UTC+8）以后第一次创建EMR集群，则不能选择Hadoop、Data Science、Presto、Zookeeper集群类型。前提条件已...

数据湖集群

E-MapReduce（简称EMR）新版控制台提供了数据湖集群，一个更灵活、可靠，以及高效的大数据计算集群。同时，您可以基于该集群轻松构建一个可扩展的数据管道。本文为您介绍数据湖集群支持的特性，以及与旧版Hadoop集群之间的差异。数据湖集群...

功能特性

分布式事务引擎 OceanBase 数据库的分布式事务引擎严格支持事务的 ACID 属性，并且在整个集群内严格支持数据强一致性，是全球唯一一家通过了标准 TPC-C 测试的原生分布式关系型数据库产品。OceanBase 数据库通过 Paxos 协议将事务日志复制...

实现开发生产等多套环境隔离

背景信息很多企业用户在大数据的研发流程中有创建并隔离多套环境的需求，如创建并完全隔离开发、测试、生产环境，即各环境的数据物理存储地址、任务运行集群、大数据作业脚本均隔离，并对操作人员有严格的权限管控，如仅运维团队可使用...

什么是EMR on ACK

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。形态对比阿里云EMR提供on ECS和on ACK两种方式，以...

数据导入Serverless实例

大量数据从HBase集群导入Serverless集群由于Serverless实例的写入受到购买CU数的限制，如果大量的数据直接通过API写入Serverless实例可能会花费过多时间和消耗过多CU（根据购买CU量的多少，几十GB，几百GB，或者上TB的数据可以定义为大量...

集群版-单副本

使用场景数据量较大集群版可以有效地扩展数据规模量大小，相比标准版可提供更大的存储量，例如64 GB、128 GB、256 GB集群版，可以有效的满足数据扩展需求。纯缓存应用单副本集群版的分片服务器由单节点组成，分片服务器某节点出现故障时...

Kafka数据迁移MaxCompute最佳实践

本文为您介绍如何使用DataWorks数据集成，将Kafka集群上的数据迁移至MaxCompute。前提条件开通MaxCompute和DataWorks。新增MaxCompute数据源。详情请参见创建MaxCompute数据源。在DataWorks上完成创建业务流程，本例使用DataWorks简单...

Kafka数据迁移MaxCompute最佳实践

本文为您介绍如何使用DataWorks数据集成，将Kafka集群上的数据迁移至MaxCompute。前提条件开通MaxCompute和DataWorks。在DataWorks上完成创建业务流程，本例使用DataWorks简单模式。详情请参见创建业务流程。搭建Kafka集群进行数据迁移...

Hadoop DistCp介绍

Hadoop DistCp（分布式复制）是一个用于大型集群间或集群内数据复制的工具，通过MapReduce实现复制过程中数据的分发、错误处理、恢复及报告。本文为您介绍Hadoop DistCp与Jindo DistCp的区别、Hadoop DistCp使用方法以及常见问题。说明 ...

配置StarRocks集群以访问高可用数据集群

如果您所使用的数据集群开启了高可用，那么在查询高可用集群中的HDFS数据时，您需要进行额外的配置。建议您按照本文的操作步骤来配置StarRocks集群，以实现HDFS的高可用性。前提条件已创建包含了HDFS服务，并且开启了服务高可用的集群...

访问外部数据源

绑定数据源绑定数据源的本质是打通不同VPC之间的网络，即将数据源集群所在VPC与目标Databricks数据洞察集群所在VPC的网络打通。数据源绑定之后，您可以在Notebook或Spark作业里直接访问对应数据源的数据。说明对于数据源绑定场景，如果多...

概述

数据备份物理空间大小如下图所示：说明 PolarDB 集群数据备份物理空间大小（上图中①所示）：指数据备份的收费对象，物理空间大小是指所有数据备份（快照）独占的物理空间大小之和，PolarDB集群的数据与多个数据备份（快照）会复用相同的...

使用独立的Trino集群

如果要使用独立的Trino集群，需要先创建一个DataLake集群、自定义集群或Hadoop集群，或使用已有的DataLake集群、自定义集群或Hadoop集群作为数据集群。创建完独立的Trino集群后，您需要进行以下配置：配置连接器可选：配置数据湖元数据 ...

CLB释放和挂载

当您在使用ClickHouse集群实例进行大规模数据处理并希望确保高效负载均衡时，云数据库ClickHouse集群会默认为您挂载CLB。挂载CLB后，ClickHouse集群将实现自动故障转移，通过健康检查分配流量至正常节点，确保集群高可用。挂载CLB属于依赖...

概述

数据备份物理空间大小如下图所示：说明 PolarDB 集群数据备份物理空间大小（上图中①所示）：指数据备份的收费对象，物理空间大小是指所有数据备份（快照）独占的物理空间大小之和，PolarDB集群的数据与多个数据备份（快照）会复用相同的...

Quick BI

Quick BI是一款专为云上用户和企业量身打造的新一代自助式智能BI服务平台，其简单易用的可视化操作和灵活高效的多维分析能力，让精细化数据洞察为商业决策保驾护航。您可以使用外网或VPC网络连接云数据库ClickHouse，在Quick BI中添加云...

配置StarRocks集群以访问高安全数据集群

如果您所使用的数据集群开启了Kerberos身份认证，那么在查询高安全集群数据时，您需要使用正确的Kerberos凭证进行身份验证。为了确保您具有合适的权限来访问数据，建议您按照本文的操作步骤来配置StarRocks集群。前提条件已创建包含了HDFS...

升级数据库大版本

本文介绍云数据库MongoDB支持升级的数据库大版本以及如何升级数据库大版本。注意事项升级分片集群实例的数据库大版本时，实例的协议类型需为 MongoDB协议。升级采用轮转升级的方式进行，升级过程中会自动对实例进行2~3次重启，请在业务低...

整体流程和预估时间

通过集群恢复方式，可以恢复整个集群的数据。集群恢复分为按时间点恢复和按备份集（快照）恢复，两者的差别在于要恢复至的时间点是否是备份集的时间点。如果是备份集的时间点，则可选择按备份集（快照）恢复，更方便。如果要恢复至的时间...

集群恢复：按备份集恢复

步骤三、将新集群的数据迁移到原集群确认新集群的数据之后，若您还是想继续使用原集群，您可以使用DTS将数据从新集群迁移回原集群。登录数据传输控制台，在左侧导航栏，单击数据迁移。在迁移任务列表页面顶部，选择迁移的目标集群所属...

系统概述

通过集群管理系统，您可以查看集群的基本信息，完成数据管理、数据查询、集群管理等操作。同时，集群管理系统提供了集群监控和健康检查功能，支持通过系统查看集群、分组、节点、命名空间和表等多个层面的监控信息，有利于快速定位热点和...

创建全球数据库网络

全球数据库网络（Global Database Network，简称GDN）是由分布在同一个国家不同地域的多个 PolarDB 集群组成的网络，网络中所有集群的数据均保持同步。当您的业务部署在多个地域时，利用GDN可以实现应用访问数据库的低延迟和高稳定性。本文...

MongoDB 5.0

第三方云数据库迁移至阿里云数据库MongoDB：使用MongoDB工具将MongoDB Atlas数据库迁移至阿里云数据库MongoDB 使用DTS将MongoDB Atlas数据库迁移至阿里云数据库MongoDB 使用DTS将华为云文档数据库迁移至阿里云数据库MongoDB 使用MongoDB...

DBLE与PolarDB多主集群（库表）结合使用最佳实践

使用PolarDB多主集群（库表）之后，您可以省去大部分手工扩展数据库集群的工作。您只需要通过控制台或OpenAPI为PolarDB多主集群（库表）增加节点即可。在业务低峰期，配合业务系统的停写，再执行 ALTER DATABASE name POLARDB_WRITE_NODE x...

使用DBLink跨库查询数据

注意事项目前仅支持在源集群上查询目标集群数据，不支持在目标集群上查询源集群数据。参数配置 PolarDB PostgreSQL版（兼容Oracle）提供了 polar_enable_pushable_unsafe_collate_remote 和 polar_enable_pushable_all_any_remote 参数，...

HBase Replication

HBase可以基于Replication功能将实时写入的数据从主集群复制到备份集群，从而提高HBase数据的可靠性和数据访问的扩展性。HBase目前支持异步Replication、串行Replication和同步Replication。本文为您介绍如何开启HBase的异步Replication...

DSW连接EMR集群

EMR作为阿里云平台上的全托管大数据处理服务，集成了Apache Spark，使得用户能便捷地在云环境搭建、管理和使用Spark集群，并进行大规模数据处理、实时计算、机器学习任务以及图形处理等。使用限制只有以下类型的DSW实例支持连接到EMR集群...

全球数据库常见问题

如果从集群与主集群规格相差较大，当主集群写入压力增大时，从集群同步数据，IOPS到达瓶颈时会造成主从同步延时增大，建议升级从集群规格与主集群对齐。GDN集群如何进行主从切换？GDN集群进行主从切换的具体操作请参见切换主集群、...

备份大小

本文介绍如何查看和管理云数据库专属集群MyBase MySQL的备份大小。备份大小=数据备份的大小+日志备份的大小查看备份大小登录云数据库专属集群控制台。在页面左上角，选择目标地域。在左侧导航栏中，选择实例列表>MySQL。找到目标实例，...

创建与释放全球多活数据库集群

本文介绍如何创建和释放RDS全球多活数据库集群。前提条件已授权全球多活数据库集群访问云资源。当前阿里云账户中的余额必须大于等于100 元。已创建 RDS MySQL 实例，后续用作中心节点。创建方式，请参见快速创建RDS MySQL实例。说明 ...

迁移StarRocks数据至EMR Serverless StarRocks

本文将指导您如何使用StarRocks跨集群数据迁移工具，在源集群保持在线且业务服务不中断的状态下高效、安全地进行数据复制。该工具提供全量及增量同步功能，旨在为您提供一键式解决方案，实现源集群数据无缝迁移至目标集群，确保数据一致性...

跨地域灾备

当您需要保证MaxCompute作业持续运行时，MaxCompute提供跨地域（Region）灾备功能，支持以项目（Project）为单位远程备份数据和元数据，确保备份地点与数据源的地理距离超过一百公里，以提升数据安全性。您能够自定义选择备份目标地域，并...

API概览

本产品（云原生数据仓库AnalyticDB MySQL版/2021-12-01）的OpenAPI采用 RPC 签名风格，签名细节参见签名机制说明。我们已经为开发者封装了常见编程语言的SDK，开发者可通过下载SDK 直接调用本产品OpenAPI而无需关心技术细节。如果现有SDK...

注册EMR集群至DataWorks

背景信息开源大数据开发平台 E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还...

设置集群白名单

创建 PolarDB PostgreSQL版数据库集群后，您需要设置PolarDB集群的IP白名单，并创建集群的初始账号，才能连接和使用该集群。注意事项默认情况下，IP白名单只包含IP地址127.0.0.1，表示任何IP地址均无法访问该数据库集群。若将IP白名单...

大数据集群搭建视频

新品推荐