通过DataWorks将Hadoop数据同步到阿里云ES

E-MapReduce Hadoop集群部分配置信息如下:集群类型:Hadoop 产品版本:EMR-3.26.3 挂载公网:开启 已创建阿里云ES实例,并开启实例的自动创建索引功能。具体操作,请参见 创建阿里云Elasticsearch实例 和 配置YML参数。已创建DataWorks...

弹性伸缩概述

使用方式 集群类型 相关文档 DataLake、Dataflow、OLAP和Custom集群 添加弹性伸缩规则 查看弹性伸缩活动 可视化弹性成本分析 查看集群资源概览 Hadoop集群 配置弹性伸缩(仅Hadoop集群类型)开启或关闭弹性伸缩(仅Hadoop集群类型)查看...

搭建与管理(基于Hadoop

通过MaxCompute与Hadoop构建湖仓一体方案旨在实现对海量数据的统一管理、存储和分析,提供了一个既能处理结构化...相关文档 基于Hadoop集群支持Delta Lake或Hudi存储机制的湖仓一体方案,请参见 基于Hadoop集群支持Delta Lake或Hudi存储机制。

Dataphin如何使用一个Hadoop集群为所有项目创建计算源...

概述 本文为您介绍Dataphin如何使用一个Hadoop集群为所有项目创建计算源从而提供计算与存储资源。详细信息 1.Dataphin一个计算源只可以被一个项目所绑定。2.通过创建不同的Hive DB从而创建不同的计算源来达到一个Hadoop集群创建多个计算源...

MaxCompute+Hadoop搭建实践

准备Hadoop数据源 创建Hadoop集群,具体操作请参见 开通阿里云EMR服务。进入Hive准备数据。使用Workbench方式登录集群主节点后,在终端界面输入如下命令:[has@emr-header-1 root]$hive-创建库 create database if not exists myhive;切换...

从自建HDFS迁移数据

自建Hadoop集群数据迁移 阿里云ECS自建Hadoop集群和文件引擎处于相同VPC网络环境时,可以直接通过VPC网络迁移数据到文件引擎。迁移命令如下所示:hadoop distcp-m 1000-bandwidth 30 hdfs:/oldcluster:8020/user/hive/warehouse hdfs:/${...

设置Dataphin实例的计算引擎为Hadoop

如下图所示:已创建集群:可以通过E-MapReduce 5.x Hadoop集群的详情页查看所创建的集群存储类型。如下图所示:NameNode Hadoop支持添加同集群多个HDFS地址,只要有一个地址校验成功,即可完成元数据采集。例如 host=192.xxx.xx.xxx,...

Spark对接Kafka

本文介绍如何在E-MapReduce的Hadoop集群运行Spark Streaming作业,处理Kafka集群的数据。背景信息 E-MapReduce上的Hadoop集群和Kafka集群都是基于纯开源软件,相关编程使用方法可参见官方相应文档。Spark官方文档:streaming-kafka-...

使用Druid

对于独立的E-MapReduce Druid集群,如果您需要存放索引数据至一个Hadoop集群的HDFS,请设置两个集群的连通性(详情请参见 与Hadoop集群交互)。在E-MapReduce Druid 配置 页面的 common.runtime 页签,配置如下参数。参数 描述 druid....

API概览

DescribeDBClusterMonitor 查询集群监控数据采集频率 查询PolarDB集群的监控数据采集频率。ModifyDBClusterMonitor 修改集群监控数据采集频率 修改PolarDB集群的监控数据采集频率。PolarDB for AI API 标题 API概述 DescribeAITaskStatus ...

什么是EMR on ECS

与自建Hadoop集群对比 开源大数据开发平台EMR与自建Hadoop集群的优势对比如下表所示。对比项 阿里云EMR 自建Hadoop集群 成本 支持按量和包年包月付费方式,集群资源支持灵活调整,数据分层存储,资源使用率高。无额外软件License费用。需...

数据源

本文将解答与数据源相关的问题。Q:Databricks数据洞察的支持哪些数据源?目前支持读写阿里云对象存储(OSS)的数据。Q:是否支持当前的DDI集群访问其他集群的HDFS数据?支持访问同账号下的EMR Hadoop集群上的HDFS数据。

在文件存储 HDFS 版上使用Apache Tez

本文主要介绍在挂载 文件存储 HDFS 版 的Hadoop集群上安装及使用Apache Tez。前提条件 已开通 文件存储 HDFS 版 服务并创建文件系统实例和挂载点。具体操作,请参见 文件存储HDFS版快速入门。已为Hadoop集群所有节点安装JDK,且JDK版本不...

扩容磁盘

Hadoop集群类型中通过弹性伸缩模块创建的弹性伸缩组(创建详情请参见 配置弹性伸缩(仅Hadoop集群类型)),无法进行该操作。注意事项 云盘扩容后无法缩容,建议您合理规划存储空间。操作步骤 进入节点管理页面。登录EMR on ECS控制台。在...

配置自建RDS

本文介绍如何配置自建的阿里云RDS,作为E-MapReduce(简称EMR)上DataLake集群、Custom集群或Hadoop集群的元数据。前提条件 已购买RDS MySQL实例(EMR所有版本均支持MySQL 5.7,仅EMR-3.35.0以上版本、EMR-5.0.0以上版本同时支持MySQL 5.7...

缩容集群

Hadoop集群类型中通过弹性伸缩模块创建的弹性伸缩组(创建详情请参见 配置弹性伸缩(仅Hadoop集群类型)),无法进行该操作。操作步骤 进入节点管理页面。登录 E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击...

创建Hadoop计算源

若您需开启Impala任务进行快速查询和分析数据,请您提前在Hadoop集群上部署Impala(Impala v2.5及以上版本)。在E-MapReduce5.x计算引擎下,若您需要使用基于OSS创建的Hive外部表进行离线集成。您需要进行相关配置后,才可以正常使用。配置...

在文件存储 HDFS 版上使用Apache HBase

步骤一:Hadoop集群挂载 文件存储 HDFS 版 实例 在Hadoop集群中配置 文件存储 HDFS 版 实例。具体操作,请参见 挂载文件存储 HDFS 版文件系统。步骤二:配置Apache HBase 将Hadoop中配置的core-site.xml复制到${HBASE_HOME}/conf目录下。cp...

Hive Metastore使用加密文件访问RDS

DataLake或Custom集群类型 sudo mv/tmp/hive.jceks$HIVE_CONF_DIR sudo chown hive$HIVE_CONF_DIR/hive.jceks Hadoop集群类型 sudo mv/tmp/hive.jceks$HIVE_CONF_DIR sudo chown hadoop$HIVE_CONF_DIR/hive.jceks 在EMR控制台目标集群Hive...

使用独立的Trino集群

如果要使用独立的Trino集群,需要先创建一个DataLake集群、自定义集群或Hadoop集群,或使用已有的DataLake集群、自定义集群或Hadoop集群作为数据集群。创建完独立的Trino集群后,您需要进行以下配置:配置连接器 可选:配置数据湖元数据 ...

容器集群监控Pro版计费规则

容器集群监控分为容器集群监控基础版和容器集群监控Pro版,其中容器集群监控基础版免费,容器集群监控Pro版根据集群的节点规模收费。本文介绍容器集群监控Pro版的计费说明。使用限制 仅支持 ACK集群Pro版。基础版与Pro版区别 类别 基础版 ...

容器集群监控Pro版计费规则

容器集群监控分为容器集群监控基础版和容器集群监控Pro版,其中容器集群监控基础版免费,容器集群监控Pro版根据集群的节点规模收费。本文介绍容器集群监控Pro版的计费说明。使用限制 仅支持 ACK集群Pro版。基础版与Pro版区别 类别 基础版 ...

查看专属集群监控信息

目标专属集群监控概览 在 主要信息 区域,您可以查看以下信息:DU使用率(即文件系统使用率)和总量 磁盘使用率和总量 CPU使用率 内存使用率 专属集群中运行任务的数量 目标专属集群监控详情 在 资源监控 区域,先选择查看资源监控数据的...

扩容集群

Hadoop集群类型中通过弹性伸缩模块创建的弹性伸缩组(创建详情请参见 配置弹性伸缩(仅Hadoop集群类型)),无法进行该操作。操作步骤 重要 集群扩容操作不会重启存量节点上的应用进程。进入节点管理页面。登录 E-MapReduce控制台。在顶部...

管理LDAP认证

前提条件 已创建Hadoop集群,详情请参见 创建集群。使用限制 EMR-3.34.0及后续版本或EMR-4.8.0及后续版本的Hadoop集群,支持一键开启LDAP认证。开启LDAP认证 进入Hue页面。登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择...

自建Hadoop数据迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。适用场景 ...

管理节点组(Hadoop、Data science和EMR Studio集群

本文为您介绍如何新增、修改和删除节点组。背景信息 您可以新增节点组,以满足不同实例节点的需求。例如,内存型实例节点(vCore:vMem=1 vCPU:8 GiB)用于大...如果需要查看弹性伸缩记录,详情请参见 查看弹性伸缩记录(仅Hadoop集群类型)。

数据湖集群

Hadoop集群的主要差异 模块 功能项 数据湖集群 Hadoop集群 集群 集群创建时间 平均时间小于5分钟。平均时间小于10分钟。集群节点组新增节点 平均时间小于3.5分钟。平均时间小于10分钟。开放API 支持。支持。域名支持 Private Zone。hosts...

开启或关闭弹性伸缩(仅Hadoop集群类型)

前提条件 已完成弹性伸缩的配置,详情请参见 配置弹性伸缩(仅Hadoop集群类型)。注意事项 当伸缩组内节点数为0时,您才可以关闭弹性伸缩。当伸缩组内节点不为0时,您需要先为伸缩组设置缩容规则或者修改最大实例数为0,直至伸缩组内节点...

创建Gateway集群

前提条件 已经在E-MapReduce中创建了Hadoop集群或Kafka集群,详情请参见 创建集群。说明 如果您在2022年12月19日17点(UTC+8)以后第一次创建EMR集群,则不能选择Hadoop、Kafka集群类型。使用限制 本文档仅适用于Hadoop集群和Kafka集群。...

修改集群名称

Name String 是 bi_hadoop 集群新的名称,要求和创建集群时一致。长度限制为1-64个字符,只允许包含中文、字母、数字、短划线(-)和下划线(_)。RegionId String 是 cn-hangzhou 地域ID。您可以调用 DescribeRegions 接口查看最新的阿里...

MySQL连接器

背景信息 本文为您介绍MySQL连接器相关的内容和操作,具体如下:配置MySQL连接器 类型映射 示例:查询MySQL 下推(Pushdown)前提条件 已创建DataLake集群或Hadoop集群,并选择了Presto服务,或者创建单独的Presto集群,详情请参见 创建...

异构数据源访问

准备测试数据集 准备测试数据集,并执行 hadoop fs-put<本地文件名称><文件保存在Hadoop集群的路径>命令将数据集保存在Hadoop集群路径。例如,将本地文件/home/user/file.txt 上传到HDFS的/tmp 目录下,执行 hadoop fs-put/home/user/file....

Hadoop Streaming

前提条件 已在E-MapReduce控制台上创建Hadoop集群。创建集群详情,请参见 创建集群。操作步骤 通过SSH方式连接集群,详情请参见 使用SSH连接主节点。新建文件 mapper.py。执行以下命令,打开文件 mapper.py。vim/home/hadoop/mapper.py 按...

Hive访问Iceberg数据

前提条件 已创建Hadoop集群,详情请参见 创建集群。说明 此文档仅适用于EMR-3.38.0及后续版本与EMR-5.4.0及后续版本的Hadoop集群。使用限制 EMR-3.38.0及后续版本与EMR-5.4.0及后续版本的Hadoop集群,支持Hive读写Iceberg的数据。操作步骤 ...

使用云原生AI监控大盘

Cluster:集群监控大盘 Nodes:节点监控大盘 TrainingJobs:训练任务监控大盘 Quota:资源配额监控大盘 集群监控大盘 具体操作,请参见 方式一:使用公网Ingress访问AI运维控制台。集群监控大盘有以下可供您查看的指标:GPU Summary Of ...

场景:注册跨账号的EMR集群

对方EMR集群:选择需要注册至DataWorks的EMR集群,此处仅可选择 版本为3.38.3或3.38.2且未使用DLF管理元数据的Hadoop集群。更多注册集群的配置详情,请参见 注册EMR集群至DataWorks。配置资源组初始化。初次绑定集群、集群服务配置变更 或 ...

自治服务概述

默认大盘 默认的监控大盘提供了集群监控、租户监控两个维度,可查看一些常见的性能监控指标。您也可以根据需要添加或者编辑大盘,进行更多场景的监控。添加大盘 访问监控大盘界面。单击 添加大盘。在添加大盘页面中,填写 大盘名称,不可...

准备工作

环境准备 已创建阿里云E-MapReduce的Hadoop集群。具体操作,请参见 创建集群。已下载E-MapReduce的最新 SDK,SDK包的名称格式为emr-datasources_shaded_*.jar,emr-datasources_shaded_*.jar中包含Tablestore相关的Spark批流Source和Sink。...

Spark流式写入Iceberg

前提条件 已在E-MapReduce控制台上,创建Hadoop集群,详情请参见 创建集群。说明 此文档仅适用于EMR-3.38.0及后续版本与EMR-5.4.0及后续版本的Hadoop集群。已在E-MapReduce控制台上,创建Kafka集群,详情请参见 创建集群。使用限制 Hadoop...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云监控 云数据库 Redis 版 云数据库专属集群 开源大数据平台 E-MapReduce 轻量应用服务器 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用