Impala SQL作业配置

在数据开发过程中如果您需要使用Impala SQL,可以在E-MapReduce中配置Impala SQL作业。本文介绍如何配置Impala SQL作业。前提条件 已创建好项目,详情请参见 项目管理。操作步骤 进入数据开发的项目列表页面。通过阿里云账号登录 阿里云E-...

JindoFSx P2P分布式下载配置指南

新增配置项的具体操作,请参见 添加配置项。配置项 参数 描述 服务端配置 jindofsx.p2p.tracker.thread.number P2P协调节点的处理线程数。通常设置为1,如果客户端数量超过1000可以考虑更大的值。小于1则关闭P2P功能。jindofsx.p2p.file....

EMR Hive功能增强

本文为您介绍E-MapReduce(简称EMR)各版本对应的Hive组件版本,以及各版本中Hive相对开源增强的功能。Hive针对开源功能增强的功能如下表。EMR版本 组件版本 功能增强 EMR-5.2.1 Hive 3.1.2 修复使用DLF元数据执行 show create table 命令...

管理用户

配置工作空间成员,以便RAM用户能够快速使用该工作空间。通过用户管理功能,您可以对用户进行账号和角色权限控制,这样可以确保只有授权的用户能够管理该工作空间。前提条件 已创建RAM用户并为其授予了相应的权限,详情请参见 创建RAM用户 ...

扩容磁盘

系统盘扩容完成后,您需要对扩容的磁盘进行扩展分区和文件系统操作,详情请参见 扩展分区和文件系统_Linux系统盘。说明 在扩展分区和文件系统过程中,如果 umount 命令运行失败,请先在集群上关闭 YARN 和 HDFS 服务。在Disk1操作时,如果...

开启数据盘加密

加密数据盘后,数据盘上...在创建集群的 基础配置 阶段,单击 高级设置 区域的 图标。打开 数据盘加密 开关,并在下拉列表中选择一个密钥。创建集群时,您还需要对集群进行软件配置、硬件配置、基础配置和确认订单,配置详情请参见 创建集群。

IMPALASHELL

IMPALASHELL任务类型用于提交Impala任务,对数据进行查询、分析和处理操作。本文为您介绍创建IMPALASHELL类型任务时涉及的参数。参数说明 参数 说明 节点名称 任务的名称。一个工作流定义中的节点名称是唯一的。运行标志 正常(默认):...

查看服务监控指标

您可以在EMR控制台查看集群服务常用指标,并可以在云监控控制台设置指标的阈值告警及自定义设置图表大盘。前提条件 已创建集群,详情请参见 创建集群。在EMR控制台查看指标 进入指标监控页面。登录EMR on ECS控制台。在顶部菜单栏处,根据...

Hive SQL作业配置

本文介绍如何配置Hive SQL类型的作业。前提条件 已创建好项目,详情请参见 项目管理。操作步骤 进入数据开发的项目列表页面。通过阿里云账号登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击上方的 ...

Spark SQL作业配置

本文介绍如何配置Spark SQL类型的作业。前提条件 已创建好项目,详情请参见 项目管理。操作步骤 进入数据开发的项目列表页面。通过阿里云账号登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击上方的 ...

概述

JindoSDK:为EMR各种开源计算引擎提供统一的SDK,支持Java、C、C++和Python语言,提供多种访问和API接口,包括HCFS文件系统接口、POSIX接口和Table表格接口。工具集:提供相关的工具集,例如Jindo tool和迁移工具Jindo DistCp。各种...

如何解决MSE Nacos开源控制台无法使用问题

本文介绍如何解决MSE Nacos开源控制台无法使用问题。问题现象 开源控制台上提示 caused:No AuthenticationProvider found for org.springframework.security.authentication.UsernamePasswordAuthenticationToken;开源控制台上单击登录,...

管理缓存

如果您需要修改当前的分配情况,可以在Alluxio服务的配置页面,搜索以 alluxio.worker.tieredstore 开头的配置项并修改。缓存详细信息,请参见 缓存。缓存策略 客户端写新的数据块时,默认情况下会将其写入level0层存储。如果level0没有...

日志配置说明

E-MapReduce(简称EMR)支持在控制台查看或配置日志参数,也支持在命令行中设置参数。本文为您介绍ClickHouse服务的日志配置。前提条件 已创建OLAP集群,且选择了ClickHouse服务,详情请参见 创建ClickHouse集群。Clickhouse控制台日志配置...

Workflow商业化发布

EMR Workflow是一个全托管的工作流和任务调度服务,100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据仓库,并为生产任务的稳定运行提供保障。产品文档 ...

管理LDAP认证

EMR-5.11.0及之前版本,EMR-3.45.0及之前版本 重要 如果您的EMR版本较低,没有相应的LDAP认证配置按钮,则需要参考开源软件的社区文档进行手动配置,以启用LDAP认证功能。在 组件列表 区域,选择 SparkThriftServer 操作列的>enableLDAP。...

缩容集群

Hadoop集群类型中通过弹性伸缩模块创建的弹性伸缩组(创建详情请参见 配置弹性伸缩(仅Hadoop集群类型)),无法进行该操作操作步骤 进入节点管理页面。登录 E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击...

创建集群模板

在创建集群模板的 硬件配置 中,您可以为实例设置多机型实例,可以避免单一机型库存不足造成集群创建失败最终影响作业执行。完成上述参数配置后,选中 E-MapReduce服务条款 后,单击 保存模板。模板创建成功后,就可以在模板列表中查看到。

开源自建对比

您可以通过不同场景,对比 SAE 与开源自建产品在系统搭建、成本、功能管理、弹性效率和监控诊断等方面的优势。基础场景 对比项 开源自建SC/Dubbo+IaaS集群 开源自建SC/Dubbo+自建K8s集群 SAE IaaS购买和系统搭建 需要。需要。不需要。SAE ...

Airflow常用配置说明

scheduler catchup_by_default 设置此参数为False可以使Scheduler不执行catchup操作,即Airflow不会自行对当前日期和DAG的start_date之间做backfill操作,但是在命令行执行backfill时依然可以生效。此参数也可以在定义DAG时针对每个DAG进行...

什么是EMR on ACK

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版(ACK)之上,利用ACK在服务部署和容器应用管理的优势,减少对底层集群资源的运维投入,以便于您可以更加专注大数据任务本身。形态对比 阿里云EMR提供on ECS和on ACK两种方式,以...

SQOOP

标准集群(非高安全集群),如果需要设置执行用户,请确保YARN服务包含如下配置项:yarn.nodemanager.container-executor.class=org.apache.hadoop.yarn.server.nodemanager.LinuxContainerExecutor yarn.nodemanager.linux-container-...

Hive数据源

如果未配置 dlf.catalog.id 参数的值,则系统将使用默认的DLF Catalog。示例 以下示例创建了一个名为 hive_catalog 的Hive Catalog。CREATE EXTERNAL CATALOG hive_catalog PROPERTIES("type"="hive","hudi.catalog.uris"="thrift:/xx.xx....

常用参数调优

本文为您介绍Taildir Source、File Channel和HDFS Sink配置中的一些常用参数调优。Taildir Source 参数 描述 filegroups 将一个目录拆分为多个,增加Source读取并发。batchSize 默认值为100。一次性读取数据行数,适当调大该参数值可以提高...

管理用户

EMR用户可以用于访问链接与端口,查看开源组件Web UI时的用户身份认证,也可以在开启组件LDAP认证之后进行身份认证。如果将Ranger的用户源设置为LDAP,则可以对用户管理中的用户进行权限控制。如果是高安全集群,EMR用户可以用于Kinit操作...

开启ORC查询加速

系统默认不开启加速,开启之后可以提升Spark或Presto读取ORC文件的性能。前提条件 ORC文件已存放至JindoFS或OSS。说明 暂不支持HDFS加速。提升Spark性能 开启JindoTable ORC加速。说明 Spark调用读取ORC时,需要使用DataFrame或者Spark-SQL...

开启ORC查询加速

系统默认不开启加速,开启之后可以提升Spark或Presto读取ORC文件的性能。前提条件 ORC文件已存放至JindoFS或OSS。说明 暂不支持HDFS加速。提升Spark性能 开启JindoTable ORC加速。说明 Spark调用读取ORC时,需要使用DataFrame或者Spark-SQL...

Hudi数据源

如果未配置 dlf.catalog.id 参数的值,则系统将使用默认的DLF Catalog。示例 以下示例创建了一个名为 hudi_catalog 的Hudi Catalog。CREATE EXTERNAL CATALOG hudi_catalog PROPERTIES("type"="hudi","hudi.catalog.uris"="thrift:/xx.xx....

使用说明

当您需要使用Hue通过界面浏览或者操作HDFS系统的目录时,请在Hue配置页签,删除 app_blacklist 参数值中的 filebrowser,并启动HDFS服务的HttpFS组件。查看初始密码 Hue服务默认在第一次运行时,如果未设置管理员则将第一个登录用户设置为...

调整YARN队列

Hue进行SQL交互查询时,需要向YARN申请资源进行计算,如果需要对计算资源进行管理和隔离,则需要配置HiveSQL和SparkSQL的队列。本文为您介绍如何调整YARN队列。前提条件 已创建E-MapReduce的Hadoop集群,详情请参见 创建集群。操作步骤 ...

管理工作空间

前提条件 已完成系统角色授权,详情请参见 EMR Workflow角色授权。使用限制 仅阿里云账号(主账号)有权限进行创建和删除工作空间的操作。创建工作空间 使用阿里云账号(主账号)登录 E-MapReduce控制台。在左侧导航栏,选择 EMR Workbench...

Delta Lake概述

而Delta简化了工作流程,整条数据处理过程是一条完整的、可靠的实时流,其数据的清洗、转换、特征化等操作都是流上的节点动作,无需对历史和实时数据分别处理。与开源Delta Lake对比 EMR-Delta Lake丰富了开源Delta Lake的特性,例如对SQL...

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用,可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件 已准备好待添加的开源Elastic Search数据源。添加开源Elastic Search数据源 登录 ...

初始化

具体配置方法,请参见 配置方案。创建一个Maven工程,添加Maven依赖。groupId>...

CONDITIONS

分支流转 在配置好CONDITIONS节点的下游节点连线后,您可以设置下游的流转分支。如果所有上游任务满足设定的前置检查条件,则会流转到成功分支;如果存在一个上游任务不满足设定的前置检查条件,则会流转到失败分支。超时告警 该开关默认...

管理模板

Spark配置 填写Spark配置信息,默认以空格符分隔,例如,spark.sql.catalog.paimon.metastore dlf。日志级别 系统支持的日志级别从低到高为:DEBUG:系统运行状态的信息。INFO:重要或者您感兴趣的信息。WARN:系统可能会出现潜在的错误...

配置Airflow报警事件

EMR Studio支持将告警事件推送至云监控,您可以在云监控(CloudMonitor)控制台通过配置告警规则来实现告警通知和管理。使用限制 确保和EMR Studio集群使用同一个账号。操作流程 创建报警联系人。同一个报警联系人,可以加入多个报警联系组...

基础使用

背景信息 本文以数据湖元数据为例,详细配置请参见 数据湖元数据配置。前提条件 已在E-MapReduce控制台上,创建Hadoop的EMR-5.3.0及后续版本的集群,详情请参见 创建集群。使用限制 由于Iceberg的Spark SQL Extensions不适用于Spark 2.4,...

REMOTESHELL

该类型任务通过SSH方式将作业提交到SSH数据源所在主机,请务必谨慎操作。本文为您介绍创建REMOTESHELL类型任务时涉及的参数。重要 REMOTESHELL任务直接提交到SSH数据源所在的主机上运行,由于不涉及使用YARN等资源调度管理机制,无法实现对...

Delta Lake数据源

如果未配置 dlf.catalog.id 参数的值,则系统将使用默认的DLF Catalog。示例 以下示例创建了一个名为 delta_catalog 的Delta Lake Catalog。CREATE EXTERNAL CATALOG delta_catalog PROPERTIES("type"="deltalake","hive.metastore.uris"=...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云服务器 ECS 检索分析服务 Elasticsearch版 微服务引擎 云数据库 RDS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用