开源资产管理软件-开源资产管理软件文档介绍内容-阿里云

管理用户

本文为您介绍如何通过E-MapReduce（简称EMR）的用户管理功能，管理集群中的EMR用户。背景信息 EMR用户信息存储在集群自带的OpenLDAP中，主要用于E-MapReduce集群内的身份认证。EMR用户可以用于访问链接与端口，查看开源组件Web UI时的用户...

手动执行脚本

手动执行类似引导操作，在集群创建完成后，您可以通过手动执行功能来安装集群尚未支持的软件和服务，例如：使用YUM安装已经提供的软件。直接下载公网上公开的软件。读取您OSS中的自有数据。安装并运行服务（例如，Flink或者Impala），但...

Impala概述

当某一个Impalad进程由于节点异常、网络异常或软件问题等导致节点不可用时，StateStore确保将状况结果通知其他Impalad进程，当有新的查询请求时，Impalad进程将不会发送查询请求到该不可用的节点。Catalogd 部署在Master节点的master-1-1...

Superset（仅对存量用户开放）

您可以使用Superset连接多个数据源自助分析并可视化、定义图表和看板、导入或导出看板，并且可以对用户和角色进行权限管理。本文以EMR-3.34.0版本的集群为例为您介绍如何使用Superset。背景信息 Superset对E-MapReduce Druid做了深度集成，...

操作指南

形态文档 EMR on ECS 创建集群克隆集群新增服务管理配置项登录集群管理事件中心 E-MapReduce Doctor 组件操作 EMR on ACK 资源管理服务管理作业管理组件操作 EMR Serverless StarRocks 创建实例连接实例实例监控 StarRocks ...

概述

Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术。Alluxio为数据驱动型应用和存储系统构建了桥梁，将数据从存储层移动到距离数据驱动型应用更近的位置，从而能够更容易被访问，同时使得应用程序能够通过一个公共接口连接...

访问Web UI

访问Web UI页面需要进行用户身份认证，添加EMR用户后可以访问相应...安装Nginx Ingress Controller，操作详情请参见方式二：在组件管理页面安装Nginx Ingress Controller。在集群信息的基本信息页面，单击测试域名后的重新绑定域名。

创建集群模板

集群模板中包含了您自主选择的用于创建集群的配置信息（密码除外），还可以存储任意配置信息，包括软件版本、实例类型和密钥对等，能够满足不同场景的个性化需求。通过集群模板功能，您可以快速一键创建EMR集群。使用限制同一地域下最多可...

什么是EMR Serverless Spark

高性能基于Fusion Engine(Spark Native Engine)，性能体验最高可达开源Spark的2倍。高扩展性基于阿里云Serverless底座，提供资源弹性能力，满足ETL作业突发高峰的同时，进一步降低实际计算资源成本。高扩展性提供资源和任务实例级别的可...

选型配置说明

Kafka提供一套完整的服务监控体系和元数据管理。广泛用于日志收集和监控数据聚合等场景，支持离线或流式数据处理以及实时数据分析等。Flink、Kafka、YARN OLAP 数据分析场景，其中核心组件ClickHouse是一个面向联机分析处理（OLAP）的开源...

Zeppelin常见问题

EMR Studio上的Zeppelin与开源版本一致吗？如何设置Zeppelin Note的权限？Zeppelin执行时无法正常启动Interpreter EMR Studio上的Zeppelin与开源版本一致吗？EMR Studio上的Zeppelin是增强版的Zeppelin，与开源版本不一致。E-MapReduce的...

Delta Lake概述

很高低较高事务性支持不支持支持性能高低较高扩展性依赖于具体实现高高面向人员管理人员管理人员、数据科学家管理人员、数据科学家成本高低低适用场景 Delta适用于云上数据湖数据管理解决方案。如果您存在以下场景...

EMR Spark功能增强

阿里云E-MapReduce产品构建于阿里云云服务器ECS上，基于开源的Apache Hadoop和Apache Spark，做了大量优化。本文为您介绍E-MapReduce（简称EMR）Spark相对开源增强的功能。背景信息阿里云EMR 100%采用社区开源组件，随开源版本升级迭代，...

支持倚天云服务器

阿里云E-MapReduce支持使用倚天云服务器构建开源大数据集群。适用客户全网用户新增功能/规格阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助用户...

开启数据盘加密

加密数据盘后，数据盘上的动态数据传输以及静态数据都会被加密。如果您的业务存在安全合规要求，则可以使用该功能。...创建集群时，您还需要对集群进行软件配置、硬件配置、基础配置和确认订单，配置详情请参见创建集群。

OSS/OSS-HDFS概述

基于统一的元数据管理能力，在完全兼容HDFS文件系统接口的同时，提供充分的POSIX能力支持，能更好地满足大数据和AI等领域的数据湖计算场景。更多信息，请参见 OSS-HDFS服务概述。JindoData是阿里云开源大数据团队自研的数据湖存储加速套件...

实例类型

当您需要查看集群上服务的运行情况时，您可以通过软件的Web UI来查看。当您需要快速测试或者运行作业时，您可以登录主实例节点，然后通过命令行直接提交作业。登录主节点的具体步骤请参见登录集群。核心实例节点（Core）核心实例节点是被...

Iceberg概述

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

配置集群管理密码

说明这些命令和软件包的具体使用方式可能因系统版本和配置而有所不同，建议您根据实际情况使用。单击保存。在弹出的对话框中，输入执行原因，单击保存。重启Presto服务。单击上方的服务详情页签。在组件列表区域，单击 ...

Shell

与开源Zeppelin相比，E-MapReduce（简称EMR）数据开发集群中的Shell解释器支持在不同EMR集群环境里切换。本文通过示例为您介绍如何在Zeppelin中使用Shell。使用示例运行hadoop命令执行如下命令会显示当前EMR集群根目录下的所有文件，切换...

管理任务

本文为您介绍如何管理任务定义和任务实例。任务定义操作在任务定义页面，您可以执行以下操作。操作说明（版本）只能切换至处于下线状态的任务定义。（删除）只能删除处于下线状态的任务定义。任务实例操作在任务实例页面，您可以...

基本概念

本文介绍开源大数据平台E-MapReduce使用过程中遇到的常用名词的基本概念和简要描述。集群 E-MapReduce产品中的一个独立的机器组合，为上层业务提供一些基础的引擎服务。一个E-MapReduce集群是由一个或多个阿里云ECS实例组成的。ECS实例在E...

管理用户

EMR Notebook中的用户有权限管理当前工作空间及其内容。本文为您介绍如何添加和删除用户。前提条件已创建工作空间，详情请参见管理工作空间。已创建RAM用户，详情请参见创建RAM用户。添加用户进入EMR Notebook页面。登录 E-MapReduce...

Livy

Livy支持提交Spark作业或者Spark代码片段，同步或者异步的进行结果检索以及Spark Context上下文管理，Livy简化了Spark和应用程序服务器之间的交互，从而使Spark能够用于交互式Web或移动应用程序。背景信息 Livy还支持如下功能：长时间运行...

EMR Hive功能增强

本文为您介绍E-MapReduce（简称EMR）各版本对应的Hive组件版本，以及各版本中Hive相对开源增强的功能。Hive针对开源功能增强的功能如下表。EMR版本组件版本功能增强 EMR-5.2.1 Hive 3.1.2 修复使用DLF元数据执行 show create table 命令...

新增报警管理功能

集群管理新增报警管理功能，支持用户在EMR控制台创建和查看集群报警规则。适用客户全网用户新增功能/规格集群管理新增报警管理功能，基于云监控服务，支持用户在EMR控制台创建和查看集群报警规则。如果资源的监控指标达到报警条件，云...

Flink DataStream参考

DataFlow集群的Flink DataStream API完全兼容开源的Flink版本，关于Flink DataStream API的详细信息，请参见 Flink DataStream API Programming Guide。上下游存储（Connector）开源Flink的上下游存储，请参见 DataStream Connectors。...

Workflow 新增工作空间管理

EMR Workflow 新增工作空间管理适用客户全网用户新增功能/规格工作空间是EMR Workflow管理项目、工作流，分配角色和权限的基本单元。您所有的配置、任务、工作流均在具体的项目空间下进行。工作空间管理员可以添加成员至工作空间，并...

什么是EMR Notebook

兼容开源 EMR Notebook兼容开源Jupyter Notebook，您可以通过文件导入、导出的方式实现开发工具的自由切换，从而降低了使用门槛。产品功能交互式编程环境支持逐步执行SQL和Python代码，并根据运行结果调整后续代码。多种数据源类型支持...

数据服务集群

特性介绍 Apache HBase是具有高可靠性、高性能、列存储、可伸缩、实时读写的开源NoSQL分布式系统。特别适用于需要实时读写随机访问超大规模数据集的场景。Apache HBase和Apache Hadoop生态系统无缝集成，并且可以和Apache Phoenix搭配使用...

创建工作空间

工作空间是Serverless Spark的基本单元，用于管理任务、成员、角色和权限。所有的任务开发都需要在具体的工作空间内进行。因此，在开始任务开发之前，您需要先创建工作空间。本文将为您介绍如何在EMR Serverless Spark页面快速创建工作空间...

概述

Flink（VVR）是基于Apache Flink（以下简称Flink）开发的商业版，VVR引擎接口完全兼容Flink开源版本，且提供GeminiStateBackend等高增值功能，以提升作业性能及稳定性。背景信息 Flink核心是一个流式的数据流执行引擎，其针对数据流的分布...

释放集群

当集群不再使用时，您可以释放集群以删除对应的Namespace以及该Namespace下的所有软件服务，但不会释放实际的物理资源。本文为您介绍如何释放集群。前提条件请确保待释放集群的状态是创建中、运行中或空闲中。操作步骤登录 EMR on ACK。...

查看账单

在左侧导航栏，选择账单管理>账单详情。根据需要查看消费情况或导出账单。您可以在明细账单页签，消费类型选择为预付费或者后付费，查看后付费或预付费消费明细。相关文档账单详细内容，请参见账单管理。包年包月的退款规则及退款...

常见问题

计费常见问题集群管理常见问题组件常见问题：HDFS常见问题 YARN常见问题 Hudi常见问题 Hive常见问题 HBase常见问题 Kudu常见问题 Spark常见问题 Flink常见问题 StarRocks常见问题 Impala常见问题 ClickHouse常见问题 Zookeeper常见问题 ...

创建项目

前提条件已创建工作空间，详情请使用管理工作空间。操作步骤进入项目管理页面。使用阿里云账号（主账号）或RAM用户登录 E-MapReduce控制台。在左侧导航栏，选择 EMR Workbench>Workflow。在Workflow页面，单击目标工作空间操作列的控制...

Paimon概述

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

管理用户

用户角色描述管理员管理员具有当前工作空间内的所有操作权限。阿里云账号（主账号）在工作空间内默认为管理员类型的root用户。开发者开发者仅具有首页、项目管理和资源中心功能模块的操作权限。说明添加用户后，该用户可以访问该工作...

产品优势

云消息队列 Kafka 版 100%兼容开源，支持0.10.x~2.6.x的开源版本，无需代码改造无缝迁移上云，体验全托管、免运维的分布式消息队列服务。开箱即用云消息队列 Kafka 版 100%兼容开源，使您无缝迁移上云。兼容开源：云消息队列 Kafka 版 100...

开源资产管理软件

新品推荐