流程管理软件开源-流程管理软件开源文档介绍内容-阿里云

产品优势

阿里云E-MapReduce（简称EMR）为您提供相对方便可控的企业级开源大数据服务。您可以快速搭建开源大数据服务，例如Hadoop、Spark、Flink、Kafka和HBase服务。稳定可靠的开源组件 100%采用社区开源组件，随开源版本升级迭代，详情请参见版本...

控制台发布记录

开启审计日志流程增加了提示确认环节。StarRocks Manager能力增强优化了StarRocks Manager的连接及登录界面。StarRocks Manager支持黑白主题。用户管理功能新增描述字段。开服地域新增华北3（张家口）地域。相关文档如果需要了解EMR ...

快速使用EMR Workflow

EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行提供保障。本文以...

EMR on ACK商业化公告

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。收费标准阿里云EMR on ACK正式商业化后，将根据集群...

登录集群

通过与集群主节点建立SSH连接，您可以使用终端上的Linux命令来管理和与集群进行交互操作。此外，您还可以使用SSH连接创建隧道，以便通过Web浏览器查看开源组件的Web页面。本文为您介绍如何在Windows和Linux环境中使用SSH方式（SSH密钥对或...

授权信息

访问控制（RAM）是阿里云提供的管理用户身份与资源访问权限的服务。使用RAM可以让您避免与其他用户共享阿里云账号密钥，并可按需为用户授予最小权限。RAM中使用权限策略描述授权的具体内容。本文为您介绍开源大数据平台 E-MapReduce（EMR...

授权信息

访问控制（RAM）是阿里云提供的管理用户身份与资源访问权限的服务。使用RAM可以让您避免与其他用户共享阿里云账号密钥，并可按需为用户授予最小权限。RAM中使用权限策略描述授权的具体内容。本文为您介绍开源大数据平台 E-MapReduce（EMR...

通过SSH隧道方式访问开源组件Web UI

在E-MapReduce（简称EMR）集群中，为了确保集群安全，Hadoop、Spark和Flink等开源组件的Web UI的端口均未对外开放。鉴于此安全机制，您无法直接访问这些组件的管理界面。EMR提供了控制台和SSH隧道两种方式进行安全访问。本文为您介绍如何...

概述

MaxCompute Spark是MaxCompute提供的兼容开源Spark的计算服务。它在统一的计算资源和数据集权限体系之上，提供Spark计算框架，支持您以熟悉的开发使用方式提交运行Spark作业，满足更丰富的数据处理分析需求。使用限制 MaxCompute Spark支持...

实现Hue多实例负载均衡

可选：在集群基础信息的软件信息区域，查看您Gateway集群的版本。如果您创建的集群是EMR-3.28.0和EMR-4.3.0之前版本，请在添加Hue服务前，登录Gateway集群任意节点，执行如下命令。mysql-u root-pEMRroot1234-hemr-header-1*.*to 'hue'...

Hive概述

Hive是一个基于Hadoop的数据仓库框架，在大数据业务场景中，主要用来进行数据提取、转化和加载（ETL）以及元数据管理。背景信息 E-MapReduce（简称EMR）版本中，Hadoop、Hive版本和EMR集群的配套情况，请参见版本概述。Hive结构名称说明...

EMR-3.28.x版本说明

更新内容服务变更点 Flink 已将开源Flink升级为企业版Ververica Platform，基于开源Flink 1.10深度定制，提供自研存储引擎Gemini等增值功能。Bigboot 升级至2.7.0版本。Delta 升级至0.6.0版本。解耦Delta与Spark代码。Spark 升级至2.4.5...

管理用户

本文为您介绍如何通过E-MapReduce（简称EMR）的用户管理功能，管理集群中的EMR用户。背景信息 EMR用户信息存储在集群自带的OpenLDAP中，主要用于E-MapReduce集群内的身份认证。EMR用户可以用于访问链接与端口，查看开源组件Web UI时的用户...

创建项目

在项目中您可以进行任务的编辑和工作流的调度。文为您介绍如何在EMR Workflow上...单击项目名称：进入项目概览页，包含该项目的任务状态统计、流程状态统计、流程定义统计等信息。单击导入项目：可以使用其他项目导出的JSON文件进行导入。

访问HBase

本文介绍如何配置HBase集群以及HBase存储服务使用流程。前提条件已创建集群，并添加HBase服务，详情请参见创建集群。HBase配置您可以在创建HBase集群的软件配置页面，利用高级设置的软件自定义配置功能，结合使用场景，修改HBase...

快速使用EMR StarRocks Manager

EMR StarRocks Manager是阿里云EMR团队针对Serverless StarRocks实例提供的数据管理控制台，为您提供对实例内数据的管理、诊断与分析，以及安全权限配置等能力。前提条件已创建StarRocks实例，详情请参见创建实例。操作流程步骤一：进入...

手动执行脚本

手动执行类似引导操作，在集群创建完成后，您可以通过手动执行功能来安装集群尚未支持的软件和服务，例如：使用YUM安装已经提供的软件。直接下载公网上公开的软件。读取您OSS中的自有数据。安装并运行服务（例如，Flink或者Impala），但...

入门概览

作为企业的业务人员（自动化流程需求方）：请参阅《RPA需求方-快速入门》，了解如何获取、执行一个RPA应用，作为企业的RPA管理员：请参阅《RPA管理员-快速入门》，了解如何分配账号权限、进行应用申请审批。联系我们在使用过程中如果您有...

管理自动补偿

新补偿的ECS实例会在扩容流程中自动运行引导操作脚本，但是已经手动部署在待替换的ECS实例中的组件或服务，需要在补偿后的新购ECS实例上重新部署。开启或关闭自动补偿进入节点管理页面。登录 E-MapReduce控制台。在顶部菜单栏处，根据实际...

Impala概述

当某一个Impalad进程由于节点异常、网络异常或软件问题等导致节点不可用时，StateStore确保将状况结果通知其他Impalad进程，当有新的查询请求时，Impalad进程将不会发送查询请求到该不可用的节点。Catalogd 部署在Master节点的master-1-1...

Superset（仅对存量用户开放）

您可以使用Superset连接多个数据源自助分析并可视化、定义图表和看板、导入或导出看板，并且可以对用户和角色进行权限管理。本文以EMR-3.34.0版本的集群为例为您介绍如何使用Superset。背景信息 Superset对E-MapReduce Druid做了深度集成，...

Iceberg概述

而Iceberg简化了工作流程，整个数据处理过程是一条完整的、可靠的实时流，其数据的清洗、转换和特征化等操作都是流上的节点动作，无需处理历史数据和实时数据。此外，Iceberg还支持原生的Python SDK，对于机器学习算法的开发者非常友好。

Flink版本调整公告

为了更好地融入开源生态，提供更加开放和多样化的计算服务，阿里云E-MapReduce（简称EMR）从EMR-5.17.0和EMR-3.51.0版本开始，将Flink引擎版本从Flink企业版Ververica Runtime（简称VVR）调整为Flink社区开源版本，同时引入RocksDB作为存储...

通过集群模板创建集群

说明如果您创建的是包年包月的集群，则须在 EMR on ECS 页面找到新建的集群并完成订单支付，才能进入集群创建流程。在 EMR on ECS 页面，您可以看到新创建的EMR集群。通过集群模板创建出的集群名称，命名规则为$模板名称$+时间戳。

操作指南

形态文档 EMR on ECS 创建集群克隆集群新增服务管理配置项登录集群管理事件中心 E-MapReduce Doctor 组件操作 EMR on ACK 资源管理服务管理作业管理组件操作 EMR Serverless StarRocks 创建实例连接实例实例监控 StarRocks ...

查看节点健康状态

无状态节点在安装流程或手动停止后不进行健康检查，无需关注。未知无法获取节点健康检查项结果。如排查业务无问题，无需关注。查看节点的健康检查在节点管理页面，单击目标节点组的图标。单击健康状态列旁的查看检查项。在弹出的...

概述

Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术。Alluxio为数据驱动型应用和存储系统构建了桥梁，将数据从存储层移动到距离数据驱动型应用更近的位置，从而能够更容易被访问，同时使得应用程序能够通过一个公共接口连接...

访问Web UI

访问Web UI页面需要进行用户身份认证，添加EMR用户后可以访问相应...安装Nginx Ingress Controller，操作详情请参见方式二：在组件管理页面安装Nginx Ingress Controller。在集群信息的基本信息页面，单击测试域名后的重新绑定域名。

YARN缺陷修复公告

登录EMR集群的Master节点，将下载好的JAR包放在Hadoop的软件安装目录下。本示例是在/usr/lib/hadoop-current/share/hadoop/yarn/目录。备份旧的JAR包，并将新包拷贝到相应位置。mv$HADOOP_HOME/share/hadoop/yarn/hadoop-yarn-server-...

创建集群模板

集群模板中包含了您自主选择的用于创建集群的配置信息（密码除外），还可以存储任意配置信息，包括软件版本、实例类型和密钥对等，能够满足不同场景的个性化需求。通过集群模板功能，您可以快速一键创建EMR集群。使用限制同一地域下最多可...

扩容磁盘

数据盘扩容会自动扣款，如果余额不足，则扩容流程会中断。进入集群详情页面。登录阿里云E-MapReduce控制台。在顶部菜单栏处，根据实际情况选择地域和资源组。单击上方的集群管理页签。在集群管理页面，单击相应集群所在行的详情。在...

选型配置说明

Kafka提供一套完整的服务监控体系和元数据管理。广泛用于日志收集和监控数据聚合等场景，支持离线或流式数据处理以及实时数据分析等。Flink、Kafka、YARN OLAP 数据分析场景，其中核心组件ClickHouse是一个面向联机分析处理（OLAP）的开源...

Zeppelin常见问题

EMR Studio上的Zeppelin与开源版本一致吗？如何设置Zeppelin Note的权限？Zeppelin执行时无法正常启动Interpreter EMR Studio上的Zeppelin与开源版本一致吗？EMR Studio上的Zeppelin是增强版的Zeppelin，与开源版本不一致。E-MapReduce的...

漏洞公告|Solr升级修复漏洞

修复流程说明仅适用于选择了 Ranger 服务的集群。数据湖（DataLake）、数据服务（DataServing）和自定义（Customer）场景集群单击 solr-8.11.3.tgz，下载修复漏洞后的Solr软件包。将下载的Solr软件包上传到集群Master节点的/opt/apps/...

支持倚天云服务器

阿里云E-MapReduce支持使用倚天云服务器构建开源大数据集群。适用客户全网用户新增功能/规格阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助用户...

开启数据盘加密

加密数据盘后，数据盘上的动态数据传输以及静态数据都会被加密。如果您的业务存在安全合规要求，则可以使用该功能。...创建集群时，您还需要对集群进行软件配置、硬件配置、基础配置和确认订单，配置详情请参见创建集群。

REMOTESHELL

任务优先级流程运行的优先级。支持以下级别：HIGHEST：最高。HIGH：高。MEDIUM（默认）：中。LOW：低。LOWEST：最低。失败重试次数工作流运行失败自动重试的次数。失败重试间隔每次失败重试的间隔。单位：分。延时执行时间延时执行时间...

概述

该场景涵盖的面很广，例如：实时指标监控推荐模型广告平台搜索模型 Apache Druid架构 Apache Druid拥有优秀的架构设计，多个组件协同工作，共同完成数据从摄取到索引、存储和查询等一系列流程。Druid工作层（数据索引以及查询）包含以下...

OSS/OSS-HDFS概述

基于统一的元数据管理能力，在完全兼容HDFS文件系统接口的同时，提供充分的POSIX能力支持，能更好地满足大数据和AI等领域的数据湖计算场景。更多信息，请参见 OSS-HDFS服务概述。JindoData是阿里云开源大数据团队自研的数据湖存储加速套件...

流程管理软件开源

新品推荐