开源软件平台-开源软件平台文档介绍内容-阿里云

Delta Lake概述

与开源Delta Lake对比 EMR-Delta Lake丰富了开源Delta Lake的特性，例如对SQL和Optimize的支持等。下表列出了Delta Lake的基本特性，并对比EMR-Delta Lake与开源Delta Lake（0.6.1）。特性 EMR-Delta 开源Delta SQL ALTER CONVERT CREATE ...

导出和导入服务配置

阿里云E-MapReduce（简称EMR）提供的导出服务配置...在软件配置的高级设置区域，打开软件自定义配置开关。复制导出的JSON格式服务配置中的内容到配置框中。单击下一步：硬件配置，继续创建集群。创建集群的具体操作，请参见创建集群。

SQL Editor

您可以直接在控制台上编写、运行和管理SQL查询语句，无需下载或安装任何本地客户端软件，极大地方便了数据分析师和开发人员对数据进行实时查询与分析。前提条件已创建StarRocks实例，详情请参见创建实例。进入SQL Editor 进入EMR ...

开启数据盘加密

加密数据盘后，数据盘上的动态数据传输以及静态数据都会被加密。如果您的业务存在安全合规要求，则可以使用该功能。...创建集群时，您还需要对集群进行软件配置、硬件配置、基础配置和确认订单，配置详情请参见创建集群。

配置集群管理密码

说明这些命令和软件包的具体使用方式可能因系统版本和配置而有所不同，建议您根据实际情况使用。单击保存。在弹出的对话框中，输入执行原因，单击保存。重启Presto服务。单击上方的服务详情页签。在组件列表区域，单击 ...

克隆集群

集群创建后，您在EMR控制台修改的服务配置目前不会克隆到新集群，但创建集群时自定义软件配置中配置的参数，则会克隆最新的修改值到新集群。创建集群后，您手动在集群机器上修改的文件或内容，例如JAR包等，无法克隆到新集群。注意事项在...

控制台发布记录

V1.8.0版本发布日期 2024年03月11日功能更新功能分类功能更新说明管控平台能力实例类型支持三个版本：支持存算一体版、数据湖分析版和存算分离版。诊断分析能力增强：支持SQL查询分析、表分析、导入任务分析等，帮助您快速定位有问题...

Presto概述

与EMR软件栈完美结合，支持DLF和OSS或OSS-HDFS。无需运维，EMR提供一站式服务。基本概念数据模型数据模型即数据的组织形式。Presto使用Catalog、Schema和Table三层结构来管理数据。Catalog：一个Catalog可以包含多个Schema，物理上指向...

EMR-3.28.x版本说明

更新内容服务变更点 Flink 已将开源Flink升级为企业版Ververica Platform，基于开源Flink 1.10深度定制，提供自研存储引擎Gemini等增值功能。Bigboot 升级至2.7.0版本。Delta 升级至0.6.0版本。解耦Delta与Spark代码。Spark 升级至2.4.5...

创建工作空间

工作空间类型说明对比项基础版专业版主要特点 100%兼容开源Spark。支持阿里云Fusion Engine（Spark Native Engine）。100%兼容开源Spark。支持阿里云Fusion Engine（Spark Native Engine）。内置Celeborn来增强Spark在计算过程中的...

EMR-3.29.x版本说明

Ranger 升级软件包至1.2.0-1.5.0。支持Presto 338。配置文件增加Description。HDFS 自适应配置datanode reserved空间大小。Knox 适配Impala、高版本Flink和PAI。Druid 升级至0.18.1版本。SmartData 升级至2.7.301版本。

EMR Hive功能增强

本文为您介绍E-MapReduce（简称EMR）各版本对应的Hive组件版本，以及各版本中Hive相对开源增强的功能。Hive针对开源功能增强的功能如下表。EMR版本组件版本功能增强 EMR-5.2.1 Hive 3.1.2 修复使用DLF元数据执行 show create table 命令...

数据服务集群

特性介绍 Apache HBase是具有高可靠性、高性能、列存储、可伸缩、实时读写的开源NoSQL分布式系统。特别适用于需要实时读写随机访问超大规模数据集的场景。Apache HBase和Apache Hadoop生态系统无缝集成，并且可以和Apache Phoenix搭配使用...

HBase Thrift Server

背景信息 Thrift是一个可伸缩，跨语言服务RPC框架，集成了强大的软件堆栈及代码生成引擎，使得各种语言做到无障碍，高效通信，目前支持C++、Java、Python、PHP、Ruby、Erlang、Perl、Haskell、C#、Go、Cocoa、JavaScript、Node.js和...

Kyuubi概述

多工作负载：Kyuubi可以通过一个平台、一个数据副本和一个SQL接口轻松支持多个不同的工作负载。使用场景交互式分析：利用Kyuubi可以构建企业级分析平台，用于对大数据进行交互式可视化分析，支持常见的计算框架。Kyuubi支持JDBC和ODBC接口...

管理用户

EMR用户可以用于访问链接与端口，查看开源组件Web UI时的用户身份认证，也可以在开启组件LDAP认证之后进行身份认证。如果将Ranger的用户源设置为LDAP，则可以对用户管理中的用户进行权限控制。如果是高安全集群，EMR用户可以用于Kinit操作...

HDFS Web UI介绍

访问HDFS Web UI 您可以通过SSH隧道和控制台两种方式访问HDFS Web UI，具体操作请参见通过SSH隧道方式访问开源组件Web UI 和访问链接与端口。NameNode服务地址版本访问地址说明 hadoop 3.x http://${namenode_hostname}:9870${...

Catalog概述

说明本文图片和部分内容来源于开源StarRocks的概述。Internal Catalog：内部数据目录，用于管理StarRocks所有内部数据。例如，执行 CREATE DATABASE 和 CREATE TABLE 语句创建的数据库和数据表都由Internal Catalog管理。每个StarRocks...

EMR Serverless StarRocks商业化发布

EMR Serverless StarRocks介绍 EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务，您可以通过EMR Serverless StarRocks灵活的创建和管理StarRocks实例以及数据。StarRocks作为一款兼容MySQL协议的OLAP分析引擎，提供了极致...

AI开源项目

阿里云开源的AI及大数据相关开源项目，如用于全自动分布式深度学习系统TePDist、NLP 开发和应用工具包EasyNLP等，您可以根据需要选择AI及大数据开源项目。PAI相关的开源项目信息请前往阿里云大数据&AI开源项目。

创建集群模板

集群模板中包含了您自主选择的用于创建集群的配置信息（密码除外），还可以存储任意配置信息，包括软件版本、实例类型和密钥对等，能够满足不同场景的个性化需求。通过集群模板功能，您可以快速一键创建EMR集群。使用限制同一地域下最多可...

JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

EMR Workflow商业化公告

EMR Workflow介绍 EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行...

EMR Studio概述

EMR Studio是E-MapReduce提供的开源大数据开发套件，包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群（EMR on ECS和EMR on ACK）的计算引擎提交任务，并提供了交互式开发、任务调度和任务监控等...

通过DMS连接StarRocks实例

适用客户全网用户新增功能/规格数据管理DMS（Data Management）是一款支撑数据全生命周期的一站式数据管理平台。您可以在DMS控制台录入StarRocks实例信息，从而通过图形化的Web界面来管理StarRocks实例。产品文档通过DMS连接StarRocks...

EMR-3.33.x版本说明

本文介绍EMR-3.33.x发行版本的发布日期和更新内容等信息。发布日期 EMR-3.33.0 2021年1月15...EMRHook 新增软件服务。hive-hook：支持Hive元数据和作业运行信息输出至DataWorks。spark-hook：支持Spark元数据和作业运行信息输出至DataWorks。

实例类型

当您需要查看集群上服务的运行情况时，您可以通过软件的Web UI来查看。当您需要快速测试或者运行作业时，您可以登录主实例节点，然后通过命令行直接提交作业。登录主节点的具体步骤请参见登录集群。核心实例节点（Core）核心实例节点是被...

概述

Flume最终会将数据落地到实时计算平台（例如Flink、Spark Streaming和Storm）、离线计算平台上（例如MR、Hive和Presto），也可仅落地到数据存储系统中（例如HDFS、OSS、Kafka和Elasticsearch），为后续分析数据和清洗数据做准备。...

什么是EMR Serverless Spark

它为企业提供了一站式的数据平台服务，包括任务开发、调试、调度和运维等，极大地简化了数据处理的全生命周期工作流程。使用EMR Serverless Spark，企业可以更专注于数据分析和价值提炼，提高工作效率。产品特性构建企业级全托管的数据...

安装第三方插件

EMR集群中Flume的软件安装目录为/opt/apps/FLUME/flume-current/lib。方式三：上传第三方的JAR包至$FLUME_HOME/plugins.d/目录下。相关的目录：$FLUME_HOME/plugins.d/lib：插件本身的JAR包。FLUME_HOME/plugins.d/libext：插件依赖的JAR包...

基本概念

平台为每个计算节点配备的本地存储空间最小为20GiB，最大可达160GiB。一个任务的CU使用量取决于输入任务的计算复杂度，以及所依赖的数据分布情况。您可以在任务列表中查看一个任务实例的CU消耗情况。计算资源（Compute）Compute是EMR ...

Python使用说明

EMR-2.10.0和EMR-3.10.0之前版本默认不支持Python 3版本，您需要自行下载安装，步骤如下：下载Python 3软件包：Python-3.6.4.tgz。使用文件传输工具（SSH Secure File Transfer Client），上传JAR包至Master节点的/usr/local 目录。解压...

管理资源队列

应用环境开发：开发者编写、测试和调试代码的地方，通常包括IDE（集成开发环境）、版本控制系统和各类调试工具，用于开发者进行软件的构建与调试。生产：供用户使用的实际运行环境，提供稳定、高效和安全的服务。修改并发上限在队列管理...

概述

该场景涵盖的面很广，例如：实时指标监控推荐模型广告平台搜索模型 Apache Druid架构 Apache Druid拥有优秀的架构设计，多个组件协同工作，共同完成数据从摄取到索引、存储和查询等一系列流程。Druid工作层（数据索引以及查询）包含以下...

EMR对接外部KDC

在创建集群的软件配置阶段，打开高级设置区域的 Kerberos身份认证开关。单击外部KDC。默认是本群自建KDC，即当前集群为您创建KDC。使用您外部自建的KDC，需要填写以下信息。参数描述 KDC Hosts KDC的IP地址和端口。多个IP地址时，...

OSS/OSS-HDFS概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括 JindoFS 存储系统（原JindoFS Block模式）...

模型广场

通义千问大语言模型通义千问开源系列大语言模型通义万相系列 LLaMa2 大语言模型百川开源大语言模型 ChatGLM开源双语对话语言模型姜子牙通用大模型 Dolly开源大语言模型 BELLE开源中文对话大模型元语功能型对话大模型V2 BiLLa开源...

EMR-3.24.x版本说明

支持其他开源已有特性。Grafana 新增组件（Flink独立集群），版本6.4.2。Prometheus 新增组件（Flink独立集群），版本2.13.0。AlertManager 新增组件（Flink独立集群），版本0.19.0。TensorFlow on spark 支持TensorFlow框架置于Spark之上...

访问HBase

HBase配置您可以在创建HBase集群的软件配置页面，利用高级设置的软件自定义配置功能，结合使用场景，修改HBase的默认参数，示例如下。{"configurations":[{"classification":"hbase-site","properties":{"hbase.hregion.memstore....

EMR元数据迁移公告

数据湖元数据DLF是阿里云提供的统一元数据服务，具有高可用、免运维和高性能等优点，兼容Hive Metastore，无缝对接EMR上开源计算引擎，并支持多版本管理和Data Profile功能。另外，DLF还支持数据探索、湖管理和数据权限控制等功能，并与...

开源软件平台

新品推荐