升级版本

在阿里云Serverless StarRocks中,版本更新分为版本和大版本。版本是指StarRocks的更新版本(2.x或3.x系列内的版本升级),包括性能提升、新功能或问题修复等,旨在提供更稳定和可靠的服务。EMR Serverless StarRocks采用滚动升级的...

资源中心

当您在调度过程中需要使用第三方的JAR或者需要自定义脚本时,可以在文件管理页面进行相关操作。本文为您介绍如何创建文件和上传文件。...创建文件 进入资源中心页面。...在左侧导航栏,选择 EMR Workbench>Workflow。在Workflow页面,单击目标...

SmartData 3.2.x版本简介

JindoFS缓存优化 优化在AI训练场景下文件元数据的缓存,提升元数据预加载操作和List操作的性能。JindoTable计算优化 JindoTable集成了AliORC,提供Native ORC Reader。JindoTable支持Spark和Presto使用Native ORC Reader读取ORC文件,以...

数据服务集群

特性介绍 Apache HBase是具有高可靠性、高性能、列存储、可伸缩、实时读写的开源NoSQL分布式系统。特别适用于需要实时读写随机访问超大规模数据集的场景。Apache HBase和Apache Hadoop生态系统无缝集成,并且可以和Apache Phoenix搭配使用...

管理用户

EMR用户可以用于访问链接与端口,查看开源组件Web UI时的用户身份认证,也可以在开启组件LDAP认证之后进行身份认证。如果将Ranger的用户源设置为LDAP,则可以对用户管理中的用户进行权限控制。如果是高安全集群,EMR用户可以用于Kinit操作...

EMR Studio概述

EMR Studio是E-MapReduce提供的开源大数据开发套件,包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群(EMR on ECS和EMR on ACK)的计算引擎提交任务,并提供了交互式开发、任务调度和任务监控等...

HDFS Web UI介绍

访问HDFS Web UI 您可以通过SSH隧道和控制台两种方式访问HDFS Web UI,具体操作请参见 通过SSH隧道方式访问开源组件Web UI 和 访问链接与端口。NameNode服务地址 版本 访问地址 说明 hadoop 3.x http://${namenode_hostname}:9870${...

Catalog概述

说明 本文图片和部分内容来源于开源StarRocks的 概述。Internal Catalog:内部数据目录,用于管理StarRocks所有内部数据。例如,执行 CREATE DATABASE 和 CREATE TABLE 语句创建的数据库和数据表都由Internal Catalog管理。每个StarRocks...

EMR Serverless StarRocks商业化发布

EMR Serverless StarRocks介绍 EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务,您可以通过EMR Serverless StarRocks灵活的创建和管理StarRocks实例以及数据。StarRocks作为一款兼容MySQL协议的OLAP分析引擎,提供了极致...

查看元数据

元数据管理功能主要为您展示当前实例的所有数据库,数据表,分区及各种任务等信息。本文为您介绍如何通过EMR StarRocks Manager查看元数据。前提条件 已创建StarRocks实例,详情请参见 创建实例。使用限制 普通用户无法查看数据库大小、...

HBase Thrift Server

背景信息 Thrift是一个可伸缩,跨语言服务RPC框架,集成了强大的软件堆栈及代码生成引擎,使得各种语言做到无障碍,高效通信,目前支持C++、Java、Python、PHP、Ruby、Erlang、Perl、Haskell、C#、Go、Cocoa、JavaScript、Node.js和...

JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现,主要包括JindoFS存储系统(原JindoFS Block模式)、...

EMR Workflow商业化公告

EMR Workflow介绍 EMR Workflow是一个全托管的工作流和任务调度服务,100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据仓库,并为生产任务的稳定运行...

ZOOKEEPER指标

本文介绍ZOOKEEPER指标的详细信息。ZOOKEEPER指标包含以下部分:Important metrics zk count info Important metrics 参数 指标 描述 AvgLatency zk_avg_latency。Zookeeper平均请求延迟。单位:ms。MaxLatency zk_max_latency Zookeeper...

选型配置说明

Flink、Kafka、YARN OLAP 数据分析场景,其中核心组件ClickHouse是一个面向联机分析处理(OLAP)的开源的面向列式存储的DBMS,与Hadoop和Spark相比,ClickHouse更轻量级。ClickHouse支持线性扩展,简单方便,具有高可靠性和高容错。...

SmartData 3.5.x版本简介

SmartData组件是EMR Jindo引擎的存储部分,为EMR各个计算引擎提供统一的存储、缓存、计算优化以及功能扩展。SmartData组件主要包括JindoFS、JindoTable和相关工具集。本文介绍SmartData(3.5.x)版本的更新内容。JindoFS OSS扩展和支持 ...

创建集群模板

集群模板中包含了您自主选择的用于创建集群的配置信息(密码除外),还可以存储任意配置信息,包括软件版本、实例类型和密钥对等,能够满足不同场景的个性化需求。通过集群模板功能,您可以快速一键创建EMR集群。使用限制 同一地域下最多可...

EMR-3.23.x版本说明

Bigboot 更新文件工具。更新OSS JAR,解决非daemon线程问题。Kafka 新增感知Deploymen Set特性。去掉fastjson依赖。HDFS 优化SmartData OSS JAR包部署逻辑。更新SmartData OSS JAR包。Flume 升级fastjson。Tensorflow on Spark 新增服务...

实例类型

当您需要查看集群上服务的运行情况时,您可以通过软件的Web UI来查看。当您需要快速测试或者运行作业时,您可以登录主实例节点,然后通过命令行直接提交作业。登录主节点的具体步骤请参见 登录集群。核心实例节点(Core)核心实例节点是被...

EMR-3.29.x版本说明

Ranger 升级软件包至1.2.0-1.5.0。支持Presto 338。配置文件增加Description。HDFS 自适应配置datanode reserved空间大小。Knox 适配Impala、高版本Flink和PAI。Druid 升级至0.18.1版本。SmartData 升级至2.7.301版本。

安装第三方插件

EMR集群中Flume的软件安装目录为/opt/apps/FLUME/flume-current/lib。方式三:上传第三方的JAR包至$FLUME_HOME/plugins.d/目录下。相关的目录:$FLUME_HOME/plugins.d/lib:插件本身的JAR包。FLUME_HOME/plugins.d/libext:插件依赖的JAR包...

Python使用说明

EMR-2.10.0和EMR-3.10.0之前版本默认不支持Python 3版本,您需要自行下载安装,步骤如下:下载Python 3软件包:Python-3.6.4.tgz。使用文件传输工具(SSH Secure File Transfer Client),上传JAR包至Master节点的/usr/local 目录。解压...

管理资源队列

应用环境 开发:开发者编写、测试和调试代码的地方,通常包括IDE(集成开发环境)、版本控制系统和各类调试工具,用于开发者进行软件的构建与调试。生产:供用户使用的实际运行环境,提供稳定、高效和安全的服务。修改并发上限 在 队列管理...

ECS实例说明

Core核心实例 数据量(TB级别以下)或者是使用OSS作为主要的数据存储时,推荐使用通用型、计算型或内存型。大数据量(10 TB或以上)情况下,推荐使用大数据机型,可以获得极高的性价比。重要 当Core核心实例使用本地盘时,HDFS数据存储在...

管理自动补偿

开启自动补偿功能后,当E-MapReduce(简称EMR)监测到您集群的ECS实例无法维持EMR上的引擎服务正常工作时,EMR的自动补偿功能会尝试为您新购ECS实例替换掉异常的ECS实例。前提条件 已创建数据湖(DataLake)、实时数据流(DataFlow)或...

EMR对接外部KDC

在创建集群的 软件配置 阶段,打开 高级设置 区域的 Kerberos身份认证 开关。单击 外部KDC。默认是 本群自建KDC,即当前集群为您创建KDC。使用您外部自建的KDC,需要填写以下信息。参数 描述 KDC Hosts KDC的IP地址和端口。多个IP地址时,...

常用参数调优

适当调该参数值可以缩短写CheckPoint间隔。useDualCheckpoints 默认值为false。修改该参数值为true,可以防止重启时因为CheckPoint丢失,从头读取所有Event。maxFileSize 默认值为1.6,单位为GB。表示单个DATA文件的大小。适当调该参数...

OSS/OSS-HDFS概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现,主要包括 JindoFS 存储系统(原JindoFS Block模式)...

EMR-3.32.x版本说明

本文介绍EMR-3.32.x发行版本的发布日期和更新内容等信息。发布日期 EMR-3.32.0 2020年11月23日 更新内容 服务 变更点 SmartData 升级至3.1.0版本。详情请参见 SmartData 3.1.x版本简介。Alluxio 支持Alluxio 2.4.0版本。...

EMR-3.24.x版本说明

支持其他开源已有特性。Grafana 新增组件(Flink独立集群),版本6.4.2。Prometheus 新增组件(Flink独立集群),版本2.13.0。AlertManager 新增组件(Flink独立集群),版本0.19.0。TensorFlow on spark 支持TensorFlow框架置于Spark之上...

Hive服务内存参数调整

本文介绍如何调整Hive服务内存参数。调整场景 如果业务量上升,作业在元数据且作业执行相对延迟较大以及HiveMetaStore异常,且相关指标提示内存不足(例如HiveMetaStore内存指标(GC相关)超过阈值),可尝试将HiveMetaStore内存调大,如果...

EMR元数据迁移公告

数据湖元数据DLF是阿里云提供的统一元数据服务,具有高可用、免运维和高性能等优点,兼容Hive Metastore,无缝对接EMR上开源计算引擎,并支持多版本管理和Data Profile功能。另外,DLF还支持数据探索、湖管理和数据权限控制等功能,并与...

Impala概述

当某一个Impalad进程由于节点异常、网络异常或软件问题等导致节点不可用时,StateStore确保将状况结果通知其他Impalad进程,当有新的查询请求时,Impalad进程将不会发送查询请求到该不可用的节点。Catalogd 部署在Master节点的master-1-1...

访问HBase

HBase配置 您可以在创建HBase集群的 软件配置 页面,利用 高级设置 的 软件自定义配置 功能,结合使用场景,修改HBase的默认参数,示例如下。{"configurations":[{"classification":"hbase-site","properties":{"hbase.hregion.memstore....

基本概念

本文汇总使用EMR Serverless Spark过程中涉及的基本概念,方便查询和了解EMR Serverless Spark。概念 说明 工作空间(Workspace)工作空间是EMR Serverless Spark为业务开发划分的基本单元,是任务、资源和权限的集合。...

AI开源项目

阿里云开源的AI及大数据相关开源项目,如用于全自动分布式深度学习系统TePDist、NLP 开发和应用工具包EasyNLP等,您可以根据需要选择AI及大数据开源项目。PAI相关的开源项目信息请前往 阿里云大数据&AI开源项目。

实时计算场景优化

如果该文件实际大小很,例如仅为8 MB,则当文件调用close方法关闭输入流时只会占用8 MB的磁盘空间。通常实时计算框架会打开较多的HDFS文件写入流,如果同时打开很多文件,则HDFS会预先保留较多的磁盘空间。如果磁盘剩余空间不够,则会...

查看弹性伸缩活动

本文为您介绍在弹性伸缩执行完成后,如何查看集群节点变化情况及弹性伸缩活动的执行记录。前提条件 已创建数据湖(DataLake)、实时数据流(DataFlow)、数据分析(OLAP)、数据服务(DataServing)或自定义场景(Custom)的集群,详情请...

JindoFS块存储模式

应用场景 E-MapReduce目前提供了三种大数据存储系统,E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS,其中OssFileSystem和JindoFS都是云上存储的解决方案,下表为这三种存储系统和开源OSS各自的特点。特点 开源OSS E-...

登录集群

此外,您还可以使用SSH连接创建隧道,以便通过Web浏览器查看开源组件的Web页面。本文为您介绍如何在Windows和Linux环境中使用SSH方式(SSH密钥对或SSH密码方式)登录集群。前提条件 已在EMR on ECS创建集群,详情请参见 创建集群。确保本地...
共有180条 < 1 2 3 4 ... 180 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 RDS 微服务引擎 检索分析服务 Elasticsearch版 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用