什么是EMR Notebook

兼容开源 EMR Notebook兼容开源Jupyter Notebook,您可以通过文件导入、导出的方式实现开发工具的自由切换,从而降低了使用门槛。产品功能 交互式编程环境 支持逐步执行SQL和Python代码,并根据运行结果调整后续代码。多种数据源类型 支持...

为RAM用户授权

背景信息 访问控制RAM是阿里云提供的资源访问控制服务,详情请参见 什么是访问控制。在EMR Serverless StarRocks中,RAM的典型使用场景如下:用户:如果您购买了EMR Serverless StarRocks实例,您的组织里有多个用户(例如运维、开发或数据...

建表语句

本文为您介绍Spark SQL建表语法。语法 CREATE TABLE tbName[(columnName dataType[,columnName dataType]*)]...CREATE TABLE kafka_table USING kafka OPTIONS(kafka.bootstrap.servers="${BOOTSTRAP_SERVERS}",subscribe="${TOPIC_NAME}");

为RAM用户授权

背景信息 访问控制RAM是阿里云提供的资源访问控制服务,详情请参见 什么是访问控制。在E-MapReduce中,RAM的典型使用场景如下:用户:如果您购买了多台E-MapReduce集群实例,您的组织里有多个用户(如运维、开发或数据分析)需要使用这些...

EMR Kafka磁盘写满运维

kafka-producer-perf-test.sh-topic test-topic-record-size 1000-num-records 600000000-print-metrics-throughput 10240-producer-props linger.ms=0 bootstrap.servers=core-1-1:9092 修改Broker 0分区对应的日志目录权限。在Master节点...

常见问题

ACK管控控制台中,“有状态”界面下的shuffleservice-worker容器组数量"3/1000"是什么含义?3/1000"表示当前ShuffleService-Worker的实例数量为3个,而集群的最大可扩展容量上限为1000个。如果还有类似的告警信息,可以直接忽略。0/18 ...

安装HBase Java SDK

使用开源HBase客户端连接并使用Lindorm宽表引擎需要注意以下问题:开源HBase客户端不支持通过公网访问Lindorm宽表引擎。当前不支持通过开源HBase客户端访问多可用区实例。由于存在协议转换,使用开源HBase客户端直接访问Lindorm宽表引擎...

EMR Doctor常见问题

什么时候可以看到采集报告?可以给出配置的具体参数值吗?哪些集群类型支持EMR Doctor功能?仅DataLake和Hadoop集群类型支持健康检查功能。集群创建后,您可以在EMR控制台目标集群的 健康检查 页签使用该功能。如果您的Hadoop集群没有此...

什么是EMR Workflow

EMR Workflow是一个全托管的工作流和任务调度服务,100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据湖仓,并为生产任务的稳定运行提供保障。产品优势 ...

Attu工具管理

Attu是一款专为Milvus向量数据库打造的开源数据库管理工具,提供了便捷的图形化界面,极大地简化了对Milvus数据库的操作与管理流程。阿里云Milvus集成了Attu,以便更加高效地管理数据库、集合(Collection)、索引(Index)和实体(Entity...

Workflow商业化发布

EMR Workflow是一个全托管的工作流和任务调度服务,100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据仓库,并为生产任务的稳定运行提供保障。产品文档 ...

访问链接与端口

通过访问链接与端口功能,您可以方便地通过控制台方式访问集群中已安装开源组件Web UI的地址。本文将介绍如何设置安全组规则和访问链接,以便查看集群中开源组件的UI界面。前提条件 已创建E-MapReduce集群,详情请参见 创建集群。背景信息 ...

管理工作流实例

工作流实例是工作流...(甘特图)甘特图纵轴是当前工作流实例下的任务实例的拓扑排序,横轴是任务实例的运行时间。相关文档 如需查看任务实例相关的操作,详情请参见 管理任务。如需查看手动任务实例相关的操作,详情请参见 管理手动任务。

SOFAArk 配置说明

└─conf└─ark├─bootstrap-dev.properties├─bootstrap.properties└─log└─logback-conf.xml 重要 如果应用中包含 SOFAArk 配置,打包时需要注意 baseDir 配置,此项用于指定工程根目录。更多信息请参见 Ark 包。上述 conf/ark ...

Flink DataStream参考

DataFlow集群的Flink DataStream API完全兼容开源的Flink版本,关于Flink DataStream API的详细信息,请参见 Flink DataStream API Programming Guide。上下游存储(Connector)开源Flink的上下游存储,请参见 DataStream Connectors。...

Delta Lake概述

实时机器学习:在机器学习场景中,通常需要花费大量的时间用于处理数据,例如数据清洗、转换、提取特征等等。同时,您还需要对历史和实时数据分别处理。而Delta简化了工作流程,整条数据处理过程是一条完整的、可靠的实时流,其数据的清洗...

使用StarRocks Console

说明 仅EMR-3.43.0~EMR-3.44.1版本(均包含),EMR-5.9.0~EMR-5.10.1版本(均包含)的集群支持该功能,如果您要使用StarRocks Manager的功能,可以使用EMR Serverless StarRocks,详情请参见 什么是EMR Serverless StarRocks。访问查询页面...

计量计费

ChatGLM开源双语对话语言模型 计费单元 模型服务 计费单元 ChatGLM2开源双语对话语言模型 token ChatGLM3开源双语对话语言模型 重要 Token是模型用来表示自然语言文本的基本单位,可以直观的理解为“字”或“词”。对于中文文本来说,1个...

EMR集群JindoSDK升级流程(旧版控制台)

bash bootstrap_jindosdk.sh-gen 4.6.2 制作成功后,显示以下内容:Generated patch at/home/hadoop/jindo-patch/jindosdk-bootstrap-patches.tar.gz 制作完成后,得到patch包:jindosdk-bootstrap-patches.tar.gz。上传引导升级包。将...

AI开源项目

阿里云开源的AI及大数据相关开源项目,如用于全自动分布式深度学习系统TePDist、NLP 开发和应用工具包EasyNLP等,您可以根据需要选择AI及大数据开源项目。PAI相关的开源项目信息请前往 阿里云大数据&AI开源项目。

产品优势

阿里云E-MapReduce(简称EMR)为您提供相对方便可控的企业级开源大数据服务。您可以快速搭建开源大数据服务,例如Hadoop、Spark、Flink、Kafka和HBase服务。稳定可靠的开源组件 100%采用社区开源组件,随开源版本升级迭代,详情请参见 版本...

跨集群复制数据

bin/kafka-topics-describe-topic test-topic.replica-bootstrap-server localhost:9092 预期输出:./bin/kafka-topics-describe-topic test-topic.replica-bootstrap-server localhost:9092 Topic:test-topic.replica PartitionCount:1 ...

概述

Flink(VVR)是基于Apache Flink(以下简称Flink)开发的商业版,VVR引擎接口完全兼容Flink开源版本,且提供GeminiStateBackend等高增值功能,以提升作业性能及稳定性。背景信息 Flink核心是一个流式的数据流执行引擎,其针对数据流的分布...

EMR集群JindoSDK升级流程(新版控制台)

bash bootstrap_jindosdk.sh-gen$NEW_JINDOSDK_VERSION$OLD_JINDOSDK_VERSION 例如 bash bootstrap_jindosdk.sh-gen 4.6.2 4.5.1 升级包制作成功后,显示以下内容:Generated patch at/home/emr-user/jindo-patch/jindosdk-bootstrap-...

ListScripts-查询脚本

BOOTSTRAP 返回参数 名称 类型 描述 示例值 object 返回数据 Scripts object[]脚本列表。Action string API 名称。ListScripts RegionId string 区域 ID。cn-hangzhou ScriptId string 脚本 ID。cs-bf25219d103043a0820613e32781*...

新功能发布记录

2023-05-19 什么是EMR Workflow 2023年4月 功能名称 功能概述 发布时间 相关文档 版本升级 EMR-5.x系列:升级至EMR-5.11.1 EMR-3.x系列:升级至EMR-3.45.1 2023-04-03 EMR-5.11.x版本说明 EMR-3.45.x版本说明 湖仓一体新能力 EMR支持Spark...

配置监控告警

更多信息,请参见 什么是云监控。开启一键告警 您可以开启云监控的一键告警功能,快速自动建立Serverless StarRocks指定监控项的报警体系,以便及时获取关键监控指标的异常信息。重要 开启此功能后,会创建磁盘IO使用率、CPU空闲率和磁盘...

查看作业列表

本文为您介绍如何查看您集群...创建时间 作业开始创建的时间。结束时间 作业创建结束的时间。执行时长 作业运行的时间。资源信息 作业的资源信息。跟踪URL Spark或Historyserver。运行中时是Spark的UI链接,运行结束是Historyserver的UI链接。

Impala Web UI

访问Impala Web UI 您可以通过SSH隧道和控制台两种方式访问Impala Web UI,详情请参见 通过SSH隧道方式访问开源组件Web UI 和 访问链接与端口。说明 使用Knox访问UI的前提条件是,Master节点必须具备公网IP地址,并且只允许对Catalogd和...

JindoFS块存储模式

应用场景 E-MapReduce目前提供了三种大数据存储系统,E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS,其中OssFileSystem和JindoFS都是云上存储的解决方案,下表为这三种存储系统和开源OSS各自的特点。特点 开源OSS E-...

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境,作为阿里云E-MapReduce的一部分,它...快速入门 EMR Notebook 快速使用EMR Notebook EMR Workflow 手动任务快速入门 工作流快速入门 相关文档 什么是EMR Notebook 什么是EMR Workflow

数据服务集群

特性介绍 Apache HBase是具有高可靠性、高性能、列存储、可伸缩、实时读写的开源NoSQL分布式系统。特别适用于需要实时读写随机访问超大规模数据集的场景。Apache HBase和Apache Hadoop生态系统无缝集成,并且可以和Apache Phoenix搭配使用...

产品架构

从上图可以看出EMR由四部分组成:社区开源产品 集成Apache社区开源大数据组件,例如Hadoop、Hive和HBase,随着EMR版本更新,开源软件也会相应的升级,详情请参见 版本概述 下各版本的版本说明。注意 已经创建好的EMR集群不支持组件升级。...

Kafka数据源

重要 Spark2 Kafka DataSource中不支持设置Kafka的group.id,streaming在消费Kafka数据的时候,每个Streaming作业会自动生成以"spark-kafka-source"为前缀的group.id。因此需要在Kafka服务端开通对该Group的权限,具体如下截图,否则会报...

OSS/OSS-HDFS概述

更多信息,请参见 什么是对象存储OSS。OSS-HDFS服务(JindoFS服务)是一款云原生数据湖存储产品。基于统一的元数据管理能力,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX能力支持,能更好地满足大数据和AI等领域的数据湖计算场景。...

EMR Serverless Milvus免费公测说明

介绍EMR Serverless Milvus的免费公测说明。公测说明 EMR Serverless Milvus已开启免费...什么是EMR Serverless Milvus 快速创建Milvus实例 联系我们 如果在使用EMR Serverless Milvus的过程中遇到任何疑问,可加入钉钉群 59530004993 咨询。

SWITCH

延时执行时间 任务延迟执行的时间。单位:分。超时告警 该开关默认关闭。打开 超时告警 开关,勾选 超时告警、超时失败,当任务超过 超时时长 后,会发送告警邮件并且任务执行失败。条件 可以为SWITCH任务配置多个条件,当条件满足时,会...

Superset(仅对存量用户开放)

您需要在SSH连接中创建隧道以查看开源组件的Web页面,详情请参见 通过SSH隧道方式访问开源组件Web UI。默认用户名和密码均为admin,请您登录后及时修改密码。说明 首次登录后默认是英文界面。在Superset页面,单击右上角的 图标,选择 ...

EMR Spark功能增强

阿里云E-MapReduce产品构建于阿里云云服务器ECS上,基于开源的Apache Hadoop和Apache Spark,做了大量优化。本文为您介绍E-MapReduce(简称EMR)Spark相对开源增强的功能。背景信息 阿里云EMR 100%采用社区开源组件,随开源版本升级迭代,...

什么是EMR on ECS

100%采用社区开源组件,适配并优化开源组件,性能远高于开源版本。基于时间的弹性伸缩能力,抢占式实例可进一步降低成本。解耦了计算与存储之间的绑定关系,实现了资源的弹性利用。分钟级别创建和扩容集群,无需手动部署和启动服务。产品...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
开源大数据平台 E-MapReduce 微服务引擎 云数据库 RDS 检索分析服务 Elasticsearch版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用