Spark作业配置

您可以单击下方的+插入OSS路径,文件前缀 选择 OSSREF,从 文件路径 中进行浏览和选择,系统会自动补齐OSS上Spark脚本的路径。创建Pyspark作业。E-MapReduce除了支持Scala或者Java类型作业外,还支持Python类型Spark作业。新建一个Python...

常见问题

ZooKeeper的定位是一个分布式协调服务,不能把ZooKeeper当作一个文件系统来使用,通常,znode数量应尽量保持在10万以下,snapshot大小应在800 MB以下。您可以在E-MapReduce控制台的 集群监控 页签,查看Zookeeper的znode数量监控。查看...

迁移方案

对接自建平台 如果您自建了一套大数据平台,则DataFlow集群也可以轻松集成进您现有的平台中:资源管理与运维 DataFlow集群基于YARN进行资源调度与管理,因此只需要按照集成YARN集群到已有平台的通常操作进行即可。您可以根据需要配置YARN...

Hive连接器

本文为您介绍Hive连接器相关的内容和操作。背景信息 Hive数仓系统由以下三部分内容组成:不同格式的数据文件,通常存储在Hadoop分布式文件系统(HDFS)或对象存储系统(例如,阿里云OSS)中。存储着数据文件到Schema和Table映射的元数据。...

Flink DataStream参考

DataFlow集群的Flink DataStream API完全兼容开源的Flink版本,关于Flink DataStream API的详细信息,请参见 Flink DataStream API Programming Guide。上下游存储(Connector)开源Flink的上下游存储,请参见 DataStream Connectors。...

产品优势

阿里云E-MapReduce(简称EMR)为您提供相对方便可控的企业级开源大数据服务。您可以快速搭建开源大数据服务,例如Hadoop、Spark、Flink、Kafka和HBase服务。稳定可靠的开源组件 100%采用社区开源组件,随开源版本升级迭代,详情请参见 版本...

迁移元数据上云

迁移元数据上云是指将开源RabbitMQ集群的元数据导出,并将其导入到阿里云 云消息队列 RabbitMQ 版 实例。云消息队列 RabbitMQ 版 会根据成功导入的元数据在目标 云消息队列 RabbitMQ 版 实例中创建对应的Vhost、Queue、Exchange、Binding,...

EMR Spark功能增强

阿里云E-MapReduce产品构建于阿里云云服务器ECS上,基于开源的Apache Hadoop和Apache Spark,做了大量优化。本文为您介绍E-MapReduce(简称EMR)Spark相对开源增强的功能。背景信息 阿里云EMR 100%采用社区开源组件,随开源版本升级迭代,...

查看实例列表与详情

例如,用于系统更新、配置更改或其他需要重启服务以确保新设置生效的情况。警告 重启将会导致业务出现闪断,请您确认客户端已经做好业务重试机制,以免影响业务正常使用!释放:当您不再需要某个实例提供服务时,您可以释放该实例,以免...

OpenLDAP

OpenLDAP是LDAP协议(Lightweight Directory Access Protocol)的开源实现,在EMR集群中主要提供用户管理和身份认证的功能。服务集成OpenLDAP 在EMR集群中,Knox服务默认与OpenLDAP服务对接。当您通过EMR控制台的 访问链接与端口 功能访问...

授权信息

操作(Action)下表 开源大数据平台 E-MapReduce(EMR)定义的操作,这些操作可以在RAM权限策略语句的 Action 元素中使用,用来授予执行该操作的权限。下面对表中的具体项提供说明:操作:是指具体的权限点。API:是指操作对应的API接口...

开源版和商业版介绍

无法直接引入开源的 XML,需要换头。模块化开发 支持新的模块格式,不兼容 Sofa3 和 Sofa4 模块。支持新的模块格式,不兼容 Sofa3 和 Sofa4 模块。扩展点支持 支持 说明 从 2.6.0 版本开始支持。支持 说明 从 3.1.0 版本开始支持。SOFA MVC...

HBASE-HDFS

HBASE-HDFS服务 HDFS作为Hadoop生态系统的核心组件,提供了可靠的分布式文件存储功能。HBase-HDFS服务通过使用HDFS作为其底层数据存储解决方案,继承了HDFS的所有原生特性和优势,未对其基本架构进行修改。HDFS更多信息介绍,请参见 HDFS...

TSDB开源生态概述

时间序列数据库TSDB以其强大的功能和兼容性,对于当前的一些开源解决方案实现了较好的适配。以下是TSDB与一些开源组件或开源项目对接的方法。Grafana如何对接TSDB Quick BI如何接入TSDB

选型配置说明

Flink、Kafka、YARN OLAP 数据分析场景,其中核心组件ClickHouse是一个面向联机分析处理(OLAP)的开源的面向列式存储的DBMS,与Hadoop和Spark相比,ClickHouse更轻量级。ClickHouse支持线性扩展,简单方便,具有高可靠性和高容错。...

JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现,主要包括JindoFS存储系统(原JindoFS Block模式)、...

请求结构

请求参数需要包含在URL中。本文列举了GET请求中的结构解释,并提供了...请求参数 您需要通过 Action 参数指定目标操作,还需要指定接口的其他参数以及公共请求参数,详情请参见 公共参数。字符编码 请求及返回结果都使用UTF-8字符集进行编码。

导入概述

导入的原子性保证 Doris的每一个导入作业,不论是使用Broker Load进行批量导入,还是使用INSERT语句进行单条导入,都是一个完整的事务操作。导入事务可以保证一批次内的数据原子生效,不会出现部分数据写入的情况。每个导入作业都会有一个...

EMR Doctor概述

E-MapReduce Doctor(简称EMR Doctor)是E-MapReduce产品自研的面向开源大数据集群的智能运维诊断系统。通过EMR Doctor(即集群管理页面的“健康检查”功能)可以全局了解集群的健康状况和动态走势,为运维决策和资源优化提供有力的信息...

Spark SQL作业配置

本文介绍如何配置Spark SQL类型的作业。前提条件 已创建好项目,详情请参见 项目管理。操作步骤 进入数据开发的项目列表页面。...系统会自动为SELECT语句加上'limit 2000'的限制。select*from test1;单击 保存,作业内容编辑完成。

通过集群模板创建集群

前提条件 已创建集群模板,具体操作请参见 创建集群模板。操作步骤 进入管理集群模板页面。登录 E-MapReduce控制台。在左侧导航栏,单击 EMR on ECS。在顶部菜单栏处,根据实际情况选择地域 和资源组。在 EMR on ECS 页面,单击右侧的 管理...

什么是EMR Serverless Milvus

您还可以利用开源的Attu工具进行可视化操作,进一步促进应用的快速开发和部署。背景信息 Milvus是一款云原生开源向量检索引擎,基于Faiss、Annoy、HNSW等知名库构建,并进行了优化,实现了高可用、高性能、易扩展的特性,适于处理海量向量...

升级大版本

版本升级过程中,无法进行升配、扩容、缩容、修改配置、开通公网等变更操作。版本升级期间可能会导致正在运行的导入或查询作业失败,建议在业务低峰期进行版本升级。操作步骤 进入EMR Serverless StarRocks实例详情页面。登录 E-MapReduce...

访问链接与端口

通过访问链接与端口功能,您可以方便地通过控制台方式访问集群中已安装开源组件Web UI的地址。本文将介绍如何设置安全组规则和访问链接,以便查看集群中开源组件的UI界面。前提条件 已创建E-MapReduce集群,详情请参见 创建集群。背景信息 ...

EMR Hive功能增强

本文为您介绍E-MapReduce(简称EMR)各版本对应的Hive组件版本,以及各版本中Hive相对开源增强的功能。Hive针对开源功能增强的功能如下表。EMR版本 组件版本 功能增强 EMR-5.2.1 Hive 3.1.2 修复使用DLF元数据执行 show create table 命令...

引擎版本介绍

阿里云EMR Serverless Spark采用的是基于Apache Spark引擎。本文为您详细介绍引擎版本号及含义。引擎版本号及其含义 引擎版本的格式为 esr-*(Spark*,Scala*,Java Runtime/Native Runtime)。内容 含义 esr-*EMR Serverless Spark版本号,...

管理缓存

delete操作(默认)将同时删除Alluxio和底层文件系统中的文件,而free操作仅仅删除Alluxio中的文件。语法 alluxio fs setTtl[-action delete|free]<path><time to live>示例:一分钟后,tmp 目录将被删除。alluxio fs setTtl/tmp 60000 ...

访问模式

在 集群管理 页面,单击目标集群操作列的 节点管理。在此页面您可以查看ClickHouse集群的IP地址。配置JDBC以访问ClickHouse集群,详情请参见 ClickHouse JDBC driver。通过负载均衡器SLB访问ClickHouse集群 配置SLB服务,详情请参见 配置...

使用StarRocks Console

在 集群管理 页面,单击目标集群操作列的 集群服务。在 集群服务 页面,单击 StarRocks-Console 服务区域的 状态。获取StarRocksConsole的IP地址。在 组件列表 区域,单击StarRocksConsole所在行的 图标。查看内网IP或公网IP。您可以结合...

概述

Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术。Alluxio为数据驱动型应用和存储系统构建了桥梁,将数据从存储层移动到距离数据驱动型应用更近的位置,从而能够更容易被访问,同时使得应用程序能够通过一个公共接口连接...

配置说明

本文介绍流式查询配置的相关概念及配置参数。查询配置 说明 流式查询配置在EMR-3.23.0及之后版本不建议使用,最新的查询配置请参见 SCAN语句 或 STREAM语句。在使用Spark SQL进行流式查询前,您需要了解以下两个概念:数据源配置:即Table...

OSS/OSS-HDFS概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现,主要包括 JindoFS 存储系统(原JindoFS Block模式)...

设置权限

在SIMPLE认证方式下,客户端访问Alluxio服务时,会从操作系统获取当前的登录用户,一起发送请求到服务端,供服务端进行身份标识。如果客户端设置了 alluxio.security.login.username 参数,客户端将使用对应的配置作为请求服务端的用户。...

使用Kerberos认证

操作步骤 使用SSH方式登录集群,详情请参见 登录集群。执行以下命令,进入Kerberos的admin.local工具。如果您是使用root用户,登录KDC(Kerberos的服务端程序)所在的master-1-1节点,则可以执行以下命令,直接进入admin工具。kadmin.local...

Spark对接MySQL

本文介绍Spark如何访问MySQL。Spark RDD访问MySQL 示例代码如下。val input=getSparkContext.textFile(inputPath,numPartitions)input.flatMap(_.split("")).map(x=>(x,1)).reduceByKey(_+_).mapPartitions(e=>{ var conn:Connection=null ...

使用OpenAPI

本文为您介绍使用开源大数据平台E-MapReduce OpenAPI的基本信息。关于使用阿里云OpenAPI的详细介绍,请参见 使用OpenAPI。基本信息 版本说明 版本号 说明 2021-03-20 推荐使用。接入点说明 根据实例所在的地域,选择对应的服务接入点地址,...

概述

Apache Flume是一个分布式、可靠和高可用的系统,可以从大量不同的数据源有效地收集、聚合和移动日志数据,从而集中式的存储数据。使用场景 Flume使用最多的场景是日志收集,也可以通过定制Source来传输其他不同类型的数据。Flume最终会将...

管理Schema

字段Schema 在Milvus中定义字段Schema时,系统当前只允许指定一种类型的字段作为主键(Primary Key)。属性 描述 name 字段的名称。dtype 字段的数据类型。description 字段的描述信息。is_primary 是否将该字段设为主键。取值为True或...

SmartData 2.6.0-2.7.2版本简介

例如,既支持与Block模式一致的使用方式,也支持原有OSS文件系统的使用方式,以满足用户不同的需要,详情请参见 JindoFS缓存模式使用说明。支持权限 Block模式支持Unix权限和Ranger权限两种文件系统权限功能:Unix权限:可以使用文件的777...

Paimon数据源

如果未配置 dlf.catalog.id 参数的值,则系统将使用默认DLF Catalog。示例 以下示例创建了一个名为 paimon_catalog 的Paimon Catalog,其元数据类型 paimon.catalog.type 为 dlf,用于查询Paimon集群里的数据。CREATE EXTERNAL CATALOG ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
开源大数据平台 E-MapReduce 阿里邮箱 云数据库 RDS 商标服务 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用