常见问题

进入Map Task的详情页面,可以看到每个Map Task读取的数据量,如下图所示,读取的数据量是2个字节记录。如果大部分的Map Task读取的文件量都比较小,就需要考虑小文件合并。您也可以通过查看Map Task的Log,获取更多的信息。Reduce Task...

Hive作业配置

E-MapReduce默认提供了Hive环境,您可以直接使用Hive来创建和操作创建的表和数据。前提条件 已创建好项目,详情请参见 项目管理。已准备好Hive SQL的脚本,并上传到OSS的某个目录中(例如 oss:/path/to/uservisits_aggre_hdfs.hive)。...

产品概述

云原生数据仓库 AnalyticDB PostgreSQL 版 基于开源项目Greenplum构建,由阿里云深度扩展,兼容ANSI SQL 2003,兼容PostgreSQL/Oracle数据库生态,支持行存储和列存储模式。既提供高性能离线数据处理,也支持高并发在线分析查询,是各行业...

基本概念

一个任务的CU使用量取决于输入任务的计算复杂度,以及所依赖的数据分布情况。您可以在任务列表中查看一个任务实例的CU消耗情况。计算资源(Compute)Compute是EMR Serverless Spark工作空间中可用的计算资源,能够与队列相关联,并为用户...

JMX连接器

数据表 JMX连接器提供了如下两个Schemas:current:包含了Presto集群中每个节点当前的MBean。MBean的名称即为 current 中的表名,如果MBean的名称中包含非标准字符,则需要在查询时使用双引号(")括起来。示例如下:列出运行时项目中的...

性能测试

本文介绍Ganos时空服务与开源GeoMesa(HBase)、云数据库MongoDB分片集群在处理时空轨迹数据时的性能测试对比。测试环境 本次性能测试中需要准备以下测试数据库,具体配置如下表:数据库 配置说明 云原生多模数据库 Lindorm Ganos引擎(即...

ListReleaseVersions-查询版本

DATALAKE 返回参数 名称 类型 描述 示例值 object 返回数据 ReleaseVersions object[]版本列表。Series string 版本序列。EMR-5.X ReleaseVersion string EMR 发行版。EMR-5.8.0 IaasType string IaaS 类型。ECS RequestId string 请求 ID...

数据建模

创建时序数据库 Lindorm实例创建成功后,系统会默认创建default数据库,将数据默认写入该数据库,您无法删除default数据库。时序引擎也支持创建多个数据库,不同的数据库在存储层面进行物理隔离,支持设置不同的数据有效期(TTL)、时间...

应用场景

强大的引擎和优化器保证了数据库在实时数据建模时的高效性。实时更新:采用了delete-and-insert的实时更新策略,且在读取时无需进行主键合并,相较于采用了merge-on-read(unique)的合并策略,性能提升了3~15倍。湖仓分析场景解决方案 ...

使用OpenAPI

关于使用阿里云OpenAPI的详细介绍,请参见 使用OpenAPI。基本信息 版本说明 版本号 说明 2021-03-20 推荐使用。接入点说明 根据实例所在的地域,选择对应的服务接入点地址,以获得最低延迟。例如华东1(杭州)的接入地址为 emr.aliyuncs....

使用须知

本文介绍使用Lindorm计算引擎SQL语句访问数据库的数据时,需要提前了解的相关内容。了解开源Spark SQL 通过开源Spark SQL访问数据库的数据分为以下三个级别:Catalog:用来标识用户不同的数据源。Namespace:与数据库中的Database或者...

E-MapReduce Serverless服务等级协议(SLA)

2023年6月1日起,E-MapReduce Serverless服务等级协议(SLA)生效。详情请参见 开源数据平台E-MapReduce Serverless服务等级协议。

查看元数据

元数据管理功能主要为您展示当前实例的所有数据库,数据表,分区及各种任务等信息。本文为您介绍如何通过EMR StarRocks Manager查看元数据。前提条件 已创建StarRocks实例,详情请参见 创建实例。使用限制 普通用户无法查看数据库大小、...

使用StarRocks Console

数据库功能 在数据库功能页中,会按数据库展示该数据库下的表详情和任务详情。表 展示当前数据库下的所有表(包括物化视图)单击对应的名称,可以逐层查看相关的表信息、分区信息、节点分片情况、分片信息。任务 展示当前数据库下的所有...

Kyuubi概述

Apache Kyuubi是一个分布式和多租户网关,为数据湖查询引擎(例如Spark、Flink或Trino等)提供SQL等查询服务。功能特性 多租户:Kyuubi通过统一的身份验证授权层为资源获取,数据和元数据访问提供端到端的多租户支持。高可用:Kyuubi基于...

什么是EMR Serverless Spark

EMR Serverless Spark是一款云原生,专为大规模数据处理和分析而设计的全托管Serverless产品。它为企业提供了一站式的数据平台服务,包括任务开发、调试、调度和运维等,极大地简化了数据处理的全生命周期工作流程。使用EMR Serverless ...

Delta Lake概述

Delta数据湖方案如下:在大数据存储层之上提供了数据管理层,该数据管理层等同于数据库中的元数据管理,其元数据随着数据一起存放并对用户可见(例如 图 1 所示)。Delta基于元数据管理引入了ACID,解决了因数据导入失败而产生脏数据和数据...

管理工作空间

工作空间是EMR Notebook管理数据库、外部集群和笔记本的基本单元。通过工作空间,您可以创建和编辑Notebook文件,方便地上传和下载文件,与其他用户共享Notebook和数据,并灵活地管理访问权限。前提条件 已完成系统角色授权,详情请参见 ...

云监控指标说明

本文详细介绍了EMR Serverless StarRocks的云监控指标,涵盖了多个关键性能参数。监控指标 类型 描述 serverless_starrocks_be_cpu 累计值 BE节点CPU使用节拍数量。根据mode标签区分不同类型的CPU。单位:节拍。说明 在Linux系统中,一个...

管理日志

使用限制 本文操作仅适用于数据湖(DataLake)、实时数据流(DataFlow)、数据分析(OLAP)、数据服务(DataServing)和数据湖(Hadoop)场景的集群。支持日志投递的服务有hdfs、yarn、yarn_application、hive、spark、jindodata、tez、...

什么是EMR on ECS

EMR on ECS将EMR的大数据处理功能与ECS的容器化部署优势相结合,使得您可以更加灵活地配置和管理EMR集群,从而更好地适应复杂的数据处理和分析场景。通过EMR on ECS,您可以快速创建、管理和运维EMR集群,同时也能够更加高效地使用计算和...

产品简介

开源数据开发平台E-MapReduce(简称EMR)是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

Spark概述

Spark是一个通用的大数据分析引擎,具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示,基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程,分别用于离线ETL(Extract-Transform-Load)、在线数据...

数据源支持概述

本文介绍Spark SQL支持的数据源类型,以及支持数据源的方式。支持的数据数据源 批量读 批量写 流式读 流式写 Kafka 有 无 有 有 Loghub 有 有 有 有 Tablestore 有 有 有 有 DataHub 无 无 有 有 HBase 有 有 无 有 JDBC 有 有 无 有 ...

产品概述

什么是E-MapReduce 开源数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

添加开源Elastic Search数据

前提条件 已准备好待添加的开源Elastic Search数据源。添加开源Elastic Search数据源 登录 DataV控制台。在 工作台 页面,单击 数据准备>数据源,进入 数据源 页面,单击 新建数据源。从 类型 列表中,选择 开源Elastic Search。填写开源...

添加开源Elastic Search数据

前提条件 已准备好待添加的开源Elastic Search数据源。添加开源Elastic Search数据源 登录 DataV控制台。在 我的数据 页签中选择 数据源管理,单击 添加数据。从 类型 列表中,选择 开源Elastic Search。填写开源Elastic Search数据服务...

相关的云服务

本文为您介绍典型场景下,使用开源数据平台E-MapReduce时通常会使用到的其他云服务。云服务名称 说明 云服务器ECS 使用云服务器ECS(Elastic Compute Service)作为集群的节点,每个ECS实例集群中的一个节点。专有网络VPC 专有网络VPC...

DBeaver

背景信息 DBeaver是一款免费、开源(GPL)的专门为开发人员和数据库管理员提供的通用数据库工具。DBeaver支持MySQL、PostgreSQL、Oracle、DB2、MSSQL、Sybase以及其他兼容JDBC的数据库。您可以通过DBeaver的图形界面查看数据库结构、执行...

Hive元数据基本操作

本文为您介绍Hive元数据的基本操作,包括新建、删除、新建表和删除表。前提条件 已创建集群,详情请参见 创建集群。新建 进入元数据管理页面。登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击...

概述

JDBC Channel:缓存到关系型数据库中。Kafka Channel:通过Kafka来缓存数据。Sink 从Channel中获取Event,并将以事务的形式Commit到外部存储中。一旦事务Commit成功,该Event会从Channel中移除。常见Sink如下:Logger Sink:用于测试。Avro...

通过DMS连接StarRocks实例

背景信息 DMS是由阿里云提供的数据库管理Web终端,为您管理Windows系统和Linux系统下的数据库。您只需在数据管理控制台上录入StarRocks实例信息,即可使用数据管理功能,例如新建数据库、新建表等。更多信息,请参见 什么是数据管理DMS。...

Sqoop常见问题

问题描述:例如,在云数据库RDS数据源中,数据表 Test_Table 中包含时间戳(TIMESTAMP)字段。您可以执行以下命令,导入 Test_Table 中的数据至HDFS。sqoop import \-connect jdbc:mysql:/rm-2ze*341.mysql.rds.aliyuncs.com:3306/s*o_...

Superset(仅对存量用户开放)

使用Superset访问Hive数据库 Superset提供了SQLAlchemy以多种语言支持各种各样的数据库,包括MySQL、Oracle、PostgreSQL和Microsoft SQL Server等关系型数据库,以及Hive、Presto和Druid等大数据查询引擎。这里以E-MapReduce Hadoop集群...

管理Databases

本文为您介绍如何在阿里云Milvus中有效地管理Databases(数据库),其操作方式与传统数据库引擎类似。您不仅能够在阿里云Milvus中创建多个Databases,还能够对这些Databases进行精细化权限控制,将其授权给指定的用户进行管理。前提条件 已...

查询OSS数据

本文为您介绍如何使用StarRocks的数据湖分析能力查询阿里云OSS。前提条件 已创建StarRocks集群,详情请参见 创建StarRocks集群。说明 此文档仅适用于EMR-5.12.0之前版本或EMR-3.46.0之前版本的StarRocks集群。已开通OSS服务,详情请参见 ...

EMR旧版控制台下线公告

功能 当前状态 数据开发 停止更新,仅对历史用户开放。元数据管理 停止更新,仅对历史用户开放。切换至新版控制台 建议您切换至EMR新版控制台管理集群,您可以在旧版控制台,单击右上方的 升级新版控制台,直接进入 EMR新版控制台。新版...

通过Mongo Shell管理数据库账号

roles":[{"role":"readAnyDatabase","db":"admin"}]} 查询目标数据库的所有数据库账号 说明 您可以通过 use database_name 命令切换数据库,其中 database_name 为目标数据库的名称。方式一:在目标数据库执行查询命令。show users 说明 ...

开源软件迁移

当前大部分应用系统都基于开源软件构建,并且大部分的开源软件在倚天ARM平台上已经提供较好的应用生态,您可以直接使用操作系统提供的开源生态软件来安装部署。本文介绍Nginx、MySQL、Redis、TensorFlow、PyTorch等开源软件如何在倚天...

PySpark基础操作

本文为您介绍PySpark的基础操作。操作步骤 通过SSH方式连接集群,详情请参见 登录集群。执行以下命令,进入PySpark交互式环境。pyspark 更多命令行参数请执行 pyspark-help 查看。初始化SparkSession。from pyspark.sql import ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 RDS 云数据库 Redis 版 云数据库 MongoDB 版 数据库备份 DBS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用