Spark对接MaxCompute

本文介绍如何在Spark中进行MaxCompute数据的读写操作。操作步骤 初始化一个OdpsOps对象。在Spark中,MaxCompute的数据操作通过OdpsOps类完成。import ...

Hive统一元数据

使用统一的元数据库,如果您的所有数据都存放在OSS之上,则不需要做任何元数据的迁移和重建,所有集群都是可以直接访问数据,这样每个EMR集群可以做不同的业务,但是可以很方便地实现数据的共享。创建使用统一元数据的集群 支持以下两种...

数据源支持概述

本文介绍Spark SQL支持的数据源类型,以及支持数据源的方式。支持的数据数据源 批量读 批量写 流式读 流式写 Kafka 有 无 有 有 Loghub 有 有 有 有 Tablestore 有 有 有 有 DataHub 无 无 有 有 HBase 有 有 无 有 JDBC 有 有 无 有 ...

OpenLDAP

OpenLDAP是LDAP协议(Lightweight Directory Access Protocol)的开源实现,在EMR集群中主要提供用户管理和身份认证的功能。服务集成OpenLDAP 在EMR集群中,Knox服务默认与OpenLDAP服务对接。当您通过EMR控制台的 访问链接与端口 功能访问...

概述

使用场景 典型的应用场景如下:近实时计算场景 时间序列数据的场景 预测建模 与存量数据共存 通常生产环境中会有大量的存量数据,数据可能存储在HDFS、RDBMS或Kudu中。如果您只是想访问和查询这些存量数据,可以使用Impala访问和查询,而...

管理缓存

Alluxio利用E-MapReduce(简称EMR)集群的本地节点的内存和磁盘对数据进行分布式缓存。本文为您介绍缓存相关的内容。前提条件 已创建集群,并选择了Alluxio服务,详情请参见 创建集群。已登录集群,详情请参见 登录集群。背景信息 EMR默认...

开源PostgreSQL性能对比

测试环境和规格 PolarDB for PostgreSQL 14和开源 PostgreSQL 14的环境和规格如下表所示,本次测试的开源PostgreSQL 14在阿里云ECS机器上进行部署:参数 PolarDB for PostgreSQL 14 开源 PostgreSQL 14 核数+内存 8核 64 GB 8核 64 GB 发压...

使用DLF元数据

E-MapReduce(简称EMR)的EMR-5.8.0及之后版本的集群(对应StarRocks 2.3及之后的版本)支持查询元数据类型为DLF的外表。...相关文档 如果使用Hive MetaStore,请参见 Hive数据源、Iceberg数据源、Hudi数据源、Delta Lake数据源。

DataX

数据源筛选SQL 从数据源中抽取数据的SQL语句。当节点执行SQL时会自动解析SQL查询的列名,并将其映射为目标表的同步列名。当源表和目标表的列名不一致时,可以通过使用列别名(AS)来进行转换。目标源类型 选择同步数据的数据源类型。目标源...

概述

Druid工作层(数据索引以及查询)包含以下组件:Realtime组件负责数据的实时摄入。Broker组件负责查询任务的分发以及查询结果的汇总,并将结果返回给用户。Historical组件负责索引后的历史数据的存储,数据存储在deep storage。Deep ...

扩容磁盘

当E-MapReduce集群的数据存储空间不足时,您可以根据本文进行磁盘(数据盘)扩容。本文为您介绍如何对数据盘进行扩容。前提条件 已在E-MapReduce控制台创建集群,详情请参见 创建集群。使用限制 E-MapReduce控制台仅支持数据盘扩容操作,不...

查询Delta表数据

2 3 4 0 1 Time taken:2.937 seconds,Fetched:5 row(s)说明 查看数据与在Spark中插入的数据一致,说明Hive已经成功访问了Delta表的数据。通过Presto查询Delta表数据 执行以下命令,进入Presto命令行。presto-server master-1-1:8889-...

通过Quick BI连接StarRocks实例

添加StarRocks数据源用于连通StarRocks数据库与Quick BI,连接成功后,您可以在Quick BI上进行数据的分析与展示。本文为您介绍如何通过Quick BI连接StarRocks实例。背景信息 Quick BI是由阿里云提供的一款全场景数据消费式的BI平台,无缝...

管理用户及数据授权

通过用户管理功能,您可以对数据库进行用户权限控制,这样可以确保只有授权的用户能够管理相关的数据库。前提条件 已创建实例,详情请参见 创建实例。使用限制 普通用户无法执行本文操作。添加用户 进入StarRocks Manager页面。登录 E-...

可视化弹性成本分析

说明 仅支持按量付费(抢占式实例)Task节点组,且仅在有账单数据的情况下可以进行筛选。时间范围 选择大盘时间范围,默认为最近7天。您可以设置该项查看不同时间范围的成本、资源趋势。节点昨日花费 弹性成本费用统计,这些花费为本集群的...

概述

Event由一个可选的Header字典和一个装载数据的字节数组组成。示例如下。Header(Map)|Body(byte[])|-Flume Event Source 是数据源收集器,从外部数据源收集数据,并批量发送到一个或多个Channel中。常见Source如下:Avro Source:通过监听...

数据格式描述文件

本文介绍索引数据的描述文件(Ingestion Spec文件)。Ingestion Spec(数据格式描述)是Druid对要索引数据的格式以及如何索引该数据格式的一个统一描述,它是一个JSON文件,一般由三部分组成。{"dataSchema":{.},"ioConfig":{.},...

Hive数据按行过滤

Ranger支持对Hive数据按行进行过滤(Row Level Filter),即可以对Select返回的结果按行进行过滤,只显示满足指定条件的行。本文介绍如何将Hive数据按行进行过滤。前提条件 已创建集群,并选择了Ranger服务,详情请参见 创建集群。已创建按...

分层存储命令使用说明

通过该功能您可以根据数据冷热程度选择不同的存储介质来存储数据,以减少数据存储成本,或者加速访问数据的速度。使用Jindo jfs 执行以下命令,获取帮助信息。jindo jfs-help archive-archive-i/a<path>.:Archive commands.JindoFS分层存储...

Spark概述

Spark是一个通用的大数据分析引擎,具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示,基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库,分别用于离线ETL(Extract-Transform-Load)、在线数据...

分层存储命令使用说明

通过该功能您可以根据数据冷热程度选择不同的存储介质来存储数据,以减少数据存储成本,或者加速访问数据的速度。使用Jindo jfs 执行以下命令,获取帮助信息。jindo jfs-help archive-archive-i/a<path>.:Archive commands.JindoFS分层存储...

分层存储命令使用说明

通过该功能您可以根据数据冷热程度选择不同的存储介质来存储数据,以减少数据存储成本,或者加速访问数据的速度。使用Jindo jfs 执行以下命令,获取帮助信息。jindo jfs-help archive-archive-i/a<path>.:Archive commands.JindoFS分层存储...

分层存储命令使用说明

通过该功能您可以根据数据冷热程度选择不同的存储介质来存储数据,以减少数据存储成本,或者加速访问数据的速度。使用Jindo jfs 执行以下命令,获取帮助信息。jindo jfs-help archive-archive-i/a<path>.:Archive commands.JindoFS分层存储...

分层存储命令使用说明

通过该功能您可以根据数据冷热程度选择不同的存储介质来存储数据,以减少数据存储成本,或者加速访问数据的速度。使用Jindo jfs 执行以下命令,获取帮助信息。jindo jfs-help archive-archive-i/a<path>.:Archive commands.JindoFS分层存储...

分层存储命令使用说明

通过该功能您可以根据数据冷热程度选择不同的存储介质来存储数据,以减少数据存储成本,或者加速访问数据的速度。使用Jindo jfs 执行以下命令,获取帮助信息。jindo jfs-help archive-archive-i/a<path>.:Archive commands.JindoFS分层存储...

自建Hadoop数据迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。适用场景 ...

分层存储命令使用说明

通过该功能您可以根据数据冷热程度选择不同的存储介质来存储数据,以减少数据存储成本,或者加速访问数据的速度。使用Jindo jfs 执行以下命令,获取帮助信息。jindo jfs-help archive JindoFS分层存储命令均为异步执行,分层存储命令只是...

分层存储命令使用说明

通过该功能您可以根据数据冷热程度选择不同的存储介质来存储数据,以减少数据存储成本,或者加速访问数据的速度。使用Jindo jfs 执行以下命令,获取帮助信息。jindo jfs-help archive JindoFS分层存储命令均为异步执行,分层存储命令只是...

WHERE语句

WHERE语句可用于对SELECT语句中的数据进行筛选。语法 SELECT[ALL|DISTINCT]{*|projectItem[,projectItem]*} FROM tableExpression[WHERE booleanExpression];示例 测试数据 Address City Oxford Street Beijing Fifth Avenue Beijing ...

HDFS DiskBalancer介绍

计划是描述两个磁盘之间应该移动多少数据的一组语句。一个计划是由多个步骤组成的。移动步骤有源磁盘、目标磁盘和要移动的字节数。计划可以针对操作数据节点执行。磁盘平衡器通过限制每秒复制的数据量防止干扰其他进程。使用HDFS ...

数据源中心

EMR Workflow的数据源中心支持配置数据源,以满足不同的数据存储和访问需求。本文为您介绍如何创建、编辑和删除数据源。使用限制 数据源所在的集群和运行工作流时选择的集群需要在同一VPC下。创建数据源 进入数据源中心页面。使用阿里云...

WATERMARK语句

WATERMARK语句在流式查询中用来处理数据乱序问题。本文介绍WATERMARK语法及相关的示例。语法 SELECT watermark(projectItem,durationSpec)as watermarkItem,projectItem[,projectItem]*FROM tableExpression WATERMARK主要是为了解决数据流...

Redis数据

配置参数说明 参数 描述 是否必选 table 写入Redis数据的key前缀。key格式为${table}:${key.column},其中${key.column} 为配置项。是 redis.save.mode 数据已经存在时的处理方式,包含append、overwrite、errorifexists或ignore,依次表示...

EMR Serverless Spark免费公测说明

工作空间内所有并行运行的任务共写入Shuffle数据的总量上限为10 TB。同一工作空间内允许并发执行的任务数量上限为100个。不保障服务等级协议(SLA),但服务不降级。公测期间包年包月的工作空间仅支持续费一个月。说明 如果在使用过程中...

配置自建RDS

DataLake和Custom集群在创建过程中会自动根据所提供的数据库连接参数初始化Hive Meta数据库,因此无需执行该步骤。步骤一:元数据库准备 创建数据库。具体操作,请参见 创建数据库 中的创建数据库。创建普通用户并授权读写权限。具体操作,...

产品计费

一个计算任务的CU使用量取决于该任务的实际处理的数据量、计算复杂程度,以及处理的数据分布情况。您可以根据业务规模和数据量合理评估需要的资源数据。基础版工作空间1 CU的处理能力如下表所示。处理场景 处理能力 简单的数据处理。例如,...

冷热分层

本文介绍冷数据的特点和适应场景,通过表格存储Tablestore和Delta Lake结合示例,演示数据的冷热分层。冷热分层可以充分利用计算和存储资源,以低成本承载更优质服务。背景信息 在海量大数据场景下,随着业务和数据量的不断增长,性能和...

概述

Spark SQL流式处理支持两类窗口:滚动窗口(TUMBLING)滑动窗口(HOPPING)时间属性 Spark SQL支持Event Time时间属性,对数据进行窗口内聚合。Event Time:事件时间,通常是您提供在Schema中数据最原始的创建时间。说明 查询已存在的时间...

生命周期策略

本文为您介绍开源数据开发平台E-MapReduce(简称EMR)的产品生命周期策略及产品终止策略(包含产品粒度与发行版本粒度),以便您知晓详细规则,提早做好相应准备。背景信息 产品的更新换代是基础技术软件领域的常态。在开源数据社区蓬勃...

HBase Replication

HBase可以基于Replication功能将实时写入的数据从主集群复制到备份集群,从而提高HBase数据的可靠性和数据访问的扩展性。HBase目前支持异步Replication、串行Replication和同步Replication。本文为您介绍如何开启HBase的异步Replication...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 RDS 数据库备份 DBS 云数据库 Redis 版 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用