快速入门

StarRocks 2.3及以上版本提供以下两种数据目录:Internal Catalog:内部数据目录,用于存储StarRocks内部所有的数据库和数据表。您可以使用内部数据目录管理内部数据。例如,执行 CREATE DATABASE 和 CREATE TABLE 语句创建的数据库和数据...

生命周期策略

本文为您介绍开源数据开发平台E-MapReduce(简称EMR)的产品生命周期策略及产品终止策略(包含产品粒度与发行版本粒度),以便您知晓详细规则,提早做好相应准备。背景信息 产品的更新换代是基础技术软件领域的常态。在开源数据社区蓬勃...

使用HBase Shell

创建HBase集群后,您可以使用HBase Shell连接HBase,并进行读取和写入数据等操作。本文为您介绍如何连接HBase,以及常用的HBase Shell命令。前提条件 已创建数据服务场景(DataServing)的集群,详情请参见 创建集群。连接HBase 通过SSH...

资源观测

您可以使用时间筛选器,筛选小时、天或自定义的时间段,图表将自动刷新以显示所选择的时间段内的数据。指标参数说明 指标名称 说明 Workspace CU Consumption 显示整个工作空间中所有Spark作业的CU消耗。Queue CU Consumption 显示特定队列...

ECS实例说明

实例类型适用场景 Master主实例 适合通用型或内存型实例,数据直接使用阿里云的云盘来保存,确保了数据的高可靠性。Core核心实例 小数据量(TB级别以下)或者是使用OSS作为主要的数据存储时,推荐使用通用型、计算型或内存型。大数据量(10...

HBase存算一体转存算分离

首先通过flush操作来保证内存中所有表的数据都已经刷新到HFile,并执行Disable table来禁用相关的表,避免写入新的数据。停止HMaster和RegionServer进程。数据迁移。将存算一体架构HDFS上的HBase数据迁移到OSS-HDFS。OSS-HDFS详情请参见 ...

SparkSQL自适应执行

阿里云E-MapReduce 3.13.0及后续版本的SparkSQL支持自适应执行功能,可以用来解决Reduce个数的动态调整、数据倾斜和执行计划的动态优化问题。使用限制 本文针对SparkSQL自适应执行涉及到的参数适用于Spark 2.x。如果您使用的是Spark 3.x,...

Hive数据脱敏

Ranger支持对Hive数据的脱敏处理(Data Masking),即可以对Select的返回结果脱敏,以屏蔽敏感信息。背景信息 该功能只针对HiveServer2的场景(例如,Beeline、JDBC和Hue等途径执行的Select语句)。操作步骤 说明 本文Ranger截图以2.1.0...

JindoCache概述

JindoCache(原JindoFSx)是阿里云EMR提供的用于加速云原生数据湖的一个服务。他提供了数据缓存和元数据缓存等加速功能,并根据不同的CacheSet提供不同的读写策略,以满足数据湖在不同使用场景下对访问加速的需求。背景信息 CacheSet是...

Hive访问EMR Phoenix数据

在阿里云E-MapReduce(EMR)中,Hive支持通过配置外部表来访问和处理存储在Phoenix系统中的数据。本文通过示例为您介绍,如何使用EMR上的Hive处理EMR Phoenix数据。前提条件 已创建选择了Hive、HBase、Zookeeper和Phoenix服务的自定义集群...

计费项

云盘存储 您在StarRocks中使用云盘存储的数据量,包括实际的FE和BE节点用于数据存储的云盘数据量。BE规格 当您的 BE规格类型 为 高性能 或 大规格存储 时,会产生不同的计费费用。该计费项涵盖了BE的计算费用以及本地盘存储数据量费用。...

数据迁移

背景信息 EMR Kudu支持社区1.10以及1.11版本,可以使用社区提供的Backup和Restore的工具进行数据的迁移。基本流程示意图如下所示。操作步骤 执行以下命令,查看待迁移Kudu表的名称列表。Kudu table list {YourKuduMasterAddress} 说明 本文...

DataX Writer

是 无 column 目的表需要写入数据的字段,字段之间用英文逗号(,)分隔。例如,"column":["id","name","age"]。重要 该参数必须指定。如果希望导入所有字段,可以使用["*"]。是 无 preSql 写入数据到目的表前,会先执行设置的标准语句。否 ...

通过DMS连接StarRocks实例

数据管理DMS(Data Management)是一款支撑数据全生命周期的一站式数据管理平台。您只需在DMS控制台录入StarRocks实例的相关信息,即可轻松实现通过图形化的Web界面对StarRocks实例的高效管控与深度运维,极大提升数据管理体验及操作效率。...

通过命令行方式访问Presto

创建了包含Presto服务的集群后,您可以通过命令行方式连接至Presto,从而进行简单快捷的数据查询操作。前提条件 已创建EMR-3.45.0及后续版本和EMR-5.11.0及后续版本,且选择了Presto服务的集群,详情请参见 创建集群。普通集群 说明 如果...

EMR Doctor常见问题

EMR Doctor仅采集必要的事件数据,例如任务启动时间、终止时间、Metrics数据和Counters数据等。EMR Doctor收费吗?当前是不收取任何费用的。采集操作会对任务的运行会产生什么影响?EMR Doctor存储元数据采集会根据用户资源动态调整采集的...

滚动窗口

例如,如果指定了一个5分钟大小的滚动窗口,无限流的数据会根据时间划分成[0:00-0:05)、[0:05,0:10)和[0:10,0:15)等窗口。滚动窗口函数语法 GROUP BY TUMBLING(colName,windowDuration)示例 SELECT avg(inv_quantity_on_hand)qoh FROM ...

产品架构

从上图可以看出EMR由四部分组成:社区开源产品 集成Apache社区开源数据组件,例如Hadoop、Hive和HBase,随着EMR版本更新,开源软件也会相应的升级,详情请参见 版本概述 下各版本的版本说明。注意 已经创建好的EMR集群不支持组件升级。...

产品架构

尽管存算一体架构在查询性能上具有显著优势,但也存在一些局限性:成本高:为了确保数据的可靠性,BE节点必须使用多副本,特别是三副本机制,这随着数据量的增加会导致存储资源的持续扩充,可能会造成计算资源的浪费。架构复杂:多副本的...

管理导入任务

背景信息 该页面的数据来自于使用StarRocks内核提供的查询命令(例如 show load)所得到的结果,这些数据的生命周期与内核中数据存储的生命周期相同。该功能适用于以下场景:查看某一个导入任务的数据导入情况,包括已导入的数据条数和数据...

使用MapReduce处理JindoFS上的数据

本文介绍如何使用MapReduce读写JindoFS上的数据。JindoFS配置 以EMR-3.35版本为例,创建名为 emr-jfs 的命名空间,相关配置参数示例如下:jfs.namespaces=emr-jfs jfs.namespaces.emr-jfs.oss.uri=oss:/oss-bucket/oss-dir jfs.namespaces....

SmartData 3.6.x版本简介

特性 描述 JindoSDK支持本地缓存(Local)策略 JindoSDK支持本地缓存策略,使得在未部署SmartData服务的情况下,也能支持本地数据缓存,提高OSS数据的访问效率。JindoSDK支持和FileSystem平级的Object Store API JindoSDK在已有FileSystem...

概述

开源应用的调试过程中需要使用开源UI,MaxCompute Spark提供原生的开源实时UI和查询历史日志的功能。其中,对于部分开源应用还支持交互式体验,在后台引擎运行后即可进行实时交互。系统结构 MaxCompute Spark是阿里云通过Spark on ...

Delta连接器

EMR Trino提供了独立的Delta连接器,在E-MapReduce集群上支持了较为完整的数据湖特性并进行了特性扩展。背景信息 Delta Lake是DataBricks公司推出的一种数据湖方案,以数据为中心,围绕数据流走向推出了一系列功能特性,详情请参见 Delta ...

查询OSS数据

本文为您介绍如何使用StarRocks的数据湖分析能力查询阿里云OSS。前提条件 已创建StarRocks集群,详情请参见 创建StarRocks集群。说明 此文档仅适用于EMR-5.12.0之前版本或EMR-3.46.0之前版本的StarRocks集群。已开通OSS服务,详情请参见 ...

常见问题

进入Map Task的详情页面,可以看到每个Map Task读取的数据量,如下图所示,读取的数据量是2个字节记录。如果大部分的Map Task读取的文件量都比较小,就需要考虑小文件合并。您也可以通过查看Map Task的Log,获取更多的信息。Reduce Task...

Shell作业配置

操作步骤 进入数据开发的项目列表页面。通过阿里云账号登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击上方的 数据开发 页签。单击待编辑项目所在行的 作业编辑。新建Shell类型作业。在页面左侧,在...

Paimon数据

通过Paimon Catalog,您可以直接查询Paimon中的数据。本文为您介绍如何创建和查看Paimon Catalog。创建Paimon Catalog 语法 ​ CREATE EXTERNAL CATALOG<catalog_name>PROPERTIES("key"="value",.);参数说明 catalog_name:Paimon Catalog...

MySQL连接器

该连接器可以用于不同系统(例如,MySQL和Hive),或者两个不同MySQL实例间的数据进行JOIN操作。背景信息 本文为您介绍MySQL连接器相关的内容和操作,具体如下:配置MySQL连接器 类型映射 示例:查询MySQL 下推(Pushdown)前提条件 已创建...

Lindorm for Cassandra应用实践

Lindorm 是一款适用于任何规模、多种模型的云原生数据库服务,支持海量数据的低成本存储处理和弹性按需付费,提供宽表、时序、搜索、文件等多种数据模型,兼容HBase、Cassandra、Phoenix、OpenTSDB、Solr、SQL等多种开源标准接口,...

Hive访问EMR HBase数据

在阿里云E-MapReduce(EMR)中,Hive支持通过内部表和外部表两种方式来访问和处理存储在HBase中的数据。本文通过示例为您介绍,如何使用EMR上的Hive处理EMR HBase数据。前提条件 已创建选择了Hive、HBase和Zookeeper服务的自定义集群...

Hive访问EMR HBase数据

在阿里云E-MapReduce(EMR)中,Hive支持通过内部表和外部表两种方式来访问和处理存储在HBase中的数据。本文通过示例为您介绍,如何使用EMR上的Hive处理EMR HBase数据。前提条件 已创建选择了Hive、HBase和Zookeeper服务的自定义集群...

Sqoop常见问题

查询结果显示,源数据的时间字段显示延迟8小时。解决方法:在使用TIMESTAMP字段导入数据至HDFS时,请删除-direct 参数。sqoop import \-connect jdbc:mysql:/rm-2ze*341.mysql.rds.aliyuncs.com:3306/s*o_sqoopp_db \-username s*o \-...

常见问题

如果因为磁盘空间或者磁盘性能等问题,希望更改ZooKeeper的数据目录,您可以按照以下步骤逐个节点修改并迁移数据目录,实现不停止ZooKeeper服务的平滑迁移。说明 例如,将数据目录从/mnt/disk1/zookeeper/data 更改为/mnt/disk2/zookeeper/...

Delta Lake参数

当您数据的Schema发生变更后,需要在写入数据时在option中显示指定 mergeSchema 为true。如果您期望当数据Schema发生变化自动进行Schema的合并,请设置该值为true。但是我们仍然建议您使用显示指定的方式,而不是让它自动合并Schema。spark...

Paimon与Hive集成

E-MapReduce支持在Hive中查询Paimon数据。本文通过示例为您介绍如何在Hive中查询Paimon中的数据。使用限制 EMR-3.46.0及后续版本、EMR-5.12.0及后续版本的集群,支持在Hive中查询Paimon中的数据。操作步骤 查询Hive Catalog与DLF Catalog中...

Sqoop作业配置

操作步骤 进入数据开发的项目列表页面。通过阿里云账号登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击上方的 数据开发 页签。单击待编辑项目所在行的 作业编辑。新建Sqoop类型作业。在页面左侧,在...

Flink Table Store与Hive集成

E-MapReduce的Flink Table Store服务支持在Hive中查询数据。本文通过示例为您介绍如何在Hive中查询Flink Table Store中的数据。使用限制 仅EMR-3.45.0版本、EMR-5.11.0版本的集群,支持在Hive中查询Flink Table Store中的数据。操作步骤 ...

EMR-3.23.x版本说明

解决join不同bucketversion的表时丢数据的问题。Flink 升级至1.8.2。Bigboot 更新小文件工具。更新OSS JAR,解决非daemon线程问题。Kafka 新增感知Deploymen Set特性。去掉fastjson依赖。HDFS 优化SmartData OSS JAR包部署逻辑。更新...

Hudi数据

通过Hudi Catalog,您可以直接查询Hudi中的数据。本文为您介绍如何创建和查看Hudi Catalog。创建Hudi Catalog 语法 ​ CREATE EXTERNAL CATALOG<catalog_name>PROPERTIES("key"="value",.);参数说明 catalog_name:Hudi Catalog的名称,必...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 RDS 数据库备份 DBS 云数据库 Redis 版 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用