开源的网络数据-开源的网络数据文档介绍内容-阿里云

快速入门

StarRocks 2.3及以上版本提供以下两种数据目录：Internal Catalog：内部数据目录，用于存储StarRocks内部所有的数据库和数据表。您可以使用内部数据目录管理内部数据。例如，执行 CREATE DATABASE 和 CREATE TABLE 语句创建的数据库和数据...

生命周期策略

本文为您介绍开源大数据开发平台E-MapReduce（简称EMR)的产品生命周期策略及产品终止策略（包含产品粒度与发行版本粒度），以便您知晓详细规则，提早做好相应准备。背景信息产品的更新换代是基础技术软件领域的常态。在开源大数据社区蓬勃...

使用HBase Shell

创建HBase集群后，您可以使用HBase Shell连接HBase，并进行读取和写入数据等操作。本文为您介绍如何连接HBase，以及常用的HBase Shell命令。前提条件已创建数据服务场景（DataServing）的集群，详情请参见创建集群。连接HBase 通过SSH...

资源观测

您可以使用时间筛选器，筛选小时、天或自定义的时间段，图表将自动刷新以显示所选择的时间段内的数据。指标参数说明指标名称说明 Workspace CU Consumption 显示整个工作空间中所有Spark作业的CU消耗。Queue CU Consumption 显示特定队列...

ECS实例说明

实例类型适用场景 Master主实例适合通用型或内存型实例，数据直接使用阿里云的云盘来保存，确保了数据的高可靠性。Core核心实例小数据量（TB级别以下）或者是使用OSS作为主要的数据存储时，推荐使用通用型、计算型或内存型。大数据量（10...

HBase存算一体转存算分离

首先通过flush操作来保证内存中所有表的数据都已经刷新到HFile，并执行Disable table来禁用相关的表，避免写入新的数据。停止HMaster和RegionServer进程。数据迁移。将存算一体架构HDFS上的HBase数据迁移到OSS-HDFS。OSS-HDFS详情请参见 ...

SparkSQL自适应执行

阿里云E-MapReduce 3.13.0及后续版本的SparkSQL支持自适应执行功能，可以用来解决Reduce个数的动态调整、数据倾斜和执行计划的动态优化问题。使用限制本文针对SparkSQL自适应执行涉及到的参数适用于Spark 2.x。如果您使用的是Spark 3.x，...

Hive数据脱敏

Ranger支持对Hive数据的脱敏处理（Data Masking），即可以对Select的返回结果脱敏，以屏蔽敏感信息。背景信息该功能只针对HiveServer2的场景（例如，Beeline、JDBC和Hue等途径执行的Select语句）。操作步骤说明本文Ranger截图以2.1.0...

JindoCache概述

JindoCache（原JindoFSx）是阿里云EMR提供的用于加速云原生数据湖的一个服务。他提供了数据缓存和元数据缓存等加速功能，并根据不同的CacheSet提供不同的读写策略，以满足数据湖在不同使用场景下对访问加速的需求。背景信息 CacheSet是...

Hive访问EMR Phoenix数据

在阿里云E-MapReduce（EMR）中，Hive支持通过配置外部表来访问和处理存储在Phoenix系统中的数据。本文通过示例为您介绍，如何使用EMR上的Hive处理EMR Phoenix数据。前提条件已创建选择了Hive、HBase、Zookeeper和Phoenix服务的自定义集群...

计费项

云盘存储您在StarRocks中使用云盘存储的数据量，包括实际的FE和BE节点用于数据存储的云盘数据量。BE规格当您的 BE规格类型为高性能或大规格存储时，会产生不同的计费费用。该计费项涵盖了BE的计算费用以及本地盘存储数据量费用。...

数据迁移

背景信息 EMR Kudu支持社区1.10以及1.11版本，可以使用社区提供的Backup和Restore的工具进行数据的迁移。基本流程示意图如下所示。操作步骤执行以下命令，查看待迁移Kudu表的名称列表。Kudu table list {YourKuduMasterAddress} 说明本文...

DataX Writer

是无 column 目的表需要写入数据的字段，字段之间用英文逗号（,）分隔。例如，"column":["id","name","age"]。重要该参数必须指定。如果希望导入所有字段，可以使用["*"]。是无 preSql 写入数据到目的表前，会先执行设置的标准语句。否 ...

通过DMS连接StarRocks实例

数据管理DMS（Data Management）是一款支撑数据全生命周期的一站式数据管理平台。您只需在DMS控制台录入StarRocks实例的相关信息，即可轻松实现通过图形化的Web界面对StarRocks实例的高效管控与深度运维，极大提升数据管理体验及操作效率。...

通过命令行方式访问Presto

创建了包含Presto服务的集群后，您可以通过命令行方式连接至Presto，从而进行简单快捷的数据查询操作。前提条件已创建EMR-3.45.0及后续版本和EMR-5.11.0及后续版本，且选择了Presto服务的集群，详情请参见创建集群。普通集群说明如果...

EMR Doctor常见问题

EMR Doctor仅采集必要的事件数据，例如任务启动时间、终止时间、Metrics数据和Counters数据等。EMR Doctor收费吗？当前是不收取任何费用的。采集操作会对任务的运行会产生什么影响？EMR Doctor存储元数据采集会根据用户资源动态调整采集的...

滚动窗口

例如，如果指定了一个5分钟大小的滚动窗口，无限流的数据会根据时间划分成[0:00-0:05)、[0:05,0:10)和[0:10,0:15)等窗口。滚动窗口函数语法 GROUP BY TUMBLING(colName,windowDuration)示例 SELECT avg(inv_quantity_on_hand)qoh FROM ...

产品架构

从上图可以看出EMR由四部分组成：社区开源产品集成Apache社区开源大数据组件，例如Hadoop、Hive和HBase，随着EMR版本更新，开源软件也会相应的升级，详情请参见版本概述下各版本的版本说明。注意已经创建好的EMR集群不支持组件升级。...

产品架构

尽管存算一体架构在查询性能上具有显著优势，但也存在一些局限性：成本高：为了确保数据的可靠性，BE节点必须使用多副本，特别是三副本机制，这随着数据量的增加会导致存储资源的持续扩充，可能会造成计算资源的浪费。架构复杂：多副本的...

管理导入任务

背景信息该页面的数据来自于使用StarRocks内核提供的查询命令（例如 show load）所得到的结果，这些数据的生命周期与内核中数据存储的生命周期相同。该功能适用于以下场景：查看某一个导入任务的数据导入情况，包括已导入的数据条数和数据...

使用MapReduce处理JindoFS上的数据

本文介绍如何使用MapReduce读写JindoFS上的数据。JindoFS配置以EMR-3.35版本为例，创建名为 emr-jfs 的命名空间，相关配置参数示例如下：jfs.namespaces=emr-jfs jfs.namespaces.emr-jfs.oss.uri=oss:/oss-bucket/oss-dir jfs.namespaces....

SmartData 3.6.x版本简介

特性描述 JindoSDK支持本地缓存（Local）策略 JindoSDK支持本地缓存策略，使得在未部署SmartData服务的情况下，也能支持本地数据缓存，提高OSS数据的访问效率。JindoSDK支持和FileSystem平级的Object Store API JindoSDK在已有FileSystem...

概述

开源应用的调试过程中需要使用开源UI，MaxCompute Spark提供原生的开源实时UI和查询历史日志的功能。其中，对于部分开源应用还支持交互式体验，在后台引擎运行后即可进行实时交互。系统结构 MaxCompute Spark是阿里云通过Spark on ...

Delta连接器

EMR Trino提供了独立的Delta连接器，在E-MapReduce集群上支持了较为完整的数据湖特性并进行了特性扩展。背景信息 Delta Lake是DataBricks公司推出的一种数据湖方案，以数据为中心，围绕数据流走向推出了一系列功能特性，详情请参见 Delta ...

查询OSS数据

本文为您介绍如何使用StarRocks的数据湖分析能力查询阿里云OSS。前提条件已创建StarRocks集群，详情请参见创建StarRocks集群。说明此文档仅适用于EMR-5.12.0之前版本或EMR-3.46.0之前版本的StarRocks集群。已开通OSS服务，详情请参见 ...

常见问题

进入Map Task的详情页面，可以看到每个Map Task读取的数据量，如下图所示，读取的数据量是2个字节记录。如果大部分的Map Task读取的文件量都比较小，就需要考虑小文件合并。您也可以通过查看Map Task的Log，获取更多的信息。Reduce Task...

Shell作业配置

操作步骤进入数据开发的项目列表页面。通过阿里云账号登录阿里云E-MapReduce控制台。在顶部菜单栏处，根据实际情况选择地域和资源组。单击上方的数据开发页签。单击待编辑项目所在行的作业编辑。新建Shell类型作业。在页面左侧，在...

Paimon数据源

通过Paimon Catalog，您可以直接查询Paimon中的数据。本文为您介绍如何创建和查看Paimon Catalog。创建Paimon Catalog 语法 CREATE EXTERNAL CATALOG<catalog_name>PROPERTIES("key"="value",.);参数说明 catalog_name：Paimon Catalog...

MySQL连接器

该连接器可以用于不同系统（例如，MySQL和Hive），或者两个不同MySQL实例间的数据进行JOIN操作。背景信息本文为您介绍MySQL连接器相关的内容和操作，具体如下：配置MySQL连接器类型映射示例：查询MySQL 下推（Pushdown）前提条件已创建...

Lindorm for Cassandra应用实践

Lindorm 是一款适用于任何规模、多种模型的云原生数据库服务，支持海量数据的低成本存储处理和弹性按需付费，提供宽表、时序、搜索、文件等多种数据模型，兼容HBase、Cassandra、Phoenix、OpenTSDB、Solr、SQL等多种开源标准接口，...

Hive访问EMR HBase数据

在阿里云E-MapReduce（EMR）中，Hive支持通过内部表和外部表两种方式来访问和处理存储在HBase中的数据。本文通过示例为您介绍，如何使用EMR上的Hive处理EMR HBase数据。前提条件已创建选择了Hive、HBase和Zookeeper服务的自定义集群...

Hive访问EMR HBase数据

在阿里云E-MapReduce（EMR）中，Hive支持通过内部表和外部表两种方式来访问和处理存储在HBase中的数据。本文通过示例为您介绍，如何使用EMR上的Hive处理EMR HBase数据。前提条件已创建选择了Hive、HBase和Zookeeper服务的自定义集群...

Sqoop常见问题

查询结果显示，源数据的时间字段显示延迟8小时。解决方法：在使用TIMESTAMP字段导入数据至HDFS时，请删除-direct 参数。sqoop import \-connect jdbc:mysql:/rm-2ze*341.mysql.rds.aliyuncs.com:3306/s*o_sqoopp_db \-username s*o \-...

常见问题

如果因为磁盘空间或者磁盘性能等问题，希望更改ZooKeeper的数据目录，您可以按照以下步骤逐个节点修改并迁移数据目录，实现不停止ZooKeeper服务的平滑迁移。说明例如，将数据目录从/mnt/disk1/zookeeper/data 更改为/mnt/disk2/zookeeper/...

Delta Lake参数

当您数据的Schema发生变更后，需要在写入数据时在option中显示指定 mergeSchema 为true。如果您期望当数据Schema发生变化自动进行Schema的合并，请设置该值为true。但是我们仍然建议您使用显示指定的方式，而不是让它自动合并Schema。spark...

Paimon与Hive集成

E-MapReduce支持在Hive中查询Paimon数据。本文通过示例为您介绍如何在Hive中查询Paimon中的数据。使用限制 EMR-3.46.0及后续版本、EMR-5.12.0及后续版本的集群，支持在Hive中查询Paimon中的数据。操作步骤查询Hive Catalog与DLF Catalog中...

Sqoop作业配置

操作步骤进入数据开发的项目列表页面。通过阿里云账号登录阿里云E-MapReduce控制台。在顶部菜单栏处，根据实际情况选择地域和资源组。单击上方的数据开发页签。单击待编辑项目所在行的作业编辑。新建Sqoop类型作业。在页面左侧，在...

Flink Table Store与Hive集成

E-MapReduce的Flink Table Store服务支持在Hive中查询数据。本文通过示例为您介绍如何在Hive中查询Flink Table Store中的数据。使用限制仅EMR-3.45.0版本、EMR-5.11.0版本的集群，支持在Hive中查询Flink Table Store中的数据。操作步骤 ...

EMR-3.23.x版本说明

解决join不同bucketversion的表时丢数据的问题。Flink 升级至1.8.2。Bigboot 更新小文件工具。更新OSS JAR，解决非daemon线程问题。Kafka 新增感知Deploymen Set特性。去掉fastjson依赖。HDFS 优化SmartData OSS JAR包部署逻辑。更新...

Hudi数据源

通过Hudi Catalog，您可以直接查询Hudi中的数据。本文为您介绍如何创建和查看Hudi Catalog。创建Hudi Catalog 语法 CREATE EXTERNAL CATALOG<catalog_name>PROPERTIES("key"="value",.);参数说明 catalog_name：Hudi Catalog的名称，必...

开源的网络数据

新品推荐