大数据开源-大数据开源文档介绍内容-阿里云

Delta Lake概述

Delta Lake以数据为中心，围绕数据流走向（数据从流入数据湖、数据组织管理和数据查询到流出数据湖）推出了一系列功能特性，协助您搭配第三方上下游工具，搭建快捷、易用和安全的数据湖。背景信息通常的数据湖方案是选取大数据存储引擎...

选型配置说明

E-MapReduce配置选型不仅要考虑企业大数据使用场景、估算数据量、服务可靠性要求，还应该考虑企业预算。大数据使用场景 E-MapReduce各集群的场景和核心组件如下表。说明具体各集群类型支持的组件以控制台实际展示为准。集群类型场景介绍 ...

开源支持

Data Collector是MaxCompute主要开源数据采集工具的集合，包括：Flume插件 OGG插件 Sqoop Kettle插件 Hive Data Transfer UDTF Flume和OGG插件是基于DataHub的SDK实现，而Sqoop、Kettle以及Hive Data Transfer UDTF是基于Tunnel的SDK实现。...

EMR数据开发停止更新公告

作为一站式大数据开发治理平台，DataWorks沉淀阿里巴巴十多年大数据建设方法论，为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力，帮助客户提升数据的应用效率。迁移流程阿里云DataWorks on EMR团队提供了完善...

概述

Apache Flume是一个分布式、可靠和高可用的系统，可以从大量不同的数据源有效地收集、聚合和移动日志数据，从而集中式的存储数据。使用场景 Flume使用最多的场景是日志收集，也可以通过定制Source来传输其他不同类型的数据。Flume最终会将...

Celeborn

Celeborn是一个处理中间数据的服务，能够提升大数据引擎的稳定性、灵活性和性能。本文为您介绍如何使用Celeborn服务。背景信息目前Shuffle方案的缺点如下：Shuffle Write在大数据量场景下会溢出，导致写放大。Shuffle Read过程中存在大量...

概述

使用场景典型的应用场景如下：近实时计算场景时间序列数据的场景预测建模与存量数据共存通常生产环境中会有大量的存量数据，数据可能存储在HDFS、RDBMS或Kudu中。如果您只是想访问和查询这些存量数据，可以使用Impala访问和查询，而...

JindoFS块存储模式

应用场景 E-MapReduce目前提供了三种大数据存储系统，E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS，其中OssFileSystem和JindoFS都是云上存储的解决方案，下表为这三种存储系统和开源OSS各自的特点。特点开源OSS E-...

EMR Spark功能增强

阿里云E-MapReduce产品构建于阿里云云服务器ECS上，基于开源的Apache Hadoop和Apache Spark，做了大量优化。本文为您介绍E-MapReduce（简称EMR）Spark相对开源增强的功能。背景信息阿里云EMR 100%采用社区开源组件，随开源版本升级迭代，...

创建工作空间

已开通DLF数据湖构建，详情请参见快速入门。支持开通DLF的地域请参见已开通的地域和访问域名。已开通OSS服务并创建了存储空间，详情请参见开通OSS服务和创建存储空间。操作步骤进入EMR Serverless Spark页面。登录 E-MapReduce控制台...

EMR-3.22.x版本说明

包括多Namespace支持、本地数据块以大文件形式存储、多模存储支持和外部客户端支持等多项重大更新。解决机器重启过程中Bigboot monitor状态不正确问题。增加Kudu组件的服务spec。增加各个服务spec的正确性检验。Hadoop HDFS HDFS ...

EMR Hive功能增强

本文为您介绍E-MapReduce（简称EMR）各版本对应的Hive组件版本，以及各版本中Hive相对开源增强的功能。Hive针对开源功能增强的功能如下表。EMR版本组件版本功能增强 EMR-5.2.1 Hive 3.1.2 修复使用DLF元数据执行 show create table 命令...

HDFS Web UI介绍

访问HDFS Web UI 您可以通过SSH隧道和控制台两种方式访问HDFS Web UI，具体操作请参见通过SSH隧道方式访问开源组件Web UI 和访问链接与端口。NameNode服务地址版本访问地址说明 hadoop 3.x http://${namenode_hostname}:9870${...

快速使用EMR Notebook

EMR Notebook提供了全托管的兼容开源Jupyter的Notebook服务，同时内置了SQL Editor的功能。支持SparkSQL、Hive、StarRocks、PySpark等应用程序的开发和运行。本文以Hive查询为例，为您介绍如何使用EMR Notebook。前提条件已完成系统角色...

Kafka Manager

操作步骤使用SSH隧道方式访问Web页面，详情请参见通过SSH隧道方式访问开源组件Web UI。说明建议您首次使用Kafka Manager时修改默认密码。为了防止8085端口暴露，建议使用SSH隧道方式来访问Web界面。如果使用 http://localhost:8085 方式...

EMR旧版数据开发迁移公告

2022年2月21日21点起，E-MapReduce（简称EMR）数据开发功能停止更新，进入维护状态。如果您还在使用旧版控制台的数据开发功能，请尽快迁移至EMR Worflow。本文为您介绍数据开发模块迁移至EMR Workflow的流程。EMR Workflow是一个全托管的...

StarRocks概述

说明本文部分内容来源于开源StarRocks的什么是StarRocks。StarRocks特性 StarRocks的架构设计融合了MPP数据库，以及分布式系统的设计思想，其特性如下所示。架构精简 StarRocks内部通过MPP计算框架完成SQL的具体执行工作。MPP框架能够...

迁移Hadoop文件系统数据至JindoFS

可以直接使用Hadoop的FsShell进行同步：hadoop dfs-cp hdfs:/emr-cluster/README.md jfs:/emr-jfs/hadoop dfs-cp oss:/oss_bucket/README.md jfs:/emr-jfs/DistCp 对于文件较多或者数据量较大的场景，推荐使用Hadoop内置的DistCp进行同步：...

SmartData 3.1.x版本简介

功能变更 JindoFS存储优化 JindoFS缓存优化 JindoTable计算优化 JindoManager系统管理 JindoTools工具集 JindoFS生态支持 JindoFS存储优化支持文件的checksum功能，对齐开源HDFS checksum相关接口，支持MD5MD5CRC和COMPOSITE_CRC两种算法...

Hive元数据说明

数据湖构建具有高可用、免运维和高性能等优点，兼容Hive Metastore，无缝对接EMR上开源计算引擎，并支持元数据多版本管理和Data Profile功能。另外，DLF还支持数据探索、湖管理和数据权限控制等功能，并与阿里云其他计算产品（例如...

HBase存算一体转存算分离

hadoop fs-cp hdfs:/${namespace}/${hbase}/*oss:/${test-bucket}.${region}.oss-dls.aliyuncs.com/${hbase}/说明如果HBase表数据量比较大，可以考虑使用 DistCp 或 Jindo Distcp 拷贝数据，但是需要依赖YARN服务。新增JindoData服务，...

管理向量Indexes

向量索引专注于通过先进的索引结构和算法（如IVF、HNSW等），有效压缩向量空间并加速在海量数据中定位与查询向量最相似的数据点，极大地提升了诸如图像识别、语音检索、推荐系统等应用场景中的召回率与响应速度。背景信息 Milvus支持多种...

RSS指标

PausePushData rss_worker_metrics_PausePushData_Value RSS Worker因为内存压力大导致的停止从executor接受数据的次数。PausePushDataAndReplcate rss_worker_metrics_PausePushDataAndReplicate_Value RSS Worker因为内存压力高导致的...

应用场景

建立数据平台得益于其开放式架构设计，EMR Serverless Spark极大地简化并提升了在数据湖环境中对结构化和非结构化数据进行高效分析处理的能力。EMR Serverless Spark不仅集成了任务调度系统，使得您能够便捷地构建与管理数据ETL流程，轻松...

常见问题

造成服务不稳定的情况可能有很多，最常见的情况是znode数量过大或者snapshot过大，由于ZooKeeper将所有的znode维护在内存中，并且需要在节点间进行数据同步，因此过大的znode数量或者容量会对服务稳定性造成影响。ZooKeeper的定位是一个...

DataNode出现Xceiver数量限制异常

在配置搜索区域，搜索参数 dfs.datanode.max.transfer.threads，并适当地调大该参数值，一般建议翻倍增加，例如8192、16384。说明 dfs.datanode.max.transfer.threads 参数表示DataNode处理读写数据流的线程池大小，默认值为4096个。

操作指南

克隆集群新增服务管理配置项登录集群管理事件中心 E-MapReduce Doctor 组件操作 EMR on ACK 资源管理服务管理作业管理组件操作 EMR Serverless StarRocks 创建实例连接实例实例监控 StarRocks Manager 数据导入数据分析

服务支持

本文档汇总了E-MapReduce的产品...产品公告 EMR Workflow公测说明 EMR旧版数据开发迁移公告发布记录新功能发布记录常见问题 EMR on ECS常见问题服务等级协议 E-MapReduce服务等级协议（SLA）E-MapReduce Serverless服务等级协议（SLA）

常用参数调优

一次性读取数据行数，适当调大该参数值可以提高吞吐量。File Channel 参数描述 checkpointInterval 默认值为30，单位为秒（s）。适当调小该参数值可以缩短写CheckPoint间隔。useDualCheckpoints 默认值为false。修改该参数值为true，可以...

实践教程

EMR on ECS 手工缩容节点组更换集群损坏的本地盘为集群配置弹性伸缩规则 EMR Serverless StarRocks 基于DataFlow集群的Flink服务使用CTAS语句同步MySQL数据至StarRocks 基于实时计算Flink使用CTAS语句同步MySQL数据至StarRocks 使用Flink...

可视化弹性成本分析

注意事项成本可视化大盘 T+1 展示费用数据，每天06:00自动计算前一天的账单数据。对于单个节点组的成本统计，采用估算值，因此与真实账单可能存在一定的数据偏差。集群实际费用以账单支付金额为准。不支持对使用成本节省计划的节点组进行...

管理Schema

在Milvus中，Schema定义了向量数据库中数据的组织结构，包括字段名称和类型等。通过定义Schema来管理和查询数据，以支持高效的搜索和分析操作。本文为您介绍Collection和字段的Schema定义以及如何在Milvus中创建Schema。前提条件已在本地...

Trino扩缩容

包含Trino组件的集群，当查询速度不符合数据处理要求，或某些大查询超出内存总量限制，且调整配置参数也不足以应对使用场景时，可以尝试进行扩容，通过新增Worker节点数的方式来增加Worker数量，从而满足业务需求。当业务高峰期已过或者当...

EMR Doctor常见问题

采集使用异步方式，不会阻塞任务主进程，当采集造成的压力过大时，会自动丢弃采集数据，并且您可以根据参数调整采集频率等。TPC-DS部分测试的数据如下表所示。SQL及使用引擎使用EMR Doctor采集时间（10次平均）不使用EMR Doctor采集时间...

Flink（VVR）作业配置

EMR-3.27.x及之前版本使用Flink社区开源版本，EMR-3.27.x之后版本使用完全兼容开源Flink的企业版（VVR）。本文介绍如何配置Flink（VVR）类型的作业。背景信息 Flink企业版由Apache Flink创始团队官方出品，拥有全球统一商业化品牌。VVR提供...

应用场景

烟囱式搭建各自业务，导致运维难度大，开发人员需要投入大量的时间和精力。统一OLAP引擎：使用StarRocks统一OLAP引擎来满足各类分析需求。相较于原有解决方案，我们的解决方案运维更加简单，并且使用MySQL协议，可以对接各种BI工具，从而...

滚动窗口

例如，如果指定了一个5分钟大小的滚动窗口，无限流的数据会根据时间划分成[0:00-0:05)、[0:05,0:10)和[0:10,0:15)等窗口。滚动窗口函数语法 GROUP BY TUMBLING(colName,windowDuration)示例 SELECT avg(inv_quantity_on_hand)qoh FROM ...

数据格式描述文件

本文介绍索引数据的描述文件（Ingestion Spec文件）。Ingestion Spec（数据格式描述）是Druid对要索引数据的格式以及如何索引该数据格式的一个统一描述，它是一个JSON文件，一般由三部分组成。{"dataSchema":{.},"ioConfig":{.},...

ListApmMetadata

DD6B1B2A-5837-5237-ABE4-FF0C8944*NextToken string 返回读取到的数据位置，空代表数据已经读取完毕。DD6B1B2A-5837-5237-ABE4-FF0C89568980 MaxResults integer 本次请求所返回的最大记录条数。20 TotalCount integer 本次请求条件下的...

Shell

与开源Zeppelin相比，E-MapReduce（简称EMR）数据开发集群中的Shell解释器支持在不同EMR集群环境里切换。本文通过示例为您介绍如何在Zeppelin中使用Shell。使用示例运行hadoop命令执行如下命令会显示当前EMR集群根目录下的所有文件，切换...

大数据 开源

新品推荐

大数据开源