apache开源大数据-apache开源大数据文档介绍内容-阿里云

Spark服务异常排查及处理

spark-org.apache.spark.deploy.history.HistoryServer*.out Spark Thrift Server：spark-thrift-server.log 和 spark-spark-org.apache.spark.sql.hive.thriftserver.HiveThriftServer2*.out Spark History Server 出现节点磁盘写满，检查...

创建实例

通过创建StarRocks实例，您可以快速获取一个托管的且高性能的环境，无需自行搭建和维护基础设施，轻松进行大规模数据分析和查询。操作步骤进入EMR Serverless StarRocks实例列表页面。登录 E-MapReduce控制台。在左侧导航栏，选择 EMR ...

集群资源规格评估建议

数据总存储容量：数据平均流入*数据保留时长*分区副本因子。节点规格推荐通常情况下，Core节点组规格配置推荐如下：节点数：根据业务需求评估，具体请参见评估Broker的节点数。CPU：16 Core。内存：64 GB。重要建议选择CPU和内存配比为1...

查询管理与分析

此类查询通常涉及到大规模数据处理、复杂的计算操作，或是跨多个数据库的交互。之所以关注运行中大查询，是因为这些查询可能会大量占用CPU、内存及IO等计算资源，从而影响系统中其他查询的性能。因此，对这类查询进行实时监控是维护系统...

常见问题

查看当前Reduce Task中Reduce Input bytes和Reduce shuffle bytes的信息，如果比其他的Task处理的数据量大很多，则说明出现了倾斜问题。如何预估Hive作业并发量的上限值？Hive作业并发量与HiveServer2的内存以及master实例个数有关系。您...

EMR Serverless Spark免费公测说明

单个Spark任务所能处理的Shuffle数据量最大限制为5 TB。工作空间内所有并行运行的任务共写入Shuffle数据的总量上限为10 TB。同一工作空间内允许并发执行的任务数量上限为100个。不保障服务等级协议（SLA），但服务不降级。公测期间包年包月...

快速使用EMR StarRocks Manager

EMR StarRocks Manager是阿里云EMR团队针对Serverless StarRocks实例提供的数据管理控制台，为您提供对实例内数据的管理、诊断与分析，以及安全权限配置等能力。前提条件已创建StarRocks实例，详情请参见创建实例。操作流程步骤一：进入...

数据管理

阿里云EMR Delta Lake提供了强大的数据处理能力，可以帮助您管理和操作数据，确保数据的质量和一致性。本文为您介绍EMR Delta Lake如何进行删除、更新与合并数据等操作。DELETE 该命令用于删除数据。示例如下。SQL DELETE FROM delta_table...

Delta连接器

EMR Trino提供了独立的Delta连接器，在E-MapReduce集群上支持了较为完整的数据湖特性并进行了特性扩展。背景信息 Delta Lake是DataBricks公司推出的一种数据湖方案，以数据为中心，围绕数据流走向推出了一系列功能特性，详情请参见 Delta ...

与开源PostgreSQL性能对比

测试数据量本次实验测试数据量如下表所示：参数说明表数目 8 行数 64,000,000 总数据量 128 GB 性能结果写场景 TPS/实例类型 PolarDB for PostgreSQL 14 开源PostgreSQL 14数据库 oltp_insert 43129.08 41161.66 oltp_update_index ...

数据服务集群

DataServing是阿里云E-MapReduce提供的基于Apache HBase的数据服务集群类型。本文为您介绍数据服务集群支持的特性，适用场景以及技术架构。特性介绍 Apache HBase是具有高可靠性、高性能、列存储、可伸缩、实时读写的开源NoSQL分布式系统。...

概述

使用场景典型的应用场景如下：近实时计算场景时间序列数据的场景预测建模与存量数据共存通常生产环境中会有大量的存量数据，数据可能存储在HDFS、RDBMS或Kudu中。如果您只是想访问和查询这些存量数据，可以使用Impala访问和查询，而...

概述

Apache Flume是一个分布式、可靠和高可用的系统，可以从大量不同的数据源有效地收集、聚合和移动日志数据，从而集中式的存储数据。使用场景 Flume使用最多的场景是日志收集，也可以通过定制Source来传输其他不同类型的数据。Flume最终会将...

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。添加开源Elastic Search数据源登录 ...

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。添加开源Elastic Search数据源登录 ...

使用Flume写入JindoFS

Apache Flume是一个分布式、可靠和高可用的系统，用于从大量不同的数据源有效地收集、聚合和移动大量日志数据，进行集中式的数据存储。Flume的核心是Agent，Agent中包含Source、Channel和Sink。本文为您介绍如何使用HDFS Sink写入数据至...

产品优势

兼容开源：云消息队列 Kafka 版 100%兼容开源Apache Kafka，您可以直接使用开源Apache Kafka客户端与云消息队列 Kafka 版通讯。云消息队列 Kafka 版目前支持0.10.x~2.6.x的开源版本。无缝迁移：云消息队列 Kafka 版基于现有的开源...

Hive服务异常排查及处理

常见异常：org.apache.hadoop.hive.ql.metadata.HiveException:MetaException(message:Could not connect to meta store using any of the URIs provided 问题原因1：可能是HiveMetastore中断或者HiveMetastore压力过大，例如长时间GC。...

概述

MaxCompute Spark是MaxCompute提供的兼容开源Spark的计算服务。它在统一的计算资源和数据集权限体系之上，提供Spark计算框架，支持您以熟悉的开发使用方式提交运行Spark作业，满足更丰富的数据处理分析需求。使用限制 MaxCompute Spark支持...

HBase存算一体转存算分离

首先通过flush操作来保证内存中所有表的数据都已经刷新到HFile，并执行Disable table来禁用相关的表，避免写入新的数据。停止HMaster和RegionServer进程。数据迁移。将存算一体架构HDFS上的HBase数据迁移到OSS-HDFS。OSS-HDFS详情请参见 ...

MySQL连接器

case-insensitive-name-matching.cache-ttl 不区分大小写的数据库和集合名称的缓存时间。默认值为1，单位分钟。metadata.cache-ttl 缓存包括表和列统计信息在内的元数据的持续时间。默认值0表示禁止缓存。metadata.cache-missing 是否缓存...

迁移Hadoop文件系统数据至JindoFS

可以直接使用Hadoop的FsShell进行同步：hadoop dfs-cp hdfs:/emr-cluster/README.md jfs:/emr-jfs/hadoop dfs-cp oss:/oss_bucket/README.md jfs:/emr-jfs/DistCp 对于文件较多或者数据量较大的场景，推荐使用Hadoop内置的DistCp进行同步：...

管理中心功能概览

在DataWorks的管理中心，用户可以按照工作空间维度进行操作，包括配置工作空间的基本设施、选择合适的计算引擎、接入不同的数据源、注册开源集群、配置扩展程序，以及管理工作空间成员的权限和角色；此外，用户还可以在全局维度进行...

SSB性能测试说明

数据盘：建议使用ESSD数据盘，具体数据容量根据需要测试的数据量大小决定。地域和VPC：建议确保ECS和StarRocks实例在相同地域，并使用相同的VPC网络进行连接。公网IP：须分配公网IP地址。更多关于创建ECS的操作，请参见实例创建方式介绍。...

Lindorm for Cassandra应用实践

Lindorm 是一款适用于任何规模、多种模型的云原生数据库服务，支持海量数据的低成本存储处理和弹性按需付费，提供宽表、时序、搜索、文件等多种数据模型，兼容HBase、Cassandra、Phoenix、OpenTSDB、Solr、SQL等多种开源标准接口，...

什么是EMR Workflow

EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据湖仓，并为生产任务的稳定运行提供保障。产品优势 ...

概述

背景信息在大数据生态系统中，Alluxio位于数据驱动框架或应用（例如Apache Spark、Presto、TensorFlow、Apache Flink和Apache Hive等）和各种持久化存储系统（例如HDFS和阿里云OSS）之间，使得上层的计算应用可以通过统一的客户端API和...

Apache Superset连接

Apache Superset是一款数据探索和可视化分析的开源BI工具。Apache Superset基于Python开发，使用了Flask、Pandas、SQLAlchemy等组件。您可以使用Apache Superset制作可视化、交互式的协作文档。本文为您介绍Apache Superset如何连接 ...

AliPG优势

AliPG兼容PostgreSQL开源数据库，于2015年正式商用，目前支持10及以上的大版本，已稳定运行多年，支撑了大量阿里巴巴集团内部以及云上的客户业务。采用AliPG的阿里云数据库产品 RDS PostgreSQL 支持的版本 PostgreSQL 10及以上优势 AliPG...

什么是EMR Serverless Milvus

它在开源版本的基础上增强了可扩展性，能提供大规模AI向量数据的相似性检索服务。凭借其开箱即用的特性、灵活的扩展能力和全链路监控告警，Milvus云服务成为多样化AI应用场景的理想选择，包括多模态搜索、检索增强生成（RAG）、搜索推荐、...

查询节点实例容器日志

说明 DescribeFlowNodeInstanceContainerLog接口由于数据限流，返回率不高，所以不建议使用。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称...

RSS指标

PausePushData rss_worker_metrics_PausePushData_Value RSS Worker因为内存压力大导致的停止从executor接受数据的次数。PausePushDataAndReplcate rss_worker_metrics_PausePushDataAndReplicate_Value RSS Worker因为内存压力高导致的...

Hadoop DistCp介绍

Hadoop DistCp（分布式复制）是一个用于大型集群间或集群内数据复制的工具，通过MapReduce实现复制过程中数据的分发、错误处理、恢复及报告。本文为您介绍Hadoop DistCp与Jindo DistCp的区别、Hadoop DistCp使用方法以及常见问题。说明 ...

Attu工具管理

Attu是一款专为Milvus向量数据库打造的开源数据库管理工具，提供了便捷的图形化界面，极大地简化了对Milvus数据库的操作与管理流程。阿里云Milvus集成了Attu，以便更加高效地管理数据库、集合（Collection）、索引（Index）和实体（Entity...

Sqoop概述

Sqoop是一款Apache社区的开源软件，支持在Hadoop生态软件和结构化数据集（例如数据库）之间进行高效的批量数据传输。背景信息常见数据传输场景如下：将MySQL数据导入HDFS 将HDFS数据导入MySQL 将Hive数据导入MySQL 将MySQL数据导入Hive 将...

常见问题

造成服务不稳定的情况可能有很多，最常见的情况是znode数量过大或者snapshot过大，由于ZooKeeper将所有的znode维护在内存中，并且需要在节点间进行数据同步，因此过大的znode数量或者容量会对服务稳定性造成影响。ZooKeeper的定位是一个...

概述

Flink（VVR）是基于Apache Flink（以下简称Flink）开发的商业版，VVR引擎接口完全兼容Flink开源版本，且提供GeminiStateBackend等高增值功能，以提升作业性能及稳定性。背景信息 Flink核心是一个流式的数据流执行引擎，其针对数据流的分布...

导入概述

本文为您介绍Doris数据导入支持的数据源、支持的数据格式以及特性。支持的数据源 Doris提供多种数据导入方案，可以针对不同的数据源选择不同的数据导入方式。Stream Load Broker Load Insert Into Routine Load Spark Load JSON格式导入 ...

通过开源Kafka客户端写入Lindorm流引擎数据

Lindorm流引擎完全兼容开源Kafka API，您可以通过Kafka API编写程序写入Lindorm流引擎数据，也可以通过开源的三方工具采集并写入Lindorm流引擎数据，例如FluentD、Debezium等。本文介绍通过开源Kafka客户端连接Lindorm流引擎并写入Lindorm...

Catalog概述

外部数据：保存在外部数据源（例如，Apache Hive、Apache Iceberg和Apache Hudi）中的数据。Catalog StarRocks 2.3及以上版本支持Catalog功能，方便您轻松访问并查询存储在各类外部源的数据。当前StarRocks提供Internal Catalog和External ...

apache开源大数据

新品推荐