Spark服务异常排查及处理

spark-org.apache.spark.deploy.history.HistoryServer*.out Spark Thrift Server:spark-thrift-server.log 和 spark-spark-org.apache.spark.sql.hive.thriftserver.HiveThriftServer2*.out Spark History Server 出现节点磁盘写满,检查...

创建实例

通过创建StarRocks实例,您可以快速获取一个托管的且高性能的环境,无需自行搭建和维护基础设施,轻松进行规模数据分析和查询。操作步骤 进入EMR Serverless StarRocks实例列表页面。登录 E-MapReduce控制台。在左侧导航栏,选择 EMR ...

集群资源规格评估建议

数据总存储容量:数据平均流入*数据保留时长*分区副本因子。节点规格推荐 通常情况下,Core节点组规格配置推荐如下:节点数:根据业务需求评估,具体请参见 评估Broker的节点数。CPU:16 Core。内存:64 GB。重要 建议选择CPU和内存配比为1...

查询管理与分析

此类查询通常涉及到规模数据处理、复杂的计算操作,或是跨多个数据库的交互。之所以关注运行中大查询,是因为这些查询可能会大量占用CPU、内存及IO等计算资源,从而影响系统中其他查询的性能。因此,对这类查询进行实时监控是维护系统...

常见问题

查看当前Reduce Task中Reduce Input bytes和Reduce shuffle bytes的信息,如果比其他的Task处理的数据很多,则说明出现了倾斜问题。如何预估Hive作业并发量的上限值?Hive作业并发量与HiveServer2的内存以及master实例个数有关系。您...

EMR Serverless Spark免费公测说明

单个Spark任务所能处理的Shuffle数据量最大限制为5 TB。工作空间内所有并行运行的任务共写入Shuffle数据的总量上限为10 TB。同一工作空间内允许并发执行的任务数量上限为100个。不保障服务等级协议(SLA),但服务不降级。公测期间包年包月...

快速使用EMR StarRocks Manager

EMR StarRocks Manager是阿里云EMR团队针对Serverless StarRocks实例提供的数据管理控制台,为您提供对实例内数据的管理、诊断与分析,以及安全权限配置等能力。前提条件 已创建StarRocks实例,详情请参见 创建实例。操作流程 步骤一:进入...

数据管理

阿里云EMR Delta Lake提供了强大的数据处理能力,可以帮助您管理和操作数据,确保数据的质量和一致性。本文为您介绍EMR Delta Lake如何进行删除、更新与合并数据等操作。DELETE 该命令用于删除数据。示例如下。SQL DELETE FROM delta_table...

Delta连接器

EMR Trino提供了独立的Delta连接器,在E-MapReduce集群上支持了较为完整的数据湖特性并进行了特性扩展。背景信息 Delta Lake是DataBricks公司推出的一种数据湖方案,以数据为中心,围绕数据流走向推出了一系列功能特性,详情请参见 Delta ...

开源PostgreSQL性能对比

测试数据量 本次实验测试数据量如下表所示:参数 说明 表数目 8 行数 64,000,000 总数据量 128 GB 性能结果 写场景 TPS/实例类型 PolarDB for PostgreSQL 14 开源PostgreSQL 14数据库 oltp_insert 43129.08 41161.66 oltp_update_index ...

数据服务集群

DataServing是阿里云E-MapReduce提供的基于Apache HBase的数据服务集群类型。本文为您介绍数据服务集群支持的特性,适用场景以及技术架构。特性介绍 Apache HBase是具有高可靠性、高性能、列存储、可伸缩、实时读写的开源NoSQL分布式系统。...

概述

使用场景 典型的应用场景如下:近实时计算场景 时间序列数据的场景 预测建模 与存量数据共存 通常生产环境中会有大量的存量数据数据可能存储在HDFS、RDBMS或Kudu中。如果您只是想访问和查询这些存量数据,可以使用Impala访问和查询,而...

概述

Apache Flume是一个分布式、可靠和高可用的系统,可以从大量不同的数据源有效地收集、聚合和移动日志数据,从而集中式的存储数据。使用场景 Flume使用最多的场景是日志收集,也可以通过定制Source来传输其他不同类型的数据。Flume最终会将...

添加开源Elastic Search数据

通过开源Elastic Search和DataV结合使用,可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件 已准备好待添加的开源Elastic Search数据源。添加开源Elastic Search数据源 登录 ...

添加开源Elastic Search数据

通过开源Elastic Search和DataV结合使用,可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件 已准备好待添加的开源Elastic Search数据源。添加开源Elastic Search数据源 登录 ...

使用Flume写入JindoFS

Apache Flume是一个分布式、可靠和高可用的系统,用于从大量不同的数据源有效地收集、聚合和移动大量日志数据,进行集中式的数据存储。Flume的核心是Agent,Agent中包含Source、Channel和Sink。本文为您介绍如何使用HDFS Sink写入数据至...

产品优势

兼容开源:云消息队列 Kafka 版 100%兼容开源Apache Kafka,您可以直接使用开源Apache Kafka客户端与 云消息队列 Kafka 版 通讯。云消息队列 Kafka 版 目前支持0.10.x~2.6.x的开源版本。无缝迁移:云消息队列 Kafka 版 基于现有的开源...

Hive服务异常排查及处理

常见异常:org.apache.hadoop.hive.ql.metadata.HiveException:MetaException(message:Could not connect to meta store using any of the URIs provided 问题原因1:可能是HiveMetastore中断或者HiveMetastore压力过,例如长时间GC。...

概述

MaxCompute Spark是MaxCompute提供的兼容开源Spark的计算服务。它在统一的计算资源和数据集权限体系之上,提供Spark计算框架,支持您以熟悉的开发使用方式提交运行Spark作业,满足更丰富的数据处理分析需求。使用限制 MaxCompute Spark支持...

HBase存算一体转存算分离

首先通过flush操作来保证内存中所有表的数据都已经刷新到HFile,并执行Disable table来禁用相关的表,避免写入新的数据。停止HMaster和RegionServer进程。数据迁移。将存算一体架构HDFS上的HBase数据迁移到OSS-HDFS。OSS-HDFS详情请参见 ...

MySQL连接器

case-insensitive-name-matching.cache-ttl 不区分小写的数据库和集合名称的缓存时间。默认值为1,单位分钟。metadata.cache-ttl 缓存包括表和列统计信息在内的元数据的持续时间。默认值0表示禁止缓存。metadata.cache-missing 是否缓存...

迁移Hadoop文件系统数据至JindoFS

可以直接使用Hadoop的FsShell进行同步:hadoop dfs-cp hdfs:/emr-cluster/README.md jfs:/emr-jfs/hadoop dfs-cp oss:/oss_bucket/README.md jfs:/emr-jfs/DistCp 对于文件较多或者数据量较的场景,推荐使用Hadoop内置的DistCp进行同步:...

管理中心功能概览

在DataWorks的 管理中心,用户可以按照 工作空间维度 进行操作,包括配置工作空间的基本设施、选择合适的计算引擎、接入不同的数据源、注册开源集群、配置扩展程序,以及管理工作空间成员的权限和角色;此外,用户还可以在 全局维度 进行...

SSB性能测试说明

数据盘:建议使用ESSD数据盘,具体数据容量根据需要测试的数据量大小决定。地域和VPC:建议确保ECS和StarRocks实例在相同地域,并使用相同的VPC网络进行连接。公网IP:须分配公网IP地址。更多关于创建ECS的操作,请参见 实例创建方式介绍。...

Lindorm for Cassandra应用实践

Lindorm 是一款适用于任何规模、多种模型的云原生数据库服务,支持海量数据的低成本存储处理和弹性按需付费,提供宽表、时序、搜索、文件等多种数据模型,兼容HBase、Cassandra、Phoenix、OpenTSDB、Solr、SQL等多种开源标准接口,...

什么是EMR Workflow

EMR Workflow是一个全托管的工作流和任务调度服务,100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据湖仓,并为生产任务的稳定运行提供保障。产品优势 ...

概述

背景信息 在大数据生态系统中,Alluxio位于数据驱动框架或应用(例如Apache Spark、Presto、TensorFlow、Apache Flink和Apache Hive等)和各种持久化存储系统(例如HDFS和阿里云OSS)之间,使得上层的计算应用可以通过统一的客户端API和...

Apache Superset连接

Apache Superset是一款数据探索和可视化分析的开源BI工具。Apache Superset基于Python开发,使用了Flask、Pandas、SQLAlchemy等组件。您可以使用Apache Superset制作可视化、交互式的协作文档。本文为您介绍Apache Superset如何连接 ...

AliPG优势

AliPG兼容PostgreSQL开源数据库,于2015年正式商用,目前支持10及以上的版本,已稳定运行多年,支撑了大量阿里巴巴集团内部以及云上的客户业务。采用AliPG的阿里云数据库产品 RDS PostgreSQL 支持的版本 PostgreSQL 10及以上 优势 AliPG...

什么是EMR Serverless Milvus

它在开源版本的基础上增强了可扩展性,能提供规模AI向量数据的相似性检索服务。凭借其开箱即用的特性、灵活的扩展能力和全链路监控告警,Milvus云服务成为多样化AI应用场景的理想选择,包括多模态搜索、检索增强生成(RAG)、搜索推荐、...

查询节点实例容器日志

说明 DescribeFlowNodeInstanceContainerLog接口由于数据限流,返回率不高,所以不建议使用。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求参数 名称...

RSS指标

PausePushData rss_worker_metrics_PausePushData_Value RSS Worker因为内存压力导致的停止从executor接受数据的次数。PausePushDataAndReplcate rss_worker_metrics_PausePushDataAndReplicate_Value RSS Worker因为内存压力高导致的...

Hadoop DistCp介绍

Hadoop DistCp(分布式复制)是一个用于大型集群间或集群内数据复制的工具,通过MapReduce实现复制过程中数据的分发、错误处理、恢复及报告。本文为您介绍Hadoop DistCp与Jindo DistCp的区别、Hadoop DistCp使用方法以及常见问题。说明 ...

Attu工具管理

Attu是一款专为Milvus向量数据库打造的开源数据库管理工具,提供了便捷的图形化界面,极地简化了对Milvus数据库的操作与管理流程。阿里云Milvus集成了Attu,以便更加高效地管理数据库、集合(Collection)、索引(Index)和实体(Entity...

Sqoop概述

Sqoop是一款Apache社区的开源软件,支持在Hadoop生态软件和结构化数据集(例如数据库)之间进行高效的批量数据传输。背景信息 常见数据传输场景如下:将MySQL数据导入HDFS 将HDFS数据导入MySQL 将Hive数据导入MySQL 将MySQL数据导入Hive 将...

常见问题

造成服务不稳定的情况可能有很多,最常见的情况是znode数量过或者snapshot过,由于ZooKeeper将所有的znode维护在内存中,并且需要在节点间进行数据同步,因此过的znode数量或者容量会对服务稳定性造成影响。ZooKeeper的定位是一个...

概述

Flink(VVR)是基于Apache Flink(以下简称Flink)开发的商业版,VVR引擎接口完全兼容Flink开源版本,且提供GeminiStateBackend等高增值功能,以提升作业性能及稳定性。背景信息 Flink核心是一个流式的数据流执行引擎,其针对数据流的分布...

导入概述

本文为您介绍Doris数据导入支持的数据源、支持的数据格式以及特性。支持的数据源 Doris提供多种数据导入方案,可以针对不同的数据源选择不同的数据导入方式。Stream Load Broker Load Insert Into Routine Load Spark Load JSON格式导入 ...

通过开源Kafka客户端写入Lindorm流引擎数据

Lindorm流引擎完全兼容开源Kafka API,您可以通过Kafka API编写程序写入Lindorm流引擎数据,也可以通过开源的三方工具采集并写入Lindorm流引擎数据,例如FluentD、Debezium等。本文介绍通过开源Kafka客户端连接Lindorm流引擎并写入Lindorm...

Catalog概述

外部数据:保存在外部数据源(例如,Apache Hive、Apache Iceberg和Apache Hudi)中的数据。Catalog StarRocks 2.3及以上版本支持Catalog功能,方便您轻松访问并查询存储在各类外部源的数据。当前StarRocks提供Internal Catalog和External ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 Redis 版 云数据库 RDS 数据库备份 DBS 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用