漏洞公告|Apache Kafka Connect远程代码执行漏洞

2023年02月08日,Apache发布了一则安全公告,修复了Apache Kafka中存在的一个反序列化漏洞,漏洞编号为CVE-2023-25194。在攻击者可以控制Apache Kafka Connect客户端的情况下,通过SASL JAAS配置和基于SASL的安全协议,在其上创建或修改...

漏洞公告|Apache Log4j2远程代码执行漏洞

近日,阿里云计算有限公司发现Apache Log4j2组件存在远程代码执行漏洞,并将漏洞情况告知Apache软件基金会。本文为您介绍该漏洞的影响范围及相应的修复方案。漏洞影响 具体漏洞详情,请参见【漏洞通告】Apache Log4j2 远程代码执行漏洞...

JindoFS实战演示

Impala如何高效查询OSS数据 Impala如何高效查询OSS数据 2021-06-08 Apache Impala是一个开源大数据查询分析引擎,能够快速查询分析存储在Hadoop集群的PB级数据。如果您已将HDFS数据迁移至OSS中,可通过在Impala中使用JindoFS SDK,高效...

E-MapReduce本地盘实例规模数据集测试

本文介绍如何使用阿里云E-MapReduce搭建本地盘机型集群节点,并进行大数据基准性能测试。应用范围 需要使用阿里云E-MapReduce+本地盘进行大数据业务前进行性能测试的用户。需要将线下自建大数据集群迁移到阿里云云上E-MapReduce+本地盘进行...

ECS实例说明

大数据型 使用本地SATA盘作存储数据,存储性价比高,是大数据量(TB级别的数据量)场景下的推荐机型。说明 Hadoop、Data Science、Dataflow和Druid类型的集群支持Core节点;Zookeeper和Kafka类型的集群不支持Core节点。本地SSD型 使用本地...

概述

EMR数据开发于2022年2月21日停止功能更新,2023年9月30日停止全面支持。如果您在2022年2月21日21点前未使用过数据开发功能,推荐您通过EMR Workflow进行...您也可以迁移到大数据开发治理平台DataWorks,详情请参见 EMR数据开发停止更新公告。

E-MapReduce弹性低成本离线大数据分析

大数据是一项涉及不同业务和技术领域的技术和工具的集合,海量离线数据分析可以应用于多种商业系统环境,例如,电商海量日志分析、用户行为画像分析、科研行业的海量离线计算分析任务等场景。离线大数据分析概述 主流的三分布式计算框架...

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境,作为阿里云E-MapReduce的一部分,它提供了EMR Notebook和EMR Workflow两个核心功能。通过EMR Workbench,您可以轻松进行数据开发,以及交互式数据分析,并设计复杂的数据处理工作...

概述

数据组织 ZooKeeper的数据组织方式与标准文件系统类似,组织成类似文件树的结构,在ZooKeeper中使用znode(ZooKeeper node)来描述文件,与标准文件系统不同的是,znode并不区分目录或者文件的概念,每个znode都可以存储数据。ZooKeeper...

Kyuubi概述

Apache Kyuubi是一个分布式和多租户网关,为数据湖查询引擎(例如Spark、Flink或Trino等)提供SQL等查询服务。功能特性 多租户:Kyuubi通过统一的身份验证授权层为资源获取,数据和元数据访问提供端到端的多租户支持。高可用:Kyuubi基于...

Tez

Tez是Apache构建在Hadoop之上的支持分布式DAG(Directed Acyclic Graph)的计算框架,支持通过复杂的DAG描述并处理大数据任务。背景信息 Tez主要使用在Apache Hive中,作为Hive的一种运行时引擎,可以优化Hive SQL的查询引擎。与Hive On MR...

JindoCache概述

大数据分析(Hive/Spark 报表):减少报表生成时间,优化计算集群成本。湖仓一体:减少请求费用,优化数据目录(catalog)的响应延迟。AI:加速训练等场景,降低AI集群使用成本,提供更全面的能力支持。缓存策略 JindoCache支持数据缓存...

Spark概述

Spark是一个通用的大数据分析引擎,具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示,基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库,分别用于离线ETL(Extract-Transform-Load)、在线数据...

EMR on ACK计费说明

通过阅读本文,您可以快速了解EMR on ACK的计费资源和相关产品计费等信息。计费资源 2024年04月01日起阿里云E-MapReduce(简称EMR)on...容器服务Kubernetes 基于ACK的资源安装部署大数据服务组件,并在容器内运行。收费详情请参见 产品计费。

InstanceType

Big data:大数据型。Local SSDs:本地 SSD 型。High Clock Speed:高主频型。Enhanced:增强型。Shared:共享型。Compute-optimized with GPU:GPU 计算型。Visual Compute-optimized:视觉计算型。Heterogeneous Service:异构服务型。...

创建Data Science集群

集群类型 Data Science:主要面向大数据+AI场景,提供Hive和Spark离线大数据ETL和TensorFlow模型训练,您可以选择CPU+GPU的异构计算框架,通过英伟达GPU对部分深度学习算法进行高性能计算。产品版本 默认最新的软件版本。组件版本 展示集群...

创建集群

Spark:是通用的分布式大数据处理引擎,提供了ETL、离线批处理和数据建模等能力。重要 创建Spark集群后,如果您需要关联集群,则所选产品版本的版本号需要和关联的Shuffle Service集群版本号一致。例如,EMR-5.x-ack版本的Spark集群...

通过DMS连接StarRocks实例

数据管理DMS(Data Management)是一款支撑数据全生命周期的一站式数据管理平台。您只需在DMS控制台录入StarRocks实例的相关信息,即可轻松实现通过图形化的Web界面对StarRocks实例的高效管控与深度运维,极提升数据管理体验及操作效率。...

管理Databases

本文为您介绍如何在阿里云Milvus中有效地管理Databases(数据库),其操作方式与传统数据库引擎类似。您不仅能够在阿里云Milvus中创建多个Databases,还能够对这些Databases进行精细化权限控制,将其授权给指定的用户进行管理。前提条件 已...

Hive统一元数据

EMR上可以支持将数据存放在阿里云OSS中,在大数据量的情况下将数据存储在OSS上会大大降低使用的成本,EMR集群主要用来作为计算资源,在计算完成之后可以随时释放,数据在OSS上,同时也不用再考虑元数据迁移的问题。数据共享。使用统一的...

冷热分层

背景信息 在海量大数据场景下,随着业务和数据量的不断增长,性能和成本的权衡成为大数据系统设计面临的关键挑战。Delta Lake是新型数据湖方案,推出了数据流入、数据组织管理、数据查询和数据流出等特性,同时提供了数据的ACID和CRUD操作...

为Spark集群设置元数据

横向使用多种大数据计算引擎时,元数据可以集中管理。例如,MaxCompute、Hologres和 人工智能平台 PAI 等。多个EMR集群时,可以统一管理元数据。前提条件 已在E-MapReduce on ACK控制台创建Spark集群,详情请参见 步骤一:创建集群。使用...

查看元数据

元数据管理功能主要为您展示当前实例的所有数据库,数据表,分区及各种任务等信息。本文为您介绍如何通过EMR StarRocks Manager查看元数据。前提条件 已创建StarRocks实例,详情请参见 创建实例。使用限制 普通用户无法查看数据库大小、...

为Spark集群关联RSS

目前Spark Shuffle方案缺点如下:Shuffle Write在大数据量场景下会溢出,导致写放大。Shuffle Read过程中存在大量的网络小包导致的Connection reset问题。Shuffle Read过程中存在大量小数据量的IO请求和随机读,对磁盘和CPU造成高负载。...

在EMR Hive或Spark中访问OSS-HDFS

EMR-3.42及后续版本或EMR-5.8.0及后续版本的集群,支持OSS-HDFS(JindoFS服务)作为数据存储,提供缓存加速服务和Ranger鉴权功能,使得在Hive或Spark等大数据ETL场景将获得更好的性能和HDFS平迁能力。本文为您介绍E-MapReduce(简称EMR)...

JindoFS缓存模式

元数据同步策略 缓存模式下可能存在JindoFS集群构建之前,您已经在OSS上保存了大量数据的场景,对于这种场景,后续的数据访问会同步数据和元数据到JindoFS集群,数据同步策略为了访问数据都会在本地保留一份;元数据同步策略分为两部分,...

JindoFS外部客户端

设置环境变量 BIGBOOT_HOME 为程序安装根目录,将程序根目录下 ext 和 lib 的路径,添加到用户使用的大数据组件(Hadoop或Spark等)的 Classpath 中。从E-MapReduce集群内部拷贝配置文件/usr/lib/bigboot-current/conf/bigboot.cfg....

Spark对接OSS

Spark对接OSS提供了高效、灵活的数据处理和分析方式,将大数据处理和云存储相结合。本文介绍Spark如何处理和分析OSS中的数据。背景信息 当前E-MapReduce:支持 MetaService 服务。支持通过免AccessKey方式访问OSS数据源。支持通过显式写...

扩容磁盘

当E-MapReduce集群的数据存储空间不足时,您可以根据本文进行磁盘(数据盘和系统盘)扩容。本文为您介绍如何对磁盘进行扩容。背景信息 根据E-MapReduce版本和磁盘属性不同,E-MapReduce支持的磁盘扩容方式也不同,具体说明如下:数据盘:...

同步EMR Kafka数据至OSS-HDFS

背景信息 OSS-HDFS服务是一款云原生数据湖存储产品,基于统一的元数据管理能力,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX能力支持,能更好的满足大数据和AI领域丰富多样的数据湖计算场景,详细信息请参见 OSS-HDFS服务概述。...

数据湖集群

E-MapReduce(简称EMR)新版控制台提供了数据湖集群,一个更灵活、可靠,以及高效的大数据计算集群。同时,您可以基于该集群轻松构建一个可扩展的数据管道。本文为您介绍数据湖集群支持的特性,以及与旧版Hadoop集群之间的差异。数据湖集群...

ZOOKEEPER指标

ApproximateDataSize zk_approximate_data_size ZooKeeper大致的数据大小。单位:Byte。OpenFileDescriptorCount zk_open_file_descriptor_count ZooKeeper打开文件数量。MaxFileDescriptorCount zk_max_file_descriptor_count ZooKeeper...

管理导入任务

背景信息 该页面的数据来自于使用StarRocks内核提供的查询命令(例如 show load)所得到的结果,这些数据的生命周期与内核中数据存储的生命周期相同。该功能适用于以下场景:查看某一个导入任务的数据导入情况,包括已导入的数据条数和数据...

Query Profile介绍

说明 Operator花费的时间比例越,其对应颜色就越深(支持对执行耗时排名前三的节点标注颜色)。您可以借此轻松确认查询的瓶颈。通过鼠标滚动,或单击 放大 和 缩小 按钮,可以放大和缩小Profile树。重要指标 Query级别 Summary指标 指标 ...

SparkSQL自适应执行

而对于不同的作业,以及同一个作业内的不同reduce阶段,实际的数据量大小可能相差很,例如reduce阶段要处理的数据可能是10 MB,也有可能是100 GB,如果使用同一个值对实际运行效率会产生很影响,例如10 MB的数据一个task就可以解决,...

计算设置概述

华为 FusionInsight 8.x Hadoop 华为推出的基于Apache开源社区软件进行功能增强的企业级大数据存储、查询和分析的大数据平台。亚信DP5.3 Hadoop 基于开源生态,依托电信级技术能力构建的大数据生产运营一体化支撑平台。星环ArgoDB ...

Flink Table Store概述

Flink Table Store具有以下核心功能:支持在流模式与批模式下读写规模数据集。支持秒级数据新鲜度的批查询和OLAP查询。支持消费与产生增量数据,可作为传统与流式数仓的各级存储。关于Flink Table Store更多特性与用法,请参见 Apache ...

概述

Apache Druid是一个分布式内存实时分析系统,用于解决如何在规模数据集下快速的、交互式的查询和分析问题。基本特点 Apache Druid具有如下特点:支持亚秒级的交互式查询。例如,多维过滤、Ad-hoc的属性分组和快速聚合数据。支持实时的...

HDFS概述

HDFS(Hadoop Distributed File System)是一种Hadoop分布式文件系统,具备高度容错特性,支持高吞吐量数据访问,可以在处理海量数据(TB或PB级别以上)的同时最大可能的降低成本。HDFS适用于规模数据的分布式读写,特别是读多写少的场景...

WATERMARK语句

WATERMARK语句在流式查询中用来处理数据乱序问题。本文介绍WATERMARK语法及相关的示例。语法 SELECT watermark(projectItem,durationSpec)as watermarkItem,projectItem[,projectItem]*FROM tableExpression WATERMARK主要是为了解决数据流...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 Redis 版 云数据库 RDS 数据库备份 DBS 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用