Hadoop生态外表联邦分析

云原生数据仓库AnalyticDB PostgreSQL版 支持通过外表访问Hadoop生态的外部数据源(包括HDFS与Hive)。注意事项 本特性只支持存储弹性模式实例,且需要 AnalyticDB PostgreSQL版 实例和目标访问的外部数据源处于同一个VPC网络。2020年9月6...

概述

增大151.7%3.02GB AVRO Hadoop生态格式的数据,数据由大部分遗留系统产生。增大8.3%1.3GB RCFile Hadoop生态格式的数据,数据由大部分遗留系统产生。减少2.5%1.17GB Parquet Hadoop生态格式的数据。数据采用高性能的列存储格式,提升数据...

HBASE-HDFS

HBASE-HDFS服务 HDFS作为Hadoop生态系统的核心组件,提供了可靠的分布式文件存储功能。HBase-HDFS服务通过使用HDFS作为其底层数据存储解决方案,继承了HDFS的所有原生特性和优势,未对其基本架构进行修改。HDFS更多信息介绍,请参见 HDFS...

将Kafka数据导入JindoFS

Kafka广泛用于日志收集、监控数据聚合等...通过Kafka Connector导入 使用Kafka HDFS Connector也可以把Kafka数据导入到Hadoop生态,将sink的输出路径替换成JindoFS的路径即可。icmsDocProps={'productMethod':'created','language':'zh-CN',};

共享集群产品功能发布记录

2023年12月 共享集群发布V2....支持加速读OSS-HDFS湖存储数据,提升Hadoop生态数据实时分析的效率。更多详情请参见 OSS数据湖加速。引擎能力 支持手动Analyze收集数据库中表内容的统计信息,优化执行计划,详情请参见 ANALYZE和AUTO ANALYZE。

Hive

Hive是Hadoop生态系统中的一个被广泛使用的数据仓库工具,主要用来进行Hadoop中的大规模数据的提取、转化、加载、查询和分析等操作。Hive数据仓库工具能将存储在HDFS系统中的结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将...

HBase以EMR集群的方式使用OSS-HDFS服务作为底层存储

HBase是Hadoop生态中的实时数据库,有较高的写入性能。OSS-HDFS服务(JindoFS服务)是阿里云新推出的存储空间类型,并兼容HDFS接口。阿里云开源大数据开发平台E-MapReduce(简称EMR)支持HBase使用OSS-HDFS服务作为底层存储,同时支持存储...

通过ES-Hadoop实现Hive读写阿里云Elasticsearch数据

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具,可以让数据在Elasticsearch和Hadoop之间双向移动,无缝衔接Elasticsearch与Hadoop服务,充分使用Elasticsearch的快速搜索及Hadoop批处理能力,实现交互式数据处理。...

什么是EMR on ECS

采购服务器,部署Hadoop生态组件,周期长达数周。弹性 可根据作业临时启动和销毁集群。集群资源可根据时间周期或集群负载动态自动调整。基于JindoFS计算存储分离架构,轻松分别扩展计算和存储资源。计算和存储耦合,资源相对固定,无法弹性...

迁移HDFS数据到OSS-HDFS

OSS-HDFS与Hadoop生态系统兼容,将HDFS中的数据迁移到OSS-HDFS后,可以利用Hadoop生态系统的各种工具和框架进行数据处理和分析。前提条件 已创建阿里云EMR-5.6.0及后续版本或EMR-3.40.0及后续版本的集群。具体步骤,请参见 创建集群。如果...

使用回收站

Hadoop生态组件使用回收站功能 Hive、Spark和Flink等组件并不感知OSS-HDFS服务回收站功能的存在,使用FileSystem(HDFS)的Delete接口意味着立即删除。OSS-HDFS采取了跟开源Hadoop相似的策略。如果您需要使用回收站功能,需要显式地调用...

安装文件系统SDK

将下载的SDK拷贝至Hadoop生态系统组件的CLASSPATH上。推荐将其部署到 hadoop-common-x.y.z.jar 所在的目录内,并复制到所有Hadoop节点。对于MapReduce组件,该目录为${HADOOP_HOME}/share/hadoop/hdfs,命令示例如下。cp aliyun-sdk-dfs-x....

阿里云OSS-HDFS(JindoFS服务)回收站使用说明

hadoop fs-rm-skipTrash oss:/bucket/a/b/c Hadoop生态组件使用回收站功能 Hive、Spark和Flink等组件并不感知OSS-HDFS服务回收站功能的存在,使用FileSystem(HDFS)的Delete接口意味着立即删除。OSS-HDFS采取了跟开源Hadoop相似的策略。...

产品概述

形态 描述 EMR on ECS EMR负责将开源Hadoop生态的组件安装部署在ECS上,并启动相应的服务。您可以在EMR控制台完成对集群ECS及服务的运维操作。关于EMR on ECS的更多介绍,请参见 什么是EMR on ECS。EMR on ACK 您需要先完成ACK集群的安装...

产品简介

形态 描述 EMR on ECS EMR负责将开源Hadoop生态的组件安装部署在ECS上,并启动相应的服务。您可以在EMR控制台完成对集群ECS及服务的运维操作。关于EMR on ECS的更多介绍,请参见 什么是EMR on ECS。EMR on ACK 您需要先完成ACK集群的安装...

什么是EMR on ACK

形态 描述 EMR on ECS EMR负责将开源Hadoop生态的组件安装部署在ECS上,并启动相应的服务。您可以在EMR控制台完成对集群ECS及服务的运维操作。您需要将其大数据任务提交至EMR集群。EMR on ACK 您需要先完成ACK集群的安装部署。当ACK集群...

数据服务集群

Apache HBase和Apache Hadoop生态系统无缝集成,并且可以和Apache Phoenix搭配使用以对HBase表进行类似于SQL的查询。Apache HBase基于HDFS作为底层存储系统,在云上的场景可以使用对象存储(例如OSS)来提供更好的灵活性以及更低的成本。...

Ranger概述

Apache Ranger提供集中式的权限管理框架,可以对Hadoop生态中的HDFS、Hive和YARN等组件进行细粒度的权限访问控制,并且提供了Web UI方便管理员操作。Ranger组件介绍 Ranger主要由三个组件组成:Ranger Admin 您可以创建和更新安全访问策略...

HBase使用OSS-HDFS服务作为底层存储

HBase是Hadoop生态中的实时数据库,有较高的写入性能。OSS-HDFS服务是阿里云新推出的存储空间类型,并兼容HDFS接口。JindoSDK支持HBase使用OSS-HDFS服务作为底层存储,同时支持存储WAL文件,实现存储与计算分离。相对于本地HDFS存储,OSS-...

在非EMR集群中部署JindoSDK

非Hadoop配置文件 在使用JindoFuse、Jindo CLI等非Hadoop生态组件时,会访问环境变量 JINDOSDK_CONF_DIR 所在的目录读取配置文件。配置文件 使用INI风格配置文件,配置文件的文件名为 jindosdk.cfg,示例代码如下:[common]logger.dir=tmp/...

在文件存储 HDFS 版上使用Apache Spark

您可以 下载最新的文件存储 HDFS 版的Java SDK,将其部署在Hadoop生态系统组件的CLASSPATH上,具体操作,请参见 挂载文件存储 HDFS 版文件系统。cp aliyun-sdk-dfs-x.y.z.jar/usr/local/hadoop-2.7.2/share/hadoop/hdfs 执行如下命令将${...

在文件存储 HDFS 版上使用Apache Flink

您可以 下载最新的文件存储HDFS版的Java SDK,将其部署在Hadoop生态系统组件的CLASSPATH上,具体操作,请参见 挂载文件存储 HDFS 版文件系统。cp aliyun-sdk-dfs-x.y.z.jar/usr/local/hadoop-2.7.2/share/hadoop/hdfs 执行如下命令将${...

使用JindoFS作为HBase的底层存储

背景信息 HBase是Hadoop生态中的实时数据库,有很高的写入性能,E-MapReduce HBase支持使用JindoFS或OSS作为底层存储,相对于HDFS存储,使用更加灵活。说明 建议您使用EMR-3.36.0及后续版本的集群。JindoFS配置 以EMR-3.36.0版本为例,创建...

使用Hive查询JindoFS上的数据

Apache Hive是Hadoop生态中广泛使用的SQL引擎之一,让用户可以使用SQL实现分布式的查询,Hive中数据主要以undefinedDatabase、Table和Partition的形式进行管理,通过指定位置(Location)对应到后端的数据。JindoFS配置 以EMR-3.35版本为例...

JindoFS介绍和使用

此模式不改变文件或对象在OSS上的组织方式,文件还是保存在OSS上,JindoFS只是提供面向Hadoop生态的客户端连接、扩展、适配和优化访问。您可以使用此模式,上传JindoFS SDK的JAR包至组件的 classpath 目录,简单易用,无需部署分布式服务。...

产品优势

智能存储 提供多种数据处理能力,例如图片处理、视频截帧、文档预览、图片场景识别、SQL查询等,并无缝对接Hadoop生态以及阿里云函数计算、EMR、DataLakeAnalytics、BatchCompute、MaxCompute、DBS等产品,满足企业数据分析与管理的需求。...

什么是实时数仓Hologres

Hadoop生态集成 支持Hive/Spark Connector,通过Hadoop平台加工的数据可以高吞吐导入Hologres,并对外提供服务。支持加速读取外部表OSS-HDFS格式存储,支持Hudi、Delta等存储格式。达摩院Proxima向量检索 Hologres与 人工智能平台 PAI 紧密...

通过ES-Hadoop将HDFS中的数据写入Elasticsearch

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具,可以让数据在Elasticsearch和Hadoop之间双向移动,无缝衔接Elasticsearch与Hadoop服务,充分使用Elasticsearch的快速搜索及Hadoop批处理能力,实现交互式数据处理。...

EMR-3.22.x版本说明

发布日期 EMR-3.22.0 2019年7月28日 新功能 服务 变更点 Kudu 新增组件,Kudu填补Hadoop生态圈的功能空白,可提供类似HBase快速数据插入以及随机存取的功能,允许用户进行数据修改,同时还提供类似HDFS或Parquet超大规模的数据分析以及查询...

AnalyticDB PostgreSQL版7.0版本

支持 使用\COPY命令导入本地数据 支持 使用OSS外表高速导入OSS数据 支持 Hadoop生态外表联邦分析 支持 仓级迁移 自建Greenplum迁移到AnalyticDB PostgreSQL版 支持 Teradata应用迁移至AnalyticDB PostgreSQL 暂不支持 您可以通过外表文件...

基于OSS-HDFS构建数据湖

背景信息 OSS-HDFS(JindoFS)是一款云原生数据湖存储服务,相比原生OSS存储,OSS-HDFS与Hadoop生态计算引擎无缝集成,在典型的基于Hive和Spark的离线ETL场景拥有更好的表现。OSS-HDFS详情请参见 OSS-HDFS服务概述。对于存储在OSS-HDFS上的...

概览

支持 Hadoop生态外表联邦分析 您可以在 AnalyticDB PostgreSQL版 中通过gphdfs协议读写HDFS(Hadoop)集群的数据。支持 仓级迁移 自建Greenplum迁移到AnalyticDB PostgreSQL版 AnalyticDB PostgreSQL 6.0版 基于Greenplum 6.0构建,并深度...

共享集群(OSS数据湖加速)

进一步扩展了数据湖加速的服务能力和边界,使Hologres可以与Hadoop生态计算引擎无缝集成,加速读写存储于HDFS上的数据,大幅提升Hadoop生态数据实时分析的效率,更好地满足大数据和AI等领域的数据湖联邦、实时分析诉求。Hologres从V2.1.6...

Sqoop概述

Sqoop是一款Apache社区的开源软件,支持在Hadoop生态软件和结构化数据集(例如数据库)之间进行高效的批量数据传输。背景信息 常见数据传输场景如下:将MySQL数据导入HDFS 将HDFS数据导入MySQL 将Hive数据导入MySQL 将MySQL数据导入Hive 将...

Hive作业异常排查及处理

读取Snappy文件出现OOM 原因分析:LogService等服务写入的标准Snappy文件和Hadoop生态的Snappy文件格式不同,EMR默认处理的是Hadoop修改过的Snappy格式,处理标准格式时会报错OutOfMemoryError。解决方法:对Hive作业配置如下参数。set io....

迁移HBase至Hologres

生态 HBase兼容Hadoop生态。Hologres高度兼容PostgreSQL生态。适用场景 海量存储,非结构化存储,单点查询性能优异,写密集型数据库。实时数仓,在线数据服务。联通数据孤岛,海量数据实时查询及分析,弹性扩展集群,完整SQL支持。开发方式...

Serverless模式

支持 使用\COPY命令导入本地数据 支持 使用OSS外表高速导入OSS数据 支持 Hadoop生态外表联邦分析 支持 仓级迁移 自建Greenplum迁移到AnalyticDB PostgreSQL版 暂不支持。您可以通过外表文件中转导入。Teradata应用迁移至AnalyticDB ...

数据湖加速查询

什么是对象存储OSS OSS-HDFS服务(又名JindoFS)是云原生数据湖存储,相比原生OSS存储,OSS-HDFS与Hadoop生态计算引擎无缝集成,在典型的基于Hive和Spark的离线ETL场景拥有更好的表现,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX...

创建集群

支持的集群类型如下:Hadoop:提供最丰富的开源组件列表,完全兼容Hadoop生态。可应用于大数据离线处理、实时处理和交互式查询等多种使用场景。支持构建数据湖架构,使用JindoFS进行数据湖加速。Zookeeper:提供独立的分布式一致性锁服务,...

产品优势

本文介绍 云原生多模数据库 Lindorm 与其他开源数据库的区别。背景信息 云原生多模数据库 Lindorm 兼容...生态 开源大数据生态Hadoop/Spark等、阿里云数据生态 开源大数据生态Hadoop/Spark等 易用性 免运维,维护简单 有状态服务,维护较复杂
共有50条 < 1 2 3 4 ... 50 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
实时数仓 Hologres 云消息队列 Kafka 版 云消息队列 RocketMQ 版 云原生数据仓库 AnalyticDB PostgreSQL版 开源大数据平台 E-MapReduce 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用