hadoop生态-hadoop生态文档介绍内容-阿里云

Hadoop生态外表联邦分析

云原生数据仓库AnalyticDB PostgreSQL版支持通过外表访问Hadoop生态的外部数据源（包括HDFS与Hive）。注意事项本特性只支持存储弹性模式实例，且需要 AnalyticDB PostgreSQL版实例和目标访问的外部数据源处于同一个VPC网络。2020年9月6...

概述

增大151.7%3.02GB AVRO Hadoop生态格式的数据，数据由大部分遗留系统产生。增大8.3%1.3GB RCFile Hadoop生态格式的数据，数据由大部分遗留系统产生。减少2.5%1.17GB Parquet Hadoop生态格式的数据。数据采用高性能的列存储格式，提升数据...

HBASE-HDFS

HBASE-HDFS服务 HDFS作为Hadoop生态系统的核心组件，提供了可靠的分布式文件存储功能。HBase-HDFS服务通过使用HDFS作为其底层数据存储解决方案，继承了HDFS的所有原生特性和优势，未对其基本架构进行修改。HDFS更多信息介绍，请参见 HDFS...

将Kafka数据导入JindoFS

Kafka广泛用于日志收集、监控数据聚合等...通过Kafka Connector导入使用Kafka HDFS Connector也可以把Kafka数据导入到Hadoop生态，将sink的输出路径替换成JindoFS的路径即可。icmsDocProps={'productMethod':'created','language':'zh-CN',};

共享集群产品功能发布记录

2023年12月共享集群发布V2....支持加速读OSS-HDFS湖存储数据，提升Hadoop生态数据实时分析的效率。更多详情请参见 OSS数据湖加速。引擎能力支持手动Analyze收集数据库中表内容的统计信息，优化执行计划，详情请参见 ANALYZE和AUTO ANALYZE。

Hive

Hive是Hadoop生态系统中的一个被广泛使用的数据仓库工具，主要用来进行Hadoop中的大规模数据的提取、转化、加载、查询和分析等操作。Hive数据仓库工具能将存储在HDFS系统中的结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将...

HBase以EMR集群的方式使用OSS-HDFS服务作为底层存储

HBase是Hadoop生态中的实时数据库，有较高的写入性能。OSS-HDFS服务（JindoFS服务）是阿里云新推出的存储空间类型，并兼容HDFS接口。阿里云开源大数据开发平台E-MapReduce（简称EMR）支持HBase使用OSS-HDFS服务作为底层存储，同时支持存储...

通过ES-Hadoop实现Hive读写阿里云Elasticsearch数据

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具，可以让数据在Elasticsearch和Hadoop之间双向移动，无缝衔接Elasticsearch与Hadoop服务，充分使用Elasticsearch的快速搜索及Hadoop批处理能力，实现交互式数据处理。...

什么是EMR on ECS

采购服务器，部署Hadoop生态组件，周期长达数周。弹性可根据作业临时启动和销毁集群。集群资源可根据时间周期或集群负载动态自动调整。基于JindoFS计算存储分离架构，轻松分别扩展计算和存储资源。计算和存储耦合，资源相对固定，无法弹性...

迁移HDFS数据到OSS-HDFS

OSS-HDFS与Hadoop生态系统兼容，将HDFS中的数据迁移到OSS-HDFS后，可以利用Hadoop生态系统的各种工具和框架进行数据处理和分析。前提条件已创建阿里云EMR-5.6.0及后续版本或EMR-3.40.0及后续版本的集群。具体步骤，请参见创建集群。如果...

使用回收站

Hadoop生态组件使用回收站功能 Hive、Spark和Flink等组件并不感知OSS-HDFS服务回收站功能的存在，使用FileSystem（HDFS）的Delete接口意味着立即删除。OSS-HDFS采取了跟开源Hadoop相似的策略。如果您需要使用回收站功能，需要显式地调用...

安装文件系统SDK

将下载的SDK拷贝至Hadoop生态系统组件的CLASSPATH上。推荐将其部署到 hadoop-common-x.y.z.jar 所在的目录内，并复制到所有Hadoop节点。对于MapReduce组件，该目录为${HADOOP_HOME}/share/hadoop/hdfs，命令示例如下。cp aliyun-sdk-dfs-x....

阿里云OSS-HDFS（JindoFS服务）回收站使用说明

hadoop fs-rm-skipTrash oss:/bucket/a/b/c Hadoop生态组件使用回收站功能 Hive、Spark和Flink等组件并不感知OSS-HDFS服务回收站功能的存在，使用FileSystem（HDFS）的Delete接口意味着立即删除。OSS-HDFS采取了跟开源Hadoop相似的策略。...

产品概述

形态描述 EMR on ECS EMR负责将开源Hadoop生态的组件安装部署在ECS上，并启动相应的服务。您可以在EMR控制台完成对集群ECS及服务的运维操作。关于EMR on ECS的更多介绍，请参见什么是EMR on ECS。EMR on ACK 您需要先完成ACK集群的安装...

产品简介

形态描述 EMR on ECS EMR负责将开源Hadoop生态的组件安装部署在ECS上，并启动相应的服务。您可以在EMR控制台完成对集群ECS及服务的运维操作。关于EMR on ECS的更多介绍，请参见什么是EMR on ECS。EMR on ACK 您需要先完成ACK集群的安装...

什么是EMR on ACK

形态描述 EMR on ECS EMR负责将开源Hadoop生态的组件安装部署在ECS上，并启动相应的服务。您可以在EMR控制台完成对集群ECS及服务的运维操作。您需要将其大数据任务提交至EMR集群。EMR on ACK 您需要先完成ACK集群的安装部署。当ACK集群...

数据服务集群

Apache HBase和Apache Hadoop生态系统无缝集成，并且可以和Apache Phoenix搭配使用以对HBase表进行类似于SQL的查询。Apache HBase基于HDFS作为底层存储系统，在云上的场景可以使用对象存储（例如OSS）来提供更好的灵活性以及更低的成本。...

Ranger概述

Apache Ranger提供集中式的权限管理框架，可以对Hadoop生态中的HDFS、Hive和YARN等组件进行细粒度的权限访问控制，并且提供了Web UI方便管理员操作。Ranger组件介绍 Ranger主要由三个组件组成：Ranger Admin 您可以创建和更新安全访问策略...

HBase使用OSS-HDFS服务作为底层存储

HBase是Hadoop生态中的实时数据库，有较高的写入性能。OSS-HDFS服务是阿里云新推出的存储空间类型，并兼容HDFS接口。JindoSDK支持HBase使用OSS-HDFS服务作为底层存储，同时支持存储WAL文件，实现存储与计算分离。相对于本地HDFS存储，OSS-...

在非EMR集群中部署JindoSDK

非Hadoop配置文件在使用JindoFuse、Jindo CLI等非Hadoop生态组件时，会访问环境变量 JINDOSDK_CONF_DIR 所在的目录读取配置文件。配置文件使用INI风格配置文件，配置文件的文件名为 jindosdk.cfg，示例代码如下：[common]logger.dir=tmp/...

在文件存储 HDFS 版上使用Apache Spark

您可以下载最新的文件存储 HDFS 版的Java SDK，将其部署在Hadoop生态系统组件的CLASSPATH上，具体操作，请参见挂载文件存储 HDFS 版文件系统。cp aliyun-sdk-dfs-x.y.z.jar/usr/local/hadoop-2.7.2/share/hadoop/hdfs 执行如下命令将${...

在文件存储 HDFS 版上使用Apache Flink

您可以下载最新的文件存储HDFS版的Java SDK，将其部署在Hadoop生态系统组件的CLASSPATH上，具体操作，请参见挂载文件存储 HDFS 版文件系统。cp aliyun-sdk-dfs-x.y.z.jar/usr/local/hadoop-2.7.2/share/hadoop/hdfs 执行如下命令将${...

使用JindoFS作为HBase的底层存储

背景信息 HBase是Hadoop生态中的实时数据库，有很高的写入性能，E-MapReduce HBase支持使用JindoFS或OSS作为底层存储，相对于HDFS存储，使用更加灵活。说明建议您使用EMR-3.36.0及后续版本的集群。JindoFS配置以EMR-3.36.0版本为例，创建...

使用Hive查询JindoFS上的数据

Apache Hive是Hadoop生态中广泛使用的SQL引擎之一，让用户可以使用SQL实现分布式的查询，Hive中数据主要以undefinedDatabase、Table和Partition的形式进行管理，通过指定位置（Location）对应到后端的数据。JindoFS配置以EMR-3.35版本为例...

JindoFS介绍和使用

此模式不改变文件或对象在OSS上的组织方式，文件还是保存在OSS上，JindoFS只是提供面向Hadoop生态的客户端连接、扩展、适配和优化访问。您可以使用此模式，上传JindoFS SDK的JAR包至组件的 classpath 目录，简单易用，无需部署分布式服务。...

产品优势

智能存储提供多种数据处理能力，例如图片处理、视频截帧、文档预览、图片场景识别、SQL查询等，并无缝对接Hadoop生态以及阿里云函数计算、EMR、DataLakeAnalytics、BatchCompute、MaxCompute、DBS等产品，满足企业数据分析与管理的需求。...

什么是实时数仓Hologres

Hadoop生态集成支持Hive/Spark Connector，通过Hadoop平台加工的数据可以高吞吐导入Hologres，并对外提供服务。支持加速读取外部表OSS-HDFS格式存储，支持Hudi、Delta等存储格式。达摩院Proxima向量检索 Hologres与人工智能平台 PAI 紧密...

通过ES-Hadoop将HDFS中的数据写入Elasticsearch

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具，可以让数据在Elasticsearch和Hadoop之间双向移动，无缝衔接Elasticsearch与Hadoop服务，充分使用Elasticsearch的快速搜索及Hadoop批处理能力，实现交互式数据处理。...

EMR-3.22.x版本说明

发布日期 EMR-3.22.0 2019年7月28日新功能服务变更点 Kudu 新增组件，Kudu填补Hadoop生态圈的功能空白，可提供类似HBase快速数据插入以及随机存取的功能，允许用户进行数据修改，同时还提供类似HDFS或Parquet超大规模的数据分析以及查询...

AnalyticDB PostgreSQL版7.0版本

支持使用\COPY命令导入本地数据支持使用OSS外表高速导入OSS数据支持 Hadoop生态外表联邦分析支持仓级迁移自建Greenplum迁移到AnalyticDB PostgreSQL版支持 Teradata应用迁移至AnalyticDB PostgreSQL 暂不支持您可以通过外表文件...

基于OSS-HDFS构建数据湖

背景信息 OSS-HDFS（JindoFS）是一款云原生数据湖存储服务，相比原生OSS存储，OSS-HDFS与Hadoop生态计算引擎无缝集成，在典型的基于Hive和Spark的离线ETL场景拥有更好的表现。OSS-HDFS详情请参见 OSS-HDFS服务概述。对于存储在OSS-HDFS上的...

概览

支持 Hadoop生态外表联邦分析您可以在 AnalyticDB PostgreSQL版中通过gphdfs协议读写HDFS（Hadoop）集群的数据。支持仓级迁移自建Greenplum迁移到AnalyticDB PostgreSQL版 AnalyticDB PostgreSQL 6.0版基于Greenplum 6.0构建，并深度...

共享集群（OSS数据湖加速）

进一步扩展了数据湖加速的服务能力和边界，使Hologres可以与Hadoop生态计算引擎无缝集成，加速读写存储于HDFS上的数据，大幅提升Hadoop生态数据实时分析的效率，更好地满足大数据和AI等领域的数据湖联邦、实时分析诉求。Hologres从V2.1.6...

Sqoop概述

Sqoop是一款Apache社区的开源软件，支持在Hadoop生态软件和结构化数据集（例如数据库）之间进行高效的批量数据传输。背景信息常见数据传输场景如下：将MySQL数据导入HDFS 将HDFS数据导入MySQL 将Hive数据导入MySQL 将MySQL数据导入Hive 将...

Hive作业异常排查及处理

读取Snappy文件出现OOM 原因分析：LogService等服务写入的标准Snappy文件和Hadoop生态的Snappy文件格式不同，EMR默认处理的是Hadoop修改过的Snappy格式，处理标准格式时会报错OutOfMemoryError。解决方法：对Hive作业配置如下参数。set io....

迁移HBase至Hologres

生态 HBase兼容Hadoop生态。Hologres高度兼容PostgreSQL生态。适用场景海量存储，非结构化存储，单点查询性能优异，写密集型数据库。实时数仓，在线数据服务。联通数据孤岛，海量数据实时查询及分析，弹性扩展集群，完整SQL支持。开发方式...

Serverless模式

支持使用\COPY命令导入本地数据支持使用OSS外表高速导入OSS数据支持 Hadoop生态外表联邦分析支持仓级迁移自建Greenplum迁移到AnalyticDB PostgreSQL版暂不支持。您可以通过外表文件中转导入。Teradata应用迁移至AnalyticDB ...

数据湖加速查询

什么是对象存储OSS OSS-HDFS服务（又名JindoFS）是云原生数据湖存储，相比原生OSS存储，OSS-HDFS与Hadoop生态计算引擎无缝集成，在典型的基于Hive和Spark的离线ETL场景拥有更好的表现，在完全兼容HDFS文件系统接口的同时，提供充分的POSIX...

创建集群

支持的集群类型如下：Hadoop：提供最丰富的开源组件列表，完全兼容Hadoop生态。可应用于大数据离线处理、实时处理和交互式查询等多种使用场景。支持构建数据湖架构，使用JindoFS进行数据湖加速。Zookeeper：提供独立的分布式一致性锁服务，...

产品优势

本文介绍云原生多模数据库 Lindorm 与其他开源数据库的区别。背景信息云原生多模数据库 Lindorm 兼容...生态开源大数据生态Hadoop/Spark等、阿里云数据生态开源大数据生态Hadoop/Spark等易用性免运维，维护简单有状态服务，维护较复杂

hadoop生态

新品推荐