解压Snappy压缩文件

不支持通过以下命令行工具解压snappy压缩文件,命令行模式下仅支持hadoop模式(hadoop_stream_decompress)流模式(stream_decompress)。python-m snappy-d compressed_file.snappy uncompressed_file 使用开源PHP工具解压 您可以使用...

YARN调度器

简介 Hadoop YARN的核心组件是ResourceManager,负责集群资源管理调度,而ResourceManager组件的核心是调度器,负责统筹集群资源,满足应用的资源需求。调度器不仅需要优化整个集群的资源布局,避免热点等问题对应用的影响,最大程度利用...

文件存储 HDFS 版和对象存储OSS双向数据迁移

{HADOOP_HOME}/bin/hadoop jar \${HADOOP_HOME}/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.5.jar \ randomtextwriter \-D mapreduce.randomtextwriter.totalbytes=107374182400 \-D mapreduce.randomtextwriter.bytespermap=...

Hive连接器

hive.force-local-scheduling 强制将分片规划到处理该分片数据的Hadoop DataNode服务相同的节点上。此配置方式对于Presto每个DataNode并置的安装很有用,可以提升并置安装的效率。默认值为false。hive.respect-table-format 新分区应...

E-MapReduce数据迁移方案

经典网络VPC网络打通 如果ECS自建Hadoop,需要通过ECS的 classiclink 的方式将经典网络和VPC网络打通,详情请参见 建立ClassicLink连接。VPC网络之间连通 数据迁移一般需要较高的网络带宽连通,建议新旧集群尽量处在同一个区域的同一个...

Ambari文件引擎集成

Ambari提供Hadoop组件的安装、运维、监控等功能,您可以使用Ambari管理您的Hadoop集群。本文介绍如何将AmbariLindorm文件引擎集成,来替换底层HDFS存储。您可以基于Ambari+Lindorm文件引擎构建云原生存储计算分离的开源大数据系统。前提...

常见问题排查

例如:执行 hadoop 命令或者任务出现如下错误时,表明 org/apache/hadoop/fs/PathFilter 相关的类不在Hadoop的运行环境中,该类所属的Jar包为 hadoop-common-x.x.x.jar,需要您下载该Jar包的正确版本,并将其置于所有Hadoop环境下的...

使用Flink访问

export HADOOP_HOME=usr/local/hadoop-2.7.3 export HADOOP_CLASSPATH=usr/local/hadoop-2.7.3/etc/hadoop:/usr/local/hadoop-2.7.3/share/hadoop/common/lib/*:/usr/local/hadoop-2.7.3/share/hadoop/common/*:/usr/local/hadoop-2.7.3/...

使用SQL管理外部项目

构建湖仓一体时,您需要创建外部项目(External Project)用于关联Hadoop集群,或关联DLF及OSS。本文为您介绍如何使用SQL方式对不同场景中已创建的外部项目、及其中的表进行管理,例如查询或更新表数据等操作。背景信息 您在通过DataWorks...

CDH6文件引擎集成

CDH(Cloudera's Distribution,including Apache Hadoop)提供Hadoop组件的安装、运维、监控等功能,您可以使用 CDH6(表示CDH 6.X 版本)管理您的Hadoop集群。本文介绍如何将CDH6Lindorm文件引擎集成,来替换底层HDFS存储。您可以基于...

配置弹性伸缩(仅Hadoop集群类型)

E-MapReduce弹性伸缩指标YARN负载指标的对应关系,请参见 E-MapReduce弹性伸缩指标YARN所属服务的对应关系。统计周期 您选定的集群负载指标在一个统计周期内,按照选定的聚合维度(平均值、最大值和最小值),达到触发阈值为一次触发。...

最佳实践概览

ES-Hadoop使用 通过ES-Hadoop实现Hive读写阿里云Elasticsearch数据 通过ES-Hadoop将HDFS中的数据写入Elasticsearch 通过ES-Hadoop实现Spark读写阿里云Elasticsearch数据 日志采集分析 日志同步分析概述 通过自建Filebeat收集MySQL日志 ...

高性能版Spark全密态计算引擎使用示例

AnalyticDB MySQL 湖仓版(3.0)高性能版的Spark全密态计算引擎,在基础版Spark全密态引擎能力的基础上,支持Parquet模块化加密功能,且兼容社区版Spark、Hadoop、Hive等计算引擎,在保证数据传输存储过程安全的同时,提升了数据处理效率...

配置CDH6使用文件存储 HDFS 版

5425|5426|1849|org.apache.hadoop.mapred.TextInputFormat|hdfs:/cdh6-master:8020/tmp/tpcds-generate/2/catalog_returns|-1|org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat|5426|5427|1850|org.apache.hadoop.mapred....

网络开通流程

当您通过MaxCompute访问位于外网或VPC网络中的目标服务时,默认情况下,MaxCompute目标服务之间的网络不可达。您需要开通网络连接以便访问外网或VPC中的目标服务(例如指定IP或域名、RDS、HBase集群、Hadoop集群等)。本文为您介绍...

Dataphin如何使用一个Hadoop集群为所有项目创建计算源...

概述 本文为您介绍Dataphin如何使用一个Hadoop集群为所有项目创建计算源从而提供计算存储资源。详细信息 1.Dataphin一个计算源只可以被一个项目所绑定。2.通过创建不同的Hive DB从而创建不同的计算源来达到一个Hadoop集群创建多个计算源...

E-MapReduce本地盘实例大规模数据集测试

同时,在使用本地盘D1机型时,数据的传输不需要全部通过网络,因此该场景提供了磁盘相同的吞吐能力,可发挥Hadoop就近计算的优势。阿里云E-MapReduce产品针对本地盘机型,推出了一整套的自动化运维方案,帮助阿里云用户方便可靠地使用...

HDFS Web UI介绍

访问HDFS Web UI 您可以通过SSH隧道和控制台两种方式访问HDFS Web UI,具体操作请参见 通过SSH隧道方式访问开源组件Web UI 和 访问链接端口。NameNode服务地址 版本 访问地址 说明 hadoop 3.x http://${namenode_hostname}:9870${...

测试工具

HammerDB目前支持的数据库种类很多,主流的数据库都已经覆盖,例如Oracle、SQL Server、DB2、TimesTen、MySQL、MariaDB、PostgreSQL、Greenplum、Postgres Plus Advanced Server、Redis和Trafodion SQL on Hadoop。HammerDB包含一个内嵌的...

通过HDP 2.6 Hadoop读取和写入OSS数据

client/hadoop-aliyun-2.7.3.2.6.1.0-129.jar hadoop/share/hadoop/tools/lib/sudo cp/usr/hdp/current/hadoop-client/lib/aliyun-*hadoop/share/hadoop/tools/lib/sudo cp/usr/hdp/current/hadoop-client/lib/jdom-1.1.jar hadoop/share/...

Dataphin集成任务同步失败报错:"Operation category ...

问题描述 Dataphin集成任务运行失败...06],Description:[HDFS建立连接时出现IO异常.].-org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException):Operation category READ is not supported in state standby.Visit ...

ECS选型最佳实践

购买ECS实例之前,您需要结合性能、价格、工作负载等因素,做出性价比稳定性最优的决策。本文主要介绍如何结合实际业务场景选购阿里云云服务器ECS。重要 本文主要介绍如何选择企业级实例规格族,不包括入门级(共享型)规格族。有关入门...

Hive访问Iceberg数据

说明 此文档仅适用于EMR-3.38.0及后续版本EMR-5.4.0及后续版本的Hadoop集群。使用限制 EMR-3.38.0及后续版本EMR-5.4.0及后续版本的Hadoop集群,支持Hive读写Iceberg的数据。操作步骤 可选:如果您创建的是EMR-3.38.0EMR-5.4.0版本的...

按负载伸缩规则配置

集群负载指标:在YARN的负载指标中获取,具体可以参见 Hadoop官方文档。Databricks数据洞察弹性伸缩指标YARN负载指标的对应关系如下:E-MapReduce弹性伸缩指标 YARN Metrics 说明 YARN.AvailableVCores availableVirtualCores The number...

通过CDH5 Hadoop读取和写入OSS数据

CDH(Cloudera's Distribution,including Apache Hadoop)是众多Hadoop发行版本中的一种,最新版本CDH6.0.1中的Hadoop3.0.0版本已经支持OSS,但CDH5中的Hadoop2.6版本不支持OSS。本文介绍如何配置CDH5支持OSS读写。前提条件 拥有一个已搭建...

HBASE-HDFS

HBASE-HDFS服务本质上是基于HDFS的,其主要作用是存放HBase的WAL文件,确保HBase日志的持久化高可靠性。HBASE-HDFS服务 HDFS作为Hadoop生态系统的核心组件,提供了可靠的分布式文件存储功能。HBase-HDFS服务通过使用HDFS作为其底层数据...

挂载文件存储 HDFS 版文件系统

vim${HADOOP_HOME}/etc/hadoop/core-site.xml 如果您尚未配置${HADOOP_HOME},可以使用下面命令将您的Hadoop安装目录配置到该环境变量。export HADOOP_HOME=your/hadoop/installation/directory 在 core-site.xml 文件中,配置如下信息。...

通过DataWorks将Hadoop数据同步到阿里云ES

当您基于Hadoop进行交互式大数据分析查询,遇到查询延迟的问题时,可以将数据同步至阿里云Elasticsearch中再进行查询分析。ES对于多种查询类型,特别是即席查询(Ad Hoc),基本可以达到秒级响应。本文介绍通过DataWorks的数据集成服务,...

产品概述

注意事项 云原生数据仓库 AnalyticDB PostgreSQL 版 基于开源GreenPlum进行了深度的改造和扩展,鉴于 云原生数据仓库 AnalyticDB PostgreSQL 版 团队对GreenPlum的深度理解和维护经验,云原生数据仓库 AnalyticDB PostgreSQL 版 禁用了部分...

在文件存储 HDFS 版上使用Apache Tez

./hadoop-mapreduce/hadoop-2.8.5/share/hadoop/hdfs/*:./hadoop-mapreduce/hadoop-2.8.5/share/hadoop/hdfs/lib/*:./hadoop-mapreduce/hadoop-2.8.5/share/hadoop/yarn/*:./hadoop-mapreduce/hadoop-2.8.5/share/hadoop/yarn/lib/*:./...

Spark流式写入Iceberg

说明 此文档仅适用于EMR-3.38.0及后续版本EMR-5.4.0及后续版本的Hadoop集群。已在E-MapReduce控制台上,创建Kafka集群,详情请参见 创建集群。使用限制 Hadoop集群和Kafka集群需要在同一VPC和交换机下,不支持跨VPC。流式写入方式 Spark ...

开启权限认证

drwxr-x-x-emrtest hadoop 0 2022-10-21 14:08/tmp/emrtest drwxr-x-x-hadoop hadoop 0 2022-10-21 10:06/tmp/hadoop-yarn drwx-wx-wx-hive hadoop 0 2022-10-21 10:13/tmp/hive drwxr-x-x-hadoop hadoop 0 2022-10-21 10:23/tmp/kyuubi-...

配置Greenplum输入组件

Greenplum输入组件用于读取Greenplum数据源的数据。同步Greenplum数据源的数据至其他数据源的场景中,您需要先配置Greenplum输入组件读取的数据源,再配置数据同步的目标数据源。本文为您介绍如何配置Greenplum输入组件。操作步骤 请参见 ...

配置Greenplum输入组件

Greenplum输入组件用于读取Greenplum数据源的数据。同步Greenplum数据源的数据至其他数据源的场景中,您需要先配置Greenplum输入组件读取的数据源,再配置数据同步的目标数据源。本文为您介绍如何配置Greenplum输入组件。操作步骤 请参见 ...

配置Greenplum输出组件

配置Greenplum输出组件,可以将外部数据库中读取的数据写入到Greenplum,或从大数据平台对接的存储系统中将数据复制推送至Greenplum,进行数据整合和再加工。本文为您介绍如何配置Greenplum输出组件。前提条件 已创建Greenplum数据源。具体...

配置Greenplum输出组件

配置Greenplum输出组件,可以将外部数据库中读取的数据写入到Greenplum,或从大数据平台对接的存储系统中将数据复制推送至Greenplum,进行数据整合和再加工。本文为您介绍如何配置Greenplum输出组件。前提条件 已创建Greenplum数据源。具体...

Spark批式读写Iceberg

说明 此文档仅适用于EMR-3.38.0及后续版本EMR-5.4.0及后续版本的Hadoop集群。操作步骤 新建Maven项目,引入Pom依赖。引入Spark及Iceberg的依赖,以下代码示例指定了Spark 3.1.1Iceberg 0.12.0版本,使用provided引包编译,运行时使用...

安装文件系统SDK

WordCount样例${HADOOP_HOME}/bin/hadoop jar \${HADOOP_HOME}/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount \ inputDir outputDir Grep样例${HADOOP_HOME}/bin/hadoop jar \${HADOOP_HOME}/share/hadoop/...

快捷模式安全模式差异比对

说明 Hadoop用户拥有Hadoop集群的所有权限,请谨慎授权。适用于对任务执行者数据权限无强管控要求的工作空间。安全模式 用于实现更具安全性的数据权限管理。使用该模式绑定EMR引擎时,阿里云主账号或RAM用户在下发代码的同时,DataWorks会...

在文件存储 HDFS 版上使用Apache Flink

export HADOOP_HOME=usr/local/hadoop-2.7.2 export HADOOP_CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath)export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH 执行如下命令使配置...
共有32条 < 1 2 3 4 ... 32 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云原生数据仓库 AnalyticDB PostgreSQL版 开源大数据平台 E-MapReduce 弹性公网IP 短信服务 人工智能平台 PAI 金融分布式架构
新人特惠 爆款特惠 最新活动 免费试用