搭建Hadoop环境

Hadoop是由Apache基金会使用Java语言开发的分布式开源软件框架,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的能力进行高速运算和存储。本文介绍如何在Linux操作系统的ECS实例上快速搭建Hadoop分布式环境。前提...

数据库备份到OSS

背景 对象存储OSS 对象存储OSS 提供了标准类型存储,作为移动应用、大型网站、图片分享或热点音视频的主要存储方式,也提供了成本更低、存储期限更长的低频访问类型存储和归档类型存储,作为不经常访问数据的备份和归档。对象存储OSS非常...

测试结果

需要强调的是,DLA Spark完全需使用存储和计算资源,对OSS访问实现了深度定制优化,性能相比于优化前提升1倍左右,与Spark访问HDFS性能持平。10 TB测试数据下DLA Spark+OSS与自建Hadoop+Spark性能对比结果 集群类型 运行Terasort基准测试...

配置OSS/OSS-HDFS Credential Provider

使用Hadoop Credential Providers存储AccessKey信息 上面基本配置方式中的 fs.oss.accessKeyId 和 fs.oss.accessKeySecret 将会明文配置在 core-site.xml 中,您可以将其以加密对方式存储Hadoop Credential Providers文件中。使用Hadoop...

配置OSS/OSS-HDFS Credential Provider

使用Hadoop Credential Providers存储AccessKey信息 上面基本配置方式中的 fs.oss.accessKeyId 和 fs.oss.accessKeySecret 将会明文配置在 core-site.xml 中,您可以将其以加密对方式存储Hadoop Credential Providers文件中。使用Hadoop...

挂载文件存储 HDFS 版文件系统

本文介绍挂载及卸载 文件存储 HDFS 版 文件系统的操作。前提条件 已为ECS实例安装JDK,且JDK版本不低于1.8。已创建 文件存储 HDFS 版 文件系统并添加挂载点。具体操作,请参见 创建文件系统 和 添加挂载点。已安装Hadoop客户端,建议您使用...

Hive连接器

背景信息 Hive数仓系统由以下三部分内容组成:不同格式的数据文件,通常存储Hadoop分布式文件系统(HDFS)或对象存储系统(例如,阿里云OSS)中。存储着数据文件到Schema和Table映射的元数据。该元数据存储在数据库(例如,MySQL)中,并...

迁移开源HDFS的数据到文件存储 HDFS 版

说明 使用 hadoop distcp 命令将原集群数据迁移至 文件存储 HDFS 版 时,请注意 文件存储 HDFS 版 不支持以下参数,其它参数使用和 Hadoop DistCp工具官方说明文档 一致。文件存储 HDFS 版 及命令行存在限制的更多信息,请参见 使用限制。...

应用场景

云上自建数据库 DBFS为数据库场景量身打造的特性,非常适合云上用户自建数据库(例如:MySQL,PostgreSQL等),实现存储计算分离:对比项 DBFS 本地盘 极致性能 帮助用户实现数据库存储计算分离,为数据库可在云端存储可获得的最佳性能收益...

创建Impala数据源

背景信息 Impala是用于处理存储Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala,在导出Dataphin数据至Impala,您需要先完成Impala数据源的创建。更多Impala信息,请参见 Impala官网。权限说明 Dataphin仅支持 超级管理员、...

表格存储

表格存储(Tablestore)是阿里云自研的结构化数据存储,提供海量结构化数据存储以及快速的查询和分析服务。表格存储提供兼容HBase的WideColumn模型、消息模型Timeline以及时空模型Timestream,实现PB级存储、千万TPS以及毫秒级延迟的服务...

创建Impala数据源

背景信息 Impala是用于处理存储Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala,在导出Dataphin数据至Impala,您需要先完成Impala数据源的创建。更多Impala信息,请参见 Impala官网。权限说明 Dataphin仅支持 超级管理员、...

Jindo DistCp场景化使用指导

说明 如您在开源Hadoop集群环境中使用LZO压缩功能,则您需要安装gplcompression的native库和hadoop-lzo包,场景十:如果需要把本次Copy中符合特定规则或者同一个父目录下的部分子目录作为Copy对象,该使用哪些参数?如果您需要将Copy列表中...

Jindo DistCp场景化使用指导

说明 如您在开源Hadoop集群环境中使用LZO压缩功能,则您需要安装gplcompression的native库和hadoop-lzo包,场景十:如果需要把本次Copy中符合特定规则或者同一个父目录下的部分子目录作为Copy对象,该使用哪些参数?如果您需要将Copy列表中...

Jindo DistCp场景化使用指导

说明 如您在开源Hadoop集群环境中使用LZO压缩功能,则您需要安装gplcompression的native库和hadoop-lzo包,场景十:如果需要把本次Copy中符合特定规则或者同一个父目录下的部分子目录作为Copy对象,该使用哪些参数?如果您需要将Copy列表中...

Jindo DistCp场景化使用指导

说明 如您在开源Hadoop集群环境中使用LZO压缩功能,则您需要安装gplcompression的native库和hadoop-lzo包,场景十:如果需要把本次Copy中符合特定规则或者同一个父目录下的部分子目录作为Copy对象,该使用哪些参数?如果您需要将Copy列表中...

使用JindoTable将Hive表和分区数据迁移到OSS/OSS-HDFS

阿里云提供OSS/OSS-HDFS作为HDFS的替代或补充,扩展云上Hadoop平台的存储能力。JindoTable工具可以将Hive数据根据分区键规则筛选,在HDFS和OSS/OSS-HDFS之间转移分区。本文介绍如何使用JindoTable将Hive表和分区数据迁移到OSS/OSS-HDFS。...

文件存储NAS

阿里云文件存储NAS(Apsara File Storage)是面向阿里云ECS实例、E-HPC和容器服务等计算节点的文件存储服务。它是一种可共享访问、弹性扩展、高可靠以及高性能的分布式文件系统,支持NFS和SMB协议。文件存储NAS 目前提供极速型、通用性能型...

Jindo DistCp场景化使用指导

keep表示不更改文件压缩形态,原样复制。说明 如您在开源Hadoop集群环境中使用LZO压缩功能,则您需要安装gplcompression的native库和hadoop-lzo包,场景十:如果需要把本次Copy中符合特定规则或者同一个父目录下的部分子目录作为Copy对象...

Jindo DistCp场景化使用指导

keep表示不更改文件压缩形态,原样复制。说明 如您在开源Hadoop集群环境中使用LZO压缩功能,则您需要安装gplcompression的native库和hadoop-lzo包,场景十:如果需要把本次Copy中符合特定规则或者同一个父目录下的部分子目录作为Copy对象...

Jindo DistCp场景化使用指导

keep表示不更改文件压缩形态,原样复制。说明 如您在开源Hadoop集群环境中使用LZO压缩功能,则您需要安装gplcompression的native库和hadoop-lzo包,场景十:如果需要把本次Copy中符合特定规则或者同一个父目录下的部分子目录作为Copy对象...

Jindo DistCp场景化使用指导

keep表示不更改文件压缩形态,原样复制。说明 如您在开源Hadoop集群环境中使用LZO压缩功能,则您需要安装gplcompression的native库和hadoop-lzo包,场景十:如果需要把本次Copy中符合特定规则或者同一个父目录下的部分子目录作为Copy对象...

功能支持情况

仅支持查询基础数据、热点统计、区域和运营商统计、API统计 列举存储空间 存储空间字母序排列。您可以结合实际场景列举当前账号下的所有存储空间、指定前缀的存储空间、指定个数的存储空间等。支持 删除存储空间 如果您不再需要保留某个...

在文件存储 HDFS 版上使用Apache Flink

export HADOOP_HOME=usr/local/hadoop-2.7.2 export HADOOP_CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath)export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH 执行如下命令使配置...

在文件存储 HDFS 版上使用Apache Spark

export HADOOP_HOME=usr/local/hadoop-2.7.2 export HADOOP_CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath)export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH 执行如下命令使配置...

文件存储 HDFS 版和数据库MySQL双向数据迁移

步骤一:Hadoop集群挂载 文件存储 HDFS 版 实例 在Hadoop集群中配置 文件存储 HDFS 版 实例。具体操作,请参见 挂载文件系统。步骤二:安装Sqoop 目前Sqoop分为Sqoop1和Sqoop2两个版本,且两个版本并不兼容。本文以Sqoop1的稳定版本Sqoop 1...

SDK示例

本文列出了使用Java代码通过Hadoop FileSystem API对 文件存储 HDFS 版 文件系统进行常用操作的示例,您可以参考这些示例代码开发您的应用。前提条件 已开通 文件存储 HDFS 版 服务并创建文件系统实例和挂载点。具体操作,请参见 文件存储...

安装文件系统SDK

WordCount样例${HADOOP_HOME}/bin/hadoop jar \${HADOOP_HOME}/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount \ inputDir outputDir Grep样例${HADOOP_HOME}/bin/hadoop jar \${HADOOP_HOME}/share/hadoop/...

集群存储根路径没有权限,导致集群服务启动失败的问题

dir)hadoop fs-mkdir-p$STAGING_DIR hadoop fs-chmod 777$STAGING_DIR hadoop fs-chown hadoop:hadoop$STAGING_DIR hadoop fs-mkdir-p$STAGING_DIR/history hadoop fs-chmod 775$STAGING_DIR/history hadoop fs-chown hadoop:hadoop$...

Jindo DistCp使用说明

Found 6 items-rw-r-2 root hadoop 2252 2020-04-17 20:42/data/incoming/hourly_table/2017-02-01/03/000151.sst-rw-r-2 root hadoop 4891 2020-04-17 20:47/data/incoming/hourly_table/2017-02-01/03/1.log-rw-r-2 root hadoop 4891 ...

Jindo DistCp使用说明

Found 6 items-rw-r-2 root hadoop 2252 2020-04-17 20:42/data/incoming/hourly_table/2017-02-01/03/000151.sst-rw-r-2 root hadoop 4891 2020-04-17 20:47/data/incoming/hourly_table/2017-02-01/03/1.log-rw-r-2 root hadoop 4891 ...

Jindo DistCp使用说明

Found 6 items-rw-r-2 root hadoop 2252 2020-04-17 20:42/data/incoming/hourly_table/2017-02-01/03/000151.sst-rw-r-2 root hadoop 4891 2020-04-17 20:47/data/incoming/hourly_table/2017-02-01/03/1.log-rw-r-2 root hadoop 4891 ...

Jindo DistCp使用说明

Found 6 items-rw-r-2 root hadoop 2252 2020-04-17 20:42/data/incoming/hourly_table/2017-02-01/03/000151.sst-rw-r-2 root hadoop 4891 2020-04-17 20:47/data/incoming/hourly_table/2017-02-01/03/1.log-rw-r-2 root hadoop 4891 ...

Jindo DistCp使用说明

Found 6 items-rw-r-2 root hadoop 2252 2020-04-17 20:42/data/incoming/hourly_table/2017-02-01/03/000151.sst-rw-r-2 root hadoop 4891 2020-04-17 20:47/data/incoming/hourly_table/2017-02-01/03/1.log-rw-r-2 root hadoop 4891 ...

元数据性能测试

测试环境 配置名称 配置说明 计算VM配置 CPU核数:4核 内存:16 GB 机器数量:6台 网络带宽:1.5 Gbps 文件存储 HDFS 版 配置 实例大小:10 TB 吞吐限速:1000 MB/s 软件配置 Apache HadoopHadoop 2.7.6 测试工具 NNbench是Hadoop系统...

文件存储HDFS版

您可以像在Hadoop分布式文件系统(Hadoop Distributed File System)中管理和访问数据那样使用文件存储HDFS版。您无需对现有大数据分析应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布...

Jindo DistCp使用说明

Found 6 items-rw-r-2 root hadoop 2252 2020-04-17 20:42/data/incoming/hourly_table/2017-02-01/03/000151.sst-rw-r-2 root hadoop 4891 2020-04-17 20:47/data/incoming/hourly_table/2017-02-01/03/1.log-rw-r-2 root hadoop 4891 ...

Jindo DistCp使用说明

Found 6 items-rw-r-2 root hadoop 2252 2020-04-17 20:42/data/incoming/hourly_table/2017-02-01/03/000151.sst-rw-r-2 root hadoop 4891 2020-04-17 20:47/data/incoming/hourly_table/2017-02-01/03/1.log-rw-r-2 root hadoop 4891 ...

Jindo DistCp使用说明

Found 6 items-rw-r-2 root hadoop 2252 2020-04-17 20:42/data/incoming/hourly_table/2017-02-01/03/000151.sst-rw-r-2 root hadoop 4891 2020-04-17 20:47/data/incoming/hourly_table/2017-02-01/03/1.log-rw-r-2 root hadoop 4891 ...

Jindo DistCp使用说明

Found 6 items-rw-r-2 root hadoop 2252 2020-04-17 20:42/data/incoming/hourly_table/2017-02-01/03/000151.sst-rw-r-2 root hadoop 4891 2020-04-17 20:47/data/incoming/hourly_table/2017-02-01/03/1.log-rw-r-2 root hadoop 4891 ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
文件存储 CPFS 对象存储 云存储网关 开源大数据平台 E-MapReduce 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用