hdfs 数据读写 api-hdfs 数据读写 api文档介绍内容-阿里云

集群吞吐性能测试

测试集群吞吐性能所使用的TestDFSIO是一个分布式任务，存在任务调度及结果汇总阶段，计算集群吞吐均值时会略低于 文件存储 HDFS 版吞吐限速。在进行顺序读与随机读的测试之前需要确保 文件存储 HDFS 版之上已有指定的待测数据，如果没有...

文件存储 HDFS 版和对象存储OSS双向数据迁移

您可以将 文件存储 HDFS 版数据迁移到对象存储OSS，也可以将对象存储OSS的数据迁移到文件存储 HDFS 版。前提条件已开通文件存储 HDFS 版服务并创建文件系统实例和挂载点。具体操作，请参见文件存储HDFS版快速入门。已搭建Hadoop集群...

功能特性

无缝集成 文件存储 HDFS 版允许您就像在Hadoop分布式文件系统（HDFS）中一样管理和访问数据。文件存储 HDFS 版 SDK可在所有Apache Hadoop 2.x环境中使用，包括阿里云EMR和阿里云Flink。文件存储 HDFS 版支持的原生文件系统语义被开发人员...

应用场景

文件存储 HDFS 版适用于对吞吐要求较高的大数据分析与机器...将Hadoop或其他机器学习应用部署在多个计算资源上，这样应用可以直接通过HadoopFS接口访问数据进行离线或在线计算，也可以直接将计算结果输出到 文件存储 HDFS 版做永久保存。

开通文件存储 HDFS 版服务

本文介绍如何开通 文件存储 HDFS 版服务。前提条件已注册阿里云账号并完成实名认证。详情请参见注册阿里云账号和个人实名认证。操作步骤登录阿里云官网。打开 文件存储 HDFS 版申请公测页面。在申请公测页面，填写必要信息后单击 ...

迁移开源HDFS的数据到文件存储 HDFS 版

文件存储 HDFS 版可以帮助您实现将开源HDFS的数据迁移到云上，并允许您在云上就像在Hadoop分布式文件系统中管理和访问数据。准备工作开通 文件存储 HDFS 版服务并创建文件系统实例和挂载点。具体操作，请参见 文件存储HDFS版快速入门。...

什么是文件存储 HDFS 版

产品概述 文件存储 HDFS 版允许您就像在Hadoop分布式文件系统（Hadoop Distributed File System）中一样管理和访问数据。您无需对现有大数据分析应用做任何修改，即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等...

SDK示例

本文列出了使用Java代码通过Hadoop FileSystem API对 文件存储 HDFS 版 文件系统进行常用操作的示例，您可以参考这些示例代码开发您的应用。前提条件已开通 文件存储 HDFS 版服务并创建文件系统实例和挂载点。具体操作，请参见 文件存储...

概览

本文介绍阿里云 文件存储 HDFS 版提供的文件系统SDK和管控系统SDK。目前，公测期间只提供文件系统SDK，管控操作则通过控制台进行。文件系统SDK 文件系统SDK实现了 Hadoop FileSystem 接口，提供一种Hadoop兼容的文件系统，对外输出为一个...

使用Fuse-DFS挂载文件存储 HDFS 版

本文主要介绍如何使用Fuse-DFS工具实现 文件存储 HDFS 版在本地文件系统的映射。前提条件已创建文件系统 和添加挂载点。已为Hadoop集群所有节点安装JDK，且JDK版本不低于1.8。建议您使用的Hadoop版本不低于2.7.2，本文使用的Hadoop版本...

使用前须知

保留策略生命周期数据丢失如果您对开通了OSS-HDFS服务的Bucket设置或更新为匹配整个Bucket的生命周期规则，需通过NOT元素排除.dlsdata/，避免因生命周期规则触发的Object删除或存储类型转换行为影响OSS-HDFS数据读写。开通OSS-HDFS服务...

创建文件系统实例后，为什么无法访问文件存储 HDFS 版...

本文介绍了在创建文件系统实例后无法访问 文件存储 HDFS 版的排查方法。您可以请根据以下几种情况进行排查：确认访问 文件存储 HDFS 版服务的ECS实例对应的专有网络及虚拟交换机ID，与挂载点的专有网络及虚拟交换机ID是否一致。确认挂载...

在文件存储 HDFS 版上使用TensorFlow

使用TensorFlow的api gfile查看 文件存储 HDFS 版上的数据。检查命令如下所示：执行命令，进入Python。python 执行命令，导入TensorFlow模块。import tensorflow as tf 执行命令，列出目录test_tensorflow中的所有内容。tf.io.gfile....

欠费说明

本文介绍 文件存储 HDFS 版 ...重要数据清理之前仍会继续计费，如果您确认不再使用 文件存储 HDFS 版存储服务，请务必删除 文件存储 HDFS 版上的数据。无法找回查看欠费金额登录用户中心。在首页页面的待办提醒区域，查看欠费金额。

创建文件系统

文件系统实例是运行 文件存储HDFS版 的实体。在使用 文件存储HDFS版 前，您需要先创建文件系统实例。前提条件已开通 文件存储HDFS版 服务。具体操作，请参见开通文件存储HDFS版服务。操作步骤登录 文件存储HDFS版控制台。在顶部菜单栏...

快速入门

文件存储 HDFS 版兼容了标准的HadoopFS协议接口，使您无需对现有大数据分析应用做任何修改，即可使用具备无限容量及性能扩展、单一命名空间、高可靠和高可用的分布式文件系统。相比自建HDFS存储，使用 文件存储 HDFS 版服务可以大量节约...

E-MapReduce数据迁移

本文介绍如何将E-MapReduce HDFS上的数据迁移到 文件存储 HDFS 版 文件系统。背景信息阿里云E-MapReduce是构建在阿里云云服务器ECS上的开源Hadoop、Spark、Hive、Flink生态大数据PaaS产品。提供用户在云上使用开源技术建设数据仓库、离线...

计费项

本文为您介绍 文件存储 HDFS 版服务的计费说明。产品定价关于 文件存储 HDFS 版的计费定价，请参见 文件存储 HDFS 版产品定价。计费周期 文件存储 HDFS 版每小时统计前一小时的实际用量并进行结算，从账户余额中扣除实际消费金额。例如...

文件存储 HDFS 版和数据库MySQL双向数据迁移

本文介绍如何使用Sqoop工具实现 文件存储 HDFS 版和关系型数据库MySQL之间的双向数据迁移。前提条件已开通 文件存储 HDFS 版服务并创建文件系统实例和挂载点。具体操作，请参见 文件存储HDFS版快速入门。已搭建Hadoop集群。建议您使用的...

账单查询

您可以通过阿里云管理控制台查看 文件存储 HDFS 版的费用账单。查看文件系统费用账单登录用户中心。在左侧导航栏，单击账单管理>账单详情。在明细账单页签中，设置查询账期，并在列表中筛选产品为 文件存储 HDFS 版。您还可以通过 ...

常见问题排查

本文介绍使用 文件存储 HDFS 版 文件系统SDK时遇到的常见问题及排查方法。提示 java.lang.ClassNotFoundException 信息执行 hadoop 命令或者任务失败，提示 java.lang.ClassNotFoundException:Class ...

配置CDH6使用文件存储 HDFS 版

数据迁移完成后，您还需要配置CDH上的HDFS服务、YARN服务、Hive服务、Spark服务、HBase服务，才能使用 文件存储 HDFS 版。配置Cloudera Management服务执行以下命令，将最新的 文件存储 HDFS 版 Java SDK复制到Cloudera Management服务的...

文件存储HDFS版

您可以像在Hadoop分布式文件系统（Hadoop Distributed File System）中管理和访问数据那样使用文件存储HDFS版。您无需对现有大数据分析应用做任何修改，即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布...

在文件存储 HDFS 版上使用Presto

Presto使用maven-shade-plugin插件打包，对引入的Hadoop依赖进行了重命名，文件存储 HDFS 版 Java SDK和Hadoop共用了protobuf-xxx.jar包，Presto通过Hive Metastore读取 文件存储 HDFS 版上的数据时，文件存储 HDFS 版获取不到Presto重...

计费常见问题

本地数据迁移至 文件存储 HDFS 版本地数据迁移至 文件存储 HDFS 版时，需要配置ECS作为中转节点从公网访问阿里云 文件存储 HDFS 版。弹性公网IP对入方向流量不收费，仅对出方向流量收费。即从公网上传数据到 文件存储 HDFS 版不会收取...

管理挂载点

本文介绍如何在 文件存储 HDFS 版控制台上管理挂载点，包括添加挂载点、查看挂载点信息、删除挂载点、修改挂载点权限组、禁用和激活挂载点等。前提条件已创建文件系统。具体操作，请参见创建文件系统。挂载点说明一个阿里云账号最多...

CDH6数据迁移

步骤一：为 文件存储 HDFS 版添加用户和组映射迁移数据前，您需要在 文件存储 HDFS 版 文件系统实例上创建原CDH集群HDFS服务中已有的用户和组映射关系。关于 文件存储 HDFS 版实例访问控制的详细信息，请参见访问控制。获取原CDH集群...

公测期间使用文件系统有哪些限制？

文件存储 HDFS 版在公测期间会对单个文件系统的使用进行一定的限制，包括：单个用户可以创建的文件系统数量：1 单个文件系统最大容量：10 TB 单个文件系统目录+文件数最大数量：10万单个文件系统最多包含挂载点数量：2 单个用户可以创建...

配置E-MapReduce服务使用文件存储 HDFS 版

本文介绍如何配置E-MapReduce上的HDFS服务、HIVE服务、SPARK服务、HBase服务来使用 文件存储 HDFS 版。前提条件已完成数据迁移。具体操作，请参见 E-MapReduce数据迁移。配置HDFS服务登录阿里云E-MapReduce控制台。在集群管理页面，...

在文件存储 HDFS 版上使用Apache Spark

前提条件已开通 文件存储 HDFS 版服务并创建文件系统实例和挂载点。具体操作，请参见 文件存储HDFS版快速入门。已为Hadoop集群所有节点安装JDK，且JDK版本不低于1.8。已下载Apache Hadoop压缩包。建议您选用的Hadoop版本不低于2.7.2，...

在文件存储 HDFS 版上使用Apache Flink

前提条件已开通 文件存储 HDFS 版服务并创建文件系统实例和挂载点。具体操作，请参见 文件存储HDFS版快速入门。已为Hadoop集群所有节点安装JDK，且JDK版本不低于1.8。已下载Apache Hadoop压缩包。建议您选用的Hadoop版本不低于2.7.2，...

添加HDFS数据源

添加HDFS数据源用于实现云原生多模数据库 Lindorm 宽表引擎能够读取HDFS的数据，如果您要将HDFS数据导入到云原生多模数据库 Lindorm 宽表中，需要先添加HDFS数据源。本文介绍如何添加HDFS数据源。前提条件已购买LTS数据同步服务，具体...

卸载并释放CDH6 HDFS服务使用的云盘

已配置CDH使用 文件存储 HDFS 版 文件系统。具体操作，请参见配置CDH6使用文件存储HDFS版。背景信息当CDH已经成功运行在阿里云 文件存储 HDFS 版上时，ECS挂载的云盘只用来存储运算中的临时Shuffle文件，可以选择卸载原来用于构建CDH ...

文件存储 HDFS 版支持Python SDK吗？

文件存储 HDFS 版提供两种SDK，分别为管控系统SDK和文件系统SDK。仅管控系统支持Python SDK，文件系统仅支持Java SDK。更多有关管控系统支持的SDK语言，请参见 OpenAPI。

文件存储 HDFS 版（Apsara File Storage for HDFS）...

文件存储 HDFS 版（Apsara File Storage for HDFS）审计日志样例以下示例表示，在北京时间2023年03月23日14:41:28，阿里云账号 137918634953*调用CreateFileSystem接口创建了 文件存储 HDFS 版（Apsara File Storage for HDFS）文件系统 ...

API概览

本产品（文件存储 HDFS 版/2018-06-20）的OpenAPI采用 RPC 签名风格，签名细节参见签名机制说明。我们已经为开发者封装了常见编程语言的SDK，开发者可通过下载SDK 直接调用本产品OpenAPI而无需关心技术细节。如果现有SDK不能满足使用需求...

DeleteUserGroupsMapping-删除用户和组的映射关系

接口说明 文件存储 HDFS 版的文件系统权限管理依赖文件的用户和组，用户和组映射关系需要通过 OpenAPI 进行管理。有关文件存储 HDFS 文件系统目录和文件访问权限的信息，请参见文件和目录权限。文件系统不允许删除用户和组，只能删除用户和...

在文件存储 HDFS 版上使用Apache Tez

前提条件已开通 文件存储 HDFS 版服务并创建文件系统实例和挂载点。具体操作，请参见 文件存储HDFS版快速入门。已为Hadoop集群所有节点安装JDK，且JDK版本不低于1.8。更多信息，下载JDK。已根据集群Hadoop版本对Tez重新编译。具体操作，...

目录和文件访问权限

文件存储 HDFS 版为目录和文件提供了一种访问权限，该访问权限类似于POSIX文件系统的权限模型。本文简要介绍访问权限的概念、使用方式及其相关注意事项。访问权限介绍 文件存储 HDFS 版 文件系统中的每一个文件或者目录会关联到三个权限...

CreateUserGroupsMapping-创建用户和组的映射关系

接口说明 文件存储 HDFS 版的文件系统权限管理依赖文件的用户和组，用户和组映射关系需要通过 OpenAPI 进行管理。有关文件存储 HDFS 版文件系统目录和文件访问权限的信息，请参见目录和文件访问权限。单个文件系统存在用户和组数量的限制...

hdfs 数据读写 api

新品推荐