通过CDH5 Hadoop读取和写入OSS数据

CDH(Cloudera's Distribution,including Apache Hadoop)是众多Hadoop发行版本中的一种,最新版本CDH6.0.1中的Hadoop3.0.0版本已经支持OSS,但CDH5中的Hadoop2.6版本不支持OSS。本文介绍如何配置CDH5支持OSS读写。前提条件 拥有一个已搭建...

通过OSS SDK接入开源生态

通过CDH5 Hadoop读取和写入OSS数据 通过配置CDH5实现读写OSS数据。Spark使用OSS Select加速数据查询 通过CDH集成Spark与OSS存储服务,加速数据查询。Apache Impala(CDH6)查询OSS数据 通过配置CDH6环境下的Hadoop、Hive、Spark、Impala等...

数据湖生态接入

HDFS服务 HBase 将HBase快照保存在OSS HBase使用OSS-HDFS服务作为底层存储 Hive Hive使用JindoSDK处理OSS-HDFS服务中的数据 HDP 通过HDP 2.6 Hadoop读取和写入OSS数据 Kafka 将Kafka数据导入OSS Logstash 使用Logstash将日志导入OSS Impala...

简介

使用OSS中的数据作为机器学习的训练样本 通过XIHE SQL或者Spark SQL访问OSS数据 通过HDP 2.6 Hadoop读取和写入OSS数据 音视频转码 短视频 音视频转码 性能与扩展性 OSS性能与扩展性最佳实践 使用CDN加速OSS访问 使用ECS实例反向代理OSS ...

应用场景

本文介绍对象存储OSS的主要应用场景。图片和音视频等应用的海量存储 OSS可用于图片、音视频、日志等海量文件的存储。各种终端设备、Web网站程序、移动应用可以直接向OSS写入读取数据。OSS支持流式写入和文件写入两种方式。网页或者移动...

Spark使用OSS Select加速数据查询

背景信息 本文所有操作基于 Apache Impala(CDH6)处理OSS数据 搭建的CDH6集群及配置。说明 文中所有${} 的内容为环境变量,请根据您实际的环境修改。步骤一:配置Spark支持读写OSS 由于Spark默认没有将OSS的支持包放到它的CLASSPATH里面,...

0041-00000203

问题描述 请求触发镜像回源时,数据无法写入OSS。问题原因 Bucket处于被保护状态时,无法向该Bucket写入文件。问题示例 无 解决方案 确保回源文件写入的Bucket未处于保留策略的保护状态。相关文档 镜像回源 保留策略

0041-00000202

问题描述 请求触发镜像回源时,数据无法写入OSS。问题原因 OSS已存在同名文件且不支持同名覆盖。问题示例 无 解决方案 无 相关文档 镜像回源

前言

本文介绍对象存储OSS的PHP SDK各种使用场景下的示例代码。源码地址 请访问 GitHub 获取源码地址。示例代码 OSS PHP SDK提供丰富的示例代码,方便您参考或直接使用。示例代码包括以下内容:示例文件 示例内容 Object.php 文件的相关操作,...

存储空间占用情况

OSS-HDFS服务使用OSS Bucket存储HDFS数据及其辅助数据,这些数据存储于Bucket中的.dlsdata/路径下,并产生相应的OSS存储容量的计量计费。OSS-HDFS文件数据块block OSS-HDFS文件的所有数据块block均占用OSS Bucket的存储空间。OSS-HDFS...

存储冗余概述

对象存储OSS提供本地冗余存储同城冗余存储两种存储冗余类型,覆盖从单可用区到多可用区的数据冗余机制,以保证数据的持久性可用性。本地冗余存储(LRS)采用单可用区(AZ)内的数据冗余存储机制,将用户的数据冗余存储在同一个可用区内...

Hadoop使用JindoSDK访问OSS-HDFS服务

作为原生数据湖基础,OSS-HDFS在满足EB级数据分析、亿级文件管理服务、TB级吞吐量的同时,全面融合大数据存储生态,除提供对象存储扁平命名空间之外,还提供了分层命名空间服务。分层命名空间支持将对象组织到一个目录层次结构中进行管理...

数据库备份到OSS

背景 对象存储OSS 对象存储OSS 提供了标准类型存储,作为移动应用、大型网站、图片分享或热点音视频的主要存储方式,也提供了成本更低、存储期限更长的低频访问类型存储归档类型存储,作为不经常访问数据的备份归档。对象存储OSS非常...

什么是OSS-HDFS服务

作为原生数据湖基础,OSS-HDFS在满足EB级数据分析、亿级文件管理服务、TB级吞吐量的同时,全面融合大数据存储生态,除提供对象存储扁平命名空间之外,还提供了分层命名空间服务。分层命名空间支持将对象组织到一个目录层次结构中进行管理...

开源Flink写入OSS-HDFS服务

开源Flink不支持流式写入OSS-HDFS服务,也不支持以EXACTLY_ONCE语义写入存储介质。当您希望开源Flink以EXACTLY_ONCE语义流式写入OSS-HDFS服务,需要结合JindoSDK。说明 如果您不希望通过Flink流式写入OSS-HDFS服务前部署JindoSDK,您可以...

通过HDP 2.6 Hadoop读取和写入OSS数据

client/hadoop-aliyun-2.7.3.2.6.1.0-129.jar hadoop/share/hadoop/tools/lib/sudo cp/usr/hdp/current/hadoop-client/lib/aliyun-*hadoop/share/hadoop/tools/lib/sudo cp/usr/hdp/current/hadoop-client/lib/jdom-1.1.jar hadoop/share/...

0041-00000104

问题描述 请求触发镜像回源时,无法从源站读取数据。问题原因 因源站异常导致请求触发镜像回源时,无法从源站读取数据。问题示例 无 解决方案 检查是否能正常访问镜像回源地址中的文件。排查源站异常 相关文档 镜像回源

使用回收站

使用OSS-HDFS回收站时,需要客户端将待删除文件挪至指定目录,并由服务端定时清理该目录下的数据。删除文件说明 当您从OSS-HDFS服务删除文件时,文件不会立即被删除,而是转至/user/<username>/.Trash/Current 目录下。经过30分钟后,...

实时计算Flink读写OSS或者OSS-HDFS

关于源表支持的元数据列(例如file.path、file.name等)以及WITH参数的具体用法,请参见 对象存储OSS连接器。单击 保存。单击 深度检查。深度检查能够检查作业的SQL语义、网络连通性以及作业使用的表的元数据信息。同时,您可以单击结果...

概述

您可以将同一个阿里账号下的OSS某个存储空间(Bucket)的数据迁移至另一个Bucket,还可以跨不同阿里账号迁移OSS Bucket之间的数据。OSS Bucket之间的数据迁移包含以下场景:同账号下的OSS数据迁移,即同一个阿里账号下相同或者不同...

第三方数据源迁移到 OSS

您可以使用阿里在线迁移服务将第三方数据源,如亚马逊AWS、谷歌数据轻松迁移至阿里云对象存储OSS。使用在线迁移服务,您只需在控制台填写源数据地址目标OSS地址信息,并创建迁移任务即可。启动迁移后,您可以通过控制台管理迁移...

备份存储空间

针对存放在对象存储OSS上的数据,阿里提供多种数据备份方式,以满足不同场景的备份需求。本文介绍备份OSS数据的几种主要方式。说明 备份存储空间会产生请求、数据取回等费用,费用详情请以实际备份方式为准。通过定时备份功能进行备份 ...

监控审计

日志转存 访问对象存储OSS的过程中会产生大量的访问日志,您可以通过日志转存功能将这些日志按照固定命名规则,以小时为单位生成日志文件写入您指定的Bucket。对于已存储的日志,您可以通过阿里日志服务或搭建Spark集群等方式进行分析。...

对象存储优化

对象存储OSS提供存储管理功能,帮助您优化存储性能成本。分析数据访问模式并对数据进行转储或删除 您可以分析数据访问模式并配置 生命周期规则,自动将访问频率较低的数据转换为成本更低的存储类型,或者在到期日之后自动删除数据。例如...

概述

阿里提供针对各种存储资源...存储网关 存储网关(Cloud Storage Gateway)是一款可以部署在用户IDC阿里上的网关产品,以阿里云对象存储OSS为后端存储,为和云下应用提供业界标准的文件服务(NFSSMB)块存储服务(iSCSI)。

常见问题

JavaSDK实现数据流分片上传的代码样例 对象存储OSS使用JavaSDK的ContentMD5提示“log4j”错误 设置跨域规则后调用OSS时仍然报“No 'Access-Control-Allow-Origin'”的错误 对象存储OSS使用Java实现签名Header上传的示例 Python Python SDK...

通过Hadoop Shell命令访问

如果您希望通过命令行的方式在开通OSS-HDFS服务的Bucket中执行上传、下载、删除等相关操作,您可以使用Hadoop Shell的方式。环境准备 您可以选择以下任意一种方式访问OSS-HDFS服务通过阿里EMR访问OSS-HDFS服务,确保已创建EMR-3.44.0及...

EMR Flink写入OSS-HDFS服务

本文介绍Flink如何通过EMR集群的方式可恢复性写入OSS-HDFS服务。前提条件 已创建EMR-3.42.0及以上版本或EMR-5.8.0及以上版本的集群。具体步骤,请参见 创建集群。已开通并授权访问OSS-HDFS服务。具体操作,请参见 开通并授权访问OSS-HDFS...

文件存储HDFS版

数据持久性和服务可用性 和文件存储NAS一样,文件存储HDFS版的数据在后端进行多副本存储,每份数据都有多份拷贝在故障域隔离的不同设备上存放,提供99.999999999%(11个9)的数据可靠性,能够有效降低数据安全风险。扩展性弹性 文件存储...

产品优势

对象存储OSS是阿里提供的海量、安全、低成本、高持久性的存储服务。本文将OSS与传统的自建存储进行对比,让您更好地了解OSS。下表列举了与自建存储相比,OSS在易用性、持久性、数据安全等方面的优势。对比项 对象存储OSS 自建服务器...

Spark使用JindoSDK查询OSS-HDFS服务中的数据

JindoSDK是一个面向Hadoop、Spark生态且简单易用的OSS客户端,为OSS提供高度优化的Hadoop FileSystem实现。相对于Hadoop社区OSS客户端,Spark使用JindoSDK查询OSS-HDFS服务中的数据时,可以获得更好的性能。前提条件 已创建ECS实例。具体...

回源概述

当请求者向您的对象存储OSS请求的数据不存在时,本应返回404错误。如果您设置了回源规则,填写了数据的正确地址,请求者即可通过回源规则从OSS获取到正确的数据。回源分为镜像回源重定向两种,可以满足您对于数据热迁移、特定请求的重...

数据迁移概述

具体如下表所示:迁移方式 说明 相关文档 在线迁移 使用在线迁移服务,您可以将第三方数据轻松迁移至阿里云对象存储OSS,也可以在对象存储OSS之间进行跨账号、跨地域、以及同地域内灵活的数据迁移。迁移时无需搭建迁移环境,可在线提交迁移...

访问域名

本文列出图片处理服务各区域的访问域名(Endpoint)。目前,IMG有以下几个数据中心(Region)对公众提供服务,各区域的Endpoint设置如下:Region 中文名称 Region 英文名称 Endpoint 杭州数据中心 oss-...

敏感数据安全防护方案

本文介绍如何将阿里云对象存储OSS与阿里 数据安全中心DSC(Data Security Center)结合,对敏感数据进行识别、分类、分级保护。前提条件 已开通DSC 开通步骤请参见 快速实现数据分类分级。已开通OSS 开通步骤请参见 开通OSS服务。背景...

查询Bucket级别的用量情况

CDN回源流入 通过CDN服务层上传数据到OSS所使用的带宽 CDN回源流出 通过CDN服务层浏览或下载OSS数据所使用的带宽。跨区域复制流入 通过互联网使用跨区域复制功能时数据流入目标Bucket所使用的带宽。跨区域复制流出 通过互联网使用跨区域...

对象存储OSS

性能 如果您的云服务器ECS和对象存储OSS在同一个地域,那么通过云服务器ECS访问对象存储OSS中的数据理论上是最快的。OSS的设计也使其服务端延迟相对于网络延迟来讲可以忽略不计。此外,OSS对于存储量、请求数用户数的扩展特性,使其可以...

数据加密

客户端加密 客户端加密是指将文件(Object)发送到对象存储OSS之前在本地进行加密。使用客户端加密功能时,您需要对主密钥的完整性正确性负责。在对加密数据进行复制或者迁移时,您需要对加密元数据的完整性正确性负责。使用客户端加密...

常见问题

本文介绍在使用阿里云云监控产品监控OSS数据时遇到的一些常见问题及解决方案。OSS和云监控是两个独立的产品,OSS将数据推送至监控,由监控产品进行分析处理。OSS控制台上看到的存储容量监控以及带宽流量监控来自于云监控产品的数据。...

归档直读

归档直读是指在对象存储OSS中,直接访问归档存储类型的文件,而无需先对其解冻。归档直读适用于实时读取极低频访问数据的场景。本文介绍如何开启并使用归档直读。前提条件 已创建有地域属性的Bucket。具体操作,请参见 创建存储空间。RAM...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
开源大数据平台 E-MapReduce 云原生数据仓库AnalyticDB MySQL版 云原生数据湖分析 (文档停止维护) 云备份 对象存储 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用