Iceberg数据源

基于Iceberg API创建Catalog 使用Iceberg API访问元数据的方式,支持Hadoop File System、Hive、REST、DLF等服务作为Iceberg的Catalog。Hadoop Catalog-非HA集群 CREATE CATALOG iceberg_hadoop PROPERTIES('type'='iceberg','iceberg....

Spark访问VPC实例

直接访问VPC Spark on MaxCompute可以访问阿里云VPC内的云服务器ECS(Elastic Compute Service)、云数据库HBase(Hadoop Database)和云关系型数据库RDS(Relational Database Service)等实例,同时还可以访问自定义私有域名。...

JindoData概述

支持面向云时代的大数据Hadoop SDK和HDFS接口,内置优化访问阿里云OSS,较Hadoop社区版本性能大幅提升。同时支持JindoFS存储系统和服务、JindoFSx存储加速系统,支持多云对象存储。支持JindoShell CLI。JindoData除了支持HDFS Shell命令,...

ProxyUser

ProxyUser命令用于授权一个用户代表其他用户进行相关操作,例如某些敏感数据只允许授权的指定用户代表其他用户进行访问。前提条件 已创建Hadoop环境、Hadoop集群或者Hadoop客户端。具体操作,请参见 创建Hadoop运行环境。已开通OSS-HDFS...

使用Spark访问

export HADOOP_HOME=usr/local/hadoop-2.7.3 export HADOOP_CLASSPATH=usr/local/hadoop-2.7.3/etc/hadoop:/usr/local/hadoop-2.7.3/share/hadoop/common/lib/*:/usr/local/hadoop-2.7.3/share/hadoop/common/*:/usr/local/hadoop-2.7.3/...

Spark Load

Spark Load支持Kerberos认证 如果是Spark Load访问带有Kerberos认证的Hadoop集群资源,您只需要在创建Spark resource的时候指定以下参数即可:broker.hadoop.security.authentication:指定认证方式为kerberos。broker.kerberos_principal...

数据源

本文将解答与数据源相关的问题。Q:Databricks数据洞察的支持哪些数据源?目前支持读写阿里云对象存储(OSS)的数据。Q:是否支持当前的DDI集群访问其他集群的HDFS数据?支持访问同账号下的EMR Hadoop集群上的HDFS数据。

动态加载UDF

如果HDFS或OSS访问失败,请尝试使用 hadoop fs-ls 命令,确认集群的每个节点能否直接访问到对应文件。如果某个Worker节点无法访问,可以在对应Worker节点的 server.log 日志文件中查找原因。操作流程 步骤一:环境准备 步骤二:增加UDF ...

常见问题

具体查看操作如下:访问YARN UI,详情请参见 访问链接与端口。在 All Applications 页面,单击目标作业的ID。单击Queue行的队列。在 Application Queues 区域,可以查看队列资源使用情况。YARN服务组件.out日志为何会大量堆积且无法自动...

配置Lindorm Spark节点

jHCMeBseYbTTq92xYikcFRIQZ2*spark.hadoop.fs.oss.impl 访问OSS的类。固定值:org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem spark.sql.shuffle.partitions 设置Spark SQL引擎的Shuffle默认分区数。20 如果任务类型为Python,需要...

使用DLA访问

通过DLA Serverless Spark方式访问Lindorm文件引擎,具体请参见 Hadoop。通过DLA Serverless SQL方式访问Lindorm文件引擎的具体步骤请参见 操作步骤。说明 DLA Serverless SQL仅支持通过CU版本访问Lindorm文件引擎。准备工作 在本地创建新...

作业配置说明

无 spark.hadoop.fs.oss.impl 访问OSS的类。固定值为:org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem。无 spark.default.parallelism 非SQL任务默认的并发度,其中包括数据源的并发度和Shuffle并发度。无 spark.sql.shuffle....

改写Jindo HDFS客户端路径

例如,通过将HDFS地址重写至OSS地址,方便您迁移HDFS中的数据至OSS后,无需改动业务逻辑中的数据地址,即可访问数据。使用限制 仅支持Hadoop 2.x版本,不支持Hadoop 3.x版本。开启路径改写功能 进入SmartData服务。登录 阿里云E-MapReduce...

作业配置指南

文件包可以指定别名,比如 oss:/bucket/xx/yy.zip#yy,用户在代码中只需要使用./yy/zz.txt 就可以访问解压后的文件,否则使用./yy.zip/zz.txt 访问文件(假设zz.txt是yy.zip压缩包中的文件)。多个文件包中间使用英文逗号(,)分隔。说明 ...

MaxCompute湖仓一体

当MaxCompute与Hadoop平台所在的VPC区域网络开通后,MaxCompute可以直接访问Hive元数据服务,并将元数据信息映射到MaxCompute的外部项目(External Project)中。前提条件 在开始使用Dataphin管理通过MaxCompute与DLF和OSS构建的湖仓一体前...

MaxCompute湖仓一体

当MaxCompute与Hadoop平台所在的VPC区域网络开通后,MaxCompute可以直接访问Hive元数据服务,并将元数据信息映射到MaxCompute的外部项目(External Project)中。前提条件 在开始使用Dataphin管理通过MaxCompute与DLF和OSS构建的湖仓一体前...

2021年

2021-09-14 华南1金融云(深圳)无 MaxCompute 支持访问开启Kerberos 认证授权机制的 Hadoop集群 大部分企业的Hadoop的生产集群开启了 Kerberos认证授权机制,本次功能升级能够利用MaxCompute访问开启Kerberos认证授权机制的 Hadoop集群,...

搭建Hadoop环境

sudo sh-c 'echo"export JAVA_HOME=usr/java8">>/opt/hadoop/etc/hadoop/yarn-env.sh' sudo sh-c 'echo"export JAVA_HOME=usr/java8">>/opt/hadoop/etc/hadoop/hadoop-env.sh' 执行以下命令,测试Hadoop是否安装成功。hadoop version 返回...

通过DMS管理作业

spark.hadoop.fs.oss.impl:访问OSS的类。固定值为:org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem。{"spark.sql.shuffle.partitions":"200"} Python作业配置模板和自定义参数说明如下:{"mainResource":"oss:/path/to/your/file....

迁移开源HDFS的数据到文件存储 HDFS 版

文件存储 HDFS 版 可以帮助您实现将开源HDFS的数据迁移到云上,并允许您在云上就像在Hadoop分布式文件系统中管理和访问数据。准备工作 开通 文件存储 HDFS 版 服务并创建文件系统实例和挂载点。具体操作,请参见 文件存储HDFS版快速入门。...

集群存储根路径没有权限,导致集群服务启动失败的问题

本文介绍集群运行时,由于配置的集群存储根路径(对应Hadoop-Common服务中 fs.DefaultFS 配置项)缺乏访问权限,导致集群的部分服务启动失败的原因和解决方案。问题详情 在E-MapReduce控制台,集群的Hadoop-Common服务 状态 页面的 健康...

使用Druid

非安全独立Hadoop集群,请按照如下操作进行:确保集群间能够通信(两个集群在一个安全组下,或两个集群在不同安全组,但两个安全组之间配置了访问规则)。在E-MapReduce Druid集群的每个节点的指定路径下,放置一份Hadoop集群中/etc/ecm/...

通过控制台管理作业

spark.hadoop.fs.oss.impl:访问OSS的类。固定值为:org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem。单击页面右上角的 保存。单击页面右上角的 运行。查看作业 登录 Lindorm管理控制台。在页面左上角,选择实例所属的地域。在 实例...

Impala使用JindoSDK查询OSS-HDFS服务中的数据

JindoSDK是一个面向Hadoop、Spark生态且简单易用的OSS客户端,为OSS提供高度优化的Hadoop FileSystem实现。相对于Hadoop社区OSS客户端,Impala使用JindoSDK查询OSS-HDFS服务中的数据时,可以获得更好的性能。前提条件 已创建ECS实例。具体...

创建EMR MR节点

由您集群所在的地域决定,对应的OSS也需要是在集群对应的地域,详情请参见 访问域名和数据中心 以Java代码为例,修改Hadoop官网WordCount示例,即在代码中添加AccessKey ID和AccessKey Secret的配置,以便作业有权限访问OSS文件。...

简介

使用OSS中的数据作为机器学习的训练样本 通过XIHE SQL或者Spark SQL访问OSS数据 通过HDP 2.6 Hadoop读取和写入OSS数据 音视频转码 短视频 音视频转码 性能与扩展性 OSS性能与扩展性最佳实践 使用CDN加速OSS访问 使用ECS实例反向代理OSS ...

访问Hive数据源

spark.hadoop.hive.metastore.uris 是 配置访问Hive Metastore的URI。登录EMR on ECS控制台,在 集群服务 页面的Hive配置中查看 hive.metastore.uris 对应的配置值。spark.hadoop.dfs.nameservices 否 HDFS服务的名称。登录EMR on ECS控制...

通过DataWorks将Hadoop数据同步到阿里云ES

重要 绑定专有网络后,您需要将专有网络的 交换机网段 加入到Hadoop集群、ES实例的VPC私网访问白名单中。具体操作,请参见 配置ES实例公网或私网访问白名单。在页面左上角,单击返回图标,返回 资源组列表 页面。在已创建的独享资源组的 ...

HDFS

在集群中任意一台机器上,测试HDFS访问是否正常,执行如下命令,例如 hadoop fs-ls hdfs:/192.168.24.247:8020:hadoop fs-ls hdfs:/HDFS主节点IP:HDFS 服务端口 说明 如果返回HDFS中的目录信息,说明访问正常。如果返回信息为拒绝连接,则...

HDFS

在集群中任意一台机器上,测试HDFS访问是否正常,执行如下命令,例如 hadoop fs-ls hdfs:/192.168.24.247:8020:hadoop fs-ls hdfs:/HDFS主节点IP:HDFS 服务端口 说明 如果返回HDFS中的目录信息,说明访问正常。如果返回信息为拒绝连接,则...

利用MaxCompute External Volume处理非结构化数据

配置项 spark.hadoop.odps.cupid.volume.paths=odps:/ms_proj1_dev/volume_yyy1/spark.hadoop.odps.volume.common.filesystem=true spark.hadoop.fs.odps.impl=org.apache.hadoop.fs.aliyun.volume.OdpsVolumeFileSystem spark.hadoop.fs....

通过ES-Hadoop实现Hive读写阿里云Elasticsearch数据

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具,可以让数据在Elasticsearch和Hadoop之间双向移动,无缝衔接Elasticsearch与Hadoop服务,充分使用Elasticsearch的快速搜索及Hadoop批处理能力,实现交互式数据处理。...

Apache HDFS透明缓存加速

集群类型 参数 描述 普通集群 jindofsx.hdfs.user 访问HDFS使用的用户名,例如hadoop。HA集群 jindofsx.hdfs.XXX.dfs.ha.namenodes 表示hdfs-site.xml中 dfs.ha.namenodes.XXX 的值。例如:nn1、nn2、nn3。jindofsx.hdfs.XXX.dfs.namenode....

SmartData使用说明(EMR-3.20.0~3.22.0版本)

简单示例:hadoop fs-ls jfs:/hadoop fs-mkdir jfs:/test-dirhadoop fs-put test.log jfs:/test-dir/目前,JindoFS能够支持 E-MapReduce 集群上的 Hadoop、Hive、Spark的作业进行访问,其余组件尚未完全支持。磁盘空间水位控制 JindoFS后端...

Hive访问Iceberg数据

Hive支持通过内表或外表的方式访问Iceberg数据。本文通过示例为您介绍如何使用EMR上的Hive访问EMR Iceberg数据。前提条件 已创建Hadoop集群,详情请参见 创建集群。说明 此文档仅适用于EMR-3.38.0及后续版本与EMR-5.4.0及后续版本的Hadoop...

使用云企业网跨VPC访问文件存储 HDFS 版

已在需要访问 文件存储 HDFS 版 的ECS上配置Hadoop环境。具体操作,请参见 配置Hadoop 和 部署依赖。背景信息 云企业网CEN(Cloud Enterprise Network)是运行在阿里云私有全球网络上的一张高可用网络。通过转发路由器TR(Transit Router)...

Spark Connector

为了更好地融入大数据生态,MaxCompute开放了存储组件(Storage API),通过调用Storage API直接访问MaxCompute底层存储,有助于提高第三方引擎访问MaxCompute数据的速度与效率。本文为您介绍如何使用第三方计算引擎Spark通过Spark ...

什么是文件存储 HDFS 版

产品概述 文件存储 HDFS 版 允许您就像在Hadoop分布式文件系统(Hadoop Distributed File System)中一样管理和访问数据。您无需对现有大数据分析应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等...

创建Hive数据源

背景信息 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。Hive用于转化HQL或SQL语句为MapReduce、Tez等程序。Hive处理的数据存储在HDFS中。Hive分析数据底层的实现是MapReduce、Tez等...

Spark应用配置参数说明

跨VPC访问和连接数据源 参数名称 是否必填 默认值 参数说明 spark.adb.eni.enabled 否 false 是否开启ENI访问的开关。如果是通过外表访问其他外部数据源,则需要打开ENI访问开关。取值说明:true:开启 false:关闭 spark.adb.eni....
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
访问控制 开源大数据平台 E-MapReduce 对象存储 云防火墙 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用