常见问题

这是因为EMR的Hadoop集群配置了lzo压缩。解决方法:拷贝 EMR$HADOOP_HOME/lib 下的JAR包和 native 文件夹到E-MapReduce Druid的druid.extensions.hadoopDependenciesDir(默认为$DRUID_HOME/hadoop-dependencies)。索引时提示如下错误:...

Hadoop

我们提供了工具来读取您Hadoop服务所在集群的配置,您可以按照下面的地址下载 spark-examples-0.0.1-SNAPSHOT-shaded.jar 并上传至OSS,然后提交Spark作业到用户的Hadoop服务所在集群上执行,即可在作业输出中获得访问Hadoop所需的配置。...

访问HBase HDFS

创建一个Hadoop客户端配置目录conf(如果使用客户端已存在这个目录则不需要另行创建)。添加以下两个HDFS配置Hadoop客户端conf目录中。core-site.xml<configuration><property><name>fs.defaultFS</name><value>hdfs:/hbase-cluster...

迁移HDFS数据到OSS-HDFS

OSS-HDFS与Hadoop生态系统兼容,将HDFS中的数据迁移到OSS-HDFS后,可以利用Hadoop生态系统的各种工具和框架进行数据处理和分析。前提条件 已创建阿里云EMR-5.6.0及后续版本或EMR-3.40.0及后续版本的集群。具体步骤,请参见 创建集群。如果...

异构数据源访问

etc/hadoop目录:在集成了Hadoop和Hive的安装中,也可能放在Hadoop配置目录中,以确保Hive能够正确地与Hadoop集群进行交互。core-site.xml Hadoop核心配置项,如I/O设置和文件系统的配置等。yarn-site.xml YARN配置项,负责集群资源管理...

创建HDFS数据源

配置文件 用于上传Hadoop配置文件,例如hdfs-site.xml、core-site.xml,配置文件可在Hadoop集群导出。Kerberos Kerberos是一种基于对称密钥技术的身份认证协议。如果Hadoop集群有Kerberos认证,则需要开启Kerberos认证,并上传用户的Krb5...

元数据性能测试

测试环境 配置名称 配置说明 计算VM配置 CPU核数:4核 内存:16 GB 机器数量:6台 网络带宽:1.5 Gbps 文件存储 HDFS 版 配置 实例大小:10 TB 吞吐限速:1000 MB/s 软件配置 Apache HadoopHadoop 2.7.6 测试工具 NNbench是Hadoop系统...

新建ArgoDB数据源

配置文件 用于上传Hadoop配置文件,例如 hdfs-site.xml、core-site.xml,配置文件可在Hadoop集群导出。认证方式 如果HDFS集群无需认证,则选择 无认证;如果HDFS集群需要认证,Dataphin支持 Kerberos。若选择 Kerbero 认证方式需配置相关...

创建Hive数据源

配置文件 上传Hadoop配置文件 hdfs-site.xml 和 core-site.xml,配置文件可在Hadoop集群导出。开启Kerberos Kerberos是一种基于对称密钥技术的身份认证协议,可以为其他服务提供身份认证功能,且支持SSO(即客户端身份认证后,可以访问多...

创建TDH Inceptor数据源

配置文件 用于上传Hadoop配置文件,例如 hdfs-site.xml、core-site.xml,配置文件可在Hadoop集群导出。认证方式 如果HDFS集群无需认证,则选择 无认证;如果HDFS集群需要认证,Dataphin支持选择 Kerberos。若选择 Kerbero 认证方式需配置...

集群吞吐性能测试

测试环境 配置名称 配置说明 计算VM配置 CPU核数:4核 内存:16 GB 机器数量:6台 网络带宽:1.5 Gbps 文件存储 HDFS 版 配置 实例大小:10 TB 吞吐限速:1000 MB/s 软件配置 Apache HadoopHadoop 2.7.6 测试工具 TestDFSIO是Hadoop系统...

基于eRDMA增强型实例部署Spark集群

Hadoop版本:Hadoop 3.2.1 Spark版本:Spark 3.2.1 ECS实例:实例规格:请参见 基本规格 vCPU个数:16 集群节点个数:1个主节点、3个worker节点 安装步骤 安装Hadoop大数据集群的具体操作,请参见 通过FastMR自动拉起大数据集群。...

Serverless Spark概述

0运维:用户只需通过产品接口管理Spark作业即可,无需关心服务器配置以及Hadoop集群配置,无需扩缩容等运维操作。作业级细粒度的弹性能力:Serverless Spark按照Driver和Executor的粒度创建资源,相比于集群版的计算节点,粒度要细很多,...

配置OSS/OSS-HDFS Credential Provider

基本配置方式 您可以将OSS或OSS-HDFS的AccessKey ID、AccessKey Secret、Endpoint预先配置Hadoop的core-site.xml中。EMR集群配置具体步骤为:在Hadoop-Common服务配置页面,单击 core-site.xml 页签。单击 新增配置项,新增配置项 fs.oss...

配置OSS/OSS-HDFS Credential Provider

基本配置方式 您可以将OSS或OSS-HDFS的AccessKey ID、AccessKey Secret、Endpoint预先配置Hadoop的core-site.xml中。EMR集群配置具体步骤为:在Hadoop-Common服务配置页面,单击 core-site.xml 页签。单击 新增配置项,新增配置项 fs.oss...

常见问题

export HADOOP_HOME=path/to/yarn-current&\ export PATH=${HADOOP_HOME}/bin/:$PATH&\ export HADOOP_CLASSPATH=$(hadoop classpath)&\ export HADOOP_CONF_DIR=path/to/hadoop-conf 重要 Hadoop配置文件中(例如 yarn-site.xml 等)...

HDFS数据源

公共资源组不支持Hadoop高级参数HA的配置。是 无 fileType 文件的类型,目前仅支持您配置为 TEXT、ORC、RC、SEQ、CSV 和 parquet。HDFS Reader能够自动识别文件的类型,并使用对应文件类型的读取策略。HDFS Reader在做数据同步前,会检查您...

创建EMR函数

Hadoop:Hadoop集群开发前准备工作。您需要先上传资源,才可以注册函数。新建EMR资源详情可参考文档:创建和使用EMR资源 操作步骤 进入 数据开发 页面。登录 DataWorks控制台。在左侧导航栏,单击 工作空间列表。选择工作空间所在地域后,...

迁移OSS-HDFS服务不同Bucket之间的数据

步骤一:下载JAR包 JindoData 步骤二:配置OSS-HDFS服务的AccessKey 您可以通过以下任意方式配置OSS-HDFS服务的AccessKey:在示例命令中配置AccessKey 例如,在将OSS-HDFS中srcbucket的数据迁移到destbucket的示例中结合-hadoopConf 选项...

创建和使用EMR资源

Hadoop:Hadoop集群开发前准备工作。创建EMR资源 进入 数据开发 页面。登录 DataWorks控制台。在左侧导航栏,单击 工作空间列表。选择工作空间所在地域后,单击相应工作空间后的 快速进入>数据开发。鼠标悬停至 图标,单击 新建资源>EMR>...

ClickHouse SQL

Hadoop:Hadoop集群开发前准备工作。已创建ClickHouse数据源并绑定至工作空间。您需先将您的ClickHouse数据库创建为DataWorks的ClickHouse数据源并绑定至数据开发(DataStudio),才可通过ClickHouse数据源访问ClickHouse数据,进行后续的...

JindoCache加速OSS透明缓存

在EMR控制台 Hadoop-Common 服务的配置页面的 core-site.xml 页签,修改相应的配置项。配置项的具体操作,请参见 管理配置项。参数 说明 fs.xengine 固定值为jindocache。如果将该参数值置空,客户端将不再使用缓存,而是每次与后端直接...

JindoCache加速OSS-HDFS透明缓存

在EMR控制台 Hadoop-Common 服务的配置页面的 core-site.xml 页签,修改相应的配置项。配置项的具体操作,请参见 管理配置项。参数 说明 fs.xengine 固定值为jindocache。如果将该参数值置空,客户端将不再使用缓存,而是每次与后端直接...

JindoDistCp使用说明

您可以在EMR控制台Hadoop-Common服务的core-site.xml页面添加如下配置。property><name>fs.oss.accessKeyId</name><value>xxx</value></property><property><name>fs.oss.accessKeySecret</name><value>xxx</value></...

Lindorm文件引擎

spark.hadoop.dfs.nameservices 取值来源于步骤2中一键生成的 hdfs-site 配置项中的 dfs.nameservices 的值。连接Hadoop所需配置项。spark.hadoop.dfs.client.failover.proxy.provider.取值来源于步骤2中一键生成的 hdfs-site 配置项中的 ...

使用Fuse-DFS挂载文件存储 HDFS 版

示例命令如下:cp hadoop-2.8.5-src/hadoop-hdfs-project/hadoop-hdfs-native-client/target/main/native/fuse-dfs/fuse_dfs${HADOOP_HOME}/bin 为Hadoop客户端配置环境变量。执行 vim/etc/profile 命令,打开配置文件,添加如下内容。...

挂载文件存储 HDFS 版文件系统

vim${HADOOP_HOME}/etc/hadoop/core-site.xml 如果您尚未配置${HADOOP_HOME},可以使用下面命令将您的Hadoop安装目录配置到该环境变量。export HADOOP_HOME=your/hadoop/installation/directory 在 core-site.xml 文件中,配置如下信息。...

在文件存储 HDFS 版上使用Presto

cp presto-hadoop-apache2/target/hadoop-apache2-2.7.4-9.jar presto-server-0.265.1/plugin/hive-hadoop2/配置presto-cli-xxx-executable.jar。将下载的presto-cli-xxx-executable.jar复制到 presto-server-0.265.1/bin/目录。cp presto-...

DLF统一元数据

切换为MySQL(包括集群内置MySQL、统一meta数据库和自建RDS):设置 hive.imetastoreclient.factory.class 的值为 org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClientFactory。切换为DLF统一元数据:设置 hive....

在文件存储 HDFS 版上使用Apache Tez

./hadoop-mapreduce/hadoop-2.8.5/share/hadoop/hdfs/*:./hadoop-mapreduce/hadoop-2.8.5/share/hadoop/hdfs/lib/*:./hadoop-mapreduce/hadoop-2.8.5/share/hadoop/yarn/*:./hadoop-mapreduce/hadoop-2.8.5/share/hadoop/yarn/lib/*:./...

快速入门

vim${HADOOP_HOME}/etc/hadoop/core-site.xml 如果您尚未配置${HADOOP_HOME},可以使用下面命令将您的Hadoop安装目录配置到该环境变量。export HADOOP_HOME=your/hadoop/installation/directory 在 core-site.xml 文件中,配置如下信息。...

MapReduce开发手册

javac-classpath<HADOOP_HOME>/share/hadoop/common/hadoop-common-X.X.X.jar:<HADOOP_HOME>/share/hadoop/mapreduce/hadoop-mapreduce-client-core-X.X.X.jar:<HADOOP_HOME>/share/hadoop/common/lib/commons-cli-1.2.jar-d wordcount_...

文件存储 HDFS 版和对象存储OSS双向数据迁移

cp-v./jindosdk-4.5.0/lib/jindo-*-4.5.0.jar${HADOOP_HOME}/share/hadoop/hdfs/lib/配置JindoSDK OSS实现类及Access Key。执行以下命令,打开core-site.xml配置文件。vim${HADOOP_HOME}/etc/hadoop/core-site.xml 将JindoSDK OSS实现类...

通过RootPolicy访问OSS-HDFS

Hadoop的 core-site.xml 文件中有如下配置项:<configuration><property><name>fs.oss.endpoint</name><value><dls_endpoint></value></property></configuration>或<configuration><property><name>fs.oss.bucket.<bucket_name>....

测试方法

在DLA Spark上运行测试程序 说明 通过DLA Spark访问自建Hadoop集群需要配置打通VPC网络,具体DLA Spark连接VPC网络下的HDFS相关参数的含义和配置步骤,请参见 Hadoop。登录 Data Lake Analytics管理控制台,在 Serverless Spark>作业管理 ...

文件存储 HDFS 版和数据库MySQL双向数据迁移

export HADOOP_COMMON_HOME=usr/local/hadoop-2.8.5 export HADOOP_MAPRED_HOME=$HADOOP_COMMON_HOME export HIVE_HOME=usr/local/apache-hive-2.3.9-bin#若没有安装hive可不必添加此配置 执行 cp${HIVE_HOME}/lib/hive-common-2.3.9.jar${...

通过RootPolicy访问

如果您不希望在每一次使用RootPolicy相关命令时重复添加选项,您可以选择以下任意方式在Hadoop的 core-site.xml 文件中添加配置项。方式一<configuration><property><name>fs.oss.endpoint</name><value><dls_endpoint></value></property>...

Spark常见问题

使用AccessKey鉴权,配置示例如下:val conf=new SparkConf().setAppName("jindo-sdk-demo")#配置access-key鉴权参数.set("spark.hadoop.fs.oss.accessKeyId",").set("spark.hadoop.fs.oss.accessKeySecret","<YourAccessKeySecret>")使用...

Airflow调度DLA Spark作业

DLA Spark工具包兼容了Hadoop的资源配置能力,如果您指定了driver和executor的CPU和Memory,会被自动转换为大于所指定CPU和Memory的最小资源规格。例如,当 executor_cores=2、executor_memory=5 G时,则会被转换为 spark.executor....

MaxCompute/Hadoop物理视图和字段详情

当计算引擎为E-MapReduce3.x、E-MapReduce5.x、CDH5.x、CDH6.x、FusionInsight 8.x、Cloudera Data Platform 7.x、亚信DP5.3时,若在 Hadoop计算源 配置页面开启Impala加速引擎,则使用Impala运行SQL;若开启Spark加速引擎,则使用Spark...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
应用配置管理 (文档停止维护) 配置审计 DDoS防护 开源大数据平台 E-MapReduce 云服务器 ECS 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用