使用Druid

hyperUnique","fieldName":"user"}]},"tuningConfig":{"type":"hadoop","partitionsSpec":{"type":"hashed","targetPartitionSize":5000000 },"jobProperties":{"mapreduce.job.classloader":"true"} } },"hadoopDependencyCoordinates":...

Hadoop DistCp介绍

使用方法 Hadoop DistCp常见的调用是集群间拷贝,例如将nn1集群的/foo/bar 目录下的数据拷贝至nn2集群的/bar/foo 目录下:hadoop distcp hdfs:/nn1:8020/foo/bar hdfs:/nn2:8020/bar/foo 更多使用说明,请参见 Hadoop社区的DistCp使用...

创建Hadoop计算源

Hadoop计算源用于绑定Dataphin项目空间Hadoop项目,为Dataphin项目提供处理离线计算任务的计算源。如果Dataphin系统的计算引擎设置为Hadoop,则只有项目空间添加了Hadoop计算源,才支持规范建模、即席查询、Hive任务、通用脚本等功能。...

创建命名空间

说明 目前ACM限制一个ID多创建5个命名空间,每个空间多可以有200个配置。更多需求可以通过添加ACM支持的钉钉号av8ek98提出申请,申请时请提供地域、命名空间ID和扩充数量。新建的命名空间会出现在 命名空间 页面的表格中,以及 配置...

空间分析

CloudDBA空间分析提供了查询空间概况、空间变化趋势、异常列表、数据空间空间碎片回收功能,您可以通过这些信息及时发现数据库中空间的异常情况,避免影响数据库稳定性。前提条件 实例为MongoDB 4.0及以上版本的副本集或分片集群实例。...

测试环境

本次测试采用3种不同的测试场景,针对开源自建的Hadoop+Spark集群与阿里云云原生数据湖分析DLA Spark在执行Terasort基准测试的性能做了对比分析。本文档主要介绍了3种不同测试场景下的测试环境配置要求。环境配置要求 测试环境总体要求:自...

管理Hadoop回收站

Hadoop回收站是Hadoop文件系统的重要功能,可以恢复误删除的文件和目录。本文为您介绍Hadoop回收站的使用方法。背景信息 回收站是Hadoop Shell或部分应用(Hive等)对Hadoop FileSystem API在客户端的封装,当客户端配置或者服务端配置打开...

管理Hadoop回收站

Hadoop回收站是Hadoop文件系统的重要功能,可以恢复误删除的文件和目录。本文为您介绍Hadoop回收站的使用方法。背景信息 回收站是Hadoop Shell或部分应用(Hive等)对Hadoop FileSystem API在客户端的封装,当客户端配置或者服务端配置打开...

管理Hadoop回收站

Hadoop回收站是Hadoop文件系统的重要功能,可以恢复误删除的文件和目录。本文为您介绍Hadoop回收站的使用方法。背景信息 回收站是Hadoop Shell或部分应用(Hive等)对Hadoop FileSystem API在客户端的封装,当客户端配置或者服务端配置打开...

Hadoop Yarn RPC 0 Day在野利用分析与传播手段披露

阿里云安全监测到Kinsing僵尸网络变种,该僵尸网络除了沿用之前的攻击手法,最新利用了Hadoop Yarn RPC未授权访问漏洞进行传播。概述 Hadoop Yarn是Hadoop的核心组件之一。Hadoop Yarn RPC未授权访问使得攻击者无需认证即可通过RPC通信执行...

通过DataWorks将Hadoop数据同步到阿里云ES

当您基于Hadoop进行交互式大数据分析查询,遇到查询延迟的问题时,可以将数据同步至阿里云Elasticsearch中再进行查询分析。ES对于多种查询类型,特别是即席查询(Ad Hoc),基本可以达到秒级响应。本文介绍通过DataWorks的数据集成服务,...

快速入门

vim${HADOOP_HOME}/etc/hadoop/core-site.xml 如果您尚未配置${HADOOP_HOME},可以使用下面命令将您的Hadoop安装目录配置到该环境变量。export HADOOP_HOME=your/hadoop/installation/directory 在 core-site.xml 文件中,配置如下信息。...

注册EMR集群至DataWorks

etc/ecm/hadoop-conf/core-site.xml/etc/ecm/hadoop-conf/hdfs-site.xml/etc/ecm/hadoop-conf/mapred-site.xml/etc/ecm/hadoop-conf/yarn-site.xml/etc/ecm/hive-conf/hive-site.xml/etc/ecm/spark-conf/spark-defaults.conf/etc/ecm/spark...

常见问题

hadoop jar<hadoop_home>/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-*-tests.jar sleep-m 1-mt 1000-r 0 您可以在 sleep-m 之间新增配置项以指定Queue,新增的参数为-Dmapreduce.job.queuename,参数值为default。...

HDFS数据源

由于snappy目前没有统一的stream format,数据集成目前仅支持主流的hadoop-snappy(hadoop上的snappy stream format)和framing-snappy(google建议的snappy stream format)。ORC文件类型下无需填写。否 无 parquetSchema 如果您的文件...

Jindo DistCp场景化使用指导

如果您想压缩写入的目标文件,例如LZO和GZ等格式,以降低目标文件的存储空间,您可以使用-outputCodec 参数来完成。需要在 场景一 的基础上增加-outputCodec 参数,示例如下。hadoop jar jindo-distcp-<version>.jar-src/data/incoming/...

Jindo DistCp场景化使用指导

如果您想压缩写入的目标文件,例如LZO和GZ等格式,以降低目标文件的存储空间,您可以使用-outputCodec 参数来完成。需要在 场景一 的基础上增加-outputCodec 参数,示例如下。hadoop jar jindo-distcp-<version>.jar-src/data/incoming/...

Jindo DistCp场景化使用指导

如果您想压缩写入的目标文件,例如LZO和GZ等格式,以降低目标文件的存储空间,您可以使用-outputCodec 参数来完成。需要在 场景一 的基础上增加-outputCodec 参数,示例如下。hadoop jar jindo-distcp-<version>.jar-src/data/incoming/...

Jindo DistCp场景化使用指导

如果您想压缩写入的目标文件,例如LZO和GZ等格式,以降低目标文件的存储空间,您可以使用-outputCodec 参数来完成。需要在 场景一 的基础上增加-outputCodec 参数,示例如下。hadoop jar jindo-distcp-<version>.jar-src/data/incoming/...

使用CreateCluster API创建集群

选择安装应用 必须安装的依赖应用 不可同时安装的互斥应用 HDFS Hadoop-Common OSS-HDFS OSS-HDFS Hadoop-Common HDFS Hive Hadoop-Common、YARN 无 Spark2 Hadoop-Common、YARN、Hive Spark3 Spark3 Hadoop-Common、YARN、Hive Spark2 Tez...

JindoFS实战演示

OSS访问加速 文档链接 视频链接 视频发布时间 描述 访问OSS这类对象存储快的方式 访问OSS这类对象存储快的方式 2021-05-25 JindoFS SDK是一个简单易用,面向Hadoop或Spark生态的OSS客户端,为阿里云OSS提供高度优化的HadoopFileSystem...

Jindo DistCp场景化使用指导

如果您想压缩写入的目标文件,例如LZO和GZ等格式,以降低目标文件的存储空间,您可以使用-outputCodec 参数来完成。需要在 场景一 的基础上增加-outputCodec 参数,示例如下。hadoop jar jindo-distcp-<version>.jar-src/data/incoming/...

Jindo DistCp场景化使用指导

如果您想压缩写入的目标文件,例如LZO和GZ等格式,以降低目标文件的存储空间,您可以使用-outputCodec 参数来完成。需要在 场景一 的基础上增加-outputCodec 参数,示例如下。hadoop jar jindo-distcp-<version>.jar-src/data/incoming/...

Jindo DistCp场景化使用指导

如果您想压缩写入的目标文件,例如LZO和GZ等格式,以降低目标文件的存储空间,您可以使用-outputCodec 参数来完成。需要在 场景一 的基础上增加-outputCodec 参数,示例如下。hadoop jar jindo-distcp-<version>.jar-src/data/incoming/...

Jindo DistCp场景化使用指导

如果您想压缩写入的目标文件,例如LZO和GZ等格式,以降低目标文件的存储空间,您可以使用-outputCodec 参数来完成。需要在 场景一 的基础上增加-outputCodec 参数,示例如下。hadoop jar jindo-distcp-<version>.jar-src/data/incoming/...

SmartData使用说明(EMR-3.22.0~3.25.1版本)

简单示例:Shell命令 hadoop fs-ls jfs:/your-namespace/hadoop fs-mkdir jfs:/your-namespace/test-dir hadoop fs-put test.log jfs:/your-namespace/test-dir/hadoop fs-get jfs:/your-namespace/test-dir/test.log./MapReduce作业 ...

异构数据源访问

etc/hadoop目录:在集成了Hadoop和Hive的安装中,也可能放在Hadoop的配置目录中,以确保Hive能够正确地与Hadoop集群进行交互。core-site.xml Hadoop核心配置项,如I/O设置和文件系统的配置等。yarn-site.xml YARN配置项,负责集群资源管理...

DataWorks on EMR集群配置最佳实践

HDFS 您可根据所使用的EMR集群规模情况调整HDFS的以下配置项:hadoop_namenode_heapsize、hadoop_datanode_heapsize、hadoop_secondary_namenode_heapsize、hadoop_namenode_opts 至合适大小。元数据存储选择 若要实现DataWorks标准模式...

DataWorks On EMR使用说明

DataWorks支持基于EMR(E-MapReduce)计算引擎...HDFS 您可根据所使用的EMR集群规模情况调整HDFS的以下配置项:hadoop_namenode_heapsize、hadoop_datanode_heapsize、hadoop_secondary_namenode_heapsize、hadoop_namenode_opts 至合适大小。

使用独立的Trino集群

dlf.catalog.id 数据库分类命名空间。需要绑定的DLF数据目录(Catalog),默认值是阿里云账号的账号ID。dlf.catalog.region DLF服务的地域名。详情请参见 已开通的地域和访问域名。说明 请和 dlf.catalog.endpoint 选择的地域保持一致。dlf...

DataWorks V3.0

E-MapReduce:E-MapReduce(Elastic MapReduce,简称EMR)构建在阿里云云服务器ECS上,基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其它周边系统(例如Hive),来分析和处理自己的数据的大数据...

Hadoop生态外表联邦分析

云原生数据仓库AnalyticDB PostgreSQL版 支持通过外表访问Hadoop生态的外部数据源(包括HDFS与Hive)。注意事项 本特性只支持存储弹性模式实例,且需要 AnalyticDB PostgreSQL版 实例和目标访问的外部数据源处于同一个VPC网络。2020年9月6...

背景信息以及准备工作

创建存储空间,详情请参见 控制台创建存储空间。上传日志文件,详情请参见 控制台上传文件。将日志文件webserver.log、nginx_log、log4j_sample.log上传到OSS的log目录中。Apache WebServer日志文件webserver.log数据:127.0.0.1-frank[10/...

SHOW

本文为您介绍不同操作中SHOW命令的用法以及示例。...spatial-sdk-hive.jar ST_Aggr_Union ALIYUN$@aliyun.com 2021-03-18 17:06:30 com.esri.hadoop.hive.ST_Aggr_Union esri-geometry-api.jar,spatial-sdk-hive.jar ST_Area ALIYUN$@aliyun....

SHOW

本文为您介绍不同操作中SHOW命令的用法以及示例。...spatial-sdk-hive.jar ST_Aggr_Union ALIYUN$@aliyun.com 2021-03-18 17:06:30 com.esri.hadoop.hive.ST_Aggr_Union esri-geometry-api.jar,spatial-sdk-hive.jar ST_Area ALIYUN$@aliyun....

创建命名空间

在指定的地域(Region)中,利用命名空间可以有效地隔离资源与服务,增强它们的安全性。创建命名空间有助于防止资源和服务之间的潜在冲突,同时便于您对它们进行有序管理和维护,从而提高工作效率。本文介绍如何创建命名空间。注意事项 每...

DSW连接EMR集群

仅支持以下类型的EMR集群:DataLake集群 安装了Spark3和Hadoop的自定义集群 说明 每个DSW实例多可以连接一个EMR集群,连接完成后不支持切换到其它集群。前提条件 已开通 EMR 并创建EMR集群,具体操作,请参见 创建集群。已创建DSW实例,...

常见问题

造成服务不稳定的情况可能有很多,常见的情况是znode数量过大或者snapshot过大,由于ZooKeeper将所有的znode维护在内存中,并且需要在节点间进行数据同步,因此过大的znode数量或者容量会对服务稳定性造成影响。ZooKeeper的定位是一个...

静态列(static column)实战

通常来说,用户的基本信息一般很少会变动,但是用户状态会经常变化,如果每次状态更新都把用户基本信息都加进去,将浪费大量的存储空间。为了解决这种问题,Cassandra 引入了 static column。同一个 partition key 中被声明为 static 的列...

2021年

2021-09-14 华南1金融云(深圳)无 MaxCompute 支持访问开启Kerberos 认证授权机制的 Hadoop集群 大部分企业的Hadoop的生产集群开启了 Kerberos认证授权机制,本次功能升级能够利用MaxCompute访问开启Kerberos认证授权机制的 Hadoop集群,...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
文件存储HDFS版 物联网络管理平台 三维空间重建 开源大数据平台 E-MapReduce 操作审计 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用