hadoop大数据技术-hadoop大数据技术文档介绍内容-阿里云

产品架构

EMR自研能力为让开源大数据组件和服务更好的运行在阿里云技术设施上，EMR自研了如下组件：数据应用平台，提供交互式开发、作业提交、作业调试和工作流一站式数据开发体验，详情请参见 EMR Studio概述。Shuffle Service是EMR在优化计算引擎...

发展历程

关键性里程碑 2009年9月，ODPS（即现在的MaxCompute）大数据平台飞天项目正式启动。2010年10月，阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月，平台的单集群规模已达到5000台。2014年7月，平台开始对外提供服务，完全替换...

HDFS云原生上云方案

Lindorm文件引擎是面向海量非结构化数据的分布式文件存储服务，具有弹性、低成本的优势，提供100%的HDFS协议和使用体验，支持企业大数据中的HDFS无缝平滑上云，构建云原生时代的存储计算分离的大数据架构。方案总览方案优势简单：...

Serverless Spark概述

DLA Spark基于云原生架构，提供面向数据湖场景的数据分析和计算功能。开通DLA服务后，您只需简单的配置，就可以提交Spark作业，无需关心Spark集群部署。重要云原生数据湖分析（DLA）产品已退市，云原生数据仓库 AnalyticDB MySQL 版湖仓...

客户案例

MaxCompute已被广泛应用于各大领域处理云上大数据，帮助众多企业解决了海量数据分析问题，同时降低企业运维成本，企业人员可更专注于业务开发。本文为您介绍MaxCompute的精选客户案例。MaxCompute的全量客户案例信息，请参见行业客户案例...

创建集群

通过阿里云E-MapReduce（简称EMR），您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架，以进行大规模数据处理和分析等操作。本文为您介绍在EMR on ECS上创建集群的操作步骤和相关配置，帮助您快速搭建和管理大数据集群。...

应用场景

数据分析云服务器ECS提供了大数据类型实例规格族，支持Hadoop分布式计算、日志处理和大型数据仓库等业务场景。由于大数据类型实例规格采用了本地存储的架构，云服务器ECS在保证海量存储空间、高存储性能的前提下，可以为云端的Hadoop集群...

数据服务集群

本文为您介绍数据服务集群支持的特性，适用场景以及技术架构。特性介绍 Apache HBase是具有高可靠性、高性能、列存储、可伸缩、实时读写的开源NoSQL分布式系统。特别适用于需要实时读写随机访问超大规模数据集的场景。Apache HBase和Apache...

创建Impala数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

迁移开源HDFS的数据到文件存储 HDFS 版

背景信息当前业界有很多公司是以Hadoop技术构建数据中心，而越来越多的公司和企业希望将业务顺畅地迁移到云上。文件存储 HDFS 版可以帮助您实现将开源HDFS的数据迁移到云上，并允许您在云上就像在Hadoop分布式文件系统中管理和访问数据。...

SmartData常见问题

JindoFS是阿里云开源大数据E-MapReduce产品提供的一套Hadoop文件系统，主要对Hadoop和Spark大数据生态系统使用阿里云OSS提供多层次的封装支持和优化。基础功能提供适配OSS和支持访问，您可以直接使用JindoFS SDK；标准功能针对OSS提供分布...

创建HBase数据源

通过创建HBase数据源能够实现Dataphin读取HBase的业务数据或向HBase写入数据。本文为您介绍如何创建HBase数据源。背景信息 HBase是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是HBase，在导出Dataphin数据至HBase，您...

典型场景

大数据分析平台对于MaxCompute、Hadoop和Spark中保存的海量数据，可通过采用数据集成服务（DataX）或通过对象存储服务（OSS），快速批量导入到云原生数据仓库AnalyticDB PostgreSQL版，帮助您实现高性能分析处理和在线数据探索。数据湖...

创建Impala数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

功能特性

计算 MaxCompute向用户提供了多种经典的分布式计算模型，提供TB、PB、EB级数据计算能力，能够更快速的解决用户海量数据计算问题，有效降低企业成本。功能集功能功能描述参考文档 SQL开发 DDL语句 DDL语句 DDL DML操作 DML操作 DML操作 ...

创建Hive数据源

通过创建Hive数据源能够实现Dataphin读取Hive的业务数据或向Hive写入数据。本文为您介绍如何创建Hive数据源。背景信息 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供SQL查询功能。Hive用于转化...

技术支持的范围和方式

阿里云E-MapReduce（简称EMR）是云原生开源大数据平台，能够为用户提供简单易集成的开源大数据解决方案。EMR on ECS集群主要构建于ECS之上，集群资源归属于用户，EMR提供基于该资源的半托管云服务能力，用户对集群拥有完全的管理操作权限，...

2022年

本文以开源大数据开发平台E-MapReduce（云上Hadoop）方式模拟本地Hadoop集群，为您介绍如何读写MaxCompute数据。模拟IDC Spark读写MaxCompute实践 2022-07-07 Unload。更新说明支持使用Unload函数从MaxCompute导出数据到OSS时，自定义设置...

迁移Hadoop文件系统数据至JindoFS

可以直接使用Hadoop的FsShell进行同步：hadoop dfs-cp hdfs:/emr-cluster/README.md jfs:/emr-jfs/hadoop dfs-cp oss:/oss_bucket/README.md jfs:/emr-jfs/DistCp 对于文件较多或者数据量较大的场景，推荐使用Hadoop内置的DistCp进行同步：...

公开数据集概述

国家统计数据集 national_data TPC性能数据 TPC-DS TPC-DS是一个面向决策支持的基准，它对决策支持系统的几个普遍适用的方面进行建模，包括查询和数据维护等，使大数据系统等新兴技术能够执行基准测试。TPC-DS 10GB性能测试集 TPC-DS 100GB...

数据模型概述

DDM目前支持逻辑模型和物理模型建模，其中物理模型又分为关系型数据模型和非关系型数据模型，支持的大数据引擎为MaxCompute、Hive。说明 Hadoop的MR调优参数属于底层，DDM是数据建模工具，支持设置表、字段等物理属性。

Hadoop集群迁移至DataLake集群

本文将详细阐述如何将您已有的旧版数据湖集群（Hadoop），高效地迁移至数据湖集群（DataLake），以下分别简称“旧集群”和“新集群”。迁移过程将充分考虑旧集群的版本、元数据类型以及存储方式，并针对这些因素，提供适应新集群的迁移策略...

应用场景

阿里云开源大数据平台E-MapReduce（简称EMR）具有广泛的应用场景。本文为您介绍EMR的主要应用场景。数据湖场景 DataLake集群类型提供了数据湖分析场景所需的服务和相关湖格式，包括Hadoop、OSS-HDFS、Hive、Spark、Presto等。通过选择OSS-...

产品优势

本文介绍云原生多模数据库 Lindorm 与其他开源数据库的区别。背景信息云原生多模数据库 Lindorm 兼容...生态开源大数据生态Hadoop/Spark等、阿里云数据生态开源大数据生态Hadoop/Spark等易用性免运维，维护简单有状态服务，维护较复杂

2021年

2021-09-14 华南1金融云（深圳）无 MaxCompute 支持访问开启Kerberos 认证授权机制的 Hadoop集群大部分企业的Hadoop的生产集群开启了 Kerberos认证授权机制，本次功能升级能够利用MaxCompute访问开启Kerberos认证授权机制的 Hadoop集群，...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起，DataWorks不断沉淀阿里巴巴大数据建设方法论，支撑数据中台建设，同时与...

通过ES-Hadoop实现Hive读写阿里云Elasticsearch数据

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具，可以让数据在Elasticsearch和Hadoop之间双向移动，无缝衔接Elasticsearch与Hadoop服务，充分使用Elasticsearch的快速搜索及Hadoop批处理能力，实现交互式数据处理。...

数仓场景：即席查询

很多时候您在使用StarRocks进行数仓分层建模时，大部分将数据建模到DWD层（基础整合层）或DWS层（维度宽度）。在实际业务中，运用StarRocks的计算能力，可以直接查询DWD或DWS层数据，还可以灵活地交互式即席查询。方案架构使用StarRocks...

CDH6与文件引擎集成

CDH（Cloudera's Distribution,including Apache Hadoop）提供Hadoop组件的安装、运维、监控等功能，您可以使用 CDH6（表示CDH 6.X 版本）管理您的Hadoop集群。本文介绍如何将CDH6与Lindorm文件引擎集成，来替换底层HDFS存储。您可以基于...

玄武分析型存储

存储引擎上通过基于Mark-for-delete技术实现了高吞吐的实时更新和删除，同时基于MVCC的技术保证数据原子性和完整性。行列混合存储玄武存储引擎支持行列混存和行存的存储格式，其中行列混存是一种以列存为基础兼顾行存的模式，类似于Hadoop...

创建Kudu数据源

背景信息 Kudu提供接近于关系数据库管理系统（RDBMS）的功能和数据模型，提供类似于关系型数据库的存储结构来存储数据，允许用户以和关系型数据库相同的方式插入、更新、删除数据。Kudu仅仅是一个存储层，并不存储数据，因此需要依赖外部的...

什么是云原生多模数据库Lindorm

多模型的核心能力主要由以下几大数据引擎提供，包括：数据引擎核心能力宽表引擎负责宽表与对象数据的管理和服务，具备全局二级索引、多维检索、动态列、TTL等能力，适用于元数据、订单、账单、画像、社交、feed流、日志等场景，兼容...

Spark常见问题

当Driver需要Collect较大数据量，或抛出 java.lang.OutOfMemoryError 异常时，需要调大该值。设置Driver堆外内存。参数：spark.driver.memoryOverhead。参数说明：代表Driver的额外内存。默认为大小 spark.driver.memory*0.1，最小384 MB。...

从自建HDFS迁移数据

背景介绍在某些场景下面，我们需要从自建的Hadoop中存储的数据迁移到Lindorm的文件引擎当中。适用范围阿里云ECS自建Hadoop集群中的数据迁移到文件引擎。准备工作开通文件引擎，详情请参见开通指南。修改Hadoop 配置信息，详情请参见 ...

创建Hadoop计算源

Hadoop计算源用于绑定Dataphin项目空间与Hadoop项目，为Dataphin项目提供处理离线计算任务的计算源。如果Dataphin系统的计算引擎设置为Hadoop，则只有项目空间添加了Hadoop计算源，才支持规范建模、即席查询、Hive任务、通用脚本等功能。...

创建EMR Studio集群

说明如果创建集群时，未开启挂载公网，您可以参见弹性公网IP 中申请EIP的内容处理，或技术支持处理。密钥对关于密钥对的使用详情，请参见 SSH密钥对。密码设置Master节点的登录密码，密码规则：8~30个字符，且必须同时包含大写字母、...

spark.sql.catalogImplementation={odps|hive}#如下参数配置保持不变 spark.hadoop.odps.task.major.version=cupid_v2 spark.hadoop.odps.cupid.container.image.enable=true spark.hadoop.odps.cupid.container.vm.engine.type=hyper ...

通过Spark导入数据

工作原理 Spark SelectDB Connector底层实现依赖于SelectDB的Stage导入方式，当前支持两种使用方式：通过在用户对象存储上创建外部Stage（External Stage），进行批量数据拉取和导入，适用于大规模数据导入的场景。这种导入方式依赖用户侧...

Jindo Job Committer使用说明

注意 OSS拷贝数据的性能，针对不同的用户或Bucket会有差异，可能与OSS带宽以及是否开启某些高级特性等因素有关，具体问题可以咨询OSS的技术支持。在所有任务都完成后，MapReduce Application Master或Spark Driver执行最终的Job Commit操作...

Jindo Job Committer使用说明

注意 OSS拷贝数据的性能，针对不同的用户或Bucket会有差异，可能与OSS带宽以及是否开启某些高级特性等因素有关，具体问题可以咨询OSS的技术支持。在所有任务都完成后，MapReduce Application Master或Spark Driver执行最终的Job Commit操作...

hadoop大数据技术

新品推荐