hadoop大数据平台搭建-hadoop大数据平台搭建文档介绍内容-阿里云

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

MaxCompute湖仓一体概述

MaxCompute提供湖仓一体方案，该方案可以打破数据湖与数据仓库割裂的体系，并将数据湖的灵活性、生态丰富能力与数据仓库的企业级部署能力进行融合，助力构建数据湖和数据仓库相融合的数据管理平台。本文介绍如何通过MaxCompute和异构数据...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

数据迁移

迁移其它业务平台的业务数据至MaxCompute：迁移Hadoop数据至MaxCompute，详情请参见迁移Hadoop数据至MaxCompute最佳实践（视频）。数据迁移和脚本迁移遇到的问题及解决方案请参见迁移自建Hadoop数据至MaxCompute实践。迁移Oracle数据至...

搭建与管理（基于Hadoop）

通过MaxCompute与Hadoop构建湖仓一体方案旨在实现对海量数据的统一管理、存储和分析，提供了一个既能处理结构化、半结构化数据，又能满足高并发分析需求的一体化数据平台。本文为您介绍如何通过MaxCompute与Hadoop构建湖仓一体，以及管理湖...

E-MapReduce数据迁移

背景信息阿里云E-MapReduce是构建在阿里云云服务器ECS上的开源Hadoop、Spark、Hive、Flink生态大数据PaaS产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。前提...

数据标准

数据是由特定的环境产生的，这些环境因素包括生产者、时间、系统等，从而造成了同一个语义的数据，有多种不同的定义方法，给后期进行数据汇集和整合带来障碍。因此，数据处理的前奏就是数据标准化，数据标准作为一个统一的数据共识，在标准...

应用场景

阿里云开源大数据平台E-MapReduce（简称EMR）具有广泛的应用场景。本文为您介绍EMR的主要应用场景。数据湖场景 DataLake集群类型提供了数据湖分析场景所需的服务和相关湖格式，包括Hadoop、OSS-HDFS、Hive、Spark、Presto等。通过选择OSS-...

准备环境

为保证您可以顺利完成本次实验，请您首先确保自己云账号已开通大数据计算服务MaxCompute、数据工场DataWorks和人工智能平台 PAI。前提条件注册阿里云账号，详情请参见注册阿里云账号。实名认证，详情请参见个人实名认证背景信息本次...

概述

背景信息在大数据生态系统中，Alluxio位于数据驱动框架或应用（例如Apache Spark、Presto、TensorFlow、Apache Flink和Apache Hive等）和各种持久化存储系统（例如HDFS和阿里云OSS）之间，使得上层的计算应用可以通过统一的客户端API和...

DataWorks on EMR数据安全方案

在大数据领域，阿里云为企业用户提供了一整套数据安全方案，包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例，为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

通过DataWorks将Hadoop数据同步到阿里云ES

新增Hadoop数据源。在数据源列表页面，单击新增数据源。在新增数据源页面，搜索并选择 HDFS。在新增HDFS数据源页面，配置数据源参数。配置详情，请参见配置HDFS数据源。单击测试连通性，连通状态显示为可连通时，表示连通成功。...

大数据型

推荐 大数据存储密集型实例规格族d3s 大数据计算密集型实例规格族d3c 大数据计算密集型实例规格族d2c 大数据存储密集型实例规格族d2s 大数据网络增强型实例规格族d1ne 其他在售（如果售罄，建议使用推荐规格族）大数据型实例规格族d1 大...

概述

同一份数据以不同的格式保存，数据所占用的存储空间不同，使用DLA扫描数据时所花费的时间和费用也不同。通常情况下，同一份数据以ORC格式和PARQUET格式存储时，其数据扫描性能要优于普通文本CSV格式。因此，您可以将文本类型的数据转换为...

JindoFS实战演示

云上计算云下数据：HDFS缓存加速云上计算云下数据：HDFS缓存加速 2021-06-29 随着云计算越来越成熟，带来弹性扩容、运维方便、节省成本等优点，越来越多企业开始将大数据平台搬到云上。云下的HDFS集群存在历史数据，其中可能包含敏感数据...

产品架构

从上图可以看出EMR由四部分组成：社区开源产品集成Apache社区开源大数据组件，例如Hadoop、Hive和HBase，随着EMR版本更新，开源软件也会相应的升级，详情请参见版本概述下各版本的版本说明。注意已经创建好的EMR集群不支持组件升级。...

解决方案

数据资源平台中的数据标准、数据模型、数据加工场景、数据服务API、云计算资源配置等资产，经过验证最终可沉淀为一个特定的解决方案。支持通过不同的创建方式，灵活的选择解决方案中包含的内容。依托数据资源平台中管理的大量元数据，确保...

快速体验

数据采集数据加工配置数据质量监控数据可视化展现目标人群开发工程师、数据分析师、产品运营等存在数仓数据获取与数据分析洞察人员。涉及产品本案例涉及以下产品：一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集、...

CDH6数据迁移

背景信息 CDH（Cloudera's Distribution,including Apache Hadoop）是众多Hadoop发行版本中的一种，您可以使用文件存储 HDFS 版替换CDH6原有的本地HDFS服务，通过CDH6和文件存储 HDFS 版实现大数据计算在云上的存储与计算分离，应对...

功能简介

数据资源平台中的数据标准、数据模型、数据加工场景、数据服务API、云计算资源配置等资产，经过验证最终可沉淀为一个特定的解决方案。支持通过不同的创建方式，灵活的选择解决方案中包含的内容。依托数据资源平台中管理的大量元数据，确保...

DataWorks V3.0

E-MapReduce：E-MapReduce（Elastic MapReduce，简称EMR）构建在阿里云云服务器ECS上，基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其它周边系统（例如Hive），来分析和处理自己的数据的大数据...

自建数据源Kylin

新建Kylin数据源用于连通Kylin数据源与Quick BI。如果业务数据来源于Kylin数据源，则在您开始基于Quick BI开发数据前，需要新建Kylin数据源。本文为您介绍新建自建数据源Kylin。前提条件确保您的网络已连通：您通过公网连接Quick BI与...

通过ES-Hadoop实现Spark读写阿里云Elasticsearch数据

Spark是一种通用的大数据计算框架，拥有Hadoop MapReduce所具有的计算优点，能够通过内存缓存数据为大型数据集提供快速的迭代功能。与MapReduce相比，减少了中间数据读取磁盘的过程，进而提高了处理能力。本文介绍如何通过ES-Hadoop实现...

MaxCompute湖仓一体

MaxCompute湖仓一体方案通过数据仓库MaxCompute和数据湖共同实现，将数据湖的灵活性、生态丰富能力与数据仓库的企业级部署能力进行融合，助力于构建数据湖和数据仓库相融合的数据管理平台。本文为您介绍如何通过Dataphin管理MaxCompute和...

MaxCompute湖仓一体

MaxCompute湖仓一体方案通过数据仓库MaxCompute和数据湖共同实现，将数据湖的灵活性、生态丰富能力与数据仓库的企业级部署能力进行融合，助力于构建数据湖和数据仓库相融合的数据管理平台。本文为您介绍如何通过Dataphin管理MaxCompute和...

云产品集成

常见云产品如下：大数据开发治理平台 DataWorks 实时计算 Flink 版数据库管理 DMS DataV 数据可视化 Quick BI 数据分析与展现前提条件已获取 OceanBase 数据库的基本连接信息，详细步骤请参见获取连接参数。大数据开发治理平台 ...

产品优势

混合云大数据容灾提供近0 RPO的大数据容灾，可以将Hadoop集群容灾至阿里云OSS或EMR，在Hadoop集群间双向实时复制，构建大数据湖。应用级容灾和数据级容灾支持将Windows、Linux应用服务器做高效的容灾复制和云上恢复，实现应用级容灾。您...

搭建Hadoop环境

本文介绍如何在Linux操作系统的ECS实例上快速搭建Hadoop分布式环境。前提条件 搭建Hadoop环境时，已有的ECS实例必须满足以下条件：公网IP：实例已分配公网IP地址或绑定弹性公网IP（EIP）。操作系统：Linux操作系统。实例安全组的入方向规则...

受众与核心能力

产品定位 DataWorks致力于为数据开发者、数据分析师、数据资产管理者，打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台，即可实现数据...

Iceberg概述

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

技术支持的范围和方式

阿里云E-MapReduce（简称EMR）是云原生开源大数据平台，能够为用户提供简单易集成的开源大数据解决方案。EMR on ECS集群主要构建于ECS之上，集群资源归属于用户，EMR提供基于该资源的半托管云服务能力，用户对集群拥有完全的管理操作权限，...

什么是MaxCompute

MaxCompute是适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效...

数据分析整体趋势

随着Google等互联网企业崛起，以Hadoop为代表的基于传统x86服务器集群的大数据技术迅速发展，同时开源分布式数据库如Greenplum等也成为相应替代方案，为广大中小企业，尤其是互联网行业大大降低了数据分析的技术和成本门槛，还有分布式技术...

什么是数据资源平台

阿里云数据资源平台是数据资产定义、加工、管理、服务的全流程平台，提供数据同步、数据查询、数据标准、数据建模、数据加工、质量评估、业务模型构建、资产管理、数据服务等功能，为智能数据应用持续稳定供给全量、标准、干净、智能的数据...

RDS与自建数据库对比优势

云数据库RDS提供高可用、高可靠、高安全、可扩展的托管数据库服务，在性能等同于商业数据库的同时，其价格相比ECS自建数据库和自购服务器搭建数据库更加低廉，能够节约大量部署及维护成本。价格对比费用云数据库RDS ECS自建数据库自购...

账单数据订阅及查询分析

DataWorks及MaxCompute：DataWorks基于MaxCompute等大数据引擎，支持您在线进行SQL分析、业务洞察、编辑和分享数据，以及将查询结果保存为可视化图表卡片，快速搭建可视化数据报告。订阅账单数据后，用户中心会将相关账单数据同步至指定...

冷热分层

更多介绍请参见结构化大数据分析平台设计、面向海量数据的极致成本优化-云HBase的一体化冷热分离和云上如何做冷热数据分离。冷热数据数据按照实际访问的频率可以分为热数据、温数据和冷数据。其中冷数据的数据量较大，很少被访问，甚至...

数据读取

本文介绍如何通过开源大数据平台 EMR（E-MapReduce）控制台，快速创建一个 EMR 集群并使用Spark3读取表格存储的数据。前提条件已使用阿里云账号对 EMR 服务授权。具体操作，请参见角色授权。已创建表格存储数据表。具体操作，请参见...

产品优势

云原生数据湖分析DLA（Data Lake Analytics）是新一代大数据解决方案，采取计算与存储完全分离的架构，支持数据库与消息实时归档建仓。DLA提供弹性的Spark与Presto，满足在线交互式查询、流处理、批处理、机器学习等诉求，也是传统Hadoop...

数据建模

数据建模支持ER模型和维度模型两种数据建模方法，帮助用户完成数据模型、逻辑表的设计和管理。用户可对数据模型的层次结构进行管理，并对逻辑表字段进行设计。字段设计需要在数据标准的约束下，通过模型设计过程中引用标准数据元定义，设置...

hadoop大数据平台搭建

新品推荐