hadoop大数据零基础高端实战培训-hadoop大数据零基础高端实战培训文档介绍内容-阿里云

离线集成概述

数据管理DMS离线集成是一种低代码的数据开发工具，您可以组合各类任务节点，形成数据流，通过周期调度运行达到数据加工、数据同步的目的。支持的数据库类型 MySQL：RDS MySQL、PolarDB MySQL版、MyBase MySQL、PolarDB分布式版、AnalyticDB...

操作流程

通过操作流程图及说明，您可以直观且全局了解自定义函数和数据基础库的操作流程。本文介绍自定义函数和数据基础库的操作流程。自定义函数流程图流程说明操作说明新建函数资源通过上传资源包的方式新建函数资源，为自定义函数中所使用...

操作流程

通过操作流程图及说明，您可以直观且全局了解自定义函数和数据基础库的操作流程。本文介绍自定义函数和数据基础库的操作流程。自定义函数流程图流程说明操作说明新建函数资源通过上传资源包的方式新建函数资源，为自定义函数中所使用...

Spark Shell和RDD基础操作

本文为您介绍如何使用Spark Shell，以及RDD的基础操作。启动Spark Shell Spark的Shell作为一个强大的交互式数据分析工具，提供了一个简单的方式学习API。Spark既可以使用Scala，也可以使用Python。您可以按照以下操作步骤来启动Spark Shell...

通过HDP 2.6 Hadoop读取和写入OSS数据

HDP（Hortonworks Data Platform）是由Hortonworks发行的大数据平台，包含了Hadoop、Hive、HBase等开源组件。HDP 3.0.1版本中的Hadoop 3.1.1版本已支持OSS，但是低版本的HDP不支持OSS。本文以HDP 2.6.1.0版本为例，介绍如何配置HDP 2.6版本...

2022年

本文以开源大数据开发平台E-MapReduce（云上Hadoop）方式模拟本地Hadoop集群，为您介绍如何读写MaxCompute数据。模拟IDC Spark读写MaxCompute实践 2022-07-07 Unload。更新说明支持使用Unload函数从MaxCompute导出数据到OSS时，自定义设置...

创建EMR Impala节点

您可以创建EMR（E-MapReduce）Impala节点，对PB级大数据进行快速、实时的交互式SQL查询。前提条件数据开发（DataStudio）中已创建业务流程。数据开发（DataStudio）基于业务流程对不同开发引擎进行具体开发操作，所以您创建节点前需要先...

创建Hive数据源

通过创建Hive数据源能够实现Dataphin读取Hive的业务数据或向Hive写入数据。本文为您介绍如何创建Hive数据源。背景信息 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供SQL查询功能。Hive用于转化...

从Oracle迁移应用至阿里云PolarDB全流程指南

数据传输DTS：数据传输服务（Data Transmission Service）DTS支持关系型数据库、NoSQL、大数据（OLAP）等数据源间的数据传输。它是一种集数据迁移、数据订阅及数据实时同步于一体的数据传输服务。数据传输致力于在公共云、混合云场景下，...

快速体验

数据治理：大数据开发治理平台 DataWorks数据质量（必选）、大数据开发治理平台 DataWorks数据地图（必选）、大数据开发治理平台 DataWorks数据保护伞（必选），基础版DataWorks已包含。数据展示：智能分析套件Quick BI（必选），您可根据...

MMA概述

MMA迁移作业方案本文为您介绍Hadoop数据迁移至MaxCompute的两种迁移方案，您可以根据实际情况选择。迁移链路一专线场景下，支持通过MMA迁移Hive数据至MaxCompute。迁移方案如下图所示。迁移链路二无专线场景下，支持通过闪电立方迁移...

功能特性

EMR on ECS 功能集功能功能描述参考文档集群管理创建集群您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架，以进行大规模数据处理和分析等操作。创建集群释放集群在完成EMR集群任务后及时释放集群，可以释放资源...

从自建HDFS迁移数据

本章介绍如何将在开源HDFS的数据平滑地迁移到Lindorm的文件引擎中。背景介绍在某些场景下面，我们需要从自建的Hadoop中存储的数据迁移到Lindorm的文件引擎当中。适用范围阿里云ECS自建Hadoop集群中的数据迁移到文件引擎。准备工作开通...

E-MapReduce弹性低成本离线大数据分析

离线大数据分析概述主流的三大分布式计算框架系统分别为Hadoop、Spark和Storm：Hadoop可以运用在很多商业应用系统，可以轻松集成结构化、半结构化以及非结构化数据集。Spark采用了内存计算，允许数据载入内存作反复查询，融合数据仓库、流...

创建EMR Hive节点

您可以创建EMR（E-MapReduce）HIVE节点，通过类SQL语句协助读写、管理存储在分布式存储系统上的大数据集的数据仓库，完成海量日志数据的分析和开发工作。前提条件数据开发（DataStudio）中已创建业务流程。数据开发（DataStudio）基于业务...

数据集成支持的数据源

实时集成适用于将来源端数据源中整库或全部表的数据变化实时集成至目标端数据源中，实现来源端数据源与目标端数据源实时地保持数据同步。离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hive 支持 ...

导出数据建模基础信息

支持您通过导出数据建模基础信息功能，下载数据建模基础信息到本地进行查看并搭配导入功能，您可以快速实现工作组间的数据建模基础信息迁移。本文介绍如何导出数据建模基础信息。前提条件已存在数据建模基础信息，具体操作，请参见新建...

导出数据建模基础信息

支持您通过导出数据建模基础信息功能，下载数据建模基础信息到本地进行查看并搭配导入功能，您可以快速实现工作组间的数据建模基础信息迁移。本文介绍如何导出数据建模基础信息。前提条件已存在数据建模基础信息，具体操作，请参见新建...

什么是MaxCompute

MaxCompute是适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效...

可视分析创作间和传统BI软件差异比较

传统BI软件数据源数据连接类型：支持Excel上传，支持数据库连接数据连接类型：支持Excel上传，支持数据库连接支持临时业务数据，也支持建模后的数据内容通常需要前期IT人员完成数据建模数据采集和准备零代码创建数据集，自动数据...

Hadoop集群迁移至DataLake集群

本文将详细阐述如何将您已有的旧版数据湖集群（Hadoop），高效地迁移至数据湖集群（DataLake），以下分别简称“旧集群”和“新集群”。迁移过程将充分考虑旧集群的版本、元数据类型以及存储方式，并针对这些因素，提供适应新集群的迁移策略...

典型场景

大数据分析平台对于MaxCompute、Hadoop和Spark中保存的海量数据，可通过采用数据集成服务（DataX）或通过对象存储服务（OSS），快速批量导入到云原生数据仓库AnalyticDB PostgreSQL版，帮助您实现高性能分析处理和在线数据探索。数据湖...

术语表

MaxCompute支持的数据类型版本及各版本的数据类型列表，请参见数据类型版本说明。DDL Data Definition Language，数据定义语言。例如创建表、创建视图等操作。更多DDL语法信息，请参见 DDL语句。DML Data Manipulation Language，数据操作...

Hudi

完善的数据连通性对接多个阿里云大数据计算分析引擎，数据与计算引擎解耦，可以在Flink、Spark、Presto或Hive间无缝流转。深度打磨DB入湖场景与Flink CDC连接器联动，降低开发门槛。提供企业级特性包括集成DLF统一元数据视图、自动且轻...

应用场景

数据分析云服务器ECS提供了大数据类型实例规格族，支持Hadoop分布式计算、日志处理和大型数据仓库等业务场景。由于大数据类型实例规格采用了本地存储的架构，云服务器ECS在保证海量存储空间、高存储性能的前提下，可以为云端的Hadoop集群...

什么是数据资源平台

阿里云数据资源平台是数据资产定义、加工、管理、服务的全流程平台，提供数据同步、数据查询、数据标准、数据建模、数据加工、质量评估、业务模型构建、资产管理、数据服务等功能，为智能数据应用持续稳定供给全量、标准、干净、智能的数据...

新建数据字典

数据字典管理支持创建并维护数据模型中使用的数据字典，制定并管理平台遵循的统一数据标准，为数据元、指标、维度的值域设置中引用数据字典提供数据基础，帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。本文为您介绍如何...

新建数据字典

数据字典管理支持创建并维护数据模型中使用的数据字典，制定并管理平台遵循的统一数据标准，为数据元、指标、维度的值域设置中引用数据字典提供数据基础，帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。本文为您介绍如何...

通过Spark导入数据

云数据库 SelectDB 版支持通过Spark SelectDB Connector，利用Spark的分布式计算能力导入大批量数据。本文介绍使用Spark SelectDB Connector同步数据至云数据库 SelectDB 版的基本原理和使用方式。功能介绍 Spark SelectDB Connector是...

产品整体介绍

云原生数据仓库AnalyticDB PostgreSQL版提供PB级数据实时交互式分析、ETL/ELT、BI报表展示功能，支持数据高吞吐实时写入与批量导入，提供ACID保证和标准事务隔离级别，采用MPP全并行架构，是一款具有高性价比的云原生数仓产品，提供基于...

数据读取

本文介绍如何通过开源大数据平台 EMR（E-MapReduce）控制台，快速创建一个 EMR 集群并使用Spark3读取表格存储的数据。前提条件已使用阿里云账号对 EMR 服务授权。具体操作，请参见角色授权。已创建表格存储数据表。具体操作，请参见...

公共规范

本文为您介绍建设MaxCompute数据仓库的公共规范。层次调用约定应用层应优先调用公共层数据，必须存在中间层CDM数据，不允许应用层跨过中间层CDM从ODS层重复加工数据。中间层CDM需要积极了解应用层数据的建设需求，将公用的数据沉淀到公共...

新建数据建模基础信息

当默认的数据建模基础信息不满足要求时，可以为逻辑表添加自定义属性。本文介绍如何新建数据建模基础信息。背景信息可根据需要同时新建多个数据建模基础信息供新建逻辑表时使用。操作步骤登录数据资源平台控制台。在页面左上角，单击 ...

新建数据建模基础信息

当默认的数据建模基础信息不满足要求时，可以为逻辑表添加自定义属性。本文介绍如何新建数据建模基础信息。背景信息可根据需要同时新建多个数据建模基础信息供新建逻辑表时使用。操作步骤登录企业数据智能平台。在页面左上角，单击图标...

Jindo DistCp场景化使用指导

如果要Copy的所有文件中小文件的占比较高，大文件较少，但是单个文件数据较大，在正常流程中是按照随机方式来进行Copy文件分配，此时如果不做优化很可能造成一个Copy进程分配到大文件的同时也分配到很多小文件，不能发挥最好的性能。...

Jindo DistCp场景化使用指导

如果要Copy的所有文件中小文件的占比较高，大文件较少，但是单个文件数据较大，在正常流程中是按照随机方式来进行Copy文件分配，此时如果不做优化很可能造成一个Copy进程分配到大文件的同时也分配到很多小文件，不能发挥最好的性能。...

Jindo DistCp场景化使用指导

如果要Copy的所有文件中小文件的占比较高，大文件较少，但是单个文件数据较大，在正常流程中是按照随机方式来进行Copy文件分配，此时如果不做优化很可能造成一个Copy进程分配到大文件的同时也分配到很多小文件，不能发挥最好的性能。...

Jindo DistCp场景化使用指导

如果要Copy的所有文件中小文件的占比较高，大文件较少，但是单个文件数据较大，在正常流程中是按照随机方式来进行Copy文件分配，此时如果不做优化很可能造成一个Copy进程分配到大文件的同时也分配到很多小文件，不能发挥最好的性能。...

配置同步任务

数据库类型数据源关系型数据库 MySQL、Oracle、Microsoft SQL Server、PostgreSQL、AnalyticDB for PostgreSQL 开源大数据数仓存储 Hive、TDH Inceptor 说明 HBase作为数据源或者目标数据源，支持的版本为HBase V1.1.x、HBase V0.94.x。...

操作流程

新建数据字典并物理化通过新建并维护数据模型中使用的数据字典，制定并管理平台遵循的统一数据标准，为数据元、指标、维度引用数据字典提供数据基础，帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。具体操作，请参见新建...

hadoop大数据零基础高端实战培训

新品推荐