大数据平台建设软件-大数据平台建设软件文档介绍内容-阿里云

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户...，赋能技术团队具备大数据平台建设、架构设计、AI算法建模以及运维保障能力...

基于MaxCompute进行大数据BI分析

通过MaxCompute、AnalyticDB MySQL强大的数据加工和分析能力，降低大数据平台建设的门槛，轻松解决了海量数据的计算问题。同时有效降低企业成本，并保障数据安全。与第三方开源生态无缝对接，在不侵入用户应用的情况下，传输日志至日志服务...

DataWorks交流钉钉群

DataWorks作为阿里云大数据平台操作系统，对接各种大数据计算引擎，以all in one box的方式提供专业高效、安全可靠的全域智能大数据平台，高效率完成数据全链路研发流程，建设企业数据治理体系，同时提供优质高效的交流服务，本文为您介绍...

授权信息

本文为您介绍开源大数据平台 E-MapReduce（EMR）为RAM权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。开源大数据平台 E-MapReduce（EMR）的RAM代码（RamCode）为 emr,emr-apm-server,ecm,emr-serverless-spark,dls...

客户案例

价值体现从大数据平台上云整体“降本增效”的方案快速切入，迁移到大数据MaxCompute、实时计算、DataWorks后，部分任务有10倍以上的性能提升，存储从自建Hadoop 3PB降到900T，利用Flink实时数据处理能力，将宝宝树现有的场景实时化（...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

通用数据开发

说明上图中，虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示：数据产生：业务系统每天会产生大量结构化的数据，存储在业务系统所对应的数据库中，包括MySQL、Oracle和RDS等类型。数据收集与存储：您需要同步...

Paimon概述

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

项目分配与安全

在为企业级大数据平台创建项目时，建议您对ODS层、DWD及DWS层的数据按照业务板块的粒度建立项目，对于ADS层的数据，按照应用的粒度建立项目。项目分配在本教程中，建议参考下图建立您的MaxCompute项目，图中的每一个方块代表一个项目。...

简介

系统兼容开源GeoMesa、GeoServer等生态，内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等，结合云数据库HBase强大的分布式存储能力以及Spark分析平台能力，广泛应用于空间、时空、遥感大数据存储、查询、分析与数据挖掘...

配置DataHub输入组件

配置DataHub输入组件后，可以将DataHub数据源中的数据读取至大数据平台对接的存储系统内，并进行数据整合和二次加工。本文为您介绍如何配置DataHub输入组件。前提条件已创建离线单条管道，详情请参见通过单条管道创建集成任务。操作步骤 ...

配置DataHub输入组件

配置DataHub输入组件后，可以将DataHub数据源中的数据读取至大数据平台对接的存储系统内，并进行数据整合和二次加工。本文为您介绍如何配置DataHub输入组件。前提条件已创建离线单条管道，详情请参见通过单条管道创建集成任务。操作步骤 ...

配置DM（达梦）输出组件

配置DM（达梦）输出组件，可以将外部数据库中读取的数据写入到DM（达梦），或从大数据平台对接的存储系统中将数据复制推送至DM（达梦），进行数据整合和再加工。本文为您介绍如何配置DM（达梦）输出组件。前提条件已创建DM（达梦）数据源...

配置DataHub输出组件

配置DataHub输出组件，可以将外部数据库中读取数据写入到DataHub，或从大数据平台对接的存储系统中将数据复制推送至DataHub，进行数据整合和再加工。本文为您介绍如何配置DataHub输出组件。前提条件已创建DataHub数据源。具体操作，请参见...

配置DM（达梦）输出组件

配置DM（达梦）输出组件，可以将外部数据库中读取的数据写入到DM（达梦），或从大数据平台对接的存储系统中将数据复制推送至DM（达梦），进行数据整合和再加工。本文为您介绍如何配置DM（达梦）输出组件。前提条件已创建DM（达梦）数据源...

配置DataHub输出组件

配置DataHub输出组件，可以将外部数据库中读取数据写入到DataHub，或从大数据平台对接的存储系统中将数据复制推送至DataHub，进行数据整合和再加工。本文为您介绍如何配置DataHub输出组件。前提条件已创建DataHub数据源。具体操作，请参见...

客户案例

MaxCompute已被广泛应用于各大领域处理云上大数据，帮助众多企业解决了海量数据分析问题，同时降低企业运维成本，企业人员可更专注于业务开发。本文为您介绍MaxCompute的精选客户案例。MaxCompute的全量客户案例信息，请参见行业客户案例...

配置ArgoDB输出组件

配置ArgoDB输出组件，可以将外部数据库中读取的数据写入到ArgoDB，或从大数据平台对接的存储系统中将数据复制推送至ArgoDB，进行数据整合和再加工。本文为您介绍如何配置ArgoDB输出组件。使用限制 ArgoDB输出组件支持写入文件格式为orc、...

ClickHouse概述

开源大数据平台E-MapReduce（简称EMR）的ClickHouse提供了开源OLAP分析引擎ClickHouse的云上托管服务。EMR ClickHouse完全兼容开源版本的产品特性，同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能，并且在开源的基础...

配置API输出组件

配置API输出组件，可以将外部数据库中读取的数据写入到API，或从大数据平台对接的存储系统中将数据复制推送至API，进行数据整合和再加工。本文为您介绍如何配置API输出组件。前提条件在开始执行操作前，请确认您已完成以下操作：已创建API...

配置API输出组件

配置API输出组件，可以将外部数据库中读取的数据写入到API，或从大数据平台对接的存储系统中将数据复制推送至API，进行数据整合和再加工。本文为您介绍如何配置API输出组件。前提条件在开始执行操作前，请确认您已完成以下操作：已创建API...

应用场景

阿里云开源大数据平台E-MapReduce（简称EMR）具有广泛的应用场景。本文为您介绍EMR的主要应用场景。数据湖场景 DataLake集群类型提供了数据湖分析场景所需的服务和相关湖格式，包括Hadoop、OSS-HDFS、Hive、Spark、Presto等。通过选择OSS-...

配置Greenplum输出组件

配置Greenplum输出组件，可以将外部数据库中读取的数据写入到Greenplum，或从大数据平台对接的存储系统中将数据复制推送至Greenplum，进行数据整合和再加工。本文为您介绍如何配置Greenplum输出组件。前提条件已创建Greenplum数据源。具体...

配置Greenplum输出组件

配置Greenplum输出组件，可以将外部数据库中读取的数据写入到Greenplum，或从大数据平台对接的存储系统中将数据复制推送至Greenplum，进行数据整合和再加工。本文为您介绍如何配置Greenplum输出组件。前提条件已创建Greenplum数据源。具体...

配置Redis输出组件

配置Redis输出组件，可以将外部数据库中读取的数据写入到Redis，或从大数据平台对接的存储系统中将数据复制推送至Redis，进行数据整合和再加工。本文为您介绍如何配置Redis输出组件。前提条件在开始执行操作前，请确认您已完成以下操作：...

配置Redis输出组件

配置Redis输出组件，可以将外部数据库中读取的数据写入到Redis，或从大数据平台对接的存储系统中将数据复制推送至Redis，进行数据整合和再加工。本文为您介绍如何配置Redis输出组件。前提条件在开始执行操作前，请确认您已完成以下操作：...

审批中心概述

您可以直接使用DataWorks官方提供的扩展程序来对高危行为进行管控，也可以基于DataWorks开放平台自行开发、部署能够应对更加复杂场景的扩展程序作为风险识别规则，从而将自身企业内部风控平台能力延伸至云上DataWorks大数据平台。...

风险识别规则

您可以直接使用DataWorks官方提供的扩展程序来对高危行为进行管控，也可以基于DataWorks开放平台自行开发、部署能够应对更加复杂场景的扩展程序作为风险识别规则，从而将自身企业内部风控平台能力延伸至云上DataWorks大数据平台。...

JindoFS实战演示

云上计算云下数据：HDFS缓存加速云上计算云下数据：HDFS缓存加速 2021-06-29 随着云计算越来越成熟，带来弹性扩容、运维方便、节省成本等优点，越来越多企业开始将大数据平台搬到云上。云下的HDFS集群存在历史数据，其中可能包含敏感数据...

配置FTP输入组件

FTP输入组件适用于从FTP中将数据读取至大数据平台对接的存储系统内，进行数据整合和再加工。本文为您介绍如何配置FTP输入组件。前提条件已创建FTP数据源，详情请参见创建FTP数据源。进行FTP输入组件属性配置的账号，需具备该数据源的同步...

配置FTP输入组件

FTP输入组件适用于从FTP中将数据读取至大数据平台对接的存储系统内，进行数据整合和再加工。本文为您介绍如何配置FTP输入组件。前提条件已创建FTP数据源，详情请参见创建FTP数据源。进行FTP输入组件属性配置的账号，需具备该数据源的同步...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

DataWorks模块使用说明

使用流程概览：参考文档：数据分析概述数据治理子模块：数据地图功能说明：DataWorks数据地图提供了企业级数据管理平台，能够基于统一元数据的底层建设，提供数据对象的管理和盘点的能力，以及数据对象的快速查找和深度理解的能力。...

什么是数据资源平台

阿里云数据资源平台是数据资产定义、加工、管理、服务的全流程平台，提供数据同步、数据查询、数据标准、数据建模、数据加工、质量评估、业务模型构建、资产管理、数据服务等功能，为智能数据应用持续稳定供给全量、标准、干净、智能的数据...

选型配置说明

HDFS、YARN、Hive、Spark、Presto、Impala、JindoData、DeltaLake、Hudi、Iceberg、OpenLDAP、Knox、Kyuubi等 Dataflow 实时数据流场景，其中核心组件Flink是阿里云提供的基于Apache Flink和E-MapReduce Hadoop构建的企业级大数据计算平台...

DataWorks On EMR使用说明

模块说明相关文档数据地图 DataWorks数据地图提供了企业级数据管理平台，能够基于统一元数据的底层建设，提供数据对象的管理和盘点的能力，以及数据对象的快速查找和深度理解的能力。数据地图概述安全中心数据保护伞审批中心安全...

冷热分层

更多介绍请参见结构化大数据分析平台设计、面向海量数据的极致成本优化-云HBase的一体化冷热分离和云上如何做冷热数据分离。冷热数据数据按照实际访问的频率可以分为热数据、温数据和冷数据。其中冷数据的数据量较大，很少被访问，甚至...

大数据平台建设软件

新品推荐