大数据平台如何构建-大数据平台如何构建文档介绍内容-阿里云

MaxCompute湖仓一体概述

本文介绍如何通过MaxCompute和异构数据平台构建湖仓一体（本功能处于公测阶段）。湖仓一体搭建 MaxCompute湖仓一体方案通过数据仓库MaxCompute和数据湖共同实现。当前支持的湖仓一体构建方式如下：通过MaxCompute、数据湖构建DLF和对象存储...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

DataWorks交流钉钉群

DataWorks作为阿里云大数据平台操作系统，对接各种大数据计算引擎，以all in one box的方式提供专业高效、安全可靠的全域智能大数据平台，高效率完成数据全链路研发流程，建设企业数据治理体系，同时提供优质高效的交流服务，本文为您介绍...

什么是阿里云Cloudera CDP

企业数据云平台Cloudera Data Platform（简称阿里云CDP），是阿里云和Cloudera联合打造的阿里云上的大数据平台。Cloudera CDP企业数据云平台 Cloudera企业数据云是社区版CDH的全新商业化升级产品，是阿里云和Cloudera联合打造阿里云上的大...

发展历程

关键性里程碑 2009年9月，ODPS（即现在的MaxCompute）大数据平台飞天项目正式启动。2010年10月，阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月，平台的单集群规模已达到5000台。2014年7月，平台开始对外提供服务，完全替换...

快速体验

大数据存储与计算：云原生大数据计算服务 MaxCompute（必选）、实时数仓Hologres（可选）、开源大数据平台E-MapReduce（可选），您可根据需要开通MaxCompute、Hologres或E-MapReduce。数据开发与调度：大数据开发治理平台 DataWorks数据...

新功能发布记录

2021-12-21 模型查看器 v6.0 DataV发布全新V6.0版本发布五大新功能适用用户：数据集及BI映射：企业版及以上用户区块管理：专业版及以上用户设计资产：企业版及以上用户空间构建平台：需线下咨询购买数据映射系统；BI分析功能帮助用户...

通用数据开发

说明上图中，虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示：数据产生：业务系统每天会产生大量结构化的数据，存储在业务系统所对应的数据库中，包括MySQL、Oracle和RDS等类型。数据收集与存储：您需要同步...

基于MaxCompute进行大数据BI分析

通过MaxCompute、AnalyticDB MySQL强大的数据加工和分析能力，降低大数据平台建设的门槛，轻松解决了海量数据的计算问题。同时有效降低企业成本，并保障数据安全。与第三方开源生态无缝对接，在不侵入用户应用的情况下，传输日志至日志服务...

典型场景

基于湖构建数据平台，支持BI、挖掘等业务对象存储OSS可以作为湖存储，DLA基于OSS构建一站式的大数据平台。具体包括构建数据湖、数据ETL、交互式查询、机器学习等功能。构建数据湖实时数据湖：支持DB的CDC与消息数据（如Kafka）入湖，构建...

数仓构建流程

下图为MaxCompute数据仓库构建的整体流程。基本概念在正式学习本教程之前，您需要首先理解以下基本概念：业务板块：比数据域更高维度的业务划分方法，适用于庞大的业务系统。维度：维度建模由Ralph Kimball提出。维度模型主张从分析决策的...

项目分配与安全

在为企业级大数据平台创建项目时，建议您对ODS层、DWD及DWS层的数据按照业务板块的粒度建立项目，对于ADS层的数据，按照应用的粒度建立项目。项目分配在本教程中，建议参考下图建立您的MaxCompute项目，图中的每一个方块代表一个项目。...

Flink VVP+DLF数据入湖与分析实践

背景信息阿里云实时计算Flink版是一套基于Apache Flink构建的实时大数据分析平台，支持多种数据源和结果表类型。Flink任务可以利用数据湖统一存储的优势，使用Hudi结果表或Iceberg结果表，将作业的结果输出到数据湖中，实现数据湖分析。在...

审批中心概述

您可以直接使用DataWorks官方提供的扩展程序来对高危行为进行管控，也可以基于DataWorks开放平台自行开发、部署能够应对更加复杂场景的扩展程序作为风险识别规则，从而将自身企业内部风控平台能力延伸至云上DataWorks大数据平台。...

DLF统一元数据

背景信息阿里云数据湖构建是一款全托管的快速帮助用户构建云上数据湖的服务，产品为云原生数据湖提供了统一的元数据管理、统一的权限与安全管理、便捷的数据入湖能力以及一键式数据探索能力，详细信息请参见数据湖构建产品简介。...

通过阿里云Milvus与PAI搭建高效的检索增强生成（RAG）...

其中，检索部分采用了高效的向量检索引擎和向量数据库技术，例如基于开源库Faiss、Annoy以及HNSW算法优化构建的Milvus系统，极大地提升了对大规模数据进行快速检索和精确分析的能力。这样的设计使得RAG能够在必要时即时调用相关领域或最新...

配置DataHub输出

DataHub是流式数据（Streaming Data）的处理平台，为您提供发布、订阅和分发流式数据的功能，让您可以轻松构建基于流式数据的分析和应用。前提条件配置DataHub输出节点前，您需要先配置好相应的输入或转换数据源，实时同步支持的数据源。...

常见问题

数据湖后端存储使用OSS，用户使用数据湖构建面向大数据分析和机器学习场景可以获得集中式权限管理和统一的元数据视图，更容易对接云上大数据和分析产品。什么情况下我需要使用数据湖构建？在云上有数据分析和机器学习需求，希望构建云上的...

选型配置说明

HDFS、YARN、Hive、Spark、Presto、Impala、JindoData、DeltaLake、Hudi、Iceberg、OpenLDAP、Knox、Kyuubi等 Dataflow 实时数据流场景，其中核心组件Flink是阿里云提供的基于Apache Flink...-MapReduce Hadoop构建的企业级大数据计算平台...

定义维度与构建总线矩阵

明确每个数据域下有哪些业务过程后，您需要开始定义维度，并基于维度构建总线矩阵。定义维度在划分数据域、构建总线矩阵时，需要结合对业务过程的分析定义维度。以本教程中A电商公司的营销业务板块为例，在交易数据域中，我们重点考察确认...

EMR元数据迁移到数据湖构建（DLF）

适用场景从其他大数据集群迁移到阿里云E-MapReduce产品。从阿里云EMR老集群（MySQL做元数据），整体集群需要迁移到阿里云EMR新集群（DLF做元数据）。从阿里云EMR老集群（MySQL做元数据），仅元数据修改为DLF。说明仅EMR-3.33及后续版本、...

基于AnalyticDB构建企业数仓

本文将为您介绍如何基于AnalyticDB构建企业数仓，并进行运维和元数据管理等操作。开始本文的操作前，请首先创建工作空间，详情请参见创建工作空间。配置AnalyticDB for MySQL 2.0数据源进入数据源页面。登录 DataWorks控制台，切换至目标...

DLF数据访问权限控制

背景信息首次通过DataWorks管控数据湖构建平台（DLF）权限时，DataWorks会提示您授权DtaWorks访问数据湖构建的相关权限。授权时，系统会自动创建一个服务关联角色 AliyunServiceRoleForDataWorksAccessDLF。关于 ...

计算设置概述

华为 FusionInsight 8.x Hadoop 华为推出的基于Apache开源社区软件进行功能增强的企业级大数据存储、查询和分析的大数据平台。亚信DP5.3 Hadoop 基于开源生态，依托电信级技术能力构建的大数据生产运营一体化支撑平台。星环ArgoDB ...

数据服务：低成本快速发布API

DataWorks的数据服务功能模块是灵活轻量、安全稳定的数据API构建平台，旨在为企业提供全面的数据共享能力，帮助用户从发布审批、授权管控、调用计量、资源隔离等方面实现数据价值输出及共享开放。功能概述作为数据仓库与上层应用系统间的...

支持倚天云服务器

阿里云E-MapReduce支持使用倚天云服务器构建开源大数据集群。适用客户全网用户新增功能/规格阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助用户...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

DataWorks模块使用说明

使用流程概览：参考文档：DataWorks数据建模子模块：数据开发（DataStudio）功能说明：数据开发（DataStudio）是一站式大数据开发平台，支持在线开发MaxCompute、EMR、Hologres、CDP、ADB等多种大数据引擎的数据处理任务。它集成了强大的...

数仓场景：即席查询

本文通过示例为您介绍如何基于StarRocks的视图能力构建数仓场景-即席查询解决方案。前提条件已创建DataFlow或自定义集群，具体操作请参见创建集群。已创建StarRocks集群，具体操作请参见创建StarRocks集群。已创建RDS MySQL，具体操作请...

图层配置项说明

数据图元三维图标图层数据面板示例配置空间构建数据源如果您在创建三维城市项目时，使用了空间构建数据 模式，并且项目内包含各种适用业务展示图层效果的空间数据内容。在场景编辑器内配置图层的数据面板时，您还可以使用空间构建数据...

数仓场景：增量数据实时统计

本文通过示例为您介绍如何基于StarRocks构建数仓场景-增量数据实时统计。前提条件已创建DataFlow或自定义集群，具体操作请参见创建集群。已创建StarRocks集群，具体操作请参见创建StarRocks集群。已创建RDS MySQL，具体操作请参见创建...

Kyuubi概述

使用场景交互式分析：利用Kyuubi可以构建企业级分析平台，用于对大数据进行交互式可视化分析，支持常见的计算框架。Kyuubi支持JDBC和ODBC接口，您可以直接通过SQL或通过BI工具来访问Kyuubi并高效地运行查询。Kyuubi可以在用户级别缓存后台...

图层配置项说明

数据图元三维图标图层数据面板示例配置空间构建数据源如果您在创建三维城市项目时，使用了空间构建数据 模式，并且项目内包含各种适用业务展示图层效果的空间数据内容。在场景编辑器内配置图层的数据面板时，您还可以使用空间构建数据...

图层配置项说明

数据图元三维图标图层数据面板示例配置空间构建数据源如果您在创建三维城市项目时，使用了空间构建数据 模式，并且项目内包含各种适用业务展示图层效果的空间数据内容。在场景编辑器内配置图层的数据面板时，您还可以使用空间构建数据...

图层配置项说明

配置空间构建数据源如果您在创建三维城市项目时，使用了空间构建数据 模式，并且项目内包含各种适用业务展示图层效果的空间数据内容。在场景编辑器内配置图层的数据面板时，您还可以使用空间构建数据源的内容。以区域柱状图对应数据...

冷热分层

更多介绍请参见结构化大数据分析平台设计、面向海量数据的极致成本优化-云HBase的一体化冷热分离和云上如何做冷热数据分离。冷热数据数据按照实际访问的频率可以分为热数据、温数据和冷数据。其中冷数据的数据量较大，很少被访问，甚至...

DataWorks On EMR使用说明

背景信息开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。阿里云...

大数据平台如何构建

新品推荐