大数据产品经理-大数据产品经理文档介绍内容-阿里云

数据资产等级定义

例如，一个A2等级的数据应用产品对应的导出表Table1、Table2、Table3，几个表都打上 A2-xxx 数据产品标记。根据血缘往上追溯，将这几个表的上游都打上A2的标记，一直标记到源数据业务系统，如图所示。icmsDocProps={'productMethod':'...

生态集成

云原生数据仓库AnalyticDB PostgreSQL版具备完善和开放的生态系统，支持无缝对接业界以及阿里云生态的数据管理工具，BI报表可视化工具，ETL工具，数据迁移工具，同时可以与业界流行的流式处理系统，日志类系统，大数据类系统，传统数仓及...

面临的业务挑战

数据来源上包含数据库数据、日志数据、对象数据以及已有数仓上的存量数据等。这些不同来源、不同格式的数据，各自又有不同的访问和分析方式，而大量传统企业基于关系数据库构建自己的业务系统，已经非常熟悉按SQL的方式去使用数据，这无疑...

数据标准

数据是由特定的环境产生的，这些环境因素包括生产者、时间、系统等，从而造成了同一个语义的数据，有...说明目前使用DDM进行数据建模可以进行逻辑建模和物理建模，但物理建模仅支持MaxCompute和Hive两种大数据引擎，不支持自定义数据源类型。

数据模型概述

DDM目前支持逻辑模型和物理模型建模，其中物理模型又分为关系型数据模型和非关系型数据模型，支持的大数据引擎为MaxCompute、Hive。说明 Hadoop的MR调优参数属于底层，DDM是数据建模工具，支持设置表、字段等物理属性。

技术发展趋势

规模爆炸性增长随着8K、5G、IoT、大数据、AI等系列技术的发展，数据量迎来了爆发式增长。IDC在《Data Age 2025》的报告中预测，从2018年到2025年，全球数据将从33ZB急速增长到175ZB，比2016年产生的数据量增加了十倍。这表明注重数据价值...

概述

EMR数据开发于2022年2月21日停止功能更新，2023年9月30日停止全面支持。如果您在2022年2月21日21点前未使用过数据开发功能，推荐您通过EMR Workflow进行...您也可以迁移到大数据开发治理平台DataWorks，详情请参见 EMR数据开发停止更新公告。

支持的数据库类型

数据安全中心DSC（Data Security ...PolarDB O引擎非关系型数据库 MongoDB Redis 大数据 TableStore（仅政务云）MaxCompute AnalyticDB MySQL版 AnalyticDB PostgreSQL版非结构化数据库 OSS 自建数据库 MySQL SQL Server PostgreSQL Oracle

产品架构

从上图可以看出EMR由四部分组成：社区开源产品集成Apache社区开源大数据组件，例如Hadoop、Hive和HBase，随着EMR版本更新，开源软件也会相应的升级，详情请参见版本概述下各版本的版本说明。注意已经创建好的EMR集群不支持组件升级。...

客户案例

MaxCompute已被广泛应用于各大领域处理云上大数据，帮助众多企业解决了海量数据分析问题，同时降低企业运维成本，企业人员可更专注于业务开发。本文为您介绍MaxCompute的精选客户案例。MaxCompute的全量客户案例信息，请参见行业客户案例...

概述

解决方案 T+1全量同步一键建仓是指通过DLA控制台配置数据源（RDS、PolarDB for MySQL、MongoDB数据源、ECS自建数据库数据）和目标OSS数据仓库，系统按照您设定的数据同步时间自动、无缝的帮您把数据源中的数据同步到目标数据仓库OSS中，...

典型场景

基于湖构建数据平台，支持BI、挖掘等业务对象存储OSS可以作为湖存储，DLA基于OSS构建一站式的大数据平台。具体包括构建数据湖、数据ETL、交互式查询、机器学习等功能。构建数据湖实时数据湖：支持DB的CDC与消息数据（如Kafka）入湖，构建...

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 StarRocks 支持不支持 Hudi 支持支持 Doris 支持不支持 GreenPlum 支持支持 TDengine ...

应用场景

Databricks数据洞察（简称DDI）的核心引擎是Databricks Runtime和Databricks Delta ...实时数仓利用Databricks Delta Lake的ACID事务特性，可以构建云上大数据的实时数仓。icmsDocProps={'productMethod':'created','language':'zh-CN',};

数据分析作业

MaxCompute是适用于数据分析场景的企业级SaaS模式云数据仓库，支持在多种工具上使用MaxCompute运行大数据计算分析作业。如果您需要进行简单的查询等数据分析作业，推荐您使用SQL查询或DataWorks的临时查询等工具，高效便捷地完成数据分析...

应用场景

大数据场景云数据库HBase支持海量全量数据的低成本存储、快速批量导入和实时访问，具备高效的增量及全量数据通道，可轻松与Spark、MaxCompute等大数据平台集成，完成数据的大规模离线分析。优势如下：低成本：高压缩比，数据冷热分离，...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

概述

背景信息在大数据生态系统中，Alluxio位于数据驱动框架或应用（例如Apache Spark、Presto、TensorFlow、Apache Flink和Apache Hive等）和各种持久化存储系统（例如HDFS和阿里云OSS）之间，使得上层的计算应用可以通过统一的客户端API和...

应用场景

云数据库MongoDB版支持单节点、副本集和分片集群三种部署架构，具备安全审计、时间点备份等多项企业能力。在互联网、物联网、游戏、金融等...大数据应用：使用云数据库MongoDB作为大数据的云存储系统，随时进行数据提取分析，掌握行业动态。

功能简介

数据探索（Data Discovery）是一款面向业务人员的业务模型（智能数据与智能算子组装）编排、调试、运行及运营管理产品，旨在将“大数据”变成“人人都可用的大数据”。数据探索面向行业客户和业务人员，提供工具内容一体化的业务模型构建...

数据导入概览

从阿里云对象存储OSS导入数据至图数据库GDB实例图数据库GDB服务端集成有数据导入模块，可以获取您提供的.csv格式的OSS数据文件，并将其解析为图中的点数据和边数据，然后将点数据和边数据导入至图数据库GDB实例。步骤步骤说明 ① 将需要...

概述

DataWorks的安全中心作为云上大数据体系的安全门户，致力于向您提供面向数据安全生命周期全过程的安全能力，同时在符合安全规范要求的前提下，提供各类安全诊断的最佳实践。其核心功能如下：数据权限管理安全中心为您提供精细化的数据权限...

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hive 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 Kudu 支持支持 StarRocks 支持支持 Hudi 支持支持 Doris 支持支持 ...

创建GreenPlum数据源

通过创建GreenPlum数据源能够实现Dataphin读取GreenPlum的业务数据或向GreenPlum写入数据。本文为您介绍如何创建GreenPlum数据源。背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

应用场景

物联网设备无时无刻不在产生海量的设备状态数据和业务消息数据，这些数据有助于进行设备监控、业务分析预测和故障诊断。背景信息设备将原始数据通过 MQTT 协议发送到物联网平台，经由物联网平台将数据转发到消息服务系统，继而通过流计算...

MaxFrame概述

您可以用更熟悉、高效、便捷的方式利用MaxCompute的海量计算资源及数据进行大规模数据处理、可视化数据探索分析以及科学计算、ML/AI开发等工作。本文为您介绍MaxFrame背景信息、功能介绍及使用场景。版本说明当前MaxCompute MaxFrame功能...

创建GreenPlum数据源

通过创建GreenPlum数据源能够实现Dataphin读取GreenPlum的业务数据或向GreenPlum写入数据。本文为您介绍如何创建GreenPlum数据源。背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

整体架构

湖仓版（3.0）架构如下：数据源数据管道APS可以一键低成本接入数据库、日志、大数据中的数据。存储层+计算层支持自研引擎，羲和计算引擎和玄武存储引擎。新增集成的开源引擎，Spark计算引擎和Hudi存储引擎。可以借助开源的能力为您提供更...

大数据AI公共数据集分析

本教程通过DataWorks，联合云原生大数据计算服务MaxCompute，使用大数据AI公共数据集（淘宝、飞猪、阿里音乐、Github、TPC等公共数据），指导您如何快速进行大数据分析，快速熟悉DataWorks的操作界面与最基础的数据分析能力。DataWorks的更...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

数仓分层

数据应用层ADS（Application Data Service）：存放数据产品个性化的统计指标数据。根据CDM与ODS层加工生成。该数据分类架构在ODS层分为三部分：数据准备区、离线数据和准实时数据区。整体数据分类架构如下图所示。在本教程中，从交易数据...

数据库导出

当您需要进行数据库备份、导出数据库表进行数据分析等操作，您可使用数据管理DMS 的数据导出功能，该功能可通过提交工单的方式导出数据库。前提条件数据库类型如下：MySQL系列：自建MySQL、RDS MySQL、PolarDB MySQL版、AnalyticDB ...

冷热分层

背景信息在海量大数据场景下，随着业务和数据量的不断增长，性能和成本的权衡成为大数据系统设计面临的关键挑战。Delta Lake是新型数据湖方案，推出了数据流入、数据组织管理、数据查询和数据流出等特性，同时提供了数据的ACID和CRUD操作...

数仓分层

基于阿里巴巴OneData方法论最佳实践，在阿里巴巴的数据体系中，建议将数据仓库分为三层：数据引入层（ODS，Operational Data ...数据应用层（ADS，Application Data Store）：存放数据产品个性化的统计指标数据，根据CDM层与ODS层加工生成。

数仓分层

数据应用层ADS（Application Data Service）：存放数据产品个性化的统计指标数据。根据CDM与ODS层加工生成。该数据分类架构在ODS层分为三部分：数据准备区、离线数据和准实时数据区。整体数据分类架构如下图所示。在本教程中，从交易数据...

主备方案介绍

云数据库HBase存储海量大数据，在业务场景中往往承载着重要数据，为保障数据的高可用性和安全性，云数据库HBase提供了主备双活和主备容灾特性。本文介绍云数据库HBase的主备双活和主备容灾特性功能。使用场景主备双活：大数据量随机读响应...

常见术语

云原生数据湖分析（简称DLA）是新一代大数据解决方案，采取计算与存储完全分离的架构，支持数据库（RDS\PolarDB）与消息实时归档建仓，提供弹性的Spark与Presto，满足在线交互式查询、流处理、批处理、机器学习等诉求，也是传统Hadoop方案...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多信息，请参见 Apache Hudi官网。权限说明仅支持超级管理员、数据源管理员、...

大数据 产品经理

新品推荐

大数据产品经理