大数据体系架构-大数据体系架构文档介绍内容-阿里云

整体架构

湖仓版（3.0）架构如下：数据源数据管道APS可以一键低成本接入数据库、日志、大数据中的数据。存储层+计算层支持自研引擎，羲和计算引擎和玄武存储引擎。新增集成的开源引擎，Spark计算引擎和Hudi存储引擎。可以借助开源的能力为您提供更...

需求分析

本实验提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。业务背景为了更好的制定企业经营策略，现需要从用户网站行为中获取网站用户群体基本画像数据，例如，用户群体地理属性、社会属性等，...

需求分析

本实验提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。业务背景为了更好的制定企业经营策略，现需要从用户网站行为中获取网站用户群体基本画像数据，例如，用户群体地理属性、社会属性等，...

数据集成支持的数据源

支持 NoSQL数据源 Elasticsearch 支持支持 MongoDB 支持支持 Tablestore 支持支持 Aliyun HBase 不支持不支持 Redis 支持不支持 Lindorm 不支持不支持半结构化存储数据源 API 支持支持 SAP Table 支持不支持整库迁移支持的数据源...

创建GreenPlum数据源

其架构主要针对管理大规模分析型数据仓库以及商业智能工作负载而设计。更多详情，请参见 GreenPlum官网。使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。超级管理员、数据源管理员角色添加与...

受众与核心能力

产品定位 DataWorks致力于为数据开发者、数据分析师、数据资产管理者，打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台，即可实现数据...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

EMR+DLF数据湖解决方案

通过EMR+DLF数据湖方案，可以为企业提供数据湖内的统一的元数据管理，统一的权限管理，支持数据湖的多种管理如数据生命周期，湖格式自动优化，存储分析等。同时支持多源数据入湖以及一站式数据探索的能力。本文为您介绍EMR+DLF数据湖方案...

创建GreenPlum数据源

其架构主要针对管理大规模分析型数据仓库以及商业智能工作负载而设计。更多详情，请参见 GreenPlum官网。使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。超级管理员、数据源管理员角色添加与...

资产全景

在流动页面，为您可视化展示数据引入、物理表数和逻辑表数，为您提供数据输出后的数据查询及应用功能：将鼠标悬停在数据引入模块上，为您展示的数据源个数、数据表接入量Top5 和数据表接入量Least5。数据源：统计昨天有数据同步...

产品架构

本文将介绍数据传输服务的整个系统架构及基本实现原理。系统架构 DTS系统架构特性说明系统高可用数据传输服务内部每个模块都有主备架构，保证系统高可用。容灾系统实时检测每个节点的健康状况，一旦发现某个节点异常，会将链路快速切换到...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

资产全景

在流动页面，为您可视化展示数据引入、物理表数和逻辑表数，为您提供数据输出后的数据查询及应用功能：将鼠标悬停在数据引入模块上，为您展示的数据源个数、数据表接入量Top5 和数据表接入量Least5。数据源：统计昨天有数据同步...

减灾与应急时空解决方案与案例

公司主营OpenRIS灾害风险大数据平台提供了海量灾害数据的快速地图展示、统计查询、切割下载、上传数据定制化在线分析等功能，实现了灾害数据与模型一体化云服务。在数据与系统上云过程前，遇到了如下挑战：长期积累的时空数据类型多、数据...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

导出结构和数据

背景信息 ODC 支持批量导出数据库对象的结构和数据。通过 ODC 导出任务可以分别导出数据库对象的结构和数据、仅导出数据或者仅导出结构。导出结构和数据：同时导出数据库对象的定义语句及其数据。仅导出数据：仅导出表/视图对象的数据。仅...

产品优势

产品功能全功能涵盖数据传输、开发、生产、治理、安全全领域，每个领域深度覆盖大数据全生命周期，轻松帮助企业应对在搭建数仓、搭建数据中台、数字化转型项目中遇到的难题。支持复杂网络环境、常见数据源的数据同步上云以及实时、历史...

产品简介

阿里云数据湖构建（Data Lake Formation，简称 DLF）是一款全托管的快速帮助用户构建云上数据湖及Lakehouse的服务，为客户提供了统一的元数据管理、统一的权限与安全管理、便捷的数据入湖能力以及一键式数据探索能力。DLF可以帮助用户快速...

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hive 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 Kudu 支持支持 StarRocks 支持支持 Hudi 支持支持 Doris 支持支持 ...

概述

云数据库Redis版（ApsaraDB Redis）是兼容开源Redis协议标准、提供混合存储的数据库服务，基于双机热备架构及集群架构，可满足高吞吐、低延迟及弹性变配等业务需求。硬件部署在云端，提供完善的基础设施规划、网络安全保障和系统维护服务，...

物联网设备数据上云存储

业务基于 TSDB 进行数据分析、监控和大数据分析。物联网平台规则引擎物联网设备基于消息 Topic 进行通信，使用规则引擎对 Topic 中的数据进行处理然后转发到 TSDB。只需要在规则引擎中配置一些简单的规则，就可以将设备数据存储到指定的...

概述

列存架构架构理念随着云原生技术的不断普及，以Snowflake为代表的新一代云原生数仓以及数据库HTAP架构不断创新，可见在未来一段时间后行列混存HTAP将会成为一个数据库的标配能力，需要在当前数据库列存设计中面向未来的低成本、易用性、...

典型场景

典型场景数据仓库服务您可以通过数据传输服务（DTS）或数据集成服务（DataX），将云数据库（例如RDS、PolarDB）或自建数据库批量同步到云原生数据仓库AnalyticDB PostgreSQL版。云原生数据仓库PostgreSQL版支持对海量数据的复杂ETL进行...

实验介绍

数据采集数据加工配置数据质量监控数据可视化展现目标人群开发工程师、数据分析师、产品运营等存在数仓数据获取与数据分析洞察人员。涉及产品本案例涉及以下产品：一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集，...

步骤二：规划数仓

数仓规划是基于Dataphin建设数据中台的第一步，同时也是数据体系的顶层设计中至关重要的一步。在开始数据开发前，需要完成数据仓库的规划，包括定义数据板块、项目、数据源、计算源和统计周期。本文将指导您完成本教程的规划数仓。背景信息...

步骤二：规划数仓

数仓规划是基于Dataphin建设数据中台的第一步，同时也是数据体系的顶层设计中至关重要的一步。在开始数据开发前，需要完成数据仓库的规划，包括定义数据板块、项目、数据源、计算源和统计周期。本文将指导您完成本教程的规划数仓。背景信息...

Trino概述

支持丰富的数据源：Hive Cassandra Kafka MongoDB MySQL PostgreSQL SQL Server Redis Redshift 本地文件支持高级数据结构，具体如下：数组和Map数据 JSON数据 GIS数据颜色数据功能扩展能力强，提供了多种扩展机制：扩展数据连接器 ...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据...

外部表概述

外部表示例您可以通过以下示例，深入了解通过MaxCompute外部表功能处理各种非结构化数据的方法：访问OSS和TableStore（OTS）非结构化数据，请参见访问OSS非结构化数据和访问OTS非结构化数据。外部表访问OSS的账号，在RAM中自定义授权...

Presto概述

支持高级数据结构，具体如下：数组和Map数据 JSON数据 GIS（Geographic Information System）数据颜色数据功能扩展能力强，提供了多种扩展机制：扩展数据连接器自定义数据类型自定义SQL函数流水线：基于Pipeline处理模型数据在处理...

Delta Lake概述

Delta Lake以数据为中心，围绕数据流走向（数据从流入数据湖、数据组织管理和数据查询到流出数据湖）推出了一系列功能特性，协助您搭配第三方上下游工具，搭建快捷、易用和安全的数据湖。背景信息通常的数据湖方案是选取大数据存储引擎...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多信息，请参见 Apache Hudi官网。权限说明仅支持超级管理员、数据源管理员、...

识别任务说明

文件或表扫描限制为了避免数据源中文件或表过大影响整体扫描进度，数据安全中心对可以扫描的文件大小或表的字段大小做了限制，请您在进行敏感数据扫描前了解以下规则：结构化数据（RDS MySQL、RDS PostgreSQL、PolarDB等）、大数据...

快速入门

作为学院派关系型数据库管理系统的鼻祖，它的优点主要集中在对SQL规范的完整实现以及丰富多样的数据类型支持，包括JSON数据、IP数据和几何数据等，而大部分商业数据库都不支持这些数据类型。除了完美支持事务、子查询、多版本控制（MVCC）...

用户价值

数据资源平台为用户提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

创建Impala数据源

权限说明 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。使用限制 Dataphin的Impala数据源的数据集成使用JDBC的方式进行集成，因此性能相较于Hive较差，若您集成的表为非Kudu表，您可使用Hive数据源及...

数据集成

数据源支持情况数据集成目前支持40种以上的数据源类型（包括关系型数据库、非结构化存储、大数据存储、消息队列等），通过定义来源与去向数据源，并使用数据集成提供的数据抽取插件（Reader）、数据写入插件（Writer），实现任意结构化、...

应用场景

阿里云开源大数据平台E-MapReduce（简称EMR）具有广泛的应用场景。本文为您介绍EMR的主要应用场景。数据湖场景 DataLake集群类型提供了数据湖分析场景所需的服务和相关湖格式，包括Hadoop、OSS-HDFS、Hive、Spark、Presto等。通过选择OSS-...

新建Doris数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可根据标签给数据源进行分类...

新建Doris数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可根据标签给数据源进行分类...

大数据体系架构

新品推荐