大数据系统架构方案-大数据系统架构方案文档介绍内容-阿里云

数仓分层

在本教程中，从交易数据系统的数据经过DataWorks数据集成，同步到数据仓库的ODS层。经过数据开发形成事实宽表后，再以商品、地域等为维度进行公共汇总。整体的数据流向如下图所示。其中，ODS层到DIM层的ETL（萃取（Extract）、转置...

步骤三：配置节点运行配置

当输出数据结构为具体的模型结构且数据资源类型为MaxCompute、Hive、AnalyticDB PostgreSQL、PostgreSQL时，系统会自动生成节点的输出物理表，当需要修改时，可打开自定义输出以后修改。生产环境物理表所在资源生产环境中节点输出使用...

步骤三：配置节点运行配置

当输出数据结构为具体的模型结构且数据资源类型为MaxCompute、Hive、AnalyticDB PostgreSQL、PostgreSQL时，系统会自动生成节点的输出物理表，当需要修改时，可打开自定义输出以后修改。生产环境物理表所在资源生产环境中节点输出使用...

产品架构

EMR自研能力为让开源大数据组件和服务更好的运行在阿里云技术设施上，EMR自研了如下组件：数据应用平台，提供交互式开发、作业提交、作业调试和工作流一站式数据开发体验，详情请参见 EMR Studio概述。Shuffle Service是EMR在优化计算引擎...

数据扫描和识别

支持扫描的数据源类型如下：结构化数据：RDS、PolarDB、PolarDB-X、MongoDB、OceanBase、自建数据库非结构化数据：OSS 大数据：TableStore、MaxCompute、ADB-MYSQL、ADB-PG 数据源授权完成后需要多长时间完成扫描？DSC 完成数据源授权后，...

数仓分层

在本教程中，从交易数据系统的数据经过DataWorks数据集成，同步到数据仓库的ODS层。经过数据开发形成事实宽表后，再以商品、地域等为维度进行公共汇总。整体的数据流向如下图所示。其中，ODS层到DIM层的ETL（萃取（Extract）、转置...

DataWorks V3.0

E-MapReduce：E-MapReduce（Elastic MapReduce，简称EMR）构建在阿里云云服务器ECS上，基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其它周边系统（例如Hive），来分析和处理自己的数据的大数据...

资源角色

可查询实例下所有数据库中的数据（不包含敏感字段），提交各类数据方案与库表结构的工单。对应于审批节点中动态计算的DBA。实例Owner 每个实例可以设置3个实例Owner。云数据库资源默认主账号为实例Owner。非云数据库默认当前录入的云账号...

整体架构

湖仓版（3.0）架构如下：数据源数据管道APS可以一键低成本接入数据库、日志、大数据中的数据。存储层+计算层支持自研引擎，羲和计算引擎和玄武存储引擎。新增集成的开源引擎，Spark计算引擎和Hudi存储引擎。可以借助开源的能力为您提供更...

产品架构

如下图所示，与传统方案相比，Lindorm系统极大地简化数据存储技术架构设计，大幅度提升系统稳定性，降低建设成本投入。总体架构 Lindorm创新性地使用存储计算分离、多模共享融合的云原生架构，以适应云计算时代资源解耦和弹性伸缩的诉求。...

资产全景

数据经采集、集成、加工等流程处理完成后，可以在数据资产模块进行系统化管理。本文为您介绍数据资产全景的全局、流动和结构化模式。资产全景介绍资产全景页面仅为您展示生产环境中的元数据及加工所得的应用数据，包括以下三种模式：全局...

资产全景

数据经采集、集成、加工等流程处理完成后，可以在数据资产模块进行系统化管理。本文为您介绍数据资产全景的全局、流动和结构化模式。资产全景介绍资产全景页面仅为您展示生产环境中的元数据及加工所得的应用数据，包括以下三种模式：全局...

数仓分层

数据引入层（ODS，Operational Data Store，又称数据基础层）：将原始数据几乎无处理地存放在数据仓库系统中，结构上与源系统基本保持一致，是数据仓库的数据准备区。这一层的主要职责是将基础数据同步、存储到MaxCompute。数据公共层（CDM...

导入结构和数据

背景信息 ODC 支持批量导入数据库对象的结构和数据。通过 ODC 导入任务可以分别导入数据库对象的结构和数据、仅导入数据或者仅导入结构。导入结构和数据：同时导入数据库对象的定义语句及其数据。仅导入数据：仅导入表/视图对象的数据。仅...

产品简介

DLA Ganos是基于云原生数据湖分析（Data Lake Analytics，DLA）系统设计开发的，面向时空大数据存储与计算的数据引擎产品。基于DLA无服务器化（Serverless）数据湖分析服务与内置的Spark计算引擎，DLA Ganos打通了阿里云各个存储系统，如...

创建GreenPlum数据源

通过创建GreenPlum数据源能够实现Dataphin读取GreenPlum的业务数据或向GreenPlum写入数据。本文为您介绍如何创建GreenPlum数据源。背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

Delta Lake概述

Delta Lake以数据为中心，围绕数据流走向（数据从流入数据湖、数据组织管理和数据查询到流出数据湖）推出了一系列功能特性，协助您搭配第三方上下游工具，搭建快捷、易用和安全的数据湖。背景信息通常的数据湖方案是选取大数据存储引擎...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

导出结构和数据

背景信息 ODC 支持批量导出数据库对象的结构和数据。通过 ODC 导出任务可以分别导出数据库对象的结构和数据、仅导出数据或者仅导出结构。导出结构和数据：同时导出数据库对象的定义语句及其数据。仅导出数据：仅导出表/视图对象的数据。仅...

Trino概述

支持丰富的数据源：Hive Cassandra Kafka MongoDB MySQL PostgreSQL SQL Server Redis Redshift 本地文件支持高级数据结构，具体如下：数组和Map数据 JSON数据 GIS数据颜色数据功能扩展能力强，提供了多种扩展机制：扩展数据连接器 ...

识别任务说明

文件或表扫描限制为了避免数据源中文件或表过大影响整体扫描进度，数据安全中心对可以扫描的文件大小或表的字段大小做了限制，请您在进行敏感数据扫描前了解以下规则：结构化数据（RDS MySQL、RDS PostgreSQL、PolarDB等）、大数据...

Presto概述

支持高级数据结构，具体如下：数组和Map数据 JSON数据 GIS（Geographic Information System）数据颜色数据功能扩展能力强，提供了多种扩展机制：扩展数据连接器自定义数据类型自定义SQL函数流水线：基于Pipeline处理模型数据在处理...

概述

云数据库Redis版（ApsaraDB Redis）是兼容开源Redis协议标准、提供混合存储的数据库服务，基于双机热备架构及集群架构，可满足高吞吐、低延迟及弹性变配等业务需求。硬件部署在云端，提供完善的基础设施规划、网络安全保障和系统维护服务，...

同步节点

逻辑表输入表的数据格式，由数据模型定义，在下拉列表中选择，表示该计算资源中提供数据的数据表的结构。当选择数据表时，。当选择星号（*）时，表示数据结构为任意结构，用于对未创建数据模型的表进行操作，此时物理表必须选择已经存在的...

外部表概述

MaxCompute支持使用外部表功能查询和分析存储于OSS等外部存储系统的数据。该机制使得用户可以无需将数据导入到MaxCompute内部存储，直接对外部数据进行操作，从而提供了数据处理的灵活性和方便性。背景信息 MaxCompute SQL作为分布式数据...

典型场景

典型场景数据仓库服务您可以通过数据传输服务（DTS）或数据集成服务（DataX），将云数据库（例如RDS、PolarDB）或自建数据库批量同步到云原生数据仓库AnalyticDB PostgreSQL版。云原生数据仓库PostgreSQL版支持对海量数据的复杂ETL进行...

公交出行：启迪公交

解决方案启迪公交采用 PolarDB-X 分布式数据库方案构建了全部业务系统，既支持海量大数据的处理能力，又支持高并发、高可用和很强的弹性伸缩能力。票务管理工作台通过用户检录数据，实时同步到阿里云AnalyticDB分析型数据库，分析出实时...

未来规划

云计算架构的核心逻辑就是通过虚拟化技术带来池化资源，云原生数据库采用分布式数据库架构，实现大规模扩展，每套数据库系统横跨多台服务器和虚拟机，带来了全新的系统管理挑战。其中最核心的挑战就是如何实现弹性以及高可用，实现按需按量...

系统配置

若关闭每日自动识别任务的敏感数据，系统将不会每天自动识别敏感数据并更新识别结果，且保留最近一次的识别结果。敏感数据识别范围默认扫描主账号或子账号能够获取到的所有项目。识别范围：支持选择是否包含外表。支持通过识别白名单控制...

功能简介

数据同步为用户提供批量、实时多源异构数据的便捷同步或接入能力，系统提供完善的数据接入配置、任务运行监控等功能，有效保障数据接入的稳定性和可控性，满足各类平台、数据源及应用系统间的数据汇聚需求。通过数据同步的自定义同步任务...

数据同步

数据同步提供批量、实时多源异构数据的便捷同步或接入能力，系统提供完善的数据接入配置、任务运行监控等功能，有效保障数据接入的稳定性和可控性，满足各类平台、数据源及应用系统间的数据汇聚需求。同时支持对存储在基于ArcGIS、超图等...

跨租户发布概述

跨租户发布数据用于迁移租户间的数据，以满足不同数据的应用场景，帮助企业实现数据应用价值最大化。前提条件已购买跨租户发布增值服务并且当前租户已开通跨租户发布模块；跨租户发布过程中，若需要导出或导入标签架构、标签、质量对象，...

功能简介

数据同步为用户提供批量、实时多源异构数据的便捷同步或接入能力，系统提供完善的数据接入配置、任务运行监控等功能，有效保障数据接入的稳定性和可控性，满足各类平台、数据源及应用系统间的数据汇聚需求。同时支持对存储在基于ArcGIS、...

数据恢复方案概览

如果您误释放了RDS MySQL实例、误删除或修改了实例的数据、或有将备份文件恢复到云上或本地的需求等，可参考本文选择合适的MySQL数据恢复方案。场景一：恢复误释放的实例回收站：进入回收站，并选择地域。如果在回收站里找到实例，可以...

设置资产数据源

本文介绍DataV设置资产数据源的方法，以及设置数据源页面的内容，包括数据源、数据过滤器以及数据响应结果等。配置资产数据源登录 DataV控制台。在我的可视化页面，单击您创建的可视化应用项目上方的编辑按钮。在画布编辑器页面，...

数据源管理概述

功能介绍多数据源类型接入：Dataphin内置丰富的数据源类型，支持对接的数据源包括大数据存储型数据源、文件型数据源、消息队列型数据源、关系型数据源和NoSQL数据源。更多信息，请参见 Dataphin支持的数据源。自定义数据源类型：在内置的...

数据源管理概述

功能介绍多数据源类型接入：Dataphin内置丰富的数据源类型，支持对接的数据源包括大数据存储型数据源、文件型数据源、消息队列型数据源、关系型数据源和NoSQL数据源。更多信息，请参见 Dataphin支持的数据源。自定义数据源类型：在内置的...

恢复方案概览

场景二：恢复误删除或修改的数据方案恢复时间点恢复范围恢复位置恢复速度任意时间点备份集所在时间点所有库表部分库部分表恢复至新RDS 恢复至原RDS 恢复至其他已有RDS 实例恢复 ✔️ ✔️ ✔️ ❌ ❌ ✔️ ❌ ❌ 慢库表恢复 ✔...

导入概述

Spark Load适用于初次迁移大数据量（可达到TB级别）到StarRocks的场景，且源数据在Spark可访问的存储系统（例如HDFS）中，详细信息请参见 Spark Load。异步导入 Stream Load 是一种同步执行的导入方式。您可以通过HTTP协议发送请求将本地...

基于AnalyticDB实现城市公交系统智能化

启迪公交基于 AnalyticDB MySQL版和DRDS建设的完整解决方案，将人、车、线、站的大数据资源及相关配套资源进行商业化转换，引领行业提升公交系统的创新能力和服务水平，助力“互联网+城市公交”的提升发展。业务挑战启迪公交（北京）科技...

大数据系统架构 方案

新品推荐

大数据系统架构方案