大数据系统建设-大数据系统建设文档介绍内容-阿里云

安全白皮书概述

Dataphin面向各行各业大数据建设、管理及应用诉求，一站式提供从数据接入到数据消费全链路的智能数据建设与资产治理的大数据能力，包括产品、技术和方法论等，可帮助企业一站式构建生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产...

资产质量概述

背景信息面对各行各业日趋强烈的大数据建设、管理及应用的诉求，Dataphin应用场景的多样性及复杂性随之增加。因业务系统的原始数据的规范性无法得以保障，所以Dataphin需要定义数据分析的质量，以满足资产质量的时效性、准确性、完整性、...

资产质量概述

背景信息面对各行各业日趋强烈的大数据建设、管理及应用的诉求，Dataphin应用场景的多样性及复杂性随之增加。因业务系统的原始数据的规范性无法得以保障，所以Dataphin需要定义数据分析的质量，以满足资产质量的时效性、准确性、完整性、...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多信息，请参见 Apache Hudi官网。权限说明仅支持超级管理员、数据源管理员、...

创建Teradata数据源

背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出Dataphin数据至Teradata，您需要先完成Teradata数据源的创建。更多Teradata信息，请参见 Teradata官网。权限说明 Dataphin仅支持超级...

创建Teradata数据源

背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出Dataphin数据至Teradata，您需要先完成Teradata数据源的创建。更多Teradata信息，请参见 Teradata官网。权限说明 Dataphin仅支持超级...

SQL增强操作

功能是否支持限制云原生大数据计算服务MaxCompute-EXPLAIN 是无云原生大数据计算服务MaxCompute-CLONE TABLE 是无云原生大数据计算服务MaxCompute-参数化视图是创建参数化视图不支持表值参数table。支持any以及MaxCompute的所有...

技术架构选型

其中，Dataphin的数据集成及同步负责完成源业务系统数据引入。MaxCompute作为整个大数据开发过程中的离线计算引擎。Dataphin则基于OneData方法论——OneModel、OneID、OneService，囊括了数据建模研发、运维中心、监控报警、数据资产等在内...

数据集成概述

背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错，限速，并发）等。...

数仓分层

基于阿里巴巴OneData方法论最佳实践，在阿里巴巴的数据体系中，建议将数据仓库分为三层：数据引入层（ODS，Operational Data Store）、数据公共层（CDM，Common Dimensions Model）和数据应用层（ADS，Application Data Store）。数据仓库...

快速入门

如果您是首次使用智能数据建设与治理Dataphin，您可以参考快速入门文档，了解如何购买实例并接入服务端。Dataphin全托管 Dataphin全托管快速入门 Dataphin半托管 Dataphin半托管快速入门

计算设置概述

华为 FusionInsight 8.x Hadoop 华为推出的基于Apache开源社区软件进行功能增强的企业级大数据存储、查询和分析的大数据平台。亚信DP5.3 Hadoop 基于开源生态，依托电信级技术能力构建的大数据生产运营一体化支撑平台。星环ArgoDB ...

数据集成支持的数据源

不同集成类型适用场景集成类型适用场景离线集成适用于数据上云、云上数据迁移到本地业务系统等场景。例如，将本地数据库MySQL的数据迁移至阿里云数据库RDS中。整库迁移适用于将本地数据中心或在ECS上自建的数据库，同步数据至离线数仓...

Dataphin支持的实时数据源

Ververica Flink支持的实时数据源存储类型数据源类型读写维表读 大数据存储 MaxCompute 支持支持支持 DataHub 支持支持-Hologres 支持支持支持数据湖 Hudi 支持支持-Iceberg 支持（仅支持原生DDL方式）支持（仅支持原生DDL方式...

Dataphin支持的实时数据源

Ververica Flink支持的实时数据源存储类型数据源类型读写维表读 大数据存储 MaxCompute 支持支持支持 DataHub 支持支持-Hologres 支持支持支持数据湖 Hudi 支持支持-Iceberg 支持（仅支持原生DDL方式）支持（仅支持原生DDL方式...

答疑支持

若您在使用智能数据建设与治理Dataphin的过程中有任何疑问，您可通过答疑支持联系我们，为您答疑解惑。操作步骤在Dataphin页面，按照以下操作指引或单击蓝色小机器人选择答疑支持，进入答疑支持页面后，输入您需解答的问题。依次单击 ...

答疑支持

若您在使用智能数据建设与治理Dataphin的过程中有任何疑问，您可通过答疑支持联系我们，为您答疑解惑。使用说明需保证网络连通、Dataphin已升级至3.14.1及以上版本且已经对接工单系统（如需对接可联系运维部署团队）方可使用工单功能。...

数据集成支持的数据源

不同集成类型适用场景集成类型适用场景离线集成适用于数据上云、云上数据迁移到本地业务系统等场景。例如，将本地数据库MySQL的数据迁移至阿里云数据库RDS中。整库迁移适用于将本地数据中心或在ECS上自建的数据库，同步数据至离线数仓...

创建GreenPlum数据源

通过创建GreenPlum数据源能够实现Dataphin读取GreenPlum的业务数据或向GreenPlum写入数据。本文为您介绍如何创建GreenPlum数据源。背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

创建GreenPlum数据源

通过创建GreenPlum数据源能够实现Dataphin读取GreenPlum的业务数据或向GreenPlum写入数据。本文为您介绍如何创建GreenPlum数据源。背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

数据源白名单配置

产品名称操作说明云原生大数据计算服务MaxCompute 设置白名单实时数仓Hologres IP白名单云数据库ClickHouse 设置白名单消息队列Kafka版配置白名单云原生分布式数据库PolarDB-X 设置白名单云原生分布式数据库PolarDB-X（2.0）设置白...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

数据集成概述

背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错，限速，并发）等。...

离线数仓构建流程概述

步骤一：准备工作规划数仓数仓规划是数据建设中的蓝图，在您开始数据开发前，需要完成数据仓库的规划，数仓规划配置包括：创建数据板块和主题域、计算源、数据源、项目及项目中的成员。步骤二：规划数仓数据集成将创建好的数据源集成至...

离线数仓构建流程概述

步骤一：准备工作规划数仓数仓规划是数据建设中的蓝图，在您开始数据开发前，需要完成数据仓库的规划，数仓规划配置包括：创建数据板块和主题域、计算源、数据源、项目及项目中的成员。步骤二：规划数仓数据集成将创建好的数据源集成至...

配置DM（达梦）输出组件

配置DM（达梦）输出组件，可以将外部数据库中读取的数据写入到DM（达梦），或从大数据平台对接的存储系统中将数据复制推送至DM（达梦），进行数据整合和再加工。本文为您介绍如何配置DM（达梦）输出组件。前提条件已创建DM（达梦）数据源...

配置DM（达梦）输出组件

配置DM（达梦）输出组件，可以将外部数据库中读取的数据写入到DM（达梦），或从大数据平台对接的存储系统中将数据复制推送至DM（达梦），进行数据整合和再加工。本文为您介绍如何配置DM（达梦）输出组件。前提条件已创建DM（达梦）数据源...

配置DataHub输出组件

配置DataHub输出组件，可以将外部数据库中读取数据写入到DataHub，或从大数据平台对接的存储系统中将数据复制推送至DataHub，进行数据整合和再加工。本文为您介绍如何配置DataHub输出组件。前提条件已创建DataHub数据源。具体操作，请参见...

配置DataHub输出组件

配置DataHub输出组件，可以将外部数据库中读取数据写入到DataHub，或从大数据平台对接的存储系统中将数据复制推送至DataHub，进行数据整合和再加工。本文为您介绍如何配置DataHub输出组件。前提条件已创建DataHub数据源。具体操作，请参见...

配置ArgoDB输出组件

配置ArgoDB输出组件，可以将外部数据库中读取的数据写入到ArgoDB，或从大数据平台对接的存储系统中将数据复制推送至ArgoDB，进行数据整合和再加工。本文为您介绍如何配置ArgoDB输出组件。使用限制 ArgoDB输出组件支持写入文件格式为orc、...

创建Kudu数据源

背景信息 Kudu提供接近于关系数据库管理系统（RDBMS）的功能和数据模型，提供类似于关系型数据库的存储结构来存储数据，允许用户以和关系型数据库相同的方式插入、更新、删除数据。Kudu仅仅是一个存储层，并不存储数据，因此需要依赖外部的...

续费

在阿里云官网，鼠标悬停至产品分类后，再将鼠标悬停至左侧导航栏的 大数据 上，单击数据开发和治理列下的 Dataphin。进入续费页面：在Dataphin产品详情页，单击管理控制台。Dataphin管理控制台根据实例的状态，为您提供不同的续费...

创建Impala数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

新建TDengine数据源

在新建数据源对话框的 大数据存储区域，选择 TDengine。如果您最近使用过TDengine，也可以在最近使用区域选择TDengine。同时，您也可以在搜索框中，输入TDengine的关键词，快速搜索。在新建TDengine数据源对话框中，配置数据源的...

新建TDengine数据源

在新建数据源对话框的 大数据存储区域，选择 TDengine。如果您最近使用过TDengine，也可以在最近使用区域选择TDengine。同时，您也可以在搜索框中，输入TDengine的关键词，快速搜索。在新建TDengine数据源对话框中，配置数据源的...

新建Doris数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可根据标签给数据源进行分类...

新建Doris数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可根据标签给数据源进行分类...

配置API输出组件

配置API输出组件，可以将外部数据库中读取的数据写入到API，或从大数据平台对接的存储系统中将数据复制推送至API，进行数据整合和再加工。本文为您介绍如何配置API输出组件。前提条件在开始执行操作前，请确认您已完成以下操作：已创建API...

大数据系统建设

新品推荐