大数据平台建设步骤-大数据平台建设步骤文档介绍内容-阿里云

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

资产质量概述

背景信息面对各行各业日趋强烈的大数据建设、管理及应用的诉求，Dataphin应用场景的多样性及复杂性随之增加。因业务系统的原始数据的规范性无法得以保障，所以Dataphin需要定义数据分析的质量，以满足资产质量的时效性、准确性、完整性、...

配置OSS输出组件

配置OSS输出组件，可以将外部数据库中读取的数据写入到OSS，或从大数据平台对接的存储系统中将数据复制推送至OSS，进行数据整合和再加工。本文为您介绍如何配置OSS输出组件。前提条件已创建OSS数据源。具体操作，请参见创建OSS数据源。...

配置OSS输出组件

配置OSS输出组件，可以将外部数据库中读取的数据写入到OSS，或从大数据平台对接的存储系统中将数据复制推送至OSS，进行数据整合和再加工。本文为您介绍如何配置OSS输出组件。前提条件已创建OSS数据源。具体操作，请参见创建OSS数据源。...

DataWorks模块使用说明

使用流程概览：参考文档：数据分析概述数据治理子模块：数据地图功能说明：DataWorks数据地图提供了企业级数据管理平台，能够基于统一元数据的底层建设，提供数据对象的管理和盘点的能力，以及数据对象的快速查找和深度理解的能力。...

资产质量概述

背景信息面对各行各业日趋强烈的大数据建设、管理及应用的诉求，Dataphin应用场景的多样性及复杂性随之增加。因业务系统的原始数据的规范性无法得以保障，所以Dataphin需要定义数据分析的质量，以满足资产质量的时效性、准确性、完整性、...

Sugar BI连接MaxCompute

Sugar BI是百度智能云推出的敏捷 BI 和数据可视化平台，MaxCompute支持您将MaxCompute项目数据接入Sugar BI，帮助您轻松完成数据分析和数据可视化工作。本文为您介绍如何使用Sugar BI连接MaxCompute项目，并进行可视化数据分析。前提条件 ...

准备数据源和计算源

在使用Dataphin前，您需要选择符合业务场景需求的数据库或数据仓库作为数据源，用于读取原始数据和写入数据建设过程中的数据；同时您需要准备MaxCompute项目、Flink项目作为Dataphin的计算源，为数据的研发提供计算资源。准备数据源 ...

准备数据源和计算源

在使用Dataphin前，您需要选择符合业务场景需求的数据库或数据仓库作为数据源，用于读取原始数据和写入数据建设过程中的数据；同时您需要准备MaxCompute项目、Flink项目作为Dataphin的计算源，为数据的研发提供计算资源。准备数据源 ...

配置Amazon S3输出组件

配置Amazon S3输出组件，可以将外部数据库中读取的数据写入到Amazon S3，或从大数据平台对接的存储系统中将数据复制推送至Amazon S3，进行数据整合和再加工。本文为您介绍如何配置Amazon S3输出组件。前提条件已创建Amazon S3数据源。具体...

配置Amazon S3输出组件

配置Amazon S3输出组件，可以将外部数据库中读取的数据写入到Amazon S3，或从大数据平台对接的存储系统中将数据复制推送至Amazon S3，进行数据整合和再加工。本文为您介绍如何配置Amazon S3输出组件。前提条件已创建Amazon S3数据源。具体...

什么是数据资源平台

阿里云数据资源平台是数据资产定义、加工、管理、服务的全流程平台，提供数据同步、数据查询、数据标准、数据建模、数据加工、质量评估、业务模型构建、资产管理、数据服务等功能，为智能数据应用持续稳定供给全量、标准、干净、智能的数据...

配置Kafka输入组件

配置Kafka输入组件后，可以将kafka数据源中的数据读取至大数据平台对接的存储系统内，并进行数据整合和二次加工。本文为您介绍如何配置Kafka输入组件。前提条件在开始执行操作前，请确认您已完成以下操作：已创建Kafka数据源。具体操作，...

配置Kafka输入组件

配置Kafka输入组件后，可以将kafka数据源中的数据读取至大数据平台对接的存储系统内，并进行数据整合和二次加工。本文为您介绍如何配置Kafka输入组件。前提条件在开始执行操作前，请确认您已完成以下操作：已创建Kafka数据源。具体操作，...

准备环境

前提条件 大数据开发治理平台DataWorks：购买DataWorks，详情请参见购买指引。说明因本示例提供的数据资源都在华东2（上海），建议购买时选择地域为华东2（上海）。对象存储OSS：已开通OSS服务，具体步骤，请参见开通OSS服务。步骤一：...

配置FTP输入组件

FTP输入组件适用于从FTP中将数据读取至大数据平台对接的存储系统内，进行数据整合和再加工。本文为您介绍如何配置FTP输入组件。前提条件已创建FTP数据源，详情请参见创建FTP数据源。进行FTP输入组件属性配置的账号，需具备该数据源的同步...

配置FTP输入组件

FTP输入组件适用于从FTP中将数据读取至大数据平台对接的存储系统内，进行数据整合和再加工。本文为您介绍如何配置FTP输入组件。前提条件已创建FTP数据源，详情请参见创建FTP数据源。进行FTP输入组件属性配置的账号，需具备该数据源的同步...

什么是Dataphin

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出，一站式提供数据采、建、管、用全生命周期的大数据能力，以助力企业显著提升数据治理水平，构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算...

添加入库任务

操作步骤登录数据资源平台控制台。在页面左上角，单击图标，选择协同。在顶部菜单栏，单击图标，选择目标工作组，单击资产加工。在左侧导航栏，单击图标，将鼠标悬停在添加数据或数据目录上，单击图标。在数据管理页面，单击...

数据集成概述

背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错，限速，并发）等。...

升级

请您仔细核对购买信息并阅读智能数据建设与治理服务协议，确认无误后选中智能数据建设与治理服务协议。单击去支付，支付成功后即可开始升级开通增值功能包。正在通过升级开通增值功能包的Dataphin实例，在Dataphin管理控制台页面，显示 ...

基于DLF、RDS或Flink、OSS支持Delta Lake或Hudi存储...

Delta Lake和Hudi是数据湖方案中常用的存储机制，为数据湖提供流处理、批处理能力。MaxCompute基于阿里云DLF、RDS或Flink、OSS产品提供了支持Delta或Hudi存储机制的湖仓一体架构。您可以通过MaxCompute查询到实时数据，即时洞察业务数据...

公告

2022年06月10日-Dataphin更名通知为了更好地帮助广大客户解决数据资产建设问题，显著提升数据治理水平，Dataphin将进一步加强资产治理方向的投入，正式更名为“智能数据建设与治理Dataphin”，希望能够更好的助力企业构建质量可靠、消费...

需求分析

本实验提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。业务背景为了更好的制定企业经营策略，现需要从用户网站行为中获取网站用户群体基本画像数据，例如，用户群体地理属性、社会属性等，...

获取物理表

操作步骤登录数据资源平台控制台。在页面左上角，选择>协同。在顶部菜单栏，单击图标，选择目标工作组。在左侧导航栏，单击>同步管理>数据源管理。在数据源管理页面，单击“dataq_odps_dev”数据源操作列中的获取物理表。在获取最新...

Dataphin支持的数据源

在使用Dataphin前，您需要选择符合业务场景需求的数据库或数据仓库作为数据源，用于读取原始数据和写入数据建设过程中的数据。Dataphin集成了丰富的数据引擎，支持接入MaxCompute、Hive等数据仓库，也支持对接企业传统数据库，如MySQL、...

数据源管理概述

在使用Dataphin前，您可将需要引入Dataphin的数据源接入到Dataphin中，已接入的数据源可用于读取原始数据和写入数据建设过程中的数据。Dataphin具备丰富的数据源类型接入，支持对接如MaxCompute、Hive等数据仓库，也支持对接企业传统数据库...

数据源管理概述

在使用Dataphin前，您可将需要引入Dataphin的数据源接入到Dataphin中，已接入的数据源可用于读取原始数据和写入数据建设过程中的数据。Dataphin具备丰富的数据源类型接入，支持对接如MaxCompute、Hive等数据仓库，也支持对接企业传统数据库...

分析平台设置

Dataphin分析平台设置为使用分析平台的前提条件。包含分析平台专用的计算源设置、临时表生命周期设置、数据结果下载及审批设置。本文将为您介绍如何进行分析平台设置。前提条件已完成计算源创建，具体操作，请参见计算源概述。权限说明 ...

数据分析概述

DataWorks提供的数据分析平台，可以流畅地进行数据处理、分析、加工及可视化操作。在数据分析板块中，您不仅可以在线洞察数据，还可以编辑和共享数据。本文为您介绍数据分析平台的优势、功能、权限等概要信息。产品优势与本地数据分析相比...

分析平台设置

Dataphin分析平台设置为使用分析平台的前提条件。包含分析平台专用的计算源设置、临时表生命周期设置、数据结果下载及审批设置。本文将为您介绍如何进行分析平台设置。前提条件已完成计算源创建，具体操作，请参见计算源概述。说明分析...

Dataphin支持的数据源

在使用Dataphin前，您需要选择符合业务场景需求的数据库或数据仓库作为数据源，用于读取原始数据和写入数据建设过程中的数据。Dataphin集成了丰富的数据引擎，支持接入MaxCompute、Hive等数据仓库，也支持对接企业传统数据库，如MySQL、...

Dataphin新手引导

新手引导帮助您了解Dataphin的基础操作步骤，包括数据规划、规范定义、规范建模及发布与运维等操作此外，您可以通过导入示例模型快速体验Dataphin研发流程。计算引擎说明仅当计算设置中的计算引擎为MaxCompute时，支持导入模型。新手引导...

DataWorks数据安全治理路线

DataWorks基于数据安全治理的常见思路，针对资产梳理、技术体系建设和运营体系建设，提供了一系列数据安全产品能力，您可通过“基础防护建设、数据安全防护措施及策略增强建设、数据安全持续运营”三个阶段在DataWorks上落地数据安全治理...

采集数据

本教程以MySQL中的用户基本信息（ods_user_info_d）表及OSS中的网站访问日志数据（user_log.txt）文件，通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d、ods_raw_log_d表为例，为您介绍如何通过DataWorks数据集成实现异构...

采集数据

本教程以MySQL中的用户基本信息（ods_user_info_d）表及OSS中的网站访问日志数据（user_log.txt）文件，通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d、ods_raw_log_d表为例，为您介绍如何通过DataWorks数据集成实现异构...

数据集成概述

数据集成是基于Dataphin构建的简单高效的数据同步平台，致力于提供具有强大的数据预处理能力、丰富的异构数据源之间数据高速稳定的同步能力。背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量...

Dataphin免费试用申请

申请信息填写完后，勾选我已阅读并同意《Dataphin智能数据建设与治理试用服务协议》，单击免费试用，体验Dataphin功能。相关文档试用开通成功后，您可按照 Dataphin新手引导一步步体验Dataphin的研发流程，也可按照导入模型来导入...

数据服务入门

步骤一：创建数据源并配置网络连通性使用数据服务创建API前，您需将数据库或数据仓库添加为DataWorks的数据源，并保障数据服务资源组与您的目标数据源网络连通，以便调用API时DataWorks可成功访问数据源。说明 DataWorks工作空间将集群或...

大数据平台建设步骤

新品推荐