大数据开发需要学什么-大数据开发需要学什么文档介绍内容-阿里云

ETL工作流快速体验

案例提供的数据仅用于阿里云大数据开发治理平台DataWorks数据应用体验。仅空间管理员角色可导入ETL模板至目标工作空间。如需给账号授予空间管理员角色，请参见空间级模块权限管控。导入ETL工作流模板您可以将DataWorks ETL工作流模板...

EMR Studio概述

EMR Studio是E-MapReduce提供的开源大数据开发套件，包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群（EMR on ECS和EMR on ACK）的计算引擎提交任务，并提供了交互式开发、任务调度和任务监控等...

DataWorks快速入门指引

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台，为了便于新用户快速了解DataWorks的数据开发治理操作全流程，DataWorks为您提供了...

DataWorks模块使用说明

使用流程概览：参考文档：DataWorks数据建模子模块：数据开发（DataStudio）功能说明：数据开发（DataStudio）是一站式大数据开发平台，支持在线开发MaxCompute、EMR、Hologres、CDP、ADB等多种大数据引擎的数据处理任务。它集成了强大的...

使用DataWorks连接

DataWorks基于MaxCompute等引擎，提供统一的全链路大数据开发治理平台。本文为您介绍如何通过DataWorks使用MaxCompute服务。背景信息 DataWorks支持将计算引擎绑定至DataWorks的工作空间，绑定计算引擎后，您即可在DataWorks上创建对应引擎...

产品优势

数据集成需要较大开发 数据集成需要较大开发 日志服务（SLS）通过 LTS（原BDS）服务介绍，支持实时订阅SLS数据到Lindorm。数据集成需要较大开发 数据集成需要较大开发 服务能力可用性SLA 提供SLA保障，单集群99.9%，双集群高可用99.99%。...

必读：简单模式和标准模式的区别

仅需要授权数据开发人员“DataWorks开发角色”即可完成所有数据仓库开发工作。安全、规范。具备安全、规范的代码发布管控流程（包含代码评审、代码DIFF查看等功能），保障生产环境稳定性，避免不必要的因代码逻辑引起的脏数据蔓延或任务报...

创建项目

需求分析项目不做数据开发，需要分析的数据在其他项目中。为避免不同主账号资源隔离，本项目的Owner必须与数据开发生产项目的Owner为同一账号。项目主要完成数据查询、下载，需要每个成员用自己的权限进行数据查询、下载。需要设置项目的 ...

调度周期：周调度

配置示例配置路径您需要进入数据开发节点的编辑页面，单击右侧导航栏的调度配置，在调度配置>时间属性区域配置节点的调度周期。场景示例配置详情目标任务配置在每周一、周五两天定时运行，则在周一、周五生成的实例会正常调度执行，...

调度周期：月调度

配置示例配置路径您需要进入数据开发节点的编辑页面，单击右侧导航栏的调度配置，在调度配置>时间属性区域配置节点的调度周期。场景示例配置详情目标任务配置在每月最后一天运行，则每月最后一天生成的实例会正常调度执行，而其它...

MySQL整库周期性增全量同步至Hive

效果：同步修改过的表，没有修改的表不会再进行同步 数据开发相关场景如果您有下游数据依赖，需要进行数据开发操作的场景，可以参考配置调度依赖，进行节点上下游的设置，对应的周期任务节点信息可以在周期配置中查看。

调度周期：日调度

配置示例配置路径您需要进入数据开发节点的编辑页面，单击右侧导航栏的调度配置，在调度配置>时间属性区域配置节点的调度周期。场景示例配置详情假设导入、统计加工和导出任务，均为日调度任务。上述任务的运行时间为每天 13:00 点...

通用参考：按量付费转包年包月

切换任务配置时的默认资源组您需要进入数据开发界面，在设置>调度设置中修改任务使用的默认资源组，修改后，后续新建的任务将默认使用该资源组。说明此处修改后，已创建任务现有的资源组配置不会改变。修改数据服务API调用资源组您...

数据地图概述

说明如果需要在 数据开发 中表管理进行可视化建表操作，请先在数据地图进行元数据采集，可视化建表操作仅支持绑定为引擎类型的数据源。详情请参见表管理。网络连通如果您需要将数据源中的元数据导入数据地图进行统一的元数据管理，...

简介

数据工作站可以结合大语言模型给业务开发、数据开发、分析师和数据运营同学赋能，提升数据交付效率和数据自助分析的效率。当您需要将查询的数据、测试的数据、以及数据变化趋势等信息，以文档的形式进行交付，并在交付后，希望有可以替您...

运维阶段

背景信息 数据开发人员主要需要处理以下事项：程序异常处理、性能优化。调度异常处理。数据质量监控规则异常分析、规则优化。数据异常的核查。运维阶段的流程包括分析影响、制定与实施方案和验证实施方案。操作步骤分析影响。运维人员或...

用户价值

数据开发更简单：平台提供的各种工具产品能够极大的简化数据开发过程，缩短数据治理周期，降低数据治理成本。通过标准化、精细化、规格化的智能数据生产流程，完成流水线式的数据生产作业，提升数据资源生产效率、消除数据供应品质差异。...

建模空间

模型设计师设置好数据模型设计空间与数据研发工作空间的关系后，模型设计师在进行模型（汇总表、维度表、明细表、应用表）发布时，可以选择将模型物化到被关联的某一个研发空间，后续数据开发工程师即可在对应的工作空间进行数据开发...

离线数仓构建流程概述

步骤一：准备工作规划数仓数仓规划是数据建设中的蓝图，在您开始数据开发前，需要完成数据仓库的规划，数仓规划配置包括：创建数据板块和主题域、计算源、数据源、项目及项目中的成员。步骤二：规划数仓数据集成将创建好的数据源集成至...

离线数仓构建流程概述

步骤一：准备工作规划数仓数仓规划是数据建设中的蓝图，在您开始数据开发前，需要完成数据仓库的规划，数仓规划配置包括：创建数据板块和主题域、计算源、数据源、项目及项目中的成员。步骤二：规划数仓数据集成将创建好的数据源集成至...

创建业务流程

DataWorks的业务流程开发结构满足根据业务视角来组织数据开发任务的需求，也提供了周期业务流程和手动业务流程两种，以满足需要周期性调度和无需周期性调度手动触发运行的场景。本文为您介绍如何创建、设计、提交和查看业务流程，...

入门实践

登录 DataWorks控制台，单击左侧导航栏的数据建模与开发>数据开发，在下拉框中选择对应工作空间后单击进入数据开发。单击左上方的图标，选择全部产品>数据建模>DATABLAU。导入数据标准。在数据建模页面的顶部菜单栏，单击数据标准。...

DataWorks on EMR权限管控说明

DataWorks功能模块使用权限在DataWorks运行EMR任务时，您需要拥有DataWorks数据开发（DataStudio）、数据地图、数据质量、智能监控等功能模块的使用权限，以便执行开发任务及开发后的运维、质量管控操作。DataWorks功能模块权限，详情请...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力，本文以一个零售电商行业的数仓搭建实验为例，为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现，帮助您深入了解阿里云...

提交并发布模型

登录 DataWorks控制台，单击左侧导航栏的数据建模与开发>数据开发，在下拉框中选择对应工作空间后单击进入数据开发。查看数据模型。在左侧导航栏，单击模型管理。说明如果左侧导航栏未显示模型管理图标，您可在DataStudio界面左侧...

创建手动任务

您可以在DataWorks的数据开发（DataStudio）模块创建手动任务，并在生产环境的运维中心管理手动任务。本文为您介绍如何创建手动任务，并将手动任务发布到生产环境。使用说明若任务不需要发布生产环境操作生产环境引擎，您可选择新建临时...

后续指引

介绍：SQL SQLML PyODPS MapReduce Mars Spark Graph 外部表 Java SDK Python SDK JDBC 实践：数据开发最佳实践常见问题：错误码 SQL常见问题 PyODPS常见问题 MapReduce常见问题 Spark常见问题外部表常见问题 Java SDK常见问题 Python ...

创建DataHub数据源

背景信息 DataHub即阿里云流式数据服务DataHub，如果您使用的是阿里云流式数据服务DataHub，在对接Dataphin进行数据开发时，您需要先完成DataHub数据源的创建。更多DataHub信息，请参见产品概述。权限说明 Dataphin仅支持超级管理员、...

创建Aliyun HBase数据源

如果您使用的是云数据库HBase，在对接Dataphin进行数据开发时，您需要先完成Aliyun HBase数据源的创建。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。操作步骤在Dataphin首页，单击顶部菜单栏的 ...

创建DataHub数据源

背景信息 DataHub即阿里云流式数据服务DataHub，如果您使用的是阿里云流式数据服务DataHub，在对接Dataphin进行数据开发时，您需要先完成DataHub数据源的创建。更多DataHub信息，请参见 DataHub的产品概述。使用限制 Dataphin仅支持超级...

创建Vertica数据源

如果您使用的是Vertica，在对接Dataphin进行数据开发时，您需要先完成Vertica数据源的创建。更多Vertica信息，请参见 Vertica官网。权限说明 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。操作步骤 ...

创建IBM DB2数据源

如果您使用的是IBM DB2，在对接Dataphin进行数据开发时，您需要先完成IBM DB2数据源的创建。更多IBM DB2信息，请参见 IBM DB2官网。权限说明 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。操作步骤 ...

创建Vertica数据源

如果您使用的是Vertica，在对接Dataphin进行数据开发时，您需要先完成Vertica数据源的创建。更多Vertica信息，请参见 Vertica官网。权限说明 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。操作步骤 ...

创建AnalyticDB for PostgreSQL数据源

背景信息 AnalyticDB for PostgreSQL即阿里云的云原生数仓AnalyticDB PostgreSQL，如果您使用的是云原生数仓AnalyticDB PostgreSQL，在对接Dataphin进行数据开发时，您需要先完成AnalyticDB for PostgreSQL数据源的创建。更多云原生数仓...

创建AnalyticDB for MySQL 2.0数据源

背景信息 AnalyticDB for MySQL即阿里云的云原生数仓AnalyticDB MySQL，如果您使用的是云原生数仓AnalyticDB MySQL，在对接Dataphin进行数据开发时，您需要先完成AnalyticDB for MySQL数据源的创建。更多云原生数仓AnalyticDB MySQL信息，...

创建IBM DB2数据源

如果您使用的是IBM DB2，在对接Dataphin进行数据开发时，您需要先完成IBM DB2数据源的创建。更多IBM DB2信息，请参见 IBM DB2官网。权限说明 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。操作步骤 ...

DataWorks节点合集

DataWorks的数据开发（DataStudio）模块为您提供多种类型的节点，包括用于数据同步的数据集成节点，用于数据清洗的引擎计算节点（例如，ODPS SQL、Hologres SQL、EMR Hive），以及可对引擎计算节点进行复杂逻辑处理的通用节点（例如，可...

MaxFrame概述

MaxFrame是由阿里云自研的分布式计算框架，支持Python...面向Data+AI开发，需要依赖第三方或自定义镜像完成数据开发、模型开发等整体流程。支持的工具 MaxFrame支持在本地环境、DataWorks、MaxCompute Notebooks中使用。详情请参见准备工作。

用户授权与管理

角色规划使用数据建模并应用至数据开发的过程中，通常需要进行定义标准、数据建模、数据开发、部署运维等任务，下图为您示例不同流程中操作人员的角色以及所需的角色权限。建议您参考下图进行用户角色及权限规划。开通权限建议您参考 ...

大数据开发需要学什么

新品推荐