EMR Studio概述

EMR Studio是E-MapReduce提供的开源大数据开发套件,包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群(EMR on ECS和EMR on ACK)的计算引擎提交任务,并提供了交互式开发、任务调度和任务监控等...

集成与开发概览

离线集成是一种低代码的数据开发工具,您可以组合各类任务节点,形成数据流,通过周期调度运行达到数据加工、数据同步的目的,进而对在线数据库、数据仓库的数据进行加工处理并同步至目的端。流式ETL。更多信息,请参见 流式ETL。通过可视...

认识MaxCompute Studio

MaxCompute Studio是阿里云MaxCompute平台提供的安装在开发者客户端的数据集成开发环境工具,是一套基于流行的集成开发平台IntelliJ IDEA的开发插件,帮助您便捷、快速地进行数据开发。本文将为您介绍MaxCompute Studio的功能界面和常用...

用户价值

数据开发更简单:平台提供的各种工具产品能够极大的简化数据开发过程,缩短数据治理周期,降低数据治理成本。通过标准化、精细化、规格化的智能数据生产流程,完成流水线式的数据生产作业,提升数据资源生产效率、消除数据供应品质差异。...

实现开发生产等多套环境隔离

使用DataWorks进行大数据开发时,支持对开发、测试、生产等环境进行隔离,当您联合使用了其他阿里云产品时,也可根据环境隔离诉求进行对应业务的环境设置与隔离,本文以DataWorks联合EMR、OSS等产品为例,为您介绍如何实现开发生产等多套...

应用场景

数据建模:通过数据建模模块提供的各种数据开发工具,实现数据的清洗、加工和转换。资产管理:通过资产运营功能实现资产的注册、编目、上架,在资产中心方便各个部门的使用人员搜索数据资源并申请数据权限。价值:数据标准一致:沉淀行业...

账单数据订阅及查询分析

您可在用户中心订阅不同类型的账单数据,例如,计费项明细账单、计费项账单按天汇总等。订阅成功后,账单数据将会定时同步至MaxCompute,您...相关文档 大数据分析工具的常见问题和解决方法,详情请参见 大数据分析工具的常见问题和解决方法。

技术架构选型

在数据模型设计之前,您需要首先完成技术架构的选型。本教程中使用阿里云数据产品MaxCompute配合...MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。

DataWorks快速入门指引

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台,为了便于新用户快速了解DataWorks的数据开发治理操作全流程,DataWorks为您提供了...

云产品集成

大数据开发治理平台 DataWorks DataWorks 是一款为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。您可以使用 DataWorks 添加 ApsaraDB For OceanBase 数据源,管理 OceanBase 数据库中的数据,通过数据集成...

使用DataWorks连接

DataWorks基于MaxCompute等引擎,提供统一的全链路大数据开发治理平台。本文为您介绍如何通过DataWorks使用MaxCompute服务。背景信息 DataWorks支持将计算引擎绑定至DataWorks的工作空间,绑定计算引擎后,您即可在DataWorks上创建对应引擎...

概述

EMR数据开发于2022年2月21日停止功能更新,2023年9月30日停止全面支持。如果您在2022年2月21日21点前未使用过数据开发功能,推荐您通过EMR Workflow进行...您也可以迁移到大数据开发治理平台DataWorks,详情请参见 EMR数据开发停止更新公告。

HoloStudio一键迁移至DataStudio

数据开发迁移 我们会将HoloStudio数据开发中的目录及其文件按照默认迁移策略一同迁移至DataStudio(数据开发调度业务流程中,调度业务流程详情请参见 创建业务流程。迁移策略:HoloStudio数据开发中已设置调度的任务不用迁移,未设置...

数据下载

在DataWorks的数据开发(DataStudio)、数据分析、安全中心模块下载的CSV、XLSX格式文件数据将同步保存至数据下载功能。通过该功能,您可将所需历史下载文件重新下载至本地使用,也可追溯历史下载记录的操作详情。前提条件 已通过如下模块...

数据开发与运维中心:数据加工

DataWorks的 数据开发(DataStudio)是数据加工的开发平台,运维中心 是智能运维平台,基于这两个功能模块,您可以在DataWorks上规范、高效地构建和运维数据开发工作流。功能概述 DataWorks的数据开发的亮点功能如下。DataStudio支持...

在工作空间创建数据源或注册集群

仅MaxCompute、Hologres、AnalyticDB for PostgreSQL、AnalyticDB for MySQL3.0、ClickHouse数据源可用于数据开发,若您需基于该类数据源进行数据开发、任务调度、数据分析等操作,则数据源创建完成后还需绑定至数据开发(DataStudio)。...

概述

数据开发 核心功能如下:文件夹 用于存放并管理数据库中的数据开发节点。详情请参见 文件夹。Hologres开发 用于周期性调度作业。详情请参见 Hologres开发:周期性调度。一键MaxCompute表结构同步 支持使用可视化方式批量创建外部表,加速...

什么是DataWorks

中国国际数据产业博览会十佳数据案例 中国信通院:数据集成工具、数据管理工具数据开发平台、数据脱敏工具、数据分类分级等评测 学习路径 您可以通过DataWorks文档首页的 学习路径,快速了解DataWorks的相关概念、基础操作及进阶操作...

用户授权与管理

角色规划 使用数据建模并应用至数据开发的过程中,通常需要进行定义标准、数据建模、数据开发、部署运维等任务,下图为您示例不同流程中操作人员的角色以及所需的角色权限。建议您参考下图进行用户角色及权限规划。开通权限 建议您参考 ...

HoloStudio(即将下线)

为给您提供一致的开发体验,DataWorks>HoloStudio 产品能力将整合至 DataWorks>数据开发(DataStudio)中,从 2024年2月29日 开始,HoloStudio将不再提供服务,届时您可使用DataStudio相关功能继续进行Hologres的数据开发。针对已存在于...

创建数据脱敏场景

脱敏场景介绍 DataWorks提供的 数据开发/数据地图展示脱敏、数据分析展示脱敏、MaxCompute引擎层脱敏、Hologres引擎层脱敏 等动态脱敏,及 数据集成静态脱敏 等一级脱敏场景为固定场景,不支持执行新增、编辑、删除等操作。同时,DataWorks...

基于模型生成ETL代码

维度表、明细表、汇总表等模型表发布后,DataWorks智能数据建模的模型开发功能支持快速生成代码框架,帮助您提高后续数据开发效率。本文为您介绍如何通过模型开发功能生成代码框架。前提条件 模型表已发布,操作详情请参见 发布模型至引擎...

流程管控

DataWorks提供了全链路的数据开发治理能力,为您提供了统一的数据开发治理流程,同时也支持您在DataWorks的默认流程上基于自己的业务需求在关键的流程节点进行流程管控。本文为您介绍DataWorks在数据开发过程中支持的流程管控能力。背景...

数仓开发任务流

数仓开发的项目空间由入仓解决方案和业务场景两部分组成。每个项目空间内可以创建多个业务场景,每个业务场景下又可添加多个任务流,用于实现复杂的数据处理和任务调度。前提条件 已创建项目空间。具体操作,请参见 创建项目空间。创建数仓...

DataWorks节点合集

DataWorks的数据开发(DataStudio)模块为您提供多种类型的节点,包括用于数据同步的数据集成节点,用于数据清洗的引擎计算节点(例如,ODPS SQL、Hologres SQL、EMR Hive),以及可对引擎计算节点进行复杂逻辑处理的通用节点(例如,可...

工作空间概述

后续:开始数据开发 创建工作空间并分配空间成员角色权限后,您可根据各角色定义的权限前往数据开发DataStudio模块开始数据开发工作,数据开发模块的入门教程详情请参见:数据开发:开发者。相关文档 在阅读工作空间的概述后,若您想创建...

上传数据

数据开发 页面的头部菜单栏中。在 数据开发 页面业务流程下的表分组中。标准模式下,在 表管理 页面中,对开发表右键上传数据。上传数据 当前仅支持上传本地数据至MaxCompute表。参考上述步骤,进入上传数据入口后,单击 导入数据。在弹...

概述

本文为您介绍适用于连接和操作Hologres的常见开发工具及其使用场景,您可以选择熟悉的开发工具连接Hologres进行数据开发工具介绍 说明 Hologres兼容PostgreSQL协议,提供JDBC/ODBC Drive:您可以从 JDBC官网 下载JDBC,使用JDBC连接时,...

概述

DataWorks为您提供了多个实验教程,帮助您从前期的环境准备、数据采集,到后期的数据开发、结果展示,端到端了解DataWorks使用的全流程,更加熟悉产品的核心功能。DataWorks目前提供的产品教程如下:简单开发应用教程 简单用户画像分析...

互联网、电商行业离线大数据分析

概述 电商网站的销售数据通过大数据进行分析后,可以在屏幕展示销售指标、客户指标、销售排名和订单地区分布等业务指标数据。DataV大屏支持可视化动态展示销售数据,触控大屏支持您自助查询数据,极地提高数据的可读性。应用场景 电商...

创建Log Service数据

背景信息 Log Service即阿里云日志服务,如果您使用的是阿里云日志服务,在对接Dataphin进行数据开发时,您需要先完成Log Service数据源的创建。更多Log Service信息,请参见 什么是日志服务。权限说明 Dataphin仅支持 超级管理员、数据源...

数据开发与运行

您可以在 数据开发 界面左侧工具栏中进入 批量操作 界面。支持针对节点、资源、函数进行批量操作,批量修改完成后,您可以批量提交,并在任务发布界面批量发布,让节点变更操作生产环境生效。如何在数据开发页面批量修改业务流程下节点使用...

基于MaxCompute进行大数据BI分析

本实践以电商行业为例,通过MaxCompute、DataWorks对业务数据和日志数据进行ETL处理,并同步至分析型数据库MySQL(AnalyticDB MySQL)进行实时分析,再通过Quick BI进行可视化展示。背景信息 MaxCompute:用于进行规模数据计算,详情请...

下线节点

报错:请先在发布中心把文件${filename}发布到生产环境或在发布中心取消发布 报错:节点存在子节点,导致任务删除或下线失败 如何下线节点 如果您使用的是标准模式工作空间,则开发环境和生产环境隔离,在DataWorks的数据开发(DataStudio...

操作流程

通过操作流程图及说明,您可以直观且全局了解数据开发的任务流程。本文从节点任务和场景任务两个使用场景来介绍数据开发的任务操作流程。节点模式操作流程 节点模式主要适用于计算节点相对独立,整个流程由单个节点组成的这类简单数据处理...

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。说明 上图中,虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示:数据产生:业务系统每天会产生大量结构化的...

Hologres开发:周期性调度

并单击上方新建Hologres开发,输入作业逻辑,单击保存-前往DataWorks调度,示例SQL如下:在HoloStudio中,单击左侧导航栏的 图标,进入数据开发页面。鼠标悬停至 图标,单击 Hologres开发。配置 新建节点 对话框的 节点名称、目标文件夹 及...

执行冒烟测试

在提交节点时,在 数据开发 节点编辑界面的上方工具栏单击图标,在单选按钮 冒烟测试 后选择 是。在提交节点后,在 数据开发 节点编辑界面的上方工具栏单击 图标,执行冒烟测试。在提交节点后,在 任务发布 界面单击相应节点后的 冒烟测试 ...

数据使用诊断

DataWorks的数据使用诊断,为您提供了对当前DataWorks工作空间的数据内容数据隐私的安全保护能力,以及诊断相关安全问题的最佳实践及解决方案,帮助您快速建立数据使用时和使用后的基本安全体系。进入数据使用诊断 登录 DataWorks控制台...

数据集成概述

离线(批量)的数据通道通过定义数据来源和去向的数据源和数据集,提供一套抽象化的数据抽取插件(Reader)、数据写入插件(Writer),并基于此框架设计一套简化版的中间数据传输格式,从而实现任意结构化、半结构化数据源之间数据传输。...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 RDS 云数据库 Redis 版 数据传输服务 数据库备份 DBS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用