EMR Studio概述

EMR Studio是E-MapReduce提供的开源大数据开发套件,包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群(EMR on ECS和EMR on ACK)的计算引擎提交任务,并提供了交互式开发、任务调度和任务监控等...

用户价值

数据开发更简单:平台提供的各种工具产品能够极的简化数据开发过程,缩短数据治理周期,降低数据治理成本。通过标准化、精细化、规格化的智能数据生产流程,完成流水线式的数据生产作业,提升数据资源生产效率、消除数据供应品质差异。...

开发数据服务API

物联网数据分析的数据开发任务是使用标准的SQL语句对设备进行数据分析,而API服务可将数据开发任务封装成API,方便开发者调用。API服务既可以直接响应设备端请求,也可以用于服务端数据对接。创建数据分析任务 登录数据分析控制台,单击 ...

技术架构选型

在数据模型设计之前,您需要首先完成技术架构的选型。本教程中使用阿里云数据产品MaxCompute配合...MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。

DataWorks快速入门指引

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路数据开发治理平台,为了便于新用户快速了解DataWorks的数据开发治理操作全流程,DataWorks为您提供了...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起,DataWorks不断沉淀阿里巴巴数据建设方法论,支撑数据中台建设,同时与...

文档修订记录

本文为您介绍DataWorks文档更新的最新动态,基于此您可以及时了解DataWorks的新增特性及功能变更。2024年2月更新记录 时间 特性 类别 描述 产品文档 2024.2.22 新增功能 账单订阅及...您可参考数据开发任务的通用开发流程进行任务的数据开发...

实时同步常见问题

实时同步支持的数据源请参考文档:实时同步支持的数据源。实时同步任务为什么不建议使用公网?实时同步任务使用公网时,会存在以下风险:网络可能不稳定,丢包等时常发生,影响同步性能。安全性不高。实时同步字段格式问题 数据集成实时...

使用DataWorks连接

DataWorks基于MaxCompute等引擎,提供统一的全链路大数据开发治理平台。本文为您介绍如何通过DataWorks使用MaxCompute服务。背景信息 DataWorks支持将计算引擎绑定至DataWorks的工作空间,绑定计算引擎后,您即可在DataWorks上创建对应引擎...

RestAPI(HTTP形式)数据

创建数据源 在进行数据同步任务开发时,您需要在DataWorks上创建一个对应的数据源,操作流程请参见 创建并管理数据源。单表离线同步任务配置指导 操作流程请参见 通过向导模式配置离线同步任务、通过脚本模式配置离线同步任务。脚本模式...

HoloStudio一键迁移至DataStudio

为给您提供一致的开发体验,HoloStudio产品能力将整合至DataStudio中,届时您可使用DataStudio相关功能继续进行Hologres的数据开发。在指定时间内,您可参考本文手动迁移HoloStudio的已有文件至DataStudio;超过该时间,系统将自动为您完成...

数据下载

在DataWorks的数据开发(DataStudio)、数据分析、安全中心模块下载的CSV、XLSX格式文件数据将同步保存至数据下载功能。通过该功能,您可将所需历史下载文件重新下载至本地使用,也可追溯历史下载记录的操作详情。前提条件 已通过如下模块...

数据开发与运维中心:数据加工

DataWorks 数据开发(DataStudio)是数据加工的开发平台,运维中心 是智能运维平台,基于这两个功能模块,您可以在DataWorks上规范、高效地构建和运维数据开发工作流。功能概述 DataWorks的数据开发的亮点功能如下。DataStudio支持...

DataWorks on EMR Serverless StarRocks最佳实践

了解DataWorks on EMR Serverless StarRocks DataWorks作为阿里云一站式大数据开发治理平台,通过数据源对接EMR Serverless StarRocks,可实现EMR Serverless StarRocks的数据集成、作业周期性调度,同时结合StarRocks引擎在数据分析和数据...

在工作空间创建数据源或注册集群

步骤二:将数据源绑定至数据开发(DataStudio)数据源创建完成后,若您需在当前工作空间基于该数据源执行数据开发、数据分析、或使用运维中心周期性调度运行相关任务等操作,还需将数据源绑定至当前工作空间的数据开发(DataStudio)模块。...

概述

HoloStudio的数据开发模块与DataWorks无缝连接,提供一站式稳定高效的ETL(Extract-Transform-Load)服务,帮助您使用可视化方式周期性调度作业、创建外部表、同步外部表数据以及上传本地文件。数据开发 的核心功能如下:文件夹 用于存放并...

EMR数据开发停止更新公告

停止更新时间 2022年2月21日21点 影响 您在停更时间点前创建的数据开发项目不会受到影响,可正常使用EMR数据开发模块,包括运行作业和工作流调度。如果您后续需要更丰富的数据开发功能,推荐迁移至DataWorks构建工作流,EMR已经跟DataWorks...

DataWorks HoloStudio下线公告

为给您提供一致的开发体验,DataWorks>HoloStudio 产品能力将整合至 DataWorks>数据开发(DataStudio)中,从 2024年2月29日 开始,HoloStudio将不再提供服务,届时您可使用DataStudio相关功能继续进行Hologres的数据开发。针对已存在于...

运行历史

查看运行历史 登录DataWorks控制台,单击相应工作空间后 数据开发。单击左侧导航栏中的 运行历史,切换至运行历史面板(默认展示全部状态)。从状态列表中,选择需要查看的相关状态的任务。单击需要查看的运行记录,即可在右侧查看运行...

应用示例:数据开发过程触发事件检查

DataWorks的数据开发模块,支持扩展点事件包括文件发布前置事件、文件提交前置事件、表提交前置事件等。扩展点事件的概念和详细列表请参见 支持的扩展点事件列表。DataWorks支持对扩展点事件进行消息通知,通过扩展程序来自动化校验并响应...

HoloStudio(即将下线)

为给您提供一致的开发体验,DataWorks>HoloStudio 产品能力将整合至 DataWorks>数据开发(DataStudio)中,从 2024年2月29日 开始,HoloStudio将不再提供服务,届时您可使用DataStudio相关功能继续进行Hologres的数据开发。针对已存在于...

用户授权与管理

使用数据建模DATABLAU功能时,在进行定义标准、数据建模、数据开发、部署运维等不同任务时,通常需不同角色的用户进行操作,对应用户需获取相应的权限。本文为您介绍制定标准、数据建模并应用部署过程中推荐的用户角色权限规划与授权操作...

创建数据脱敏场景

脱敏场景介绍 DataWorks提供 数据开发/数据地图展示脱敏、数据分析展示脱敏、MaxCompute引擎层脱敏、Hologres引擎层脱敏 等动态脱敏,及 数据集成静态脱敏 等一级脱敏场景为固定场景,不支持执行新增、编辑、删除等操作。同时,DataWorks...

云产品集成

大数据开发治理平台 DataWorks DataWorks 是一款为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。您可以使用 DataWorks 添加 ApsaraDB For OceanBase 数据源,管理 OceanBase 数据库中的数据,通过数据集成...

任务调试流程

调试运行单个任务 数据开发概述,在左侧导航栏的数据开发或手动业务流程模块,双击业务流程目录下的目标节点,进入该节点的编辑页面。调试运行任务。在节点编辑页面,使用节点工具栏中的运行或高级运行调试代码逻辑,也可通过快捷运行调试...

创建AnalyticDB for PostgreSQL数据

若地域不一致,则只能创建为跨地域的数据源,此类数据源无法在DataWorks的数据开发(DataStudio)模块绑定,即无法用于数据开发或周期性调度任务,仅可进行数据同步任务。已购买所需的DataWorks资源组并完成资源组配置。AnalyticDB for ...

创建AnalyticDB for MySQL3.0数据

若地域不一致,则只能创建为跨地域的数据源,此类数据源无法在DataWorks的数据开发(DataStudio)模块绑定,即无法用于数据开发或周期性调度任务,仅可进行数据同步任务。已购买所需的DataWorks资源组并完成资源组配置。AnalyticDB for ...

创建ClickHouse数据

若地域不一致,则只能创建为跨地域的数据源,此类数据源无法绑定为计算引擎,即无法在DataWorks的数据开发、运维中心页面中执行对应计算任务,仅可进行数据同步任务。已购买所需的DataWorks资源组并完成资源组配置。ClickHouse仅支持使用独...

流程管控

DataWorks提供了全链路的数据开发治理能力,为您提供了统一的数据开发治理流程,同时也支持您在DataWorks的默认流程上基于自己的业务需求在关键的流程节点进行流程管控。本文为您介绍DataWorks在数据开发过程中支持的流程管控能力。背景...

必读:简单模式和标准模式的区别

无法设置开发环境和生产环境隔离,只能进行简单的数据开发。无法对生产表权限进行控制。说明 当面向MaxCompute计算引擎时,开发角色默认拥有当前MaxCompute项目所有表的读写权限。开发角色的用户可以随意对表进行增加、删除和修改等操作,...

概述

DataWorks为您提供了多个实验教程,帮助您从前期的环境准备、数据采集,到后期的数据开发、结果展示,端到端了解DataWorks使用的全流程,更加熟悉产品的核心功能。DataWorks目前提供的产品教程如下:简单开发应用教程 简单用户画像分析...

基于模型生成ETL代码

维度表、明细表、汇总表等模型表发布后,DataWorks智能数据建模的模型开发功能支持快速生成代码框架,帮助您提高后续数据开发效率。本文为您介绍如何通过模型开发功能生成代码框架。前提条件 模型表已发布,操作详情请参见 发布模型至引擎...

创建手动任务

您可以在DataWorks的数据开发(DataStudio)模块创建手动任务,并在生产环境的运维中心管理手动任务。本文为您介绍如何创建手动任务,并将手动任务发布到生产环境。使用说明 若任务不需要发布生产环境操作生产环境引擎,您可选择 新建临时...

EMR旧版数据开发迁移公告

如果您还在使用旧版控制台的数据开发功能,请尽快迁移至EMR Worflow。本文为您介绍数据开发模块迁移至EMR Workflow的流程。EMR Workflow是一个全托管的工作流和任务调度服务,100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度...

互联网、电商行业离线大数据分析

方案优势 规模存储:超大规模存储且自动扩容,最大可以支持EB级别的数据。高性能:性能更加高效、稳定。低成本:与自建数据库进行分析相比,成本更低。安全:原生的多租户系统,以工作空间进行隔离,所有计算任务在安全沙箱中运行。可视...

DataWorks数据服务对接DataV最佳实践

现在通过DataWorks为您提供 数据集成>数据开发>数据服务 的全链路数据研发平台,结合MaxCompute即可快速搭建企业数仓。DataWorks数据服务提供了快速将数据表生成API的功能,通过可视化的向导模式操作,无需代码便可快速生成API,然后通过...

DataWorks准备工作流程

DataWorks是为您提供专业高效、安全可靠的一站式大数据开发与治理平台,使用其进行数据开发前,您需做好相关准备工作,保障后续开发任务可顺利执行。本文为您介绍DataWorks的购买及环境准备流程,帮助您快速开通DataWorks并准备所需开发...

大数据安全治理的难点

流转 数据系统通常是端到端的一整套数据开发和治理服务,不仅要采集数据、加工数据,更要将数据提供给业务方使用。因此,其存在错综复杂的数据流转链路,包括但不限于即席查询链路、离线传输链路、实时传输链路、数据服务API链路、其他...

通用数据开发

数据开发的流程如下所示:数据产生:业务系统每天会产生大量结构化的数据,存储在业务系统所对应的数据库中,包括MySQL、Oracle和RDS等类型。数据收集与存储:您需要同步不同业务系统的数据至MaxCompute中,方可通过MaxCompute的海量数据...

EMR数据开发(旧版)停止全面支持公告

停止全面支持时间 2023年9月30日0点 影响 您在停止全面支持时间点前创建的数据开发(旧版)项目不会受到影响,可正常使用EMR数据开发(旧版)模块,包括运行作业和工作流调度,但阿里云不再提供EMR数据开发(旧版)的用户答疑、问题解决和...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据传输服务 云数据库 Redis 版 云数据库 RDS 数据库备份 DBS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用