DataWorks On CDP/CDH使用说明

背景信息 CDH是Cloudera的开源平台发行版,提供开箱即用的集群管理、集群监控、集群诊断等功能,并支持使用多种组件,助力您执行端到端的大数据工作流程。CDP是跨平台收集和整合客户数据的公共数据平台,可帮助您收集实时数据,并将其构建...

ETL工作流快速体验

案例提供的数据仅用于阿里云大数据开发治理平台DataWorks数据应用体验。仅 空间管理员 角色可导入ETL模板至目标工作空间。如需给账号授予空间管理员角色,请参见 空间级模块权限管控。导入ETL工作流模板 您可以将DataWorks ETL工作流模板...

概述

EMR数据开发于2022年2月21日停止功能更新,2023年9月30日停止全面支持。如果您在2022年2月21日21点前未使用过数据开发功能,推荐您通过EMR Workflow进行...您也可以迁移到大数据开发治理平台DataWorks,详情请参见 EMR数据开发停止更新公告。

RunCycleDagNodes

调用RunCycleDagNodes创建补数据工作流。补数据相关内容,详情请参见 补数据。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求参数 名称 类型 是否必选...

规划工作空间

通常来说,开发环境的数据读、写权限为各工作空间的“开发”角色共享,而生产环境的数据权限为生产账号独有 数据质量 各工作空间之间的数据质量是 完全隔离 的。仅对应工作空间的“开发”、“运维”或“管理员”角色具备配置数据质量规则的...

产品计费

服务类型 单价(元)计费单位 购买数量 备注 大数据技术架构方案咨询 30,000 每人日 1~20 每日8小时工作大数据搬站迁云方案咨询 30,000 每人日 1~20 每日8小时工作大数据解决方案POC 30,000 每人日 1~20 每日8小时工作制 跨地域迁移...

工作空间概述

后续:开始数据开发 创建工作空间并分配空间成员角色权限后,您可根据各角色定义的权限前往数据开发DataStudio模块开始数据开发工作数据开发模块的入门教程详情请参见:数据开发:开发者。相关文档 在阅读工作空间的概述后,若您想创建...

功能特性

EMR on ECS 功能集 功能 功能描述 参考文档 集群管理 创建集群 您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架,以进行规模数据处理和分析等操作。创建集群 释放集群 在完成EMR集群任务后及时释放集群,可以释放资源...

默认工作空间内置逻辑说明

进行实际开发时,建议您创建自己的工作空间,将用于执行开发操作的项目(例如,MaxCompute、E-MapReduce、Hologres)创建为工作空间的数据源或集群,并绑定至数据开发(DataStudio)模块,详情请参见 创建工作空间、在工作空间创建数据源或...

工作流编辑

E-MapReduce工作流支持基于有向无环图(DAG)并行执行大数据作业,您可以通过E-MapReduce控制台管控工作流调度以及查看工作流的执行状态。背景信息 本文为您提供工作流编辑的相关操作介绍,具体如下:新建工作流 编辑工作流 配置工作流调度...

数据服务入门

步骤一:创建数据源并配置网络连通性 使用数据服务创建API前,您需将数据库或数据仓库添加为DataWorks的数据源,并保障数据服务资源组与您的目标数据源网络连通,以便调用API时DataWorks可成功访问数据源。说明 DataWorks工作空间将集群或...

DataWorks准备工作流程

DataWorks是为您提供专业高效、安全可靠的一站式大数据开发与治理平台,使用其进行数据开发前,您需做好相关准备工作,保障后续开发任务可顺利执行。本文为您介绍DataWorks的购买及环境准备流程,帮助您快速开通DataWorks并准备所需开发...

大数据AI公共数据集分析

本文以分析公共数据集的数据示例,为您展示如何使用DataWorks进行简单数据分析工作。本教程以申请免费资源为例为您展示详细操作步骤,您也可以使用付费资源,操作类似。教程简介 阿里云DataWorks基于多种大数据引擎,为数据仓库、数据湖、...

需求分析

本实验提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据。业务背景 为了更好的制定企业经营策略,现需要从用户网站行为中获取网站用户群体基本画像数据,例如,用户群体地理属性、社会属性等,...

需求分析

本实验提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据。业务背景 为了更好的制定企业经营策略,现需要从用户网站行为中获取网站用户群体基本画像数据,例如,用户群体地理属性、社会属性等,...

创建工作空间

工作空间是DataWorks管理任务、成员,分配角色和权限的基本单元,所有开发工作都将在具体的工作空间内完成。因此,进行任务开发前您需要先创建工作空间,本文为您介绍如何创建工作空间。前提条件 已开通DataWorks服务,详情请参见 开通...

风险识别管理(新版)

规则名称 规则类型 规则等级 规则配置 非工作时间查询大数据量敏感数据 数据访问风险 低 如下时间段查询数据量大于10000时命中该规则。周一至周五:22:00~24:00。周六至周日:00:00~24:00。相似SQL查询 数据访问风险 低 十分钟内查询相似...

创建并管理工作空间

管理工作空间引擎 DataWorks支持绑定MaxCompute、E-MapReduce和实时计算等多种类型的计算引擎,并将其作为工作空间的引擎实例用于在DataWorks执行该引擎类型的计算任务,并管理引擎中存储的数据。管理中心 查看及修改工作空间配置信息 工作...

场景:工作空间模式升级(简单模式升级标准模式)

升级策略 工作空间模式升级后,平台会基于原简单模式工作空间的生产环境数据源,新增对应的开发环境数据源,实现数据源环境隔离。MaxCompute数据源:平台通过判断数据源是否被绑定至数据开发(DataStudio),提供相应升级策略。数据源未...

常见问题

本文为您介绍执行MaxCompute准备工作过程中的...MaxCompute Studio是阿里云MaxCompute平台提供的安装在开发者客户端的大数据集成开发环境工具,目前支持集成安装的平台有IntelliJ IDEA、PyCharm。配置详情,请参见 配置MaxCompute Studio。

CreateProject

ProjectIdentifier String 是 test 工作空间的名称,只能包含小写字母、数字和下划线,且首字母必须是字母或数字。ResourceManagerResourceGroupId String 否 rg-acfmzbn7pti3*资源组ID。Tags Array 否 标签。Key String 是 Env 标签键。...

通用数据查询与管理

如果需要快速地查找数据,例如查找工作空间、数据源中的表、数据分析和数据服务中的代码或API,您可以在数据地图中进行查找。进入数据地图 登录 DataWorks控制台,切换至目标地域后,单击左侧导航栏的 数据治理>数据地图,在右侧页面中单击...

入门概述

说明 如果您是第一次使用DataWorks,请确认已经根据 准备工作 模块的操作,准备好账号和工作空间角色等内容后,登录DataWorks控制台,单击相应工作空间后的 进入数据开发,即可进行数据开发操作。本模块的操作在标准模式的工作空间下进行。...

工作流快速入门

在左侧导航栏,选择 数据开发>工作流定义。在 工作流定义 页面,单击 创建工作流。在 创建工作流 页面,拖拽 SHELL 节点块到画布中。本文以 SHELL 任务类型为例。任务类型的详细信息,请参见 任务类型。在弹出的对话框中,配置相关参数,...

附录:预设角色权限列表(空间级)

不同预设角色对DataWorks各空间级功能的操作权限详情请参见下文的:数据管理 发布管理 按钮控制 代码开发 函数开发 节点类型控制 资源管理 工作流开发 数据集成 数据建模 数据分析 此外,空间级预设角色对MaxCompute引擎数据也具有一定的...

ListProjectMembers

调用ListProjectMembers查询DataWorks工作空间中已存在成员的列表。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求参数 名称 类型 是否必选 示例值 ...

大数据安全治理的难点

通常,大数据系统中的工作流涉及多部门、多责任人且跨系统的数据,如何才能协调好这些业务系统准时、保质保量地产出数据,避免出现因业务系统宕机/脏数据导致数据延时产出、产出脏数据,关乎到企业数据业务的连续性问题甚至高层的信任问题...

管理工作流定义

导入工作流 在 数据开发>工作流定义 页面,单击 导入。单击 上传,选择导出到本地的工作流(.json文件),单击 确定。定时工作流 在 工作流定义 页面,单击目标工作流操作列的 图标(定时)。在弹出的对话框中,选择 起止时间、定时 和 ...

工作空间创建数据源或注册集群

工作空间创建完成后,您需要先将您的数据库或数据仓库,通过创建数据源的方式添加至DataWorks工作空间,或将您的集群注册至DataWorks工作空间,以便进行数据同步、数据分析与开发、数据调度等操作。本文主要以使用正式开发环境为例,为您...

查看工作空间信息

您可通过数据地图查看当前租户下的工作空间列表以及工作空间的详细信息,并对工作空间的项目或数据库执行相关管理操作。进入工作空间 登录 DataWorks控制台,切换至目标地域后,单击左侧导航栏的 数据治理>数据地图,在右侧页面中单击 进入...

简介

数据工作站可以结合语言模型给业务开发、数据开发、分析师和数据运营同学赋能,提升数据交付效率和数据自助分析的效率。当您需要将查询的数据、测试的数据、以及数据变化趋势等信息,以文档的形式进行交付,并在交付后,希望有可以替您...

GetProject

调用GetProject查询一个DataWorks工作空间的信息。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求参数 名称 类型 是否必选 示例值 描述 Action String...

UpdateDIProjectConfig

调用UpdateDIProjectConfig修改当前工作空间中数据集成同步解决方案任务默认的全局配置。当前DataWorks仅支持为同步解决方案任务中的实时同步DDL消息处理策略设置默认的全局配置。如果您的同步解决方案任务包含实时同步任务,则配置 DDL...

ListDIProjectConfig

调用ListDIProjectConfig查看当前工作空间中数据集成同步解决方案任务默认的全局配置。当前DataWorks仅支持为同步解决方案任务中的实时同步DDL消息处理策略设置默认的全局配置。如果您的同步解决方案任务包含实时同步任务,则配置 DDL消息...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统 通过数据总线,您可以实时接入APP、WEB、IoT和数据库等产生的异构数据,统一管理,并投递到下游的分析、归档等系统,构建清晰的数据流,让您更好的释放数据的价值。...

什么是EMR on ACK

阿里云E-MapReduce(简称EMR)on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版(ACK)之上,利用ACK在服务部署和容器应用管理的优势,减少对底层集群资源的运维投入,以便于您可以更加专注...

服务编排功能介绍

数据服务的服务编排为您提供拖拽式、可视化的工作流编排能力。您可以按照业务逻辑,以串行、并行和分支等结构编排多个API及函数服务为工作流。前提条件 您需要购买DataWorks企业版及以上版本,才可以使用服务编排功能。详情请参见 ...

ListProjects

调用ListProjects,分页列出用户所在租户下的DataWorks工作空间列表。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求参数 名称 类型 是否必选 示例值 ...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起,DataWorks不断沉淀阿里巴巴大数据建设方法论,支撑数据中台建设,同时与...

发展历程

关键性里程碑 2009年9月,ODPS(即现在的MaxCompute)大数据平台飞天项目正式启动。2010年10月,阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月,平台的单集群规模已达到5000台。2014年7月,平台开始对外提供服务,完全替换...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据传输服务 云原生大数据计算服务 MaxCompute 云数据库 RDS 数据库备份 DBS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用