管理数据源权限

从标准模式工作空间分享至简单模式工作空间:源工作空间的生产或开发环境下数据源,均支持分享。分享至目标数据源后,仅保留一个数据源,且最新分享的数据源会覆盖之前的数据源。如果目标工作空间升级为标准模式工作空间,则该数据源会...

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境,作为阿里云E-MapReduce的一部分,它提供了EMR Notebook和EMR Workflow两个核心功能。通过EMR Workbench,您可以轻松进行数据开发,以及交互式数据分析,并设计复杂的数据处理工作...

新建数据库SQL任务

在Dev-Prod模式的项目下使用仅配置了生产环境的数据源,在开发环境下进行补数据或运行操作可能变更生产数据,请谨慎使用。操作步骤 在Dataphin首页,单击顶部菜单栏 研发。默认进入数据 开发 页面。按照下图操作指引,进入 新建数据库SQL...

新建数据库SQL任务

在Dev-Prod模式的项目下使用仅配置了生产环境的数据源,在开发环境下进行补数据或运行操作可能变更生产数据,请谨慎使用。操作步骤 在Dataphin首页,单击顶部菜单栏 研发。默认进入数据 开发 页面。按照下图操作指引,进入 新建数据库SQL...

技术架构选型

在数据模型设计之前,您需要首先完成技术架构的选型。本教程中使用阿里云数据产品MaxCompute配合DataWorks,完成整体的数据建模和研发流程。...DataWorks则包括数据开发数据质量、数据安全、数据管理等在内的一系列功能。

概述

EMR数据开发于2022年2月21日停止功能更新,2023年9月30日停止全面支持。如果您在2022年2月21日21点前未使用过数据开发功能,推荐您通过EMR Workflow进行...您也可以迁移到大数据开发治理平台DataWorks,详情请参见 EMR数据开发停止更新公告。

DataWorks快速入门指引

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台,为了便于新用户快速了解DataWorks的数据开发治理操作全流程,DataWorks为您提供了...

HoloStudio一键迁移至DataStudio

迁移策略:HoloStudio数据开发中已设置调度的任务不用迁移,未设置调度的任务会把业务流程整体平迁至DataStudio数据开发下的业务流程中。为避免迁移至数据开发时出现冲突,我们会在迁移时给HoloStudio中的任务增加后缀,默认后缀为_...

快速体验

涉及产品 本案例涉及以下产品:一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集、加工、质量监控,以及数据可视化展现,您需提前开通该服务。详情请参见 开通DataWorks服务。云原生大数据计算服务MaxCompute 实现底层加工...

离线同步数据质量排查

DataWorks标准项目分为开发数据源、生产数据源,在开发环境运行任务使用开发数据源,在生产环境运行任务使用生产数据源,再对数据数量和内容比对时,需要确认使用的数据源环境,避免开发、生产查询不一致。在实际生产业务当中,在线数据...

实验介绍

涉及产品 本案例涉及以下产品:一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集,加工,质量监控,与数据可视化展现,您需提前开通该服务。详情请参见 开通DataWorks服务。云原生大数据计算服务MaxCompute 实现底层加工...

创建ClickHouse数据

创建完成后,可在DataWorks的各功能模块使用该数据源连接ClickHouse集群,进行相应的数据同步、数据开发数据分析等操作。前提条件 已创建ClickHouse集群。详情请参见 新建集群。说明 建议创建ClickHouse集群时,地域 与创建ClickHouse...

大数据AI公共数据集分析

教程简介 阿里云DataWorks基于多种大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。本教程通过DataWorks,联合云原生大数据计算服务MaxCompute,使用大数据AI公共数据集(淘宝、飞猪、阿里音乐、...

新增和使用独享数据服务资源组

在发起API调用请求时,可能会涉及到与不同网络环境下数据源之间的交互,因此你还需要了解独享数据服务资源组和不同网络环境下数据源之间的网络连通方案,详情请参见:网络连通与白名单配置。操作流程 从购买至使用独享数据服务资源组,您需...

EMR Studio概述

EMR Studio是E-MapReduce提供的开源大数据开发套件,包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群(EMR on ECS和EMR on ACK)的计算引擎提交任务,并提供了交互式开发、任务调度和任务监控等...

数据开发和生产环境隔离

操作 新建:如果不存在适用环境下数据源,显示 新建 编辑 和 删除:如果存在适用环境下数据源,则显示 编辑 和 删除 按钮。删除开发环境和生产环境的数据源:需确认是否存在生产环境关联的同步任务,操作不可逆,删除后,在开发环境...

基本概念

质量规则:是指在特定业务环境下,用户定义数据符合使用目的一组定量或定性的规定要求;在数据资源平台中,可以通过对表级与字段级的数据质量任务运行,真实反映数据接入的唯一性、准确性、规范性、一致性、时效性、完整性。数据开发 场景...

数据服务概述

开发数据服务API时,数据服务将访问该数据源获取数据表的Schema信息,帮助您进一步设置请求和返回参数。调用数据服务API时,数据服务将访问该数据源来执行查询请求。新建业务流程 数据服务基于业务流程实现以业务为单元的数据服务API开发,...

什么是EMR Notebook

EMR Notebook是一个Serverless化的交互式数据分析和探索平台,满足大数据和AI融合数据处理需求,为数据工程师、数据分析师和数据科学家提供了可视化的应用程序开发环境。通过EMR Notebook可以完成对SQL、Python、Markdown等多种语言...

术语表

S SDK Software Development Kit,软件开发工具包。一般都是一些被软件工程师用于为特定的软件包、软件实例、软件框架、硬件平台、操作系统、文档包等建立应用软件的开发工具的集合。MaxCompute支持 Java SDK 和 Python SDK。授权 项目管理...

权限管理与规范化数据开发

DataWorks将通过判断任务执行环境来自动访问对应环境下该同名数据源对应的配置信息。详情请参考 数据开发和生产环境隔离。调度参数 调度参数是DataWorks在调度场景下支持自动根据业务时间替换为具体值的参数,节点中使用调度参数后,在...

计费逻辑说明

访问复杂网络环境数据库 访问复杂网络环境下数据库,请选择独享数据集成资源组。网络解决方案详情请参见 配置资源组与网络连通。实时同步数据 实时同步数据,需要使用独享数据集成资源组。调度费用 数据集成离线任务通过调度系统下发至...

DataWorks on EMR快速入门

DataWorks支持基于E-MapReduce创建Hive、Spark SQL、Presto和MR等节点,实现任务工作流的配置和定时调度、元数据管理及数据质量监控告警等功能,为用户提供一站式数据开发和治理的环境。本文为您介绍如何在DataWorks上快速使用EMR集群。...

实现开发生产等多套环境隔离

DLF的环境隔离 在DLF中创建两个 数据目录(catalog),一个用于存储开发环境下的元数据(dev catalog),一个用于存储生产环境下的元数据(prod catalog),并设置 目录路径 为不同的OSS路径。操作详情请参见 数据目录。在相应的数据目录中...

MaxFrame概述

使用场景 MaxCompute MaxFrame使用场景如下:熟悉Python开发生态,需要开箱即用的Python开发环境,并快速进行数据科学、规模数据处理及交互式数据探索等开发。处理数据、处理逻辑复杂,需要基于MaxCompute海量数据及弹性计算资源、...

云产品集成

您可以使用 DataWorks 添加 ApsaraDB For OceanBase 数据源,管理 OceanBase 数据库中的数据,通过数据集成功能,实现在复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。在 DataWorks 添加 ApsaraDB For OceanBase ...

新增和使用独享数据集成资源组

注意事项 独享数据集成资源组支持复杂网络环境下数据同步。例如,跨云环境(金融云、政务云等)、跨阿里云账号、本地IDC数据同步。由于执行数据同步任务流程的要求,需要保证资源组可以访问数据源(来源数据源和目标数据源)所在的网络,...

场景:工作空间模式升级(简单模式升级标准模式)

生成开发环境项目(项目名格式:projectname_dev)、生成开发数据源。添加开发环境项目成员:将DataWorks工作空间成员在引擎层面添加为开发引擎项目成员,命令 add user。移除原空间成员生产项目权限:简单模式空间,RAM用户拥有较的...

场景:MaxCompute引擎在不同模式工作空间访问资源与...

MaxCompute引擎在不同模式工作空间的资源访问行为差异 MaxCompute可跨项目访问资源,所以在DataWorks上,开发人员可在数据开发开发环境界面直接访问生产环境下的资源,而简单模式与标准模式由于对应的引擎项目个数,DataWorks空间环境...

创建并管理数据

例如,执行离线同步任务时,可由运行环境控制任务所访问的数据库地址(配置生产、开发数据源对应不同数据库),使开发环境和生产环境的数据隔离。说明 简单模式工作空间仅拥有一个环境,无法做到开发、生产隔离。关于工作空间模式的介绍,...

(邀测)MaxCompute Notebook使用说明

MaxCompute Notebook是由MaxCompute提供的全托管、交互式数据分析挖掘模块,为数据工程师、数据分析师及数据科学家等人员提供Web交互式开发环境。支持用户通过SQL、PyODPS、Python等进行数据分析、探索,挖掘数据的价值,完成大数据与AI的...

敏感数据保护

生产环境敏感数据写入开发环境脱敏 当因为测试需要等原因,需要将生产环境数据写入开发环境时,为了保护敏感数据不泄露,数据在写入的过程中,就会自动按照配置的脱敏规则脱敏,从而保证敏感数据不会流入开发环境。敏感数据数据集成加...

敏感数据保护

生产环境敏感数据写入开发环境脱敏 当因为测试需要等原因,需要将生产环境数据写入开发环境时,为了保护敏感数据不泄露,数据在写入的过程中,就会自动按照配置的脱敏规则脱敏,从而保证敏感数据不会流入开发环境。敏感数据数据集成加...

全景视角

背景信息 为提高不同使用场景数据治理效率和质量,DataWorks为您提供以下视角:数据管理视角:在数据资产管理、数据安全加固、数据权限管理等数据管理场景,建议您使用数据管理视角,关注查看数据管理过程中,表的统计数据、安全权限...

配置资源组与网络连通

独享数据集成资源组暂不支持经典网络环境下数据库同步,建议您将经典网络环境下数据库迁移至VPC环境。无法保障公网环境下数据同步速度和任务稳定性,建议通过内网或者 云企业网 同步。背景信息 复杂网络环境下数据源进行异构数据源...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力,本文以一个零售电商行业的数仓搭建实验为例,为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现,帮助您深入了解阿里云...

同步节点

运行配置 运行配置用于设置同步节点的云计算资源类型和输入输出链路,关键参数说明如下:参数 说明 同步资源 源端配置 开发数据源 开发环境中传输链路输入端的云计算资源类型和资源。逻辑表 输入表的数据格式,由数据模型定义,在下拉列表...

同步节点

运行配置 运行配置用于设置同步节点的云计算资源类型和输入输出链路,关键参数说明如下:参数 说明 同步资源 源端配置 开发数据源 开发环境中传输链路输入端的云计算资源类型和资源。逻辑表 输入表的数据格式,由数据模型定义,在下拉列表...

必读:简单模式和标准模式的区别

附录:不同工作空间模式,DataWorks模块对应操作的数据源 您可以在 数据开发>数据源 界面查看数据开发中已绑定的数据源信息。绑定后不同工作空间模式,DataWorks模块对应操作的数据源如下表所示:DataWorks模块 标准模式 简单模式 ...

操作权限控制

任务执行环境 实时场景 数据开发执行任务(开发环境执行任务)场景一:select col1 from tablename 用个人账号访问开发环境下该表。即用个人账号访问:projectname_dev.tablename。场景二:select col1 from projectname.tablename 用个人...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库备份 DBS 云数据库 RDS 云数据库 Redis 版 数据传输服务 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用