在为企业级大数据平台创建项目时,建议您对ODS层、DWD及DWS层的数据按照业务板块的粒度建立项目,对于ADS层的数据,按照应用的粒度建立项目。项目分配 在本教程中,建议参考下图建立您的MaxCompute项目,图中的每一个方块代表一个项目。...
前提条件 已创建数据分层。数据分层是将相同功能作用的表挂载至统一的数据层,方便您查找使用。汇总表通常挂载于汇总数据层,用于将一个统计粒度(维度或维度组合)及该粒度下的多个派生指标汇总输出,为后续的业务查询,数据分发等提供...
权限说明 使用RAM用户或角色创建数据源:通过新建MaxCompute项目创建数据源,需拥有MaxCompute的 odps:CreateProject 权限。数据源创建完成后,该RAM用户或角色将被MaxCompute项目添加为 Super_Administrator。说明 标准模式工作空间区分...
前提条件 已创建数据分层。数据分层是将相同功能作用的表挂载至统一的数据层,方便您查找使用。应用表通常挂载于应用数据层,用于将一个统计粒度(维度或维度组合)及该粒度下的多个指标汇总输出,为后续的业务查询,数据分发等提供基础。...
创建数仓分层 已创建数据域,用于确定维度所属的业务数据视角。数据域 应用层 已在应用层创建数仓分层。用于确定维度所属的层级。创建数仓分层 已创建数据集市,用于确定维度所属的特定应用场景或产品的数据类别。数据集市 使用限制 维度的...
您可通过创建数据开发(DataStudio)的SQL组件节点使用组件,基于组件快速新建数据处理节点,提高开发效率。本文为您介绍如何引用组件。前提条件 已准备所需使用的组件,详情请参见 定义SQL组件。已创建SQL组件节点,详情请参见 创建并管理...
前提条件(可选,仅动态脱敏需要)已根据业务需要配置好敏感数据识别规则,便于后续创建数据脱敏规则时关联需要应用脱敏的字段,操作详情请参见 敏感数据识别规则。(可选,仅动态脱敏需要)如果您希望通过白名单控制部分用户在指定时间段...
调用CreateDISyncTask创建数据集成同步任务。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求参数 名称 类型 是否必选 示例值 描述 Action String 是 ...
已创建数据分层,用于承载复合指标。您需根据需求选择合适的分层。详情请参见 创建数仓分层。汇总数据层:用于承载公共层的复合指标。应用数据层:用于承载应用层的复合指标。已创建业务过程,或数据集市/主题域,用于确定复合指标所反映的...
DataWorks作为阿里云大数据平台操作系统,对接各种大数据计算引擎,以all in one box的方式提供专业高效、安全可靠的全域智能大数据平台,高效率完成数据全链路研发流程,建设企业数据治理体系,同时提供优质高效的交流服务,本文为您介绍...
调用CreateDataServiceFolder创建数据服务文件夹。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求参数 名称 类型 是否必选 示例值 描述 Action String...
创建数据源 进入数据源中心页面。使用阿里云账号(主账号)或RAM用户登录 E-MapReduce控制台。在左侧导航栏,选择 EMR Workbench>Workflow。在Workflow页面,单击目标工作空间操作列的 控制台。单击上方的 数据源中心 页签。在 数据源中心 ...
本文为您介绍如何创建数据集成审批策略。背景信息 支持管理员按 源端、目的端 数据源的组合来定义需要被审批的数据集成任务,包括:在数据集成或数据开发页面保存任务等操作。例如,管理员定义了 mysql_1 数据源作为源端、odps_1 数据源...
调用CreateDataServiceGroup创建数据服务业务流程。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求参数 名称 类型 是否必选 示例值 描述 Action ...
单击 创建数据目录,在弹出的对话框中输入目录ID,单击 确定。详情请参见 数据目录。在 DLF数据目录 下拉列表中,选择您新建的数据目录。自建RDS:选择您自有的或阿里云RDS实例作为元数据存储。选择该方式时,需要配置RDS相关的参数,详情...
大数据专家服务 大数据专家服务(Bigdata Expert Service)是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户...,赋能技术团队具备大数据平台建设、架构设计、AI算法建模以及运维保障能力...
调用CreateQualityEntity创建数据质量的分区表达式。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求参数 名称 类型 是否必选 示例值 描述 Action ...
本文为您介绍如何创建数据集市并管理主题域。前提条件 已创建业务分类,用于对指定业务进行特定场景化的细分。详情请参见 业务分类。背景信息 数据集市是对某个业务分类制定细化的业务主题,并通过主题域,基于不同分析视角对目标集市中的...
调用CreateFlowProject接口,创建数据开发项目。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求参数 名称 类型 是否必选 示例值 描述 Action String ...
创建数据源 在数据源管理页面,您可根据需要选择 创建单个数据源 或 批量创建数据源:说明 DataWorks支持创建的数据源请参见 支持的数据源类型。创建单个数据源:单击 新增数据源,选择需要创建的数据源类型并配置数据源信息。不同数据源的...
Spark是一个通用的大数据分析引擎,具有高性能、易用和普遍性等特点,可用于进行复杂的内存分析,构建大型、低延迟的数据分析应用。DataWorks为您提供CDH Spark节点,便于您在DataWorks上进行Spark任务的开发和周期性调度。本文为您介绍...
CREATE_PRIV:创建数据库、表、视图的权限。DROP_PRIV:删除数据库、表、视图的权限。USAGE_PRIV:资源的使用权限。db_name:数据库名。tbl_name:表名。user_identity:用户标识。以 username@'userhost' 或 username@['domain']的形式...
获奖经历 IDC:大数据平台公共云市场份额中国第一 Forrester:全球云数据仓库卓越表现者象限,国内唯一 中国信通院:首个通过577项技术要求的数据平台整体解决方案评测 中国电子学会科技进步特等奖 中国国际软件博览会金奖 浙江省科技进步...
前提条件 已创建 数据识别规则,详情请参见 配置数据识别规则。为目标 数据识别规则 开启 数据水印 功能,详情请参见 创建数据脱敏规则。背景信息 通过DataWorks的 数据保护伞 的 数据脱敏管理,开启目标 数据识别规则 的 数据水印 功能后...
通过创建阿里云向量检索Milvus实例,能够迅速搭建起具备高性能、弹性伸缩特性的AI向量检索数据库,并借助内置可视化管理工具Attu实现高效运维与监控。本文为您介绍如何快速创建Milvus实例。前提条件 已拥有阿里云账号。如果您还没有阿里云...
说明 上图中,虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示:数据产生:业务系统每天会产生大量结构化的数据,存储在业务系统所对应的数据库中,包括MySQL、Oracle和RDS等类型。数据收集与存储:您需要同步...
价值体现 从大数据平台上云整体“降本增效”的方案快速切入,迁移到大数据MaxCompute、实时计算、DataWorks后,部分任务有10倍以上的性能提升,存储从自建Hadoop 3PB降到900T,利用Flink实时数据处理能力,将宝宝树现有的场景实时化(...
调用CreateBusiness,创建数据开发(DataStudio)的业务流程。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求参数 名称 类型 是否必选 示例值 描述 ...
数据开发(DataStudio)基于业务流程执行具体开发操作,因此创建节点前需先新建业务流程,详情请参见 创建业务流程。创建通用Shell节点 进入数据开发页面。登录 DataWorks控制台,单击左侧导航栏的 数据建模与开发>数据开发,在下拉框中...
如果您删除了该角色,则相关任务在DataWorks创建数据源时,无法罗列并选择DataWorks数据集成相关的RAM角色。详情请参见 删除服务关联角色。您可以随时删除 AliyunDIDefaultRole 角色。如果您删除了该角色,则在进行数据源配置、任务配置、...
DataWorks作为数据加工的开发平台,提供了便捷的可视化建表方式,同时,您也可以直接使用Hologres通过DDL语句建表,详情请参见 建表概述。使用限制 当前仅华东2(上海)、华北2(北京)地域支持使用该功能。操作步骤 进入 数据开发 页面。...
示例 以下以一个简单示例为您介绍PyODPS节点的使用:准备数据集,创建 pyodps_iris 示例表,具体操作请参见 Dataframe数据处理。创建DataFrame,详情请参见 从MaxCompute表创建DataFrame。在PyODPS节点中输入以下代码并运行。from odps.df ...
对于工作空间下无数据源的情况,支持您单击 新建数据源,进入数据源配置页面,创建数据源。查看元数据采集器 整体统计 在 元数据采集 页面,您可以切换 数据源视角 和 工作空间视角,查看元数据采集总览,主要为您展示已创建采集器的数据库...
调用GenerateDISyncTaskConfigForCreating接口,异步生成创建数据集成同步任务的异步线程ID。后续您需要通过该ID,调用 QueryDISyncTaskConfigProcessResult 接口获取异步生成创建数据集成同步任务需要的参数,通过该参数创建数据集成同步...
MaxCompute 大数据计算服务MaxCompute为您提供快速且完全托管的数据仓库解决方案,并可以通过与OSS的结合,高效经济地分析处理海量数据。MaxCompute外部表 该功能基于MaxCompute新一代的V2.0计算框架,可以帮助您直接对OSS中的海量文件进行...
您可以创建EMR(E-MapReduce)Impala节点,对PB级大数据进行快速、实时的交互式SQL查询。前提条件 数据开发(DataStudio)中已创建业务流程。数据开发(DataStudio)基于业务流程对不同开发引擎进行具体开发操作,所以您创建节点前需要先...
所有地域 其他地域如果希望通过短信方式报警,您需要先单击 申请链接 加入“阿里云大数据AI平台”交流群,再扫描下方二维码加入DataWorks产品钉钉交流群,进行售前售后咨询,咨询可直接@智能机器人,值班时间段内也可直接联系值班人员。...
在DataWorks任务开发中,您可以通过创建CDH MR(MapReduce)节点处理超大规模的数据集。本文为您介绍如何在DataWorks中创建并使用CDH MR节点。前提条件 数据开发(DataStudio)中已创建业务流程。数据开发(DataStudio)基于业务流程对不同...
在EMR任务开发中,通过创建EMR(E-MapReduce)MR节点,可将大规模数据集分为多个Map任务以并行处理,加速数据集的并行运算。本文将以创建EMR MR节点实现从OSS中读取文本,并统计文本中的单词数为例,为您展示EMR MR节点的作业开发流程。...
如您所在的集团或公司业务复杂且较为庞大时,可创建业务分类,对数据进行业务区分,便于对业务数据进行更加方便的管理。本文为您介绍如何创建业务分类并关联数据域及管理数据集市。新建业务分类 进入智能数据建模页面。登录 DataWorks控制...