大数据平台怎么创建-大数据平台怎么创建文档介绍内容-阿里云

项目分配与安全

在为企业级大数据平台创建项目时，建议您对ODS层、DWD及DWS层的数据按照业务板块的粒度建立项目，对于ADS层的数据，按照应用的粒度建立项目。项目分配在本教程中，建议参考下图建立您的MaxCompute项目，图中的每一个方块代表一个项目。...

创建逻辑模型：汇总表

前提条件已创建数据分层。数据分层是将相同功能作用的表挂载至统一的数据层，方便您查找使用。汇总表通常挂载于汇总数据层，用于将一个统计粒度（维度或维度组合）及该粒度下的多个派生指标汇总输出，为后续的业务查询，数据分发等提供...

创建MaxCompute数据源

权限说明使用RAM用户或角色创建数据源：通过新建MaxCompute项目创建数据源，需拥有MaxCompute的 odps:CreateProject 权限。数据源创建完成后，该RAM用户或角色将被MaxCompute项目添加为 Super_Administrator。说明标准模式工作空间区分...

创建逻辑模型：应用表

前提条件已创建数据分层。数据分层是将相同功能作用的表挂载至统一的数据层，方便您查找使用。应用表通常挂载于应用数据层，用于将一个统计粒度（维度或维度组合）及该粒度下的多个指标汇总输出，为后续的业务查询，数据分发等提供基础。...

创建概念模型：维度

创建数仓分层已创建数据域，用于确定维度所属的业务数据视角。数据域应用层已在应用层创建数仓分层。用于确定维度所属的层级。创建数仓分层已创建数据集市，用于确定维度所属的特定应用场景或产品的数据类别。数据集市使用限制维度的...

引用SQL组件

您可通过创建数据开发（DataStudio）的SQL组件节点使用组件，基于组件快速新建数据处理节点，提高开发效率。本文为您介绍如何引用组件。前提条件已准备所需使用的组件，详情请参见定义SQL组件。已创建SQL组件节点，详情请参见创建并管理...

创建数据脱敏规则

前提条件（可选，仅动态脱敏需要）已根据业务需要配置好敏感数据识别规则，便于后续创建数据脱敏规则时关联需要应用脱敏的字段，操作详情请参见敏感数据识别规则。（可选，仅动态脱敏需要）如果您希望通过白名单控制部分用户在指定时间段...

CreateDISyncTask

调用CreateDISyncTask创建数据集成同步任务。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action String 是 ...

复合指标

已创建数据分层，用于承载复合指标。您需根据需求选择合适的分层。详情请参见创建数仓分层。汇总数据层：用于承载公共层的复合指标。应用数据层：用于承载应用层的复合指标。已创建业务过程，或数据集市/主题域，用于确定复合指标所反映的...

DataWorks交流钉钉群

DataWorks作为阿里云大数据平台操作系统，对接各种大数据计算引擎，以all in one box的方式提供专业高效、安全可靠的全域智能大数据平台，高效率完成数据全链路研发流程，建设企业数据治理体系，同时提供优质高效的交流服务，本文为您介绍...

CreateDataServiceFolder

调用CreateDataServiceFolder创建数据服务文件夹。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action String...

数据源中心

创建数据源进入数据源中心页面。使用阿里云账号（主账号）或RAM用户登录 E-MapReduce控制台。在左侧导航栏，选择 EMR Workbench>Workflow。在Workflow页面，单击目标工作空间操作列的控制台。单击上方的数据源中心页签。在数据源中心 ...

数据集成审批策略

本文为您介绍如何创建数据集成审批策略。背景信息支持管理员按源端、目的端数据源的组合来定义需要被审批的数据集成任务，包括：在数据集成或数据开发页面保存任务等操作。例如，管理员定义了 mysql_1 数据源作为源端、odps_1 数据源...

CreateDataServiceGroup

调用CreateDataServiceGroup创建数据服务业务流程。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action ...

创建集群

单击 创建数据目录，在弹出的对话框中输入目录ID，单击确定。详情请参见数据目录。在 DLF数据目录下拉列表中，选择您新建的数据目录。自建RDS：选择您自有的或阿里云RDS实例作为元数据存储。选择该方式时，需要配置RDS相关的参数，详情...

产品简介

大数据专家服务大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户...，赋能技术团队具备大数据平台建设、架构设计、AI算法建模以及运维保障能力...

CreateQualityEntity

调用CreateQualityEntity创建数据质量的分区表达式。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action ...

数据集市

本文为您介绍如何创建数据集市并管理主题域。前提条件已创建业务分类，用于对指定业务进行特定场景化的细分。详情请参见业务分类。背景信息数据集市是对某个业务分类制定细化的业务主题，并通过主题域，基于不同分析视角对目标集市中的...

创建数据开发项目

调用CreateFlowProject接口，创建数据开发项目。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action String ...

创建并管理数据源

创建数据源在数据源管理页面，您可根据需要选择创建单个数据源或批量创建数据源：说明 DataWorks支持创建的数据源请参见支持的数据源类型。创建单个数据源：单击新增数据源，选择需要创建的数据源类型并配置数据源信息。不同数据源的...

创建CDH Spark节点

Spark是一个通用的大数据分析引擎，具有高性能、易用和普遍性等特点，可用于进行复杂的内存分析，构建大型、低延迟的数据分析应用。DataWorks为您提供CDH Spark节点，便于您在DataWorks上进行Spark任务的开发和周期性调度。本文为您介绍...

用户和权限管理

CREATE_PRIV：创建数据库、表、视图的权限。DROP_PRIV：删除数据库、表、视图的权限。USAGE_PRIV：资源的使用权限。db_name：数据库名。tbl_name：表名。user_identity：用户标识。以 username@'userhost' 或 username@['domain']的形式...

什么是DataWorks

获奖经历 IDC：大数据平台公共云市场份额中国第一 Forrester：全球云数据仓库卓越表现者象限，国内唯一中国信通院：首个通过577项技术要求的数据平台整体解决方案评测中国电子学会科技进步特等奖中国国际软件博览会金奖浙江省科技进步...

敏感数据溯源

前提条件已创建数据识别规则，详情请参见配置数据识别规则。为目标数据识别规则开启数据水印功能，详情请参见 创建数据脱敏规则。背景信息通过DataWorks的数据保护伞的数据脱敏管理，开启目标数据识别规则的数据水印功能后...

快速创建Milvus实例

通过创建阿里云向量检索Milvus实例，能够迅速搭建起具备高性能、弹性伸缩特性的AI向量检索数据库，并借助内置可视化管理工具Attu实现高效运维与监控。本文为您介绍如何快速创建Milvus实例。前提条件已拥有阿里云账号。如果您还没有阿里云...

通用数据开发

说明上图中，虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示：数据产生：业务系统每天会产生大量结构化的数据，存储在业务系统所对应的数据库中，包括MySQL、Oracle和RDS等类型。数据收集与存储：您需要同步...

客户案例

价值体现从大数据平台上云整体“降本增效”的方案快速切入，迁移到大数据MaxCompute、实时计算、DataWorks后，部分任务有10倍以上的性能提升，存储从自建Hadoop 3PB降到900T，利用Flink实时数据处理能力，将宝宝树现有的场景实时化（...

CreateBusiness

调用CreateBusiness，创建数据开发（DataStudio）的业务流程。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 ...

Shell节点

数据开发（DataStudio）基于业务流程执行具体开发操作，因此创建节点前需先新建业务流程，详情请参见创建业务流程。创建通用Shell节点进入数据开发页面。登录 DataWorks控制台，单击左侧导航栏的数据建模与开发>数据开发，在下拉框中...

DataWorks数据集成服务关联角色

如果您删除了该角色，则相关任务在DataWorks创建数据源时，无法罗列并选择DataWorks数据集成相关的RAM角色。详情请参见删除服务关联角色。您可以随时删除 AliyunDIDefaultRole 角色。如果您删除了该角色，则在进行数据源配置、任务配置、...

创建Hologres内部表

DataWorks作为数据加工的开发平台，提供了便捷的可视化建表方式，同时，您也可以直接使用Hologres通过DDL语句建表，详情请参见建表概述。使用限制当前仅华东2（上海）、华北2（北京）地域支持使用该功能。操作步骤进入数据开发页面。...

开发PyODPS 2任务

示例以下以一个简单示例为您介绍PyODPS节点的使用：准备数据集，创建 pyodps_iris 示例表，具体操作请参见 Dataframe数据处理。创建DataFrame，详情请参见从MaxCompute表创建DataFrame。在PyODPS节点中输入以下代码并运行。from odps.df ...

元数据采集

对于工作空间下无数据源的情况，支持您单击新建数据源，进入数据源配置页面，创建数据源。查看元数据采集器整体统计在元数据采集页面，您可以切换数据源视角和工作空间视角，查看元数据采集总览，主要为您展示已创建采集器的数据库...

GenerateDISyncTaskConfigForCreating

调用GenerateDISyncTaskConfigForCreating接口，异步生成创建数据集成同步任务的异步线程ID。后续您需要通过该ID，调用 QueryDISyncTaskConfigProcessResult 接口获取异步生成创建数据集成同步任务需要的参数，通过该参数创建数据集成同步...

外部表

MaxCompute 大数据计算服务MaxCompute为您提供快速且完全托管的数据仓库解决方案，并可以通过与OSS的结合，高效经济地分析处理海量数据。MaxCompute外部表该功能基于MaxCompute新一代的V2.0计算框架，可以帮助您直接对OSS中的海量文件进行...

创建EMR Impala节点

您可以创建EMR（E-MapReduce）Impala节点，对PB级大数据进行快速、实时的交互式SQL查询。前提条件数据开发（DataStudio）中已创建业务流程。数据开发（DataStudio）基于业务流程对不同开发引擎进行具体开发操作，所以您创建节点前需要先...

基线管理

所有地域其他地域如果希望通过短信方式报警，您需要先单击申请链接加入“阿里云大数据AI平台”交流群，再扫描下方二维码加入DataWorks产品钉钉交流群，进行售前售后咨询，咨询可直接@智能机器人，值班时间段内也可直接联系值班人员。...

创建CDH MR节点

在DataWorks任务开发中，您可以通过创建CDH MR（MapReduce）节点处理超大规模的数据集。本文为您介绍如何在DataWorks中创建并使用CDH MR节点。前提条件数据开发（DataStudio）中已创建业务流程。数据开发（DataStudio）基于业务流程对不同...

创建EMR MR节点

在EMR任务开发中，通过创建EMR（E-MapReduce）MR节点，可将大规模数据集分为多个Map任务以并行处理，加速数据集的并行运算。本文将以创建EMR MR节点实现从OSS中读取文本，并统计文本中的单词数为例，为您展示EMR MR节点的作业开发流程。...

业务分类

如您所在的集团或公司业务复杂且较为庞大时，可创建业务分类，对数据进行业务区分，便于对业务数据进行更加方便的管理。本文为您介绍如何创建业务分类并关联数据域及管理数据集市。新建业务分类进入智能数据建模页面。登录 DataWorks控制...

大数据平台怎么创建

新品推荐