如何管理大数据-如何管理大数据文档介绍内容-阿里云

通过样本库识别

管理样本库在数据样本管理页面，您还可以对已创建的样本库执行如下管理操作：查看样本库列表。您可以在数据样本管理页面查看所有已创建样本库包含的样本个数及关联的数据识别规则。单击目标样本库操作列的图标，即可查看该样本库的...

管理数据

更多操作批量管理数据域需要大规模调整多个数据域下的资产时，您可以使用批量导入功能。通过下载并修改数据域模板文件，快速管理数据域。仅支持阿里云账号和具有 AliyunYundunSDDPFullAccess 权限的RAM用户使用该功能。登录数据安全中心...

风险识别管理（新版）

背景信息数据输入DataWorks后会经过数据保护伞进行过滤处理，旧版风险识别管理的风险识别功能仅当涉及敏感数据时才会被识别为风险，不支持操作审计相关场景及事件统计聚合场景的识别。因此，DataWorks为解决该问题，为您提供了功能更加...

MaxCompute项目设置RAM子账号为超级管理员

本文为您介绍在MaxCompute项目中如何将RAM子账号设置为超级管理员，并提供了超级管理员在成员管理、权限管理等方面的使用建议。背景信息日常工作中，为了保障数据安全，通常主账号为特定人员管理，使用MaxCompute的大部分用户都只持有RAM...

功能特性

数据分析概述访问数据分析功能 管理数据集仪表盘 Copilot Copilot是DMS基于阿里云大模型构建的数据智能助手。其结合了DMS熟练的数据管理、数据使用能力，可帮助开发、运维、产品、运营、分析师和数据库管理员，更高效、规范地使用和管理...

简介

其结合了DMS熟练的数据管理、数据使用能力，可帮助开发、运维、产品等人员，更高效、规范地使用和管理数据。更多信息，请参见 Data Copilot智能助手。Notebook：一个交互式的记事本，可以将代码、文字、图表集中在一个页面，支持高效查询、...

创建及管理外部表

背景信息 Hologres与大数据生态无缝打通，可以直接加速查询外部表数据，也可以将外部表的数据导入至Hologres中处理。Hologres当前仅支持对MaxCompute表进行操作。使用限制 Hologres支持跨工作空间读取外部表数据，您当前使用的账号需要拥有...

制定数据治理计划

数据治理计划提供不同治理场景下的治理计划模板，并可设置治理计划完成时间内的治理目标，同时，系统自动根据治理计划类型，快速选择治理项，圈定可优化对象，帮助负责人持续跟踪数据治理成效，推动团队及时达成治理目标。使用限制版本...

系统管理

在该页面，您可进行如下功能的管控：建表策略管理代码生成策略管理发布策略管理建表策略管理配置并开启建表策略在建表策略管理页签，您可通过可视化方式配置数据开发（DataStudio）建表的相关限制策略，步骤如下图。策略说明如下：...

作业优先级管理与成本优化

本文为您介绍MaxCompute作业优先级管理与成本优化。作业优先级 MaxCompute的包年包月计算资源有限，在实际数据开发过程中，系统需要优先保障...由于大数据的动态性和不断变化的性质，成本优化应该持续进行，成本优化流程请参见成本优化概述。

概述

如何打破部门或业务领域之间的信息孤岛是企业数据管理的一大难题。数据标准整合，统一灵活对接同一数据不同描述，企业数据管理难、内容重复、结果不准确。如何制定统一的数据标准又不打破原有的系统架构，实现灵活对接上下游业务，是标准...

数据建模：智能数据建模

如何打破部门或业务领域之间的信息孤岛是企业数据管理的一大难题。数据标准整合，统一灵活对接同一数据不同描述，企业数据管理难、内容重复、结果不准确。如何制定统一的数据标准又不打破原有的系统架构，实现灵活对接上下游业务，是标准...

管理数据目录

如果您想添加新的DLF数据目录，可以单击创建数据目录，跳转至数据湖构建控制台创建，详情请参见元数据管理。查看数据库和表在数据目录页面，单击数据目录ID。展示当前数据目录下的所有数据库信息。单击操作列的表。展示当前数据库下...

管理Databases

本文为您介绍如何在阿里云Milvus中有效地管理Databases（数据库），其操作方式与传统数据库引擎类似。您不仅能够在阿里云Milvus中创建多个Databases，还能够对这些Databases进行精细化权限控制，将其授权给指定的用户进行管理。前提条件已...

数据可视化

数据管理DMS 提供灵活布局和丰富的自定义样式能力，并提供大量可视化组件和内置辅助图形，帮助您快速实现可视化大屏。说明数据可视化功能即将下线，建议您在功能下线前将数据集、图表和仪表盘迁移到数据分析功能。更多信息，请参见【通知...

权限概述

为确保MaxCompute项目数据的安全性，项目所有者或者具备授权权限的用户需要对项目内成员的权限进行合理管控，确保权限不会过大也不会过小。本文为您介绍MaxCompute的权限管理体系。权限体系类别说明权限主体 MaxCompute支持的权限主体...

管理用户及数据授权

通过用户管理功能，您可以对数据库进行用户权限控制，这样可以确保只有授权的用户能够管理相关的数据库。前提条件已创建实例，详情请参见创建实例。使用限制普通用户无法执行本文操作。添加用户进入StarRocks Manager页面。登录 E-...

逻辑数仓

数据管理DMS提供的逻辑数仓具有强大的数据源管理能力，可以实现将企业的异构数据源进行逻辑聚合，形成物理分散、逻辑统一的虚拟数仓，然后快速地提供数据分析和访问服务，满足业务人员、BI分析师、运营人员等各种角色的需求。背景信息企业...

项目管理（新版）

管理项目内数据的权限，将数据权限授权给RAM用户，可以通过项目角色进行权限管理，添加项目成员操作请参见角色管理。对项目进行开发工作，请准备MaxCompute项目开发环境并安装相应工具。更多准备环境及安装工具操作请参见选择连接工具。...

配置用户组

成功创建用户组后，您可以使用数据脱敏管理功能，配置目标脱敏规则的白名单，将该用户组添加至白名单中，则使用目标脱敏规则进行脱敏的数据，对该用户组中的用户仍然显示为脱敏前的原始数据。配置脱敏规则的白名单，详情请参见创建数据...

数据集市

您可以在目标数据集市页面的主题域管理区域，查看当前数据集市挂载的主题域列表，并根据业务需求对目标主题域进行编辑或删除等管理操作。说明删除指定主题域，不仅会删除该主题域与数据集市的绑定关系，同时，会将该主题域一并删除，请...

创建并管理工作空间

您可以在DataWorks管理控制台页面新增、删除...详情请参见创建并管理数据源。当需要将更多的RAM用户添加至工作空间，并为其分配不同角色以便协同开发时。您可在DataWorks进行工作空间成员添加及成员角色权限管理。详情请参见成员权限管理。

开发管控：管理者

作为工作空间的管理者，在使用数据开发（DataStudio）时，您可以针对用户的开发行为实施有效的管控措施，进行开发流程、数据安全、审计等相关操作，本文将帮助您快速掌握DataStudio的相关功能，实现对数据开发过程的有效管控。背景信息 ...

管理笔记本

配置数据库的具体操作，请参见 管理数据库。PySpark 当程序代码为PySpark时，需要提前添加外部集群，详情请参见管理外部集群。如果您绑定的集群，集群存储根路径使用了OSS-HDFS，则在运行 PySpark 时，还需授予Notebook访问OSS-HDFS的权限...

任务运维

任务开发完发布上线后，我们需要在运维中心对它进行运维管理。本文介绍如何对任务进行运维管理。运维管理周期任务下图为周期任务主要功能点，查看周期任务DAG图（节点依赖关系的有向无环图）是否符合预期，如下图所示的依赖关系就是符合...

创建数仓分层

用于将不同用途的数据，归类划分至不同的分层，便于您更好地组织、管理、维护数据。本文为您介绍如何创建并管理数仓分层。背景信息数据仓库是所有数据的集合，包括日志信息、数据库数据、文本数据、外部数据等都集成在数据仓库中。数仓...

管理导入任务

导入任务是EMR StarRocks Manager中的一个功能模块，旨在降低用户在导入任务管理方面的运维成本，提供可视化的导入任务管理能力。本文为您介绍如何使用EMR StarRocks Manager管理导入任务。背景信息该页面的数据来自于使用StarRocks内核...

管理Schema

通过定义Schema来管理和查询数据，以支持高效的搜索和分析操作。本文为您介绍Collection和字段的Schema定义以及如何在Milvus中创建Schema。前提条件已在本地客户端成功安装了PyMilvus库，并将其更新至当前最新版本。如果您尚未在本地客户...

配置并管理实时同步任务

完成数据源、网络、资源的准备配置后，您可创建实时同步节点，同步数据至 AnalyticDB for MySQL。本文为您介绍如何创建数据实时同步任务，并在创建完成后查看任务运行情况。前提条件已完成数据源配置。您需要在数据集成同步任务配置前，...

权限管理与规范化数据开发

其中生产环境的MaxCompute访问身份即调度访问身份，是开发任务发布到生产环境进行周期性调度运行时所使用的身份，通常情况下为保证调度任务顺利进行，比起开发者自己的身份来，调度访问身份往往拥有较大数据范围读写权限。生产环境...

事务管理

对DTT（Delta Transactional Table）的所有数据修改操作，都会由MetaService统一进行事务管理，满足ACID特性，应用MVCC模型来保障读写快照隔离，采用OCC模型进行乐观事务并发控制。冲突检测规则下表为作业并发提交场景下，对同一个非分区...

配置并管理实时同步任务

完成数据源、网络、资源的准备配置后，您可创建实时同步节点，同步数据至Kafka。本文为您介绍如何创建数据实时同步任务，并在创建完成后查看任务运行情况。前提条件已完成数据源配置。您需要在数据集成同步任务配置前，配置好您需要同步的...

什么是EMR on ACK

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。形态对比阿里云EMR提供on ECS和on ACK两种方式，以...

集群管理常见问题

滚动重启机制是指在一个ECS实例重启完成且该实例上的大数据服务全部恢复后，再启动下一个ECS实例。每个节点重启耗时约5分钟。集群创建后如何绑定公网IP？您可以单独申请EIP地址，并绑定到未分配公网IP地址的专有网络VPC类型的实例上，使ECS...

镜像管理

MaxCompute提供镜像管理功能，内置数据分析、科学计算、机器学习（如Pandas、Numpy、Scikit-learn、Xgboost）等各类常用镜像，并已对镜像进行预先加热，您可在SQL UDF、PyODPS开发等场景中直接引用已有镜像，无需执行繁琐的镜像打包、上传...

配置数据质量规则去噪

当任务触发质量规则校验时，您可以使用去噪管理功能，对当前工作空间内，数据质量规则校验异常的数据不触发报警，且不阻塞任务运行（任务不会因为数据质量校验不通过而失败退出）。前提条件已创建数据质量校验规则，详情请参见配置规则：...

数据及时性监控

本文为您介绍如何使用DataWorks智能监控的规则管理功能监控数据的及时性。前提条件如果您想使用完整的智能监控功能，需要购买标准版及以上版本DataWorks，详情请参见 DataWorks各版本详解。关于DataWorks智能监控功能详情请参见智能基线...

第三方认证文件管理

DataWorks的数据同步功能支持第三方身份认证机制，您需要提前在DataWorks的认证文件管理页面上传认证文件，并在配置数据源同时开启第三方认证功能，使得只有可信的应用和服务才能访问数据资源。本文为您介绍如何上传和引用认证文件。背景...

管理项目数据

前提条件已连接MaxCompute项目，详情请参见管理项目连接。背景信息您可以在 Project Explorer 区域查看已添加连接的MaxCompute项目中的表、视图、函数和资源。浏览和更新项目数据进入MaxCompute Studio页面，在左侧导航栏，单击 ...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

如何管理大数据

新品推荐