质量问题大数据-质量问题大数据文档介绍内容-阿里云

导入数据字典

为了创建完整的字段标准，需要先完善数据字典的管理，创建好数据字典后，可以用来规范数据标准字段的值域范围，保证关联了字段标准的表及字段可以自动设置数据质量规则，规范数据质量。通过导入数据字典可以实现批量创建数据字典。本文介绍...

导入数据字典

为了创建完整的字段标准，需要先完善数据字典的管理，创建好数据字典后，可以用来规范数据标准字段的值域范围，保证关联了字段标准的表及字段可以自动设置数据质量规则，规范数据质量。通过导入数据字典可以实现批量创建数据字典。本文介绍...

快速体验

数据治理：大数据开发治理平台 DataWorks数据质量（必选）、大数据开发治理平台 DataWorks数据地图（必选）、大数据开发治理平台 DataWorks数据保护伞（必选），基础版DataWorks已包含。数据展示：智能分析套件Quick BI（必选），您可根据...

数据质量风险监控

数据质量风险监控主要针对数据的准确性、一致性和完整性。本教程使用DataWorks数据质量（DQC）功能，完成数仓各层次的数据质量监控。前提条件首先您需要完成教程搭建互联网在线运营分析平台，并保证您的DataWorks工作空间创建区域为华东2...

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hive 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 Kudu 支持支持 StarRocks 支持支持 Hudi 支持支持 Doris 支持支持 ...

数据导入概览

从阿里云对象存储OSS导入数据至图数据库GDB实例图数据库GDB服务端集成有数据导入模块，可以获取您提供的.csv格式的OSS数据文件，并将其解析为图中的点数据和边数据，然后将点数据和边数据导入至图数据库GDB实例。步骤步骤说明 ① 将需要...

创建GreenPlum数据源

通过创建GreenPlum数据源能够实现Dataphin读取GreenPlum的业务数据或向GreenPlum写入数据。本文为您介绍如何创建GreenPlum数据源。背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

数据库导出

当您需要进行数据库备份、导出数据库表进行数据分析等操作，您可使用数据管理DMS 的数据导出功能，该功能可通过提交工单的方式导出数据库。前提条件数据库类型如下：MySQL系列：自建MySQL、RDS MySQL、PolarDB MySQL版、AnalyticDB ...

数据质量衡量

在了解保障基于MaxCompute的数据仓库数据质量的方案后，您还需要进一步学习如何制定一套标准度量方案，以及判断质量监控方案是否合适业务需求以及如何改进。例如，针对每一个数据质量事件，必须分析原因和处理过程，制定后续同类事件预防...

支持的数据源

类别数据源导入方式文档链接消息队列 Kafka 数据同步通过数据同步功能同步Kafka至湖仓版（推荐）日志类数据日志服务（SLS）数据同步通过数据同步功能同步SLS至湖仓版（推荐）大数据 Hive 数据迁移 Hive数据导入相关文档 AnalyticDB...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据...

数据集成概述

背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错，限速，并发）等。...

数据源白名单配置

产品名称操作说明云原生大数据计算服务MaxCompute 设置白名单实时数仓Hologres IP白名单云数据库ClickHouse 设置白名单消息队列Kafka版配置白名单云原生分布式数据库PolarDB-X 设置白名单云原生分布式数据库PolarDB-X（2.0）设置白...

告警事件

告警事件集中为您展示离线计算、实时计算、基线监控、数据质量模块的告警事件。本文为您介绍如何查看并处理告警事件。查看告警事件在Dataphin首页，单击页面右上角的图标，进入告警中心页面。在告警事件页面，单击离线计算、实时...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多信息，请参见 Apache Hudi官网。权限说明仅支持超级管理员、数据源管理员、...

Stage级别诊断结果

较大的数据量被广播 Stage输入数据倾斜 Stage输出数据倾斜较大的数据量被广播问题广播（Broadcast）是在两个相邻的Stage间，上游向下游Stage传输数据时所用的一种方法（更多详情，请参见数据输出类型）。如果某个Stage广播了较多数据，...

迁移 Oracle 数据库的数据至 OceanBase 数据库 Oracle...

对于无主键且包含 LOB 类型字段的表，反向增量会出现数据质量问题。数据源标识和用户账号等，在数据传输系统内全局唯一。Oracle 数据库的增量日志解析最大支持 5T/天。Oracle 数据库 11G 及之前版本不支持创建超过 30 个字节的数据库对象。...

典型场景

ETL离线数据处理面对复杂SQL优化和海量数据大规模聚合分析等挑战，云原生数据仓库AnalyticDB PostgreSQL版具有如下技术优势：支持标准SQL、OLAP窗口函数和存储过程。ORCA分布式SQL优化器，复杂查询免调优。MPP多节点全并行计算，PB级数据...

数据变更最佳实践

批量和实时导入数据批量导入：适用于大数据量导入的场景，导入过程中可以查询旧数据，导入操作完成后一键切换新数据。导入失败时，支持回滚新数据，不影响查询旧数据。例如，从MaxCompute、OSS中导入数据到 AnalyticDB MySQL版时，推荐...

数据量

在数据库备份场景下，有4个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量。数据量说明数据库磁盘空间由数据库的数据文件空间、数据库的日志文件空间、操作系统文件空间和空闲空间组成。说明 RDS中为：购买时选择的存储...

数据质量规则配置流程

本文为您介绍数据质量监控规则的配置流程及生效逻辑，以及规则列表的相关操作。规则配置流程您可基于表配置单个表的数据质量监控规则，也可基于模板，批量配置多个表的数据质量监控规则，具体如下。基于表配置数据质量监控规则（单个配置...

什么是MaxCompute

MaxCompute是适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效...

创建Impala数据源

在新建数据源对话框的 大数据存储区域，选择 Impala。如果您最近使用过Impala，也可以在最近使用区域选择Impala。同时，您也可以在搜索框中，输入Impala的关键词，快速筛选。在新建Impala数据源对话框中，配置连接数据源参数。配置...

查看敏感数据识别结果

仅支持在结构化数据、半结构化数据、非结构化数据或 大数据 分类下分别选择一个或多个数据类型，不支持跨分类同时选择多个数据类型。如果您未选中任意数据类型，数据安全中心默认展示所有数据类型下的敏感数据识别结果。数据模板：在 ...

限制说明

数据大小云数据库 Memcache 版支持的单条缓存数据的 Key 最大不超过 1 KB，Value 最大不超过 1 MB，过大的数据不适合存储。事务支持云数据库 Memcache 版不支持事务，有事务性要求的数据不适合写入，而应该直接写入数据库。使用场景当...

新建TDengine数据源

在新建数据源对话框的 大数据存储区域，选择 TDengine。如果您最近使用过TDengine，也可以在最近使用区域选择TDengine。同时，您也可以在搜索框中，输入TDengine的关键词，快速搜索。在新建TDengine数据源对话框中，配置数据源的...

新建TDengine数据源

在新建数据源对话框的 大数据存储区域，选择 TDengine。如果您最近使用过TDengine，也可以在最近使用区域选择TDengine。同时，您也可以在搜索框中，输入TDengine的关键词，快速搜索。在新建TDengine数据源对话框中，配置数据源的...

配置数据质量规则去噪

当任务触发质量规则校验时，您可以使用去噪管理功能，对当前工作空间内，数据质量规则校验异常的数据不触发报警，且不阻塞任务运行（任务不会因为数据质量校验不通过而失败退出）。前提条件已创建数据质量校验规则，详情请参见配置规则：...

安全配置常见问题

问题类别常见问题数据安全 MaxCompute如何保证数据安全？MaxCompute的数据是否可靠？VPC IP白名单是否支持设置网段？项目安全运行作业报错AllMachineInBlackList，如何解决？因涉及项目数据保护，无法将MaxCompute数据导出至MySQL，如何...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

新建Doris数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可根据标签给数据源进行分类...

操作流程

新建数据字典并物理化通过新建并维护数据模型中使用的数据字典，制定并管理平台遵循的统一数据标准，为数据元、指标、维度引用数据字典提供数据基础，帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。具体操作，请参见新建...

操作流程

新建数据字典并物理化通过新建并维护数据模型中使用的数据字典，制定并管理平台遵循的统一数据标准，为数据元、指标、维度引用数据字典提供数据基础，帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。具体操作，请参见新建...

数据分析概述

功能概述 SQL查询 SQL查询是使用标准的SQL语句，来查询和分析存储在MaxCompute中的大数据，详情请参见 SQL查询。您可以通过编写SQL语句，对有查询权限的数据源进行快速的数据查询与分析操作，详情请参见功能概览。DataWorks SQL查询提供了...

数据集成

数据源支持情况数据集成目前支持40种以上的数据源类型（包括关系型数据库、非结构化存储、大数据存储、消息队列等），通过定义来源与去向数据源，并使用数据集成提供的数据抽取插件（Reader）、数据写入插件（Writer），实现任意结构化、...

功能简介

通过数据标准的管理功能，模型设计者可通过设计标准数据元素，定义关键业务对象、业务对象属性及值域，规范标准数据字典，制定并管理平台遵循的统一数据标准，帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。模型标准设计 ...

功能简介

通过数据标准的管理功能，模型设计者可通过设计标准数据元素，定义关键业务对象、业务对象属性及值域，规范标准数据字典，制定并管理平台遵循的统一数据标准，帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。模型标准设计 ...

数据标准

字段标准设计数据元管理：提供对数据元的标准定义和统一管理，通过分析业务流程，抽象关键业务对象、业务对象属性，配置数据元的类型、长度、质量校验函数和引用数据字典，为逻辑表标准化设计及数据治理过程中的质量监控提供规则依据；...

数据重排

在MaxCompute的使用过程中，如果已经积累了大量数据占用了大量存储资源，且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理，在您的存储预算有限，计算资源还有冗余的情况下，可以考虑使用数据重排方式对存储空间进行优化。...

质量问题大数据

新品推荐