大数据是指数据规模巨大-大数据是指数据规模巨大文档介绍内容-阿里云

概述

数据备份物理空间大小如下图所示：说明 PolarDB 集群数据备份物理空间大小（上图中①所示）：指数据备份的收费对象，物理空间大小是指所有数据备份（快照）独占的物理空间大小之和，PolarDB集群的数据与多个数据备份（快照）会复用相同的...

DataWorks V3.0

MaxCompute：大数据计算服务MaxCompute（原ODPS）是一种快速、完全托管的EB级大数据计算引擎，是大规模离线数据仓库的核心引擎。MaxCompute是DataWorks最早支持，且最成熟完备的计算引擎，目前已基本覆盖MaxCompute的所有功能。详情请参见 ...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。...

功能简介

准确性：数据准确性是指数据准确的反映其所建模的“真实世界”的实体。一致性：数据一致性是指确保两个数据集之间或一个数据集内部不同字段间数值或信息的一致。唯一性：数据唯一性是指在一个数据集中，没有重复的记录或信息。时效性：数据...

功能简介

准确性：数据准确性是指数据准确的反映其所建模的“真实世界”的实体。一致性：数据一致性是指确保两个数据集之间或一个数据集内部不同字段间数值或信息的一致。唯一性：数据唯一性是指在一个数据集中，没有重复的记录或信息。时效性：数据...

质量评估

准确性：数据准确性是指数据准确的反映其所建模的“真实世界”的实体。一致性：数据一致性是指确保两个数据集之间或一个数据集内部不同字段间数值或信息的一致。唯一性：数据唯一性是指在一个数据集中，没有重复的记录或信息。时效性：数据...

管理缓存

释放数据是指从Alluxio缓存中删除数据，而不是从底层UFS中删除数据。释放操作后，数据仍然可供用户使用，但对Alluxio释放文件后尝试访问该文件的客户端来讲性能可能会降低。语法 alluxio fs free示例：将 tmp 目录中的所有数据从缓存中释放...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

数据质量教程概述

完整性完整性是指数据的记录和信息是否完整、不缺失。数据的缺失包括数据记录的缺失（表行数异常）和记录中某字段信息的缺失（字段出现空值）。在本教程中，您需要重点关注数据的生产环节（MaxCompute外部表引用的表格存储数据）和加工...

数据质量教程概述

完整性完整性是指数据的记录和信息是否完整、不缺失。数据的缺失包括数据记录的缺失（表行数异常）和记录中某字段信息的缺失（字段出现空值）。在本教程中，您需要重点关注数据的生产环节（MaxCompute外部表引用的表格存储数据）和加工...

后续指引

介绍：数据迁移实践：数据迁移最佳实践常见问题：数据上传下载常见问题 大规模数据迁移 MaxCompute提供MMA（MaxCompute Migration Assist）迁移工具支撑大规模数据迁移。开发与分析数据类型 MaxCompute支持三种数据类型版本，为您介绍各...

典型场景

ETL离线数据处理面对复杂SQL优化和海量数据大规模聚合分析等挑战，云原生数据仓库AnalyticDB PostgreSQL版具有如下技术优势：支持标准SQL、OLAP窗口函数和存储过程。ORCA分布式SQL优化器，复杂查询免调优。MPP多节点全并行计算，PB级数据...

ListDoctorHiveTables-批量获取Hive表分析结果

温数据指的是 7 日内没有访问的数据，但是 30 日以内有访问的数据。coldDataSize:冷数据的数据量大小。冷数据指的是 30 日内没有访问的数据，但是 90 日以内有访问的数据。freezeDataSize:极冷数据数的据量大小。极冷数据指的是 90 日以内...

ListDoctorHDFSDirectories-批量获取HDFS目录分析结果

温数据指的是 7 日内没有访问的数据，但是 30 日以内有访问的数据。coldDataSize:冷数据的数据量大小。冷数据指的是 30 日内没有访问的数据，但是 90 日以内有访问的数据。freezeDataSize:极冷数据的数据量大小。极冷数据指的是 90 日以内...

数据模型

数据时效（TTL）数据时效是指数据保存有效期，超过有效期的数据会被自动清理，默认数据有效期为永久保存。场景示例某风力电厂包含一系列的智能风力发电机设备，创建名为 Wind-generators 的table来存储所有设备的信息，设备由 ID、型号、...

配置TiDB输出组件

是指数据输出前和输出完成的一些特殊处理方式，比如为了满足服务的持续可用性，当前步骤写数据执行前先创建目标表Target_A，执行写入到目标表Target_A，当前步骤写数据执行完成后，对数据库中持续提供服务的表Service_B重命名成Temp_C，...

配置TiDB输出组件

是指数据输出前和输出完成的一些特殊处理方式，比如为了满足服务的持续可用性，当前步骤写数据执行前先创建目标表Target_A，执行写入到目标表Target_A，当前步骤写数据执行完成后，对数据库中持续提供服务的表Service_B重命名成Temp_C，...

GetDoctorHDFSCluster-获取HDFS分析结果

通过EMR Doctor获取集群HDFS数据分析结果。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权信息当前API暂无授权信息透出。请求参数名称类型必...

GetDoctorHiveTable-获取Hive表分析结果

温数据指的是 7 日内没有访问的数据，但是 30 日以内有访问的数据。Name string 指标名称。warmDataSize Value long 指标值。14981 Unit string 指标单位。MB Description string 指标描述。Size of the warm data size ColdDataSize ...

GetDoctorHDFSDirectory-获取HDFS特定目录分析结果

通过EMR Doctor获取集群HDFS特定目录数据分析结果，目录不超过5级。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权信息当前API暂无授权信息透出...

GetDoctorHiveDatabase-获取Hive库信息

冷数据指的是 30 日内没有访问的数据，但是 90 日以内有访问的数据。Name string 指标名称。coldDataSize Value long 指标值。1000 Unit string 指标单位。MB Description string 指标描述。Ratio of cold files FreezeDataSize object 极...

关联数据

管理对象组对象是指数据库中特定表和字段的集合。对象组功能可以帮您管理数据库中表和字段的集合。如果自定义规则需要对固定的数据库对象生效，您可以通过新增对象组，直接在自定义规则中使用新增对象组。以下步骤介绍如何新增对象组。...

ListDoctorHiveDatabases-批量获取 Hive 库信息

冷数据指的是 30 日内没有访问的数据，但是 90 日以内有访问的数据。Name string 指标名称。coldDataSize Value long 指标值。1000 Unit string 指标单位。MB Description string 指标描述。Ratio of cold files FreezeDataSize object 极...

GetDoctorHiveCluster-获取 Hive 集群信息

冷数据指的是 30 日内没有访问的数据，但是 90 日以内有访问的数据。Name string 指标名称。coldDataSize Value long 指标值。1000 Unit string 指标单位。MB Description string 指标描述。Ratio of cold files FreezeDataSize object 极...

概述

除此之外，数据工程师、算法工程师和开发工程师的人力成本也是当前数据驱动的智能决策应用难以大规模落地的一个阻碍。事实上，鉴于数据库研究在数据发现、数据管理、版本控制、数据清理和数据集成方面积累的专业知识，PolarDB for AI 可以...

RDS搭配大数据计算服务实现大规模数据计算

本文介绍RDS MySQL如何结合大数据计算服务MaxCompute使用。开放数据处理服务又称为大数据计算服务（MaxCompute，原名ODPS），可服务于批量结构化数据的...通过数据集成服务，可将RDS数据导入MaxCompute，实现大规模的数据计算，如下图所示。

基于MaxCompute进行大数据BI分析

背景信息 MaxCompute：用于进行大规模数据计算，详情请参见什么是MaxCompute。AnalyticDB MySQL：用于进行海量数据实时高并发在线分析，详情请参见云原生数据仓库AnalyticDB MySQL版。DataWorks：可实现ETL功能，对复杂数据集进行采集、...

划分数据域

数据域是指面向业务分析，将业务过程或者维度进行抽象的集合。为保障整个体系的生命力，数据域需要抽象提炼，并长期维护更新。在划分数据域时，既能涵盖当前所有的业务需求，又能让新业务在进入时可以被包含进已有的数据域或扩展新的数据域...

划分数据域

数据域是指面向业务分析，将业务过程或者维度进行抽象的集合。为保障整个体系的生命力，数据域需要抽象提炼，并长期维护更新。在划分数据域时，既能涵盖当前所有的业务需求，又能让新业务在进入时可以被包含进已有的数据域或扩展新的数据域...

计费项

数据流量费数据流量费是指客户端从订阅通道中消费数据所产生的流量费用。数据订阅实例为包年包月（也称为预付费），订阅实例类型为 MySQL，数据订阅配置费类型为半价配置费+1元/GB数据流量费，从2020年12月18日开始，DTS会对该订阅实例...

查看并管理手动运行补数据任务

手动运行补数据任务是指手动运行补数据实例，进行历史数据的回刷。本文将为您介绍如何查看并管理调度类型为手动运行的补数据任务。手动运行补数据任务入口请参见运维中心入口，进入运维中心。按照下图操作指引，进入手动运行补数据...

查看并管理手动运行补数据任务

手动运行补数据任务是指手动运行补数据实例，进行历史数据的回刷。本文将为您介绍如何查看并管理调度类型为手动运行的补数据任务。手动运行补数据任务入口请参见运维中心入口，进入运维中心。按照下图操作指引，进入手动运行补数据...

什么是数据管理DMS

高效协同：提供覆盖数据全生命周期的 DevOps，内置阿里巴巴大规模实践的数据管控体系。保障数据安全的同时，提升企业研发效率。更多信息，请参见产品优势。如何使用数据管理DMS 您可以通过以下方式使用DMS，进行数据资产管理、数据库开发...

数据洞察

DataWorks数据洞察是指通过深度数据分析和解读来获取深刻的数据理解和发现，它支持数据探索和可视化。您可以通过数据洞察了解数据分布，创建数据卡片，并组合成数据报告。此外，数据洞察结果能够通过长图形式的报告进一步分享。该功能利用...

查看并管理定时调度补数据任务

定时调度补数据任务是指任务将按照配置的定时调度时间生成并运行补数据实例，进行历史数据的回刷。本文将为您介绍如何查看并管理定时调度类型的补数据任务。定时调度补数据任务入口请参见运维中心入口，进入运维中心。按照下图操作指引...

查看并管理定时调度补数据任务

定时调度补数据任务是指任务将按照配置的定时调度时间生成并运行补数据实例，进行历史数据的回刷。本文将为您介绍如何查看并管理定时调度类型的补数据任务。定时调度补数据任务入口在Dataphin首页，单击顶部菜单栏的研发。默认进入数据 ...

产品概述

云原生数据仓库 AnalyticDB PostgreSQL 版是一种大规模并行处理（MPP）数据仓库服务，可提供海量数据在线分析服务。云原生数据仓库 AnalyticDB PostgreSQL 版基于开源项目Greenplum构建，由阿里云深度扩展，兼容ANSI SQL 2003，兼容...

配置离线数据集成节点

运行时间与数据规模成正比，数据规模越大，运行耗时时间越长。如果执行日志的最后一行出现 status SUCCEEDED，表明任务试运行成功。试运行成功后，您可以在目标库的SQL窗口中，查询目标表中已迁移的数据。如果执行日志的最后一行出现 ...

RDS SQL Server空间不足问题

数据空间的回收通常有如下几种方式：归档数据删除数据库中不常用的数据（例如早期的历史数据），或者根据需要迁移到其他数据库实例中，或者以其他形式归档保存，通过直接减少数据量来降低已使用数据空间大小。这种方式是控制数据空间增长...

离线同步并发和限流之间的关系

并发数是指数据同步任务中，可以从源端并行读取和向目标存储端并行写出数据的最大线程数。为了提高数据同步的效率，可以适当调整任务的并发数，以缩短数据搬迁需要的时间。在产品中配置位置如图所示：文件类型（OSS、FTP、HDFS、S3）数据...

大数据是指数据规模巨大

新品推荐