大数据原理是指-大数据原理是指文档介绍内容-阿里云

大数据安全治理的难点

存储众所周知，大数据系统以数据类型多（结构化、非结构化、半结构化）、数据量大（动辄PB级别）著称，某些巨头组织一天就能新增数十万甚至数百万张表，如此体量给数据分级分类带来了极大挑战，通过人工进行数据分级分类显然是不现实的，...

概述

数据冷存的几种模式数据冷存是指将数据表/索引/物化视图转存入OSS，转存后不再占用或者极少量占用数据库云盘存储空间，从而大大降低数据库的存储成本。数据冷存后，所有的增删改查SQL都透明，无需做任何修改。PolarDB支持的数据冷存模式...

数据迁移与同步FAQ

DTS的数据迁移与数据同步工作原理是什么？DTS的数据迁移与数据同步有什么区别？使用DTS遇到预检查报错，如何解决？什么是数据迁移、数据同步？数据迁移：将Redis数据库中的数据（即键值对）迁移至另一个Redis数据库中。通常迁移完成后即可...

概述

数据冷存的几种模式数据冷存是指将数据表/索引/物化视图转存入OSS，转存后不再占用或者极少量占用数据库云盘存储空间，从而大大降低数据库的存储成本。数据冷存后，所有的增删改查SQL都透明，无需做任何修改。PolarDB支持的数据冷存模式...

概述

数据冷存的几种模式数据冷存是指将数据表/索引/物化视图转存入OSS，转存后不再占用或者极少量占用数据库云盘存储空间，从而大大降低数据库的存储成本。数据冷存后，所有的增删改查SQL都透明，无需做任何修改。PolarDB支持的数据冷存模式...

数据备份

基础备份数据是指对数据库所有数据进行的一个完全拷贝。基础备份数据保存在OSS上，默认保留天数为7天。数据备份页签的每一行信息表示一份基础备份数据，记录了备份开始时间，备份结束时间，备份状态（成功或失败），备份大小以及一致...

功能介绍

备份类型存储弹性模式 Serverless模式基础备份是指对数据库所有数据进行的一个完全拷贝。基础备份会将实例全量数据的快照压缩后存储到其它离线存储介质，实例在基础备份期间不会阻塞您的读写操作，同时，备份期间产生的操作日志也会进行...

数据服务入门

步骤一：创建数据源并配置网络连通性使用数据服务创建API前，您需将数据库或数据仓库添加为DataWorks的数据源，并保障数据服务资源组与您的目标数据源网络连通，以便调用API时DataWorks可成功访问数据源。说明 DataWorks工作空间将集群或...

概述

地域和可用区地域是指物理的数据中心。可用区是指在同一地域内，拥有独立电力和网络的物理区域。更多信息请参见阿里云全球基础设施。控制台阿里云提供了简单易用的Web控制台，方便您操作阿里云的各种产品和服务，包括云数据库 PolarDB。...

概述

地域和可用区地域是指物理的数据中心。可用区是指在同一地域内，拥有独立电力和网络的物理区域。更多信息请参见阿里云全球基础设施。控制台阿里云提供了简单易用的Web控制台，方便您操作阿里云的各种产品和服务，包括云数据库 PolarDB。...

通过RAM角色授权模式配置数据源

本文以OSS数据源为例，为您介绍如何通过RAM角色授权模式配置数据源，提高云上数据的安全性。前提条件如果您需使用RAM用户登录并完成本文操作流程，请先为RAM用户授予 AliyunDataWorksFullAccess 和 AliyunRAMFullAccess 权限策略，详情请...

创建GreenPlum数据源

通过创建GreenPlum数据源能够实现Dataphin读取GreenPlum的业务数据或向GreenPlum写入数据。本文为您介绍如何创建GreenPlum数据源。背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

创建GreenPlum数据源

通过创建GreenPlum数据源能够实现Dataphin读取GreenPlum的业务数据或向GreenPlum写入数据。本文为您介绍如何创建GreenPlum数据源。背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

整体架构

湖仓版（3.0）架构如下：数据源数据管道APS可以一键低成本接入数据库、日志、大数据中的数据。存储层+计算层支持自研引擎，羲和计算引擎和玄武存储引擎。新增集成的开源引擎，Spark计算引擎和Hudi存储引擎。可以借助开源的能力为您提供更...

导出数据

数据水印：是指将标识信息通过一定方式嵌入到数据中，该水印信息数据使用者难以察觉。说明建议导出的数据超过200条时使用数据水印嵌入。未开通敏感数据保护的数据库实例，不可使用数据水印。文件水印：是指将标识信息通过一定方式嵌入到...

基于Delta lake的一站式数据湖构建与分析实战

数据湖作为一个集中化的数据存储仓库，支持的数据类型具有多样性，包括结构化、半结构化以及非结构化的数据，数据来源上包含数据库数据、binglog 增量数据、日志数据以及已有数仓上的存量数据等。数据湖能够将这些不同来源、不同格式的数据...

将云消息队列 Kafka 版的数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能，将云消息队列 Kafka 版集群上的数据迁移至阿里云大数据计算服务MaxCompute，方便您对离线数据进行分析加工。前提条件在开始本教程前，确保您在同一地域中已完成以下操作：云消息队列 Kafka 版 ...

导入概述

为了更好地满足各种不同的业务场景，StarRocks支持多种数据模型，StarRocks中存储的数据需要按照特定的模型进行组织。本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景，以及一些最佳实践案例和常见问题。背景信息...

文档修订记录

Check节点 2024.1.12 新增功能最佳实践新增DataWorks大数据安全治理实践新增指南，为您介绍数据安全治理的常见思路、DataWorks产品的安全能力，以及在DataWorks上基于“基础防护建设”、“数据安全防护措施”、“数据安全持续运营”三个...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

数据膨胀诊断

诊断信息表内部原理是基于PostgreSQL的Statistic Collector进程的统计信息来进行诊断的，Statistic Collector在PostgreSQL Server发生Crash时统计信息会重置（极小概率发生）。如果您发现诊断信息出现偏差时，可以通过ANALYZE命令来重新...

SKEWJOIN HINT

实现原理热值Key指出现次数很多的key值。例如下图中红色部分，a.c0=1 and a.c1=2 有10000行，a.c0=3 and a.c1=4 有9000行。在不加SkewJoin Hint的情况下，将表T0和表T1进行Join，由于T0和T1的数量都很大，只能进行MergeJoin，因此相同的...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

设置连接池

如果您的应用连接创建频繁（例如短连接场景）或者连接数量很大（大于MySQL数据库的连接数限制），您可以参考本文使用合适的RDS MySQL数据库代理连接池，降低应用与数据库建立连接的频率来减少MySQL数据库主线程的开销，减少数据库上的总...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

SKEWJOIN HINT

实现原理热值Key指出现次数很多的key值。例如下图中红色部分，a.c0=1 and a.c1=2 有10000行，a.c0=3 and a.c1=4 有9000行。在不加SkewJoin Hint的情况下，将表T0和表T1进行Join，由于T0和T1的数量都很大，只能进行MergeJoin，因此相同的...

Serverless 实例概述

本页面为您介绍 Serverless 实例的工作原理、产品优势和适用场景等信息，帮助您快速了解 OceanBase 数据库的 Serverless 实例。背景数据库是现代企业 IT 系统中非常重要的一部分。在创建数据库时，为保证业务的稳定性，客户往往按照业务...

迁移或同步指定时间段内的数据

说明创建实时同步任务是指创建实时数据复制任务，或创建一键迁移任务时勾选了实时数据复制。历史数据迁移登录LTS。在左侧导航栏，选择 Lindorm/HBase迁移>历史数据迁移。单击创建任务。填写并勾选相关参数：源集群、目标集群、表...

实时同步任务告警设置最佳实践

指标4：Failover 报警监控原理与适用场景配置建议 Failover指标是指当实时同步进程发生异常退出时，为提升进程可靠性，数据集成控制服务会重新拉起进程尝试恢复失败退出同步进程，进而提升同步进程可靠性。如果关注任务Failover信息，可以...

导入概述

为了更好地满足各种不同的业务场景，StarRocks支持多种数据模型，StarRocks中存储的数据需要按照特定的模型进行组织。本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景，以及一些最佳实践案例和常见问题。背景信息...

常见问题

同步延迟是指同步到目标数据库中的最新数据的时间戳，与源数据库的当前时间戳之间的差值。单位为毫秒。说明正常情况的延迟在1000毫秒以内。数据同步任务是否可以修改同步对象？可以。修改同步对象的方法，请参见新增同步对象和移除同步...

常见问题

1.售前咨询渠道尊敬的“准”大数据专家服务用户您好：如果您准备购买阿里云大数据专家服务，但是遇到如服务范围、规格、服务选择等售前方面的问题，您可以通过钉钉与我们联系，您将“当面”获得阿里云大数据专家咨询专家的建议。...

调度依赖配置指引

DataWorks的调度依赖是指周期调度节点间的上下游依赖关系。通过节点的依赖关系有序调度运行上下游节点，即当上游节点运行成功后，下游节点才会启动运行，保障适时的产出有效业务数据。本文为您介绍调度依赖的配置指引，避免因调度依赖配置...

Stream Load

这里的错误数据是指原始数据并不为空值，在参与列类型转换后结果为空值的这一类数据。对于导入的某列由函数变换生成时，strict mode对其不产生影响。对于导入的某列类型包含范围限制的，如果原始数据能正常通过类型转换，但无法通过范围...

组复制简介

特性组复制半同步复制异步复制数据可靠性★数据一致性保证主备数据一致性不保证不保证全局事务一致性支持不支持不支持数据强可靠性组复制的数据强可靠性来源于Paxos协议的多数派原则，即当多数派收到事务的Binlog后，事务...

数据脱敏

增量脱敏是指每次脱敏数据为上次脱敏任务完成后新增的数据的脱敏方式。您需要选择一个源数据中随着时间递增的字段作为增量列，例如创建时间、自增ID（数据库自带的自增列）等。说明当前仅有RDS数据支持增量脱敏。分片字段否 DSC 执行静态...

概述

Serverless数据库能够使得数据库集群资源随客户业务负载动态弹性扩缩，将客户从复杂的业务资源评估和运维工作中解放出来。本文介绍了Serverless的工作原理、核心优势和适用场景。背景数据库是现代企业IT系统中非常重要的一部分。在创建...

数据存储冷热分离

全冷存储指数据全部存储在OSS中，是一种较为经济的存储策略。全热存储指数据全部存储在SSD盘，满足高性能访问的需求。冷热混合存储指一定数量的分区存储在SSD盘，其余数据存储在OSS中。指定冷热存储策略在执行 CREATE TABLE 时，您可以...

概述

数据传输是 OceanBase 数据库提供的一种支持同构或异构数据源与 OceanBase 数据库之间进行数据交互的服务，具备在线迁移存量数据和实时同步增量数据的能力。产品功能数据传输提供可视化的集中管控平台，您只需要进行简单的配置即可实时...

预降采样

预降采样可以在数据写入时就按指定时间粒度对数据进行预计算并单独存储，降采样查询时可以自动查询匹配到的预降采样数据，以降低访问延迟。本文介绍预降采样的概念，创建和管理预降采样规则的方法，查询预降采样数据的方法，以及预降采样的...

大数据原理是指

新品推荐