基本概念

本文将向您介绍 云数据库ClickHouse 产品中涉及的一些基本名词概念,以便于您更好地理解 云数据库ClickHouse 产品。地域(Region)购买 云数据库ClickHouse 的服务器所处地理位置。您需要在购买 云数据库ClickHouse 服务时指定Region,...

数据集市

数据集市是基于业务分类,面向特定应用场景或者产品的数据组织。通常位于数据应用层,依赖于公共层的整合数据。本文为您介绍如何创建数据集市并管理主题域。前提条件 已创建业务分类,用于对指定业务进行特定场景化的细分。详情请参见 业务...

数据格式

为了支持增全量存储和处理一体化架构,Transaction Table2.0(简称TT2)设计了统一的表数据组织格式,既可支持MaxCompute普通表的所有功能,同时也能很好的支持增量处理链路的新场景,包括time travel查询、upsert操作等。本文为您介绍...

数据组织优化

本文为您介绍Transactional Table 2.0在数据组织优化服务上的架构设计。Clustering 当前痛点 Transactional Table 2.0支持分钟级近实时增量数据导入,高流量场景下可能会导致增量小文件数量膨胀,从而引发存储访问压力大、成本高,并且大量...

Delta Lake概述

Delta Lake以数据为中心,围绕数据流走向(数据从流入数据湖、数据组织管理和数据查询到流出数据湖)推出了一系列功能特性,协助您搭配第三方上下游工具,搭建快捷、易用和安全的数据湖。背景信息 通常的数据湖方案是选取大数据存储引擎...

什么是EMR Serverless StarRocks

数据湖分析 StarRocks不仅能高效的分析本地存储的数据,也可以作为计算引擎直接分析数据湖中的数据,支持Apache Hive、Apache Iceberg、Apache Hudi等数据组织结构;支持Parquet、ORC、CSV等文件格式;也支持HDFS、S3、OSS等存储方式。在...

事务管理

比如对于Clustering操作和Insert into并发执行,即使事务Start和Commit时间出现交叉也不会冲突失败,因为Clustering操作虽然改变了数据组织方式,但没有改变数据本身的状态,和其他数据更新操作并没有影响一致性的冲突,因此允许并发执行。...

数据库对象的逻辑结构

AnalyticDB PostgreSQL 将数据组织为表的形式,并且提供索引、视图以及序列等功能,详细使用方法,请参见 PostgreSQL官方文档。模式 一个数据库包含一个或多个已命名的模式(Schema),模式又包含表以及其他对象,包括数据类型、函数、操作...

冷热分层

Delta Lake是新型数据湖方案,推出了数据流入、数据组织管理、数据查询和数据流出等特性,同时提供了数据的ACID和CRUD操作。通过结合Delta Lake和上下游组件,您可以搭建出一个便捷、易用、安全的数据湖架构。在数据湖架构设计中,通常会...

Transaction Table2.0概述

数据组织优化:Clustering:支持自动合并大量增量小文件,避免存储压力大,IO读写低效等问题。Compaction:支持手动和自动合并数据中间历史状态,有效减少数据存储和计算成本,提升数据查询效率。数据回收:系统自动回收过期数据和操作日志...

产品架构

高效满足IoT/监控等场景的测量数据、设备运行数据的存储处理需求,整体架构如下:TSCore 是时序引擎中负责数据组织的核心部分,其整体思想与LSM结构相似,数据先写入Memchunk,然后Flush到磁盘,但由于时序数据天然的顺序写入特征,定向...

X-Engine简介

数据组织 X-Engine的每层都划分成固定大小的Extent,存放每个层次中的数据的一个连续片段(Key Range)。为了快速定位Extent,为每层Extents建立了一套索引(Meta Index),所有这些索引,加上所有的memory tables(active/immutable)一起...

概述

数据存储在表中的概念现今是如此常见,以致于似乎本来就很明显,但存在许多其他组织数据库的方式。Unix 类操作系统上的文件和目录构成层次数据库的示例。更现代的开发是面向对象的数据库。每个表是指定的行集合。给定表的每行具有相同的...

文档修订记录

DataWorks数据安全治理路线 2023年12月更新记录 时间 特性 类别 描述 产品文档 2023.12.29 新增功能 数据开发 若您要在DataWorks中进行数据建模、数据开发或使用运维中心周期性调度任务,需先将已创建的数据源或集群绑定至数据开发...

基本概念

数据资产:数据资源平台中存在大量的数据表、标签、API等各类数据资产,数据管理者通过数据汇聚、数据治理、数据分析后,需要对整个平台数据进行统一管控,了解平台的核心数据资产,提供对应的数据资产管理规范。统一服务 应用:是调用API...

产品整体介绍

云原生数据仓库AnalyticDB PostgreSQL版 提供PB级数据实时交互式分析、ETL/ELT、BI报表展示功能,支持数据高吞吐实时写入与批量导入,提供ACID保证和标准事务隔离级别,采用MPP全并行架构,是一款具有高性价比的云原生数仓产品,提供基于...

整体架构

Transaction Table2.0的增量存储和处理架构的特殊设计主要集中在五个模块:数据接入、计算引擎、数据优化服务、元数据管理、数据文件组织,其他部分与MaxCompute通用的架构一致。本文为您介绍Transaction Table2.0的核心架构要点。...

名词解释

名词解释 名词 解释 Project 项目(Project)是DataHub数据的基本组织单元,下面包含多个Topic。值得注意的是,DataHub的项目空间与MaxCompute的项目空间是相互独立的。用户在MaxCompute中创建的项目不能复用于DataHub,需要独立创建。Topic...

快速入门

参数 描述 Project 项目(Project)是DataHub数据的基本组织单元,下面包含多个Topic。值得注意的是,DataHub的项目空间与MaxCompute的项目空间是相互独立的。用户在MaxCompute中创建的项目不能复用于DataHub,需要独立创建。描述 Project的...

DataHub数据

DataHub数据源作为数据中枢,为您提供读取和写入DataHub数据库的双向通道,能够快速解决海量数据的计算问题。本文为您介绍DataWorks的DataHub数据同步的能力支持情况。支持的版本 DataHub Reader通过DataHub的Java SDK读取DataHub中的数据...

Trino概述

支持丰富的数据源:Hive Cassandra Kafka MongoDB MySQL PostgreSQL SQL Server Redis Redshift 本地文件 支持高级数据结构,具体如下:数组和Map数据 JSON数据 GIS数据 颜色数据 功能扩展能力强,提供了多种扩展机制:扩展数据连接器 ...

维度建模概述

DataWorks的数据建模产品遵循Kimball维度建模理论,使用DataWorks的维度建模功能进行数据仓库模型设计时,您可根据业务情况设计并创建维度表、明细表、汇总表、应用表,并可将模型快速发布到相应的研发引擎。同时,还可以使用逆向建模,将...

数据安全治理的必要性

其中,第4条“维护数据安全,应当坚持总体国家安全观,建立健全数据安全治理体系,提高数据安全保障能力”和第7条“国家保护个人、组织数据有关的权益,鼓励数据依法合理有效利用,保障数据依法有序自由流动,促进以数据为关键要素的数字...

Presto概述

支持高级数据结构,具体如下:数组和Map数据 JSON数据 GIS(Geographic Information System)数据 颜色数据 功能扩展能力强,提供了多种扩展机制:扩展数据连接器 自定义数据类型 自定义SQL函数 流水线:基于Pipeline处理模型数据在处理...

名词解释

TABLE 〇 〇 Table(表)是一种结构化的数据对象,用于存储和组织相关的数据记录。构建表时需要定义表的Schema结构,包括表的列名和列类型。在宽表引擎中创建的表称为 宽表,在时序引擎中创建的表称为 时序表。PRIMARY KEY 〇 〇 Primary ...

关系图

DataWorks智能数据建模的关系图,帮助您快速构建数据仓库模型架构图,直观展示数据仓库中维度、维度表、明细表、汇总表、应用表等各模型之间的关系。一个关系图承载一个数据仓库模型,一个账号支持创建多个关系图。本文为您介绍关系图的...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS,为开源大数据生态构建的Hadoop兼容文件系统(Hadoop Compatible File System,HCFS)。JindoFS提供兼容对象存储的纯客户端模式(SDK)和缓存模式(Cache),以支持与优化Hadoop和Spark生态大数据计算对OSS...

离线同步并发和限流之间的关系

在一些数据同步场景,脏数据的出现会导致任务同步效率下降,以关系数据库写出为例,默认是执行batch批量写出模式,在遇到脏数据时会退化为单条写出模式(以找出batch批次数据具体哪一条是脏数据,保障正常数据正常写出),但单条写出效率会...

设置列索引的排序键

本文介绍了列存索引数据的排序流程、使用方法以及构建和查询有序列存索引数据的时间对比等内容。简介 列存索引数据是按照行组进行组织,默认包含64K行。每个行组中不同的列会各自打包形成列数据块,列数据块按照行存原始数据的主键次序并行...

Oracle数据

Oracle数据源为您提供读取和写入Oracle双向通道的功能,方便您后续可以通过向导模式和脚本模式配置数据同步任务。本文为您介绍DataWorks的Oracle数据同步能力支持情况。支持的版本 离线读写 版本 离线读(Oracle Reader)离线写(Oracle ...

新建数据

数据元管理通过分析业务流程,抽象关键业务对象和业务对象属性,并把关键业务对象新建为数据元,并配置数据元的类型、长度、质量校验函数和引用数据字典,为模型标准化设计及数据治理过程中的质量监控提供规则依据。本文介绍如何新建数据元...

新建数据

数据元管理通过分析业务流程,抽象关键业务对象和业务对象属性,并把关键业务对象新建为数据元,并配置数据元的类型、长度、质量校验函数和引用数据字典,为模型标准化设计及数据治理过程中的质量监控提供规则依据。本文介绍如何新建数据元...

功能特性

多可用区部署 备份恢复 Lindorm宽表引擎支持数据备份恢复功能,基于数据生态服务中的数据迁移将数据存储至OSS中,定期全量备份数据,实时增量同步数据,来满足对数据备份和数据恢复的需求。备份恢复 产品生态 功能集 功能 功能描述 参考...

基本概念

逻辑库(数据库)逻辑库,是数据库在逻辑上的组织结构,包括表、视图、索引等。CREATE DATABASE创建的就是逻辑数据库。一个 AnalyticDB for MySQL 集群最多可创建256个逻辑数据库。AnalyticDB for MySQL 文档中提到的数据库,都是指逻辑库...

常见问题

数据安全中心DSC根据为不同行业预先定义的敏感数据关键字段,扫描MaxCompute、OSS、阿里云数据库服务(RDS、PolarDB-X、PolarDB、OceanBase、表格存储等)和自建数据库中的数据,通过敏感数据规则,判断和打标敏感数据,为数据安全审计、...

数据服务

数据服务访问RDS实例情况说明 为了更好地保障用户通过DataWorks数据服务访问RDS实例的安全性,新增数据源 时,选择的数据源类型不同(实例模式、连接串模式),在DataWorks数据服务中封装API时将会有不同的提示和建议,详情如下:数据源...

Cassandra数据建模

数据模型建立建议和原则 在进行操作Cassandra之前需要基于我们对Cassandra的使用进行业务建模,基于我们的应用具有什么特性延伸到如何组织Cassandra的数据(设计primary key)到最终数据在cassandra上的存取。No JOIN:Cassandra不支持JOIN...

RDS MySQL迁移至Elasticsearch

Elasticsearch 关系型数据库 索引(index)数据库(Database)文档类型(type)表(Table)文档(document)一行数据(Row)字段(field)一列数据(Column)映射(mapping)数据库的组织和结构(Schema)数据库账号的权限要求 数据库 结构...

数据仓库研发规范概述

设计阶段:数据产品经理、数据开发者应如何综合性能、成本、效率、质量等因素,更好地组织与存储数据。开发阶段:数据研发者如何高效、规范地进行编码工作。测试阶段:测试人员应如何准确地暴露代码问题与项目风险,提升产出质量。发布阶段...

简介

本文主要介绍HBase Ganos的功能、优势和使用场景。重要 HBase增强版已全新升级为云原生多模...原生提供基于“分块”理念的数据存储和组织方式,保留原始像元信息,有效支撑各类分析计算场景。与Spark集成,ETL与多源空间数据分析处理更便捷。
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 RDS 云数据库 Redis 版 数据库备份 DBS 云服务器 ECS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用