数据质量教程概述

数据的缺失包括数据记录的缺失(表行数异常)和记录中某字段信息的缺失(字段出现空值)。在本教程中,您需要重点关注数据的生产环节(MaxCompute外部表引用的表格存储数据)和加工环节(数据仓库CDM及ADS层)中表行数是否大于0、表行数...

数据质量教程概述

数据的缺失包括数据记录的缺失(表行数异常)和记录中某字段信息的缺失(字段出现空值)。在本教程中,您需要重点关注数据的生产环节(MaxCompute外部表引用的表格存储数据)和加工环节(数据仓库CDM及ADS层)中表行数是否大于0、表行数...

实时同步字段格式

对于INSERT、UPDATE和DELETE等不同的操作类型,增量数据记录中的_before_image_和_after_image_定义如下:当操作类型为INSERT时,生成的记录为更新后的记录,_before_image_取值为N,_after_image_取值为Y。当操作类型为UPDATE时,数据集成...

Vector

TVS.SCAN TVS.SCAN index_name cursor[MATCH pattern][COUNT count][FILTER filter_string][VECTOR vector][MAX_DIST max_distance]在指定向量索引中,扫描符合条件的数据记录(key)。TVS.HINCRBY TVS.HINCRBY index_name key attribute_...

数据质量保障原则

例如,某个稳定业务的数据量每天约为100万条记录,某天突然下降了1万条,则可能是出现了记录缺失。例如,某科高考成绩表中,每个考卷分数都对应一个准考证号,当准考证号字段的空值数大于0时,则可能是出现了信息缺失。准确性 准确性是指...

如何设计时序数据

以下图的空气检测数据为例:每个时间点对应的数据记录可以详细分为几个部分:表(Table):代表一系列同类时序数据的集合。标签(Tags):表明指标项监测针对的具体对象属性。其中一个标签(Tag)由一个标签键(Key)和一个对应的标签值...

名词解释

TABLE 〇 〇 Table(表)是一种结构化的数据对象,用于存储和组织相关的数据记录。构建表时需要定义表的Schema结构,包括表的列名和列类型。在宽表引擎中创建的表称为 宽表,在时序引擎中创建的表称为 时序表。PRIMARY KEY 〇 〇 Primary ...

主备方案介绍

故障自动容错原理:单机宕机和集群宕机测试结果如下。以下是单机宕机吞吐对比图和单机宕机平均响应对比图。以下是集群宕机吞吐对比图和集群宕机平均响应对比图。主备容灾原理介绍 当云数据库HBase实例因不可预料的原因(例如设备故障、机房...

TABLESAMPLE采样

TABLESAMPLE(<n>PERCENT)其中 n 为采样百分比,取其中 n%的数据,即采样返回的数据记录个数和源表中总记录个数之比大概是 n%,非精确值。随机返回指定记录数采样。TABLESAMPLE(<m>ROWS)其中 m 为指定随机返回的记录数。如果源表中的总记录...

TABLESAMPLE采样

TABLESAMPLE(<n>PERCENT)其中 n 为采样百分比,取其中 n%的数据,即采样返回的数据记录个数和源表中总记录个数之比大概是 n%,非精确值。随机返回指定记录数采样。TABLESAMPLE(<m>ROWS)其中 m 为指定随机返回的记录数。如果源表中的总记录...

DTS_BINLOG_PARSER

DTS_BINLOG_PARSER用于SELECT语句中,表示对数据传输服务(Data Transmission Service,简称DTS)传输的数据库binlog数据进行解析。背景信息 注意 当前只支持解析DTS同步的RDS binlog数据。DTS_BINLOG_PARSER解析结果是一个STRUCT类型,...

创建导出任务

标签映射 为导出的数据记录设置TSDB标签,第一个框填写标签名称,第二个框填写标签值,该配置项的标签名与标签值均支持表达式替换。投递时间 从什么时间开始数据投递(小于该时间范围的数据不会被投递)。说明 度量(metric)不存在时会...

名词解释

Tuple类型的Topic支持类似于数据库的记录的数据,每条记录包含多个列。Blob类型的Topic仅支持写入一块二进制数据。数据类型介绍 Tuple类型下只支持写入数据是有格式的数据,支持以下几种数据类型 类型 含义 值域 BIGINT 8字节有符号整型-...

数据模型架构规范

将高概率同时访问的数据放一起,将低概率同时访问的数据分开存储。核心模型与扩展模型分离 建立核心模型与扩展模型体系,核心模型包括的字段支持常用核心的业务,扩展模型包括的字段支持个性化或是少量应用的需要。在必须让核心模型与扩展...

SQL结果集导出

该实例下的数据库包含您待导出的数据。录入实例的具体操作,请参见 云数据库录入、他云/自建数据库录入。注意事项 SQL结果集导出功能在免费导出数据的行数、单次导出表容量等方面受限于管控模式。更多信息,请参见 各管控模式支持的功能。...

InnoDB Physiological Logging

物理日志(Physical logging)物理日志是指在日志中保存一个页中发生改变的字节,是纯物理格式的日志,逐字节的记录数据的改动。比如[start,end,'xxxx']格式的内容改动。优点 高效率,并且可以直接修改物理格式,任何操作都不需要重新遍历...

接入阿里云ECS自建数据库实例

无法连接:可能是网络不通、实例宕机原因。认证失败:用户名或者密码错误。权限不足:可以正常连接实例,但是权限不足,请查看 权限说明。单击 完成。集中模式接入 登录 DAS控制台。在控制台首页的 热荐功能 区域单击 快速实例接入。单击...

测试数据构建

遇到数据冲突则替换:遇到主键、唯一键的数据写入冲突则更新原记录的数据并继续写入其他数据。参数配置完成后,单击 提交申请,等待审批完成。待审批通过后,系统会自动生成SQL语句并执行,您可以在 工单详情 页中查看执行进度。任务执行...

数据组织优化

此服务会把选中的数据文件,包含BaseFile和DeltaFile,一起进行Merge,消除数据的Update和Delete中间状态,PK值相同的多行记录只保留最新状态的一行记录,最后生成新的只包含Insert格式的BaseFile。Compaction服务流程 Compaction服务的...

Kafka数据

支持的字段类型 Kafka的数据存储为非结构化的存储,通常Kafka记录的数据模块有key、value、offset、timestamp、headers、partition。DataWorks在对Kafka数据进行读写时,会按照以下的策略进行数据处理。离线读数据 DataWorks读取Kafka数据...

等保最佳实践

在左侧导航栏,选择 运维审计>操作日志,可以查看用户登录堡垒机的操作记录。审计记录应包括事件的日期和时间、用户、事件类型、事件是否成功及其他与审计相关的信息 堡垒机审计信息包含日期和时间、用户、事件类型、运维协议、操作行为...

查看数据导出记录

在 我的数据导出 页面,即可查看数据导出记录。相关操作 操作 说明 下载导出数据 在导出记录列表中,单击 操作 列的 下载,即可下载导出的数据。删除导出记录 在导出记录列表中,单击 操作 列的 删除,即可删除导出记录

使用SDK示例代码消费订阅数据

消费订阅速度变慢 无 可通过查询统计信息中的参数 DStoreRecordQueue 和 DefaultUserRecordQueue 队列的大小,分析消费数据变慢的原因。查询方式,请参见 消费数据的统计信息。如参数 DStoreRecordQueue 保持为0,则表示DTS服务器拉取数据...

数据迁移链路规格说明

说明 如果一条SQL语句中包含对多行数据的操作,则计为多条数据记录变化;对同一条记录反复增删改则计为多条数据记录变化。每次COMMIT操作也会被计为一次数据记录变化的次数。数据迁移规格说明 数据迁移根据迁移链路的迁移性能上限,定义了...

接入其他自建或其他云厂商数据库实例

无法连接:可能是网络不通、实例宕机原因。认证失败:用户名或者密码错误。权限不足:可以正常连接实例,但是权限不足,请查看 权限说明。单击 完成。主机模式接入 登录 DAS控制台。DAS控制台首页的 热荐功能 区域单击 快速实例接入。...

查看我的导入记录

在 我的导入记录 页面,即可查看我的数据导入记录,可根据 类型 筛选导入记录。单击目标导入记录 操作 列的 查看,在 导入明细 面板中,即可查看导入详情。相关操作 操作 说明 删除导入明细 在导入记录列表中,单击目标导入记录 操作 列的 ...

从SLS同步

说明 具体的脏数据记录,您可以单击投递任务 操作 列的 监控 查看。单击 确定。成功配置SLS数据投递后,您可以在 日志投递 页面查看投递任务。任务状态从 待同步 变更为 同步中 后,即成功开启SLS日志投递。说明 您可以对投递任务进行 监控...

查看合并记录

在 OceanBase 管理控制台对实例发起数据合并操作后,您可以进入实例工作台查看该实例的数据合并记录。前提条件 已对集群实例发起数据合并操作。发起数据合并的操作,详见 发起合并。操作步骤 查看数据合并记录时,涉及如下两种操作场景:...

GetOpSensitiveData

}],"totalCount":6 返回的敏感数据记录信息。包括totalCount(敏感数据总条数)和opRiskDatas(风险数据列表)。其中opRiskDatas(风险数据列表)包括:sensType:敏感类型。sensLevel:敏感级别(数字越大表示敏感程度越高)。opType:...

如何处理Tair集群数据倾斜

下图介绍两个典型的数据倾斜场景,如下图所示,虽然Key均匀地分布在集群中,每个数据分片节点2个Key,但仍产生了数据倾斜:Replica 1 节点中 key1 的QPS明显高于其他Key,属于典型 数据访问倾斜,会导致该Key所在的数据分片节点CPU使用率...

如何处理Redis集群数据倾斜

下图介绍两个典型的数据倾斜场景,如下图所示,虽然Key均匀地分布在集群中,每个数据分片节点2个Key,但仍产生了数据倾斜:Replica 1 节点中 key1 的QPS明显高于其他Key,属于典型 数据访问倾斜,会导致该Key所在的数据分片节点CPU使用率...

查看并管理运行记录

运行记录为您保存近15天的即席查询、运行计算任务、逻辑数据表预览、派生指标冒烟测试、资产数据预览、OpenAPI数据查询的记录。本文为您介绍如何查看运行记录。查看运行记录 在Dataphin首页,单击顶部菜单栏的 研发。按照下图操作指引,...

查看并管理运行记录

运行记录为您保存近15天的即席查询、运行计算任务、逻辑数据表预览、派生指标冒烟测试、资产数据预览、OpenAPI数据查询的记录。本文为您介绍如何查看运行记录。查看运行记录 在Dataphin首页,单击顶部菜单栏的 研发。按照下图操作指引,...

数据方案概览

DMS的数据方案提供数据变更、数据导出、数据追踪、环境构建的功能,通过本文您可以了解数据方案的各项功能详情。一级功能 二级功能 功能描述 结构变更 结构设计 可以对目标库、表进行符合研发规范的表结构设计,保障多套环境(例如开发环境...

淘宝万亿级交易订单背后的存储引擎

淘宝成立至今,与订单相关的数据记录总量达到了万亿级别,所占用磁盘空间也早已超过PB级。下文将为您详细介绍淘宝是如何做到既满足用户随时查询订单的低延时需求,又控制存储成本。架构演进历史 淘宝从2003年成立至今,近17年时间,随着...

使用MaxCompute控制台(离线)

同时您需拥有对应的数据权限,如:上传至已有表:需具备对应表的数据写入权限。上传至新增表:需具备对应项目的创建表权限。创建MaxCompute项目详情请参见 项目管理(新版),授权操作请参见 权限管理。基于阿里云对象存储OSS上传数据时,...

基本概念

数据同步 数据源:是指数据库应用程序所使用的数据库或者数据库服务器,在数据资源平台的数据同步中可以将配置好的数据源端数据同步到目标端。多源异构数据:指的是多种不同结构的数据源。数据模板:用于对非结构化数据的解释,当创建数据...

数仓分层

在阿里巴巴的数据体系中,我们建议将数据仓库分为三层,自下而上为:数据引入层(ODS,Operation Data Store)、数据公共层(CDM,Common Data Model)和数据应用层(ADS,Application Data Service)。数据仓库的分层和各层级用途如下图所...

常见问题

由于更新后的数据重新记录了时间戳,因此冷数据更新后变为热数据。Q:我只想查询热数据,为什么还返回了冷数据?A:查询语句可以通过设置 HOT_ONLY/_l_hot_only_仅查询热数据。但由于数据归档至冷存储的操作是周期性触发的,因此有部分冷...

Kafka增量数据同步至MaxCompute

增量数据开始同步后,如果仍有时间戳小于等于起始时间的记录写入Kafka Topic的话,这些数据可能被漏读,所以当Kafka Topic中数据写入出现延迟或者时间戳乱序时,要注意对离线同步任务造成的数据漏读风险。Kafka侧参数同步结束策略原则上...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据传输服务 云数据库 Redis 版 云数据库 RDS 数据库备份 DBS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用