数据同步

常见的方案大概分为下面两类:定期批量Merge方式:上游原始捕获增量更新,将更新的数据输出到一个新的中,下游仓库利用MERGE或UPSERT语法将增量与已有进行合并。这种方式要求具有主键或者联合主键,且实时性也较差。另外,这种...

上下游存储

例如如下JSON格式的数据,直接用JSON format解析,会被解析成一个ARRAY,colb VARCHAR>>字段,就是一个 Row类型的数组,其中这Row类型包含两VARCHAR字段,然后通过UDTF解析。{"data":[{"cola":"test1","colb":"test2"},{"cola":"test1",...

Slowly Changing Dimension

解决方案 存在的问题 流式构建T+1时刻的增量数据,和离线的T时刻分区数据合并,生成离线T+1分区。存储资源浪费。保存离线的基础,每业务时刻的增量数据独立保存,在查询数据时合并基础和增量。查询性能差。其中按T保留全量...

Hudi

本文为您介绍如何使用Hudi连接器。背景信息 Apache Hudi是种开源的数据湖格式框架。Hudi基于对象存储或者HDFS组织文件布局,保证ACID,支持行级别的高效更新和删除,从而降低数据ETL开发门槛。同时该框架还支持自动管理及合并小文件,...

分区常见问题

相同数据量的情况下,单只有一个B+树,分区是每分区一个B+树,树的层级相对较低,insert性能会更好;分区使用where条件进行分区剪枝的查询场景可以减少数据的扫描和计算,性能也会更优;相对于分库分表,使用分区JOIN、DDL...

新建普通维度逻辑

使用最新维表(维表使用最新分区):数据计算时使用最新关联维度逻辑表的最新分区。例如,某商品类目经常会调整,10天前是手机类目,今天是电器类目。如果业务上需要按照电器类目重跑10天前的数据,则维表版本策略需要选择为 使用最新维表...

新建普通维度逻辑

使用最新维表(维表使用最新分区):数据计算时使用最新关联维度逻辑表的最新分区。例如,某商品类目经常会调整,10天前是手机类目,今天是电器类目。如果业务上需要按照电器类目重跑10天前的数据,则维表版本策略需要选择为 使用最新维表...

Delta Lake 快速开始

该Notebook展示了如何将JSON数据转换为Delta Lake格式,创建Delta,在Delta中Append数据,最后使用Delta Lake元数据命令来显示历史记录、格式和详细信息。前提条件 通过主账号登录 阿里云 Databricks控制台。已创建集群,具体请...

GraphCompute数据导出MaxCompute

1、创建table成功后,使用alter方法添加对应分区:alter table 输入MaxComputeProjec名字.table名字 add partition(ds='2023032302')如果该分区已存在历史数据,导出的数据会直接追加入,不做历史数据的清理;2、进行导出相关检查,如...

新建事实逻辑

业务活动(过程)添加多属性后生成事实逻辑。事实逻辑包含主键、度量和事实属性字段。主键用于定义事实逻辑从来源中的取数逻辑;度量是数值类型的字段,表示某个方面的大小、多少或者程度。本文为您介绍如何新建及配置事实逻辑...

新建事实逻辑

业务活动(过程)添加多属性后生成事实逻辑。事实逻辑包含主键、度量和事实属性字段。主键用于定义事实逻辑从来源中的取数逻辑;度量是数值类型的字段,表示某个方面的大小、多少或者程度。本文为您介绍如何新建及配置事实逻辑...

MySQL整库同步Kafka

对于同步到Kafka的使用方式有以下两种:通过Catalog直接使用 详情请参见 使用Kafka JSON Catalog。说明 在直接使用时,由于可能发生了Schema变更,Kafka JSON Catalog解析出的Schema可能与MySQL对应表存在差异,例如出现已经删除的字段...

普通转换为分区

特殊场景下的普通转换为分区,如果按照时间RANGE分区,并且需要将所有数据放在一个历史分区中,可以将 普通快速转换为RANGE分区。语法 ALTER TABLE table_name PARTITION BY RANGE {(expr)|COLUMNS(column_list)}(partition_...

分区简介

概述 在 PolarDB PostgreSQL版 数据库中,分区(Partitioned Table)是将一个表或索引物理地分解为多更小、更便于管理的部分,这部分称为分区(Partition)。每分区都是一个独立的对象,具有自己的名称和可选的存储特性。从数据库管理...

分区简介

概述 在 PolarDB PostgreSQL版(兼容Oracle)数据库中,分区(Partitioned Table)是将一个表或索引物理地分解为多更小、更便于管理的部分,这部分称为分区(Partition)。每分区都是一个独立的对象,具有自己的名称和可选的存储特性。...

分区简介

概述 在 PolarDB PostgreSQL版(兼容Oracle)数据库中,分区(Partitioned Table)是将一个表或索引物理地分解为多更小、更便于管理的部分,这部分称为分区(Partition)。每分区都是一个独立的对象,具有自己的名称和可选的存储特性。...

操作篇

为高效利用表格存储,在设计表格存储的的主键时,需考虑的分区键:分区方式 说明 使用 CardID 作为的分区键 使用 CardID 作为的分区键是一个比较好的选择。每天每张卡产生的消费记录数从总体上来讲是均匀的,每一个分区中的访问...

淘宝万亿级交易订单背后的存储引擎

架构演进历史 淘宝从2003年成立至今,近17年时间,随着流量不断增加,交易订单数据库架构也经历过数次演进:第阶段 淘宝起步阶段由于流量较小,使用Oracle数据库存储所有订单信息,订单创建和历史订单查询都在同数据库进行。...

数据模型架构规范

您可以结合企业的数据使用特点,将明细事实的某些重要维度属性字段适当的冗余,即宽化处理。公共汇总粒度事实层:以分析的主题对象为建模驱动,基于上层的应用和产品的指标需求,构建公共粒度的汇总指标事实,以宽化手段来物理化...

CDM公共维度层设计规范

拆分与冗余 对于维度属性过多,涉及源较多的维度(例如会员),可以适当拆分:拆分为核心和扩展。核心相对字段较少,刷新产出时间较早,优先使用。扩展字段较多,且可以冗余核心部分字段,刷新产出时间较晚,适合数据分析...

背景信息以及准备工作

部署一个循环节点,该节点包含用来数据清洗的一个或者组SQL。其中,日期取值是一个变量,每次循环的输入值由赋值节点提供。任务调度中一个重要的功能是任务之间的依赖,为演示这功能,本教程以在DataWorks中循环调度从orders查询出...

JOIN语句

对于每条流式数据,可以关联一个外部维数据源,为实时计算Flink版提供数据关联查询。背景信息 大部分连接器的维Join都可以使用Cache策略,不同连接器对Cache策略的支持情况稍有不同,请查看对应的连接器文档确定具体的支持情况。通用的...

表达式

如果一个表引用是一个简单的名字并且它是继承层次中的父,那么该引用将产生该和它的后代表中的行,除非你在该名字前面放上 ONLY 关键字。但是,这种引用只会产生出现在该命名中的列—在子中增加的列都会被忽略。除了在...

表达式

如果一个表引用是一个简单的名字并且它是继承层次中的父,那么该引用将产生该和它的后代表中的行,除非你在该名字前面放上 ONLY 关键字。但是,这种引用只会产生出现在该命名中的列—在子中增加的列都会被忽略。除了在...

一键实时同步至MaxCompute

单击 刷新源和MaxCompute映射 将根据您在步骤三配置的目标名映射规则来生成目标,若步骤三未配置映射规则,将默认写入与源同名的目标,若目标端不存在该同名,将默认新建。同时,您可以修改建立方式,为目标在源有表字段...

一键实时同步至MaxCompute

单击 刷新源和MaxCompute映射 将根据您在步骤三配置的目标名映射规则来生成目标,若步骤三未配置映射规则,将默认写入与源同名的目标,若目标端不存在该同名,将默认新建。同时,您可以修改建立方式,为目标在源有表字段...

方案选择

历史订单数据(例如3月以前的订单):通过数据同步服务,将历史订单数据存入HBase,借助于HBase这分布式NoSQL数据库,有效应对了订单数据膨胀困扰。也保证了历史订单数据的持久化。但是,该方案牺牲了历史订单数据对用户、商家、平台的...

创建数仓分层

例如,从ODS层中对用户的行为做一个初步的归类汇总,抽象出来一些通用的维度,假设维度为 时间、IP、ID,并根据这些维度统计出相关数据,比如用户每时间段在不同登录IP购买的商品数。则在DWS层可以进一步添加层轻度的汇总,可以让计算...

设计规范

23省,5自治区,4直辖市,2特别行政区,50地区(州、盟),661市(其中直辖市4、地级市283、县级市374),1636县(自治县、旗、自治旗、特区和林区),按照最细粒度县进行分区后,不应再按照更细粒度的小时进行分区。...

设备分发

就近接入:设备可能会被拿到全球不同的地域使用,配置分发时在每地域选择一个实例,设备接入时根据设备的IP位置动态接入其中距离最近的地域。这样设备无论在哪,都能就近接入到指定地域。使用说明 项目 说明 分发范围 支持多次分发。跨...

CREATE DATABASE AS(CDAS)语句

EXCLUDING TABLE 用于指定不需要同步的,支持使用竖线(|)分隔指定多个表,也可以使用正则表达式指定符合某规则的,例如 INCLUDING ALL TABLES EXCLUDING TABLE 'web.*' 表示同步源库中所有不是web开头的。OPTIONS 源的参数,...

使用说明

您可以通过Tunnel直接上传数据到MaxCompute内部,或者是通过OSS Python SDK上传到OSS后,在MaxCompute使用外部表做映射。关于外部详情请参见 概述。Tunnel命令不支持上传下载ARRAY、MAP和STRUCT类型的数据。每Tunnel的Session在服务...

概述

分区是将一个大的逻辑,按照分区规则分割成多小的物理,大的逻辑为分区,小的物理为分区,每一个分区在存储引擎上独立组织管理数据和索引。分区规则主要包括 RANGE、LIST、HASH 三种,您需要指定分区键,根据分区键字段的值...

ANALYZE和AUTO ANALYZE

示例查询结果如下,同一个表有两条记录,而第二条记录的 schema_version 低于第条,那么第二条将作废,不会被使用,也无需关注。schema_name|table_name|schema_version|statistic_version|total_rows|analyze_timestamp-+-+-+-+-+-...

RestAPI Reader最佳实践

实践2:读取一个接口数据,该接口为一个分页的RestAPI接口 示例场景:接口定义 本实践示例的场景为读取一个RESTful接口数据并写入一个MaxCompute分区中,其中使用的示例RESTful接口为一个自建的测试GET接口,本示例的接口详情如下。...

Table Group设置最佳实践

的相关性 业务上有系列具有独特写入或者查询模式的,且这系列之间具有(或未来具有)Local Join的需求(Local Join需要左右同在一个Table Group才能实现,并且Join Key是各自的分布列),同时这些和其他Table Group的具有...

实用程序命令

Delta 支持许多实用程序命令。说明 详细文章请参考Databricks官网文章:实用程序命令。有关演示这些功能的Databricks笔记本,请参阅 入门笔记本二。删除Delta不再引用的文件 您可以通过在上运行vacuum命令来删除Delta不再引用且...

二级索引

冗余主Schema中的所有列:当您需要全冗余索引时,不需要在CREATE INDEX中将主的每列都显式添加进来,而是通过一个常量来描述冗余所有列,当主新增列时,全冗余索引会自动冗余这新增列,无需重建索引。也无需担心新增列的查询会...

CREATE TABLE AS(CTAS)语句

示例四:多CTAS语句作为一个作业提交 实时计算Flink版支持使用STATEMENT SET语法将多CTAS语句作为一个作业一起提交,并且可以对Source进行优化,复用一个Source节点读取多业务的数据。这对于MySQL CDC数据源场景尤为适用,因为这可以...

模型介绍

模型(WideColumn)是类Bigtable/HBase模型,可应用于元数据、大数据等多种场景。宽模型通过数据存储数据,单支持PB级数据存储和千万QPS。数据具有Schema-Free、宽行、多版本数据以及生命周期管理特点,支持主键列自增、局部...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
配置审计 弹性公网IP 短信服务 人工智能平台 PAI 金融分布式架构 对象存储
新人特惠 爆款特惠 最新活动 免费试用