MaxCompute的高级功能

本文为您介绍MaxCompute的生命周期、避免全扫描、小文件以及Hash Clustering等高级功能。生命周期 MaxCompute为和分区提供数据生命周期管理功能。(分区)数据从最后一次更新时间算起,在指定的时间段(即生命周期)内如果没有...

版本控制

说明 详细文章请参考Databricks官网文章版本控制 Delta的事务日志包含支持Delta Lake演变的版本控制信息。Delta Lake分别跟踪最低 检索Delta详细信息。Delta Lake保证向后兼容。较高版本的Databricks Runtime始终能够读取由较低...

流读写

说明 详细内容请参考Databricks官网文章流读写 有关演示这些功能的Databricks笔记本,请参阅 入门笔记本二。Delta Lake通过readStream和writeStream与Spark结构化流式处理深度集成。Delta Lake克服了许多流式处理系统和文件相关的常见...

删除,更新和合并

说明 详细内容请参考Databricks官网文章删除,更新和合并 有关演示这些功能的Databricks笔记本,请参阅 入门笔记本二。Delta Lake支持多个语句,以方便从Delta中删除数据和更新数据。从中删除 从最新版本的Delta中删除数据,但...

实用程序命令

说明 详细文章请参考Databricks官网文章实用程序命令。有关演示这些功能的Databricks笔记本,请参阅 入门笔记本二。删除Delta不再引用的文件 您可以通过在上运行vacuum命令来删除Delta不再引用且早于保留阈值的文件。vacuum 不会...

批读写

说明 详细内容可参考Databricks官网文章批读写 有关演示这些功能的Databricks笔记本,请参阅 入门笔记本二。有关Delta Lake SQL命令的信息,请参见 Databricks Runtime 7.0及更高版本:Databricks Runtime 7.x SQL参考 Databricks ...

CREATE TABLE(2.0版)

创建维度 语法 CREATE DIMENSION TABLE table_name(column_name column_type[NOT NULL][DEFAULT 'default'][COMMENT 'comment'][,…],[FULLTEXT INDEX index_name(column_name),]primary key(column_name[,…]))参数 CREATE DIMENSION ...

索引结构

索引结构介绍 每个Document都是由多个field组成,每个field中包含一系列的词语,构建索引的目的是为了加快检索的速度,根据映射关系方向的不同,索引可以分为:字段(filed):用于定义索引的字段名及字段类型。倒排索引(index):倒...

索引结构

索引结构介绍 每个Document都是由多个field组成,每个field中包含一系列的词语,构建索引的目的是为了加快检索的速度,根据映射关系方向的不同,索引可以分为:字段(filed):用于定义索引的字段名及字段类型。倒排索引(index):倒...

CREATE TABLEGROUP(2.0版)

AnalyticDB MySQL版 2.0 CREATE TABLEGROUP 用于创建普通组。语法 create tablegroup tablegroup_name;参数 tablegroup_name为组名,组名应满足以下要求:组名以字母开头,字母或数字结尾...相关文章 通过DMS界面创建组 名词解释

Tablestore外部

说明 如果MaxCompute内数据本身有一定的顺序,例如已经按照Primary Key做过一次排序,则在写入到OTS时,会导致压力集中在一个OTS分区上面,无法充分利用分布式写入的特点。因此,当出现这种情况时,建议您通过 distribute by rand()先...

句子拆分

输入中指定参与计算的分区 输入的所有分区 outputTableName 是 输出名 无 docIdCol 是 标识文章ID的列名 无 docContent 是 标识文章内容的列名,仅可指定一列。无 delimiter 否 句子的间隔字符集合。lifecycle 否 输入出的生命周期...

操作篇

本文将为您提供关于设计的最佳实践。如需了解表格存储各场景的应用案例,请参见 快速玩转Tablestore入门与实战。设计良好的主键 表格存储会根据的分区键将的数据自动切分成多个分区,每个分区调度到一台服务节点上。分区键的值是...

访问列存数据

主键 创建时,可以通过设置主键创建主键或不设置主键创建非主键。以下将分别介绍主键和非主键的创建方法,以及创建时需遵循的规则。创建主建。创建时,设置 TBLPROPERTIES 中 primary-key 参数的值,指定的主键字段即可。...

MySQL整库同步Kafka

在使用中,同一张MySQL可能被多个作业依赖,当多个任务使用同一张MySQL做处理时,MySQL数据库会启动多个连接,对MySQL服务器和网络造成很大的压力。为了缓解对上游MySQL数据库的压力,阿里云Flink实时计算已提供MySQL整库同步到Kafka的...

文本摘要

使用句子拆分组件,将sentence列的文本拆分成一句一行的形式,输出名test_output,内容如下所示。具体操作,请参见 句子拆分。doc_id sentence 1000897 新冠肺炎疫情发生以来,滥食野生动物的突出问题。1000897 由此给公共卫生安全...

大数据计算服务MaxCompute

类别 详情 支持类型 源、维和结果 运行模式 流模式和批模式 数据格式 暂不支持 特有监控指标 源 numRecordsIn:源当前读取到的数据总条数。numRecordsInPerSecond:源当前每秒读取的数据条数。numBytesIn:源当前读取到的...

观远BI连接MaxCompute

步骤四:确认数据信息 在 确认数据信息 面板中,对选中的以及数据进行预览确认,同时输入 数据集名称,并选择保存数据的目录。数据确认完成后单击 确认新建。步骤五:使用观远BI查询及分析数据 在观远BI主界面顶部菜单栏单击 仪表...

外部自动加载(Auto Load)

本文为您介绍如何使用Auto Load外部自动加载的功能,实现MaxCompute和OSS数据的按需自动加载以及全量自动加载。应用场景 Hologres与 云原生大数据计算服务MaxCompute、阿里云数据湖构建(Data Lake Formation,DLF)和 阿里云对象存储...

Delta Lake 快速入门

此快速入门演示如何生成管道,以便将JSON数据读入Delta、修改、读取、显示历史记录,以及优化。有关演示这些功能的Databricks笔记本,请参阅 入门笔记本。创建 若要创建一个delta,可以使用现有的Apache Spark SQL代码,也...

测试模型

Byte-Hash+Long.toHexString 20 属性列 属性列名 类型 长度 field0 string 100 field1 string 100 field2 string 100 field3 string 100 field4 string 100 分区数量 表格存储的自动负载均衡机制能够根据下各个分区的数据量、访问压力对...

使用PostGIS

案例二:智慧交通场景 某智慧交通场景,数据库包含线型轨迹和其他业务,一业务功能为查找历史轨迹中曾经驶入过某一区域的轨迹ID,相关轨迹结构:CREATE TABLE vhc_trace_d(stat_date text,trace_id text,vhc_id text,rid_wkt ...

版本发布说明

优化组的数目过大时,AUTO模式数据库中建的速度。优化AUTO模式数据库中数据量较大时,建的速度。优化部分场景下数据迁移过程的校验速度。缺陷修复 修复XRPC下使用流式早停,小概率导致实例级连接池切库失败的问题。修复子查询...

数据迁移链路规格说明

数量 该测试模型下的总数。记录大小 增量数据迁移时每条记录的大小。RPS 表示每秒增量迁移至目标的数据行数,如每秒增量迁移源库5000行数据至目标,则RPS为5000。说明 如果一条SQL语句中包含对多行数据的操作,则计为多条数据记录...

数据同步链路规格说明

RPS:表示每秒增量同步至目标的数据行数,如每秒增量同步源库5000行数据至目标,则RPS为5000。数据同步规格说明 数据同步根据同步链路的同步性能上限,定义了四种规格:micro、small、medium、large,当满足以下条件时,各个规格的同步...

逻辑

当业务达到一定规模后,需要通过分库分表来进行负载均衡,从而达到在大量业务压力场景下具有平滑支撑的能力。本文介绍逻辑的定义、应用场景、配置说明等信息。注意事项 逻辑的操作必须在对应的逻辑库下进行。说明 逻辑可当做单直接...

数据传输规格说明

对象:表示数据迁移或数据同步项目建议迁移或同步的最大数量,以每张对象最多 50 个字段数量计算。规格说明 OceanBase 数据传输服务根据迁移或同步的性能上限,定义了五种规格:MICRO、SMALL、MEDIUM、LARGE 和 XLARGE。当满足以下...

CREATE DATABASE AS(CDAS)语句

CDAS支持整库级别的结构和数据的实时同步,还支持结构变更的同步。本文为您介绍CREATE DATABASE AS(CDAS)的使用方法,并提供了多种使用场景下的示例。背景信息 CDAS是 CTAS 语法的一个语法糖,用于实现整库同步、多同步的功能。...

CREATE TABLE AS(CTAS)语句

通过CTAS语句,在实时同步数据的同时,还能实时将上游结构(Schema)的变更同步到下游,提高您在目标存储中创建和维护源结构变更的效率。本文为您介绍CREATE TABLE AS(CTAS)的使用方法,并提供了多种使用场景下的示例。前提条件 ...

数据导入性能优化

然而数据导入性能依然受各种各样的因素影响,如的建模不合理导致长尾、导入配置低无法有效利用资源等。本文介绍不同场景下的数据导入调优方法。通用外表导入数据调优 检查分布键 分布键决定着数据导入的一级分区,每个在导入时以一级...

数据导入性能优化

然而数据导入性能依然受各种各样的因素影响,如的建模不合理导致长尾、导入配置低无法有效利用资源等。本文介绍不同场景下的数据导入调优方法。通用外表导入数据调优 检查分布键 分布键决定着数据导入的一级分区,每个在导入时以一级...

Faster DDL

临时场景测试 MySQL在很多情况下会使用临时,例如查询information_schema库里的、加速复杂SQL执行时自动创建临时。在线程退出时系统会集中清理用过的临时,这也属于一种特殊类型的DDL操作,同样会导致实例的性能抖动。详情请参见...

数据库实时入仓快速入门

Flink会自动为Source进行优化,复用一个Source节点读取多张MySQL的数据,这能显著降低MySQL的连接数和读取压力,提升稳定性。说明 如果只想同步库中的某些,您也可以在CDAS语法中使用 INCLUDING TABLE或EXCLUDING TABLE 语法来指定具体...

从RDS同步至MaxCompute

注意事项 DTS在执行全量数据初始化时将占用源库和目标库一定的读写资源,可能会导致数据库的负载上升,在数据库性能较差、规格较低或业务量较大的情况下(例如源库有大量慢SQL、存在无主键或目标库存在死锁等),可能会加重数据库压力,...

从RDS同步至MaxCompute

注意事项 DTS在执行全量数据初始化时将占用源库和目标库一定的读写资源,可能会导致数据库的负载上升,在数据库性能较差、规格较低或业务量较大的情况下(例如源库有大量慢SQL、存在无主键或目标库存在死锁等),可能会加重数据库压力,...

从RDS同步到云原生数据仓库 AnalyticDB MySQL 版

术语/概念对应关系 MySQL 云原生数据仓库AnalyticDB MySQL 数据库 云原生数据仓库AnalyticDB MySQL(2.0):组 云原生数据仓库AnalyticDB MySQL(3.0):数据库 云原生数据仓库AnalyticDB MySQL(2.0): 云原生数据仓库AnalyticDB ...

从PolarDB MySQL版同步至RDS MySQL

注意事项 DTS在执行全量数据初始化时将占用源库和目标库一定的读写资源,可能会导致数据库的负载上升,在数据库性能较差、规格较低或业务量较大的情况下(例如源库有大量慢SQL、存在无主键或目标库存在死锁等),可能会加重数据库压力,...

PolarDB MySQL版间的单向同步

注意事项 DTS在执行全量数据初始化时将占用源库和目标库一定的读写资源,可能会导致数据库的负载上升,在数据库性能较差、规格较低或业务量较大的情况下(例如源库有大量慢SQL、存在无主键或目标库存在死锁等),可能会加重数据库压力,...

从RDS SQL Server同步至云原生数据仓库AnalyticDB ...

注意事项 DTS在执行全量数据迁移时将占用源库和目标库一定的读写资源,可能会导致数据库的负载上升,在数据库性能较差、规格较低或业务量较大的情况下(例如源库有大量慢SQL、存在无主键或目标库存在死锁等),可能会加重数据库压力,...

从RDS SQL Server同步至云原生数据仓库AnalyticDB ...

注意事项 DTS在执行全量数据迁移时将占用源库和目标库一定的读写资源,可能会导致数据库的负载上升,在数据库性能较差、规格较低或业务量较大的情况下(例如源库有大量慢SQL、存在无主键或目标库存在死锁等),可能会加重数据库压力,...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库Cassandra版 物联网无线连接服务 弹性公网IP 短信服务 人工智能平台 PAI 金融分布式架构
新人特惠 爆款特惠 最新活动 免费试用