将理论计算结果和实测数据相比较-将理论计算结果和实测数据相比较文档介绍内容-阿里云

时区配置操作

如果继续使用不带有-oversea 后缀的SDK或客户端，SQL计算结果和Tunnel传输数据将存在差异。早于1900-01-01的数据差异为9秒，1900-01-01~1928-01-01的数据差异为352秒。说明 Java SDK或客户端版本更新配置时区不影响DataWorks的时区配置，...

应用场景

物联网设备无时无刻不在产生海量的设备状态数据和业务消息数据，这些数据有助于进行设备监控、业务分析预测和故障...通过日志或者其他方式对原始指标数据进行采集和实时计算，最后将实时计算的结果数据存储到 TSDB，实现监控和分析的展现。

PolarDB处理TPC-H查询的挑战和机遇

Overflow Handling 对数值的计算结果做溢出检查成本是比较高的，因为会使用if-else分支，破坏CPU流水线。一种乐观方案是可以根据数据的类型、range的范围和可能的计算方式，提前预测其不会overflow，就可以避免这种检查了，至少TPC-H中可以...

查询执行模式

相比较于全内存计算的 Interactive 模式，Batch 模式可以对查询的任务进行分批执行，每个子任务在内存不足的情况下，自适应地将内存数据换出到磁盘，降低数据计算的成本，提升数据处理的容量上限。Interactive模式 AnalyticDB MySQL 接收到...

高性能版实例

TPC-H测试说明本文的TPC-H的实现基于TPC-H的基准测试，并不能与已发布的TPC-H基准测试结果相比较，本文中的测试并不符合TPC-H基准测试的所有要求。对数据集总大小为100 GB的TPC-H数据集进行基准测试，TPC-H的22个SQL结果如下图所示。由于...

世纪联华

与传统方案临时增设服务器相比较，通过函数计算、表格存储及API网关云服务极大地简化了运维。函数计算：具有弹性扩容的优势，根据请求量动态分配执行环境，部署上线简单。表格存储：具有访问更快，吞吐量更强，不需要额外增加机器的优势。...

世纪联华

与传统方案临时增设服务器相比较，通过函数计算、表格存储及API网关云服务极大地简化了运维。函数计算：具有弹性扩容的优势，根据请求量动态分配执行环境，部署上线简单。表格存储：具有访问更快，吞吐量更强，不需要额外增加机器的优势。...

公告

2023年06月20日-Dataphin新版本发布 Dataphin于2023年06月20日发布V3.10版本，本次升级相比较历史版本：新增数据下载设置功能，可以更好的管控数据下载范围，提升数据安全，支持数据下载时设置水印并可设置文件格式。新增数据权限审批策略...

使用HPL测试集群浮点性能

浮点计算峰值是指计算机每秒可以完成的浮点计算次数，包括理论浮点峰值和实测浮点峰值。理论浮点峰值是该计算机理论上每秒可以完成的浮点计算次数，主要由CPU的主频决定。理论浮点峰值＝CPU主频×CPU核数×CPU每周期执行浮点运算的次数。...

SQL其他常见问题

请对两个DOUBLE类型数据相减，然后取绝对值，当绝对值足够小时，判定两个DOUBLE类型的数据数值相等。如何解决DECIMAL数据类型精度溢出问题？您可以在Session级别执行 set odps.sql.decimal.odps2=true;命令，打开2.0数据类型开关。但您需要...

TPC-DS数据

声明 MaxCompute公开数据集中的TPC-DS的数据生成与分析基于TPC-DS的基准测试，并不能与已发布的TPC-DS基准测试结果相比较，因为通过MaxCompute公开数据集进行的测试并不符合TPC-DS基准测试的所有要求。MaxCompute提供的TPC-DS只能用于产品...

数据质量风险监控

数据质量风险监控主要针对数据的准确性、一致性和完整性。本教程使用DataWorks数据质量（DQC）功能，完成数仓各层次的数据质量监控。前提条件首先您需要完成教程搭建互联网在线运营分析平台，并保证您的DataWorks工作空间创建区域为华东2...

列存索引中TopK算子的实现

在海量数据上求TopK是一个很经典的问题，特别是衍生出的深翻页查询，给分析型数据库带来了很大的挑战。本文将介绍 PolarDB MySQL版的列存索引（In Memory Column Index，IMCI）特性如何应对这样的挑战。背景业务系统中普遍存在这样一种...

配置规则：按表（单表）

数据质量支持按照数据表配置质量监控规则，用来监控表数据是否符合要求，自动拦截问题任务，阻断脏数据向下游蔓延，保障产出的表数据符合预期。规则配置完成后，您可先试跑该规则，确保质量规则的配置符合预期。同时，还可对质量规则执行...

运算符

您可以将两个DOUBLE类型数据相减，然后取绝对值进行判断。当绝对值足够小时，认为两个DOUBLE数值相等，示例如下。ABS(0.9999999999-1.0000000000)和1.0000000000为10位精度，而0.000000001为9位精度。此时可以认为0.9999999999和1....

概述

PolarDB MySQL版 8.0.1版本支持单机并行查询，查询时在存储层将数据分片到不同的线程上，单个节点内多个线程并行计算，将结果流水线汇总到总线程。最后总线程做简单归并返回给用户，提高查询效率。PolarDB MySQL版 8.0.2版本除了支持原有的...

数据质量风险监控

数据质量风险监控主要针对数据的准确性、一致性和完整性。本教程使用DataWorks数据质量（DQC）功能，完成数仓各层次的数据质量监控。前提条件首先您需要完成教程搭建互联网在线运营分析平台，并保证您的DataWorks工作空间创建区域为华东2...

DAS Auto Scaling弹性能力

数据库自治服务DAS的Auto Scaling是以数据库实例的实时性能数据作为输入，由DAS完成流量异常发现、合理数据库规格建议和合理磁盘容量建议，使数据库服务具备自动扩展存储和计算资源的能力。背景信息为业务应用选择一个合适的数据库计算...

Serverless模式

AnalyticDB PostgreSQL版全新推出Serverless模式，利用云基础设施提供的资源池化和海量存储能力，结合传统MPP数据库技术、离在线一体化技术和Serverless技术，实现了计算存储分离、秒级扩缩容和多实例数据实时共享的特性。简介 AnalyticDB...

2021年

关掉表头显示，将计算结果stdout部分输出到目标句柄。2021-02-08 全部地域使用本地客户端（odpscmd）连接 MaxCompute外部表OSS写入场景能力增强 MaxCompute支持使用OSS的分片上传（Multipart Upload）功能，在INSERT操作向OSS外部表写入...

Group Aggregate

说明对于未进行任何变更的统计指标，复用状态数据后计算的结果和基于历史数据运行的结果是一致的。原始SQL。select a,sum(b),max(c)from MyTable group by a;新增统计指标：count(c)，属于部分兼容修改。sum(b)、max(c)的计算结果不受影响...

功能更新动态（2023年）

创建MySQL数据源创建PolarDB-X数据源创建AnalyticDB for MySQL 2.0数据源创建AnalyticDB for PostgreSQL数据源创建达梦（DM）数据源创建TiDB数据源创建Kafka数据源离线集成新增Apache Doris数据源的离线集成。整库迁移任务支持...

弹性并行查询（ePQ）发布说明

PolarDB MySQL版重磅推出了弹性并行查询（ePQ）引擎，可以将分析型查询的计算任务分发到集群内的任意节点执行，提升集群资源的利用率，从而大幅提升数据库的整体查询性能。简介对于复杂分析型查询场景，PolarDB MySQL版已支持的单机...

文档更新动态（2023年）

更新说明创建MySQL数据源创建PolarDB-X数据源创建AnalyticDB for MySQL 2.0数据源创建AnalyticDB for PostgreSQL数据源创建达梦（DM）数据源创建TiDB数据源创建Kafka数据源离线集成配置优化新增Apache Doris数据源的离线集成。...

XML 类型

在使用文本模式向服务器传递查询以及向客户端传递查询结果（在普通模式）时，PostgreSQL 将所有在客户端和服务器之间传递的字符数据转换为目标端的字符编码。这也包括了表示 XML 值的串，正如上面的例子所述。这也通常意味着由于字符数据会...

测试结果

1 TB测试数据下DLA Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比结果集群类型运行Terasort基准测试集耗时（min）DLA Spark+OSS 43.5 自建Hadoop+Spark 44.8 您可以将自建Hadoop和DLA Spark混合使用，自建Hadoop集群在高峰期需要...

PolarDB HTAP实时数据分析技术解密

并将结果流水线汇总到总线程。最后，总线程做些简单归并返回给用户。并行查询的加入使得PolarDB突破了单核执行性能的限制，利用多核CPU的并行处理能力，PolarDB部分SQL查询耗时成指数级下降。Why We Need Column-Store 并行执行框架突破了...

公开数据集概述

MaxCompute公开数据集中的TPC数据生成与分析基于TPC的基准测试，并不能与已发布的TPC基准测试结果相比较，因为通过MaxCompute公开数据集进行的测试并不符合TPC基准测试的所有要求。MaxCompute提供的TPC性能测试数据源于TPC，你也可以选择...

SQL性能问题

SELECT*FROM(SELECT*,ROW_NUMBER()OVER(PARTITION BY b,d ORDER BY rowtime DESC)as rowNum FROM T)WHERE rowNum=1 以上示例是将T表按照b和d字段进行去重，并按照业务时间保留最后一条数据。rowtime在这里是源表T中的一个具有Event Time...

列存索引如何实现高效数据过滤

如上图所示，Pack A1中只有Null，而Pack A2与A3均包含部分Null，此时条件 A>15 在不考虑Null的情况下先得出[PA,AC,RE]这样的结果（由于A1中没有minmax，因此无法过滤），然后再根据每个pack包含Null值的情况，将结果转成[RE,PA,RE]，最终...

查看结果

本文档为您介绍验证数据同步结果的方法。在源数据表（mytable）中插入三行数据，验证数据同步结果。可以看到，在源表中插入三条数据后，销售目标达成率由原来...配置完成后，参考发布可视化应用发布大屏，进行实时计算结果数据的在线展示。

自定义函数（邀测中）

AnalyticDB for MySQL 未开启压缩，将数据直接传输至函数计算服务，函数计算服务经过计算后，将计算结果使用GZIP格式压缩后返回给 AnalyticDB for MySQL，导致 AnalyticDB for MySQL 无法解析数据。调用 REMOTE_CALL 函数时，出现 parse ...

分析外部OSS上的数据

典型应用场景以一个典型数仓架构为例，通过ETL将在线数据（关系数据库或者应用服务日志）导入离线分析平台做计算分析，分析的结果（如数仓模型的数据集市层ADS）再导入关系数据库中，用于对接BI报告、监控和广告计算等应用。该架构有几个...

函数概览

函数说明窗口函数 将数据流分割为指定大小的集合，并支持基于集合进行计算。聚合函数返回一组数值的统计或计算结果。条件函数返回指定条件下的数据处理、判断等结果。比较函数比较两个或多个对象的值，并返回比较结果。算术函数返回...

概述

本次性能测试基于阿里云基础环境，分别在同等（或接近）硬件配置和同等数据规模下，对比AnalyticDB MySQL与Presto基于标准TPC-H的测试结果，以及在不同应用场景下的不同测试结果。本次性能测试时间为2020年12月。TPC-H由TPC委员会制定发布...

UTL_RAW

UTL_RAW子程序总览子程序说明 BIT_AND Function 对RAW r1和RAW r2的值按位进行逻辑“与”运算，并返回RAW类型的计算结果。BIT_COMPLEMENT Function 对输入的RAW类型数据的值按位进行逻辑“补码”运算，并返回RAW类型的计算结果。BIT_OR ...

大量数据导出方案

本文将通过示例，为您介绍导出MaxCompute SQL计算结果的方法。说明本文中所有SDK部分仅以Java举例。概述您可以通过以下方法导出SQL的运行结果：如果数据比较少，请使用 SQL Task 得到全部的查询结果。如果需要导出某个表或者分区，请使用...

产品优势

结果可视 E-HPC提供可视化服务功能，您可以通过可视化服务功能将计算结果转换为可读的图形化数据。例如您可以直接观看渲染后的动画效果，或者直接查看天气变化的动态图。E-HPC与传统计算集群对比的优势对比项 E-HPC 传统计算集群部署 ...

连续查询

背景信息在时序应用的场景下，对于依照时间顺序写入的实时数据，用户有时会希望每隔一段固定时间，就能够按照一定的查询条件对该时间范围内的时序数据进行一次计算（例如：对该时间范围内的数据进行一次聚合计算），并将计算结果另行保存...

应用场景

本文将以部门场景和技术领域场景为例，为您介绍实时计算Flink版的大数据是实时化场景。说明更多场景案例请参见阿里云实时计算Flink版产品案例和解决方案汇总。背景信息作为流式计算引擎，Flink可以广泛应用于实时数据处理领域，例如ECS...

将理论计算结果和实测数据相比较

新品推荐