大规模并行处理计算机工作原理-大规模并行处理计算机工作原理文档介绍内容-阿里云

客户案例

系统成本：另一种解决方案就是采用大多数商业公司使用的 Oracle 提供的 RAC 解决方案，通过共享存储的能力提供数据存储空间的扩容，通过在共享存储上增加计算节点来提供高速的并行处理能力。这套方案都是基于在昂贵的硬件基础和 Oracle ...

ALB Ingress概述

兼容Nginx Ingress，具备处理复杂业务路由和证书自动发现的能力，支持HTTP、HTTPS和QUIC协议，满足在云原生应用场景下对超强弹性和大规模七层流量处理能力的需求。ALB Ingress使用流程警告 ALB Ingress是由Controller完全托管的，您不能...

ANALYZE分析工具

原理介绍在ePQ优化器产生的分布式并行查询计划中，计划树中的每个算子可能被多个PX Worker执行。例如，一个 Seq Scan 计划节点会被多个PX Worker执行，每个PX Worker负责扫描一部分数据。因此，相比于现有的 EXPLAIN ANALYZE 工具，PX的 ...

创建倍速转码任务

使用倍速管道，将视频源切分为多个较小的片段后并行转码，可将转码速度提升5~30倍，显著缩短处理耗时。适用于对首发、时效性要求较高的资讯、赛事、重要内容场景。本文为您介绍倍速转码原理及使用方式。背景信息媒体处理提供离线转码服务...

设置优化器的Join Reorder

本文介绍列存索引查询优化功能的工作原理、使用方法以及使用限制等内容。工作原理 SQL是声明式查询语言，不会具体的描述SQL语句的查询计划，获取一条SQL语句的正确结果时，可能存在若干个可行的查询计划。示例如下：SELECT*FROM t0,t1,t2,t...

自动优化

说明详细内容可参考Databricks官网文章：自动优化自动优化的工作原理 自动优化包含两个重要特性：优化Delta表的写入在开源版Spark中，每个executor向partition中写入文件时，都会创建一个文件进行写入，最终会导致一个partition中包含...

X-Engine简介

数据库领域的泰斗，图灵奖得主Michael Stonebreaker就此写过一篇论文《OLTP Through the Looking Glass,and What We Found There》，指出传统关系型数据库，仅有不到10%的时间是在做真正有效的数据处理工作，剩下的时间都浪费在其它工作上...

内存型

图 2.Tair多线程模型 Tair 内存型将服务各阶段的任务进行分离，通过分工明确的多个线程并行处理各阶段任务，达到提高性能的目的。IO线程：负责请求读取、响应发送、命令解析等。Worker线程：负责命令处理、定时器事件等。辅助线程：负责高...

PolarDB处理TPC-H查询的挑战和机遇

上图给出了前两项优化后对社区版本在TPC-H SF10上一些查询的性能对比，由于社区不支持并行处理，就没再比较parallel hash join的提升了。Sparse Foreign Key Joins 在TPC-H中，大量的join都是主外键join，而且在主表上，对主键都有一定的...

CLB健康检查FAQ

更多信息，请参见 CLB健康检查工作原理。推荐的健康检查配置是什么？为了避免由于健康检查频繁失败引起的切换对系统可用性造成的冲击，健康检查只有在健康检查时间窗内连续多次检查成功或失败后，才会进行状态切换。更多信息，请参见配置...

PolarDB并行查询

本文介绍 PolarDB MySQL版在并行查询这一企业级查询加速特性上做的技术探索、形态演进和相关组件的实现原理。并行查询背景 PolarDB 亚马逊在2017年发表的关于Aurora的这篇paper[1]，引领了云原生关系型数据库的发展趋势，而作为国内最早...

使用HPL测试集群浮点性能

因此建议在小规模测试时选择3个性能不错的NB值，再通过大规模测试检验这些选择。第10~12行内容。1#of process grids(P x Q)1 Ps 1 Qs P表示水平方向处理器个数，Q表示垂直方向处理器个数。P×Q表示二维处理器网格。P×Q=进程数。一般情况下...

专家成长计划技术培训课程

现场面授（特殊情况可调整为线上钉钉群直播）深入运维故障处理技术弹性计算方向弹性计算通用技术 1天 30人该课程的创新点在于全面深入的理解和云计算相关的基础技术，并通过相关产品演示，能够让学员全面理解云计算相关技术，如虚拟化、...

列存索引技术架构介绍

并行查询突破了单核执行性能的限制，利用多核CPU的并行处理能力，使得部分SQL查询耗时成指数级下降。PolarDB列式存储并行执行框架突破了CPU扩展能力的限制，带来了显著的性能提升。然而，受限于行式存储及行式执行器的效率限制，单核执行...

迁移方案

例如小时周期的任务实际已完整处理数据多个小时后，就可以对比处理过的小时数据，而天维度的聚合值，通常就需要等待新任务处理完完整的一天数据后才能对比。根据任务产出的生成周期特性和数据规模，您可以结合业务的实际情况，使用恰当的...

通过导入工具导入至数仓版

功能介绍 工作原理 AnalyticDB MySQL版导入工具通过JDBC协议接入负载均衡器（Load Balancer），负载均衡器下可连接多个前端节点（FrontNode），前端节点主要负责MySQL协议解析、SQL解析、数据写入、查询调度等，数据经由前端节点转发给...

迁移方案

迁移限制由于Blink作业的State和Flink的State无法兼容复用，因此所有的迁移工作均采用冷迁移方式，即Blink作业需停止后再切换成Flink作业后启动，迁移过程中会存在业务中断的情况。Bayes开发平台权限体系无法对应VVP，需要您重新进行授权...

集群消费和广播消费

分布式数据处理：在大规模数据处理的场景中，使用集群消费模式可以将数据分发给多个处理节点进行并行处理。每个节点只处理其中一部分数据，从而加速数据处理的速度。注意事项集群模式下，不保证每一次失败重投的消息投递到同一台机器上。...

创建物化视图的跨机并行加速和批量写入

原理介绍对于物化视图的创建和刷新，以及 CREATE TABLE AS/SELECT INTO 语法，由于在数据库层面需要完成的工作步骤十分相似，因此PostgreSQL内核使用同一套代码逻辑来处理这几种语法。内核执行过程中主要包含以下两个步骤：数据扫描：执行...

定制执行计划（pg_hint_plan）

是所需的并行工作程序数量，0表示禁止并行执行。第三个参数如果是soft（默认），表示仅更改max_parallel_workers_per_gather并将其他所有内容留给计划器选择；如果是hard，表示所有相关参数都会被强制指定。设置临时GUC参数 Set(GUC-param ...

创建物化视图的跨机并行加速和批量写入

原理介绍对于物化视图的创建和刷新，以及 CREATE TABLE AS/SELECT INTO 语法，由于在数据库层面需要完成的工作步骤十分相似，因此PostgreSQL内核使用同一套代码逻辑来处理这几种语法。内核执行过程中主要包含以下两个步骤：数据扫描：执行...

ECS选型最佳实践

高性能计算将计算能力积聚，用并行计算方式解决更大规模的科学、工程和商业问题。异构计算（Heterogeneous Computing）是指使用不同类型指令集和体系架构的计算单元组成系统的计算方式，能够让最适合的专用硬件去服务最适合的业务场景，在...

MapReduce模型

背景信息 MapReduce模型只有一个Reduce，所有子任务完成后会执行Reduce方法，可以在Reduce方法中返回该任务示例的执行结果，作为工作流的上下游数据传递。如果有子任务失败，Reduce不会执行。Reduce失败，整个任务示例也失败。MapReduce...

PolarDB PostgreSQL版：ePQ架构详解

PolarDB PostgreSQL版实现了弹性跨机并行查询（ePQ）特性，能够帮助您解决原先的 PolarDB PostgreSQL版在处理复杂的AP查询时会遇到的问题。前提条件支持的 PolarDB PostgreSQL版的版本如下：PostgreSQL 11（内核小版本1.1.28及以上）...

PolarDB PostgreSQL版：ePQ架构详解

PolarDB PostgreSQL版（兼容Oracle）实现了弹性跨机并行查询（ePQ）特性，能够帮助您解决原先的 PolarDB PostgreSQL版（兼容Oracle）在处理复杂的AP查询时会遇到的问题。前提条件支持的 PolarDB PostgreSQL版（兼容Oracle）的版本如下：...

并行网关

在拓扑任务中，您可以添加并行网关实现多个节点并行处理效果，满足业务存在多个独立任务需要并行处理的需求，以此提高整体处理性能。本文将快速引导您如何在拓扑任务中使用并行网关。操作步骤创建拓扑子任务。创建两个或两个以上的简单或...

弹性裸金属服务器概述

通用型弹性裸金属服务器实例规格族ebmg7a ebmg7a的特点如下：依托第三代神龙架构，通过芯片快速路径加速手段，提供稳定可预期的超高计算、存储和网络性能提供专属硬件资源和物理隔离计算处理器与内存配比为1:4 处理器：2.55 GHz主频的...

创建调度任务

假设单台并行索引块数量上限为 x，集群并行执行索引块数量上限为 y，客户端数量为 m，则单台客户端实际最大并行索引块数量为 min(x,y/m)。单台并行执行索引块数量上限：配置单台客户端最大并行索引块（chunk）数量。默认值为 5。单个分片...

应用场景

GPU计算的处理优势在于拥有众多专用的并行计算单元以及超高的显存带宽，让多路大规模数据搬移和快速并行计算成为典型的计算模式，但该模式也导致了每路数据的处理延迟增加。在具有低延迟需求的在线业务场景中，例如语音识别等，在Batch值较...

Llama-3开源模型全托管灵骏最佳实践

MMAP数据是一种预先执行tokenize的数据格式，可以减少训练微调过程中等待数据读入的时间，尤其在处理大规模数据时优势更为突出。具体操作步骤如下：在DSW的Terminal中执行以下命令，将Megatron格式的模型训练工具源代码 PAI-Megatron-Patch...

配置并管理实时同步任务

目标端写入并发数数据同步任务内，可以从来源表并行读取或写入数据至目标端的最大线程数。最大并发数为32。请根据您的资源组大小和目标端实际规模合理设置。单击完成配置。提交并发布实时同步任务单击工具栏中的图标，保存节点。单击...

Java SDK

无 Map任务优化优化优化Map任务在应用大规模发布和缩容过程中的性能。无优化应用启动心跳汇报时间点优化优化应用启动心跳汇报时间点防止业务容器启动过长导致的任务处理长耗时无问题修复修复修复共享线程池模式下，任务长时间运行...

专家成长计划服务内容说明

阿里云集合传统IT运维理论并通过大规模商业实践的考验和沉淀，打造出适合不同业务形态的运维解决方案，帮助企业实现数字化平滑转型。通过交流分享让参与者了解阿里技术发展历程中，云平台运维在不同阶段遇到的痛点和解决方案，为企业提供云...

配置并管理实时同步任务

目标端写入并发数数据同步任务内，可以从来源表并行读取或写入数据至目标端的最大线程数。最大并发数为32。请根据您的资源组大小和目标端实际规模合理设置。单击完成配置。提交并发布实时同步任务提交并发布节点任务。单击工具栏中的 ...

DataWorks On EMR使用说明

DataWorks支持基于EMR（E-MapReduce）计算引擎创建Hive、MR、Presto和Spark SQL等节点，实现EMR任务工作流的配置、定时调度和元数据管理等功能，保障数据生产及管理的高效稳定。本文为您介绍在DataWorks上使用EMR的基本开发流程，以及相关 ...

负载均衡SLB产品家族介绍

产品简介阿里云提供全托管式在线负载均衡服务，具有即开即用、超大容量、稳定可靠、弹性伸缩、按需付费等特点，适合超大规模互联网应用，如春节红包、双十一秒杀抢购、大规模在线物联网应用等高并发场景。与传统的硬件型负载均衡自建方案...

验证分析型查询请求能力

它适用于处理大规模、多维的数据集，能够帮助用户进行数据分析、数据挖掘、业务决策等。并行执行 OceanBase 数据库的并行执行指的是在分布式架构下进行的并发处理。OceanBase 数据库采用了分布式架构，将数据分片存储在不同的节点上，通过...

消费-通过消费组实现高可靠消费

日志处理是一个很大范畴，其中包括实时计算、数据仓库、离线计算等众多点。这篇文章主要介绍在实时计算场景中，如何能做到日志处理保序、不丢失、不重复，并且在上下游业务系统不可靠（存在故障）、业务流量剧烈波动情况下，如何保持这三点...

创建同步任务

限流：您可以通过限流控制同步速率，以保护读取端数据库，避免抽取速度过大，给源库造成太大的压力。限速最小配置为1MB/S。不限流：在不限流的情况下，任务将在所配置的并发数的限制基础上，提供现有硬件环境下最大的传输性能。说明流量...

EMR Serverless Spark免费公测说明

工作空间内所有并行运行的任务共写入Shuffle数据的总量上限为10 TB。同一工作空间内允许并发执行的任务数量上限为100个。不保障服务等级协议（SLA），但服务不降级。公测期间包年包月的工作空间仅支持续费一个月。说明如果在使用过程中...

大规模并行处理计算机工作原理

新品推荐