大规模并行处理机常见故障-大规模并行处理机常见故障文档介绍内容-阿里云

PolarDB并行查询

本文介绍 PolarDB MySQL版在并行查询这一企业级查询加速特性上做的技术探索、形态演进和相关组件的实现原理。并行查询背景 PolarDB 亚马逊在2017年发表的关于Aurora的这篇paper[1]，引领了云原生关系型数据库的发展趋势，而作为国内最早...

技术架构

核心模块如同大多数传统单机关系型数据库，PolarDB-X 分为网络层、SQL解析层、优化层、执行层、存储层，其中优化层包含逻辑优化和物理优化，执行层包含单机两阶段执行、单机并行执行和多机并行执行，存储层包含应用了多种传统单机数据库...

Kyuubi概述

Kyuubi可以在用户级别缓存后台引擎实例，以更好的实现计算资源共享和快速响应，并行处理大量数据的查询并快速返回结果。批数据处理：Kyuubi提供了SQL接口用于常见的批处理，通常是大型提取、转换、加载（ETL）过程。Kyuubi及其引擎都是存储...

常见问题

本文汇总了StarRocks使用时的常见问题。业务测试评估硬件资源有什么要求？软件配置有什么要求？数据模型和表定义生产环境下的副本数应该设置为多少？如何分区？如何分桶？如何设计排序键？如何合理的选择数据类型？数据导入常见问题业务...

迁移方案

本文为您介绍阿里云实时计算Blink独享或共享集群（Blink计算引擎和Bayes开发平台）的业务迁移至实时计算Flink全托管（Flink计算引擎VVR和开发平台VVP）时的迁移限制、迁移方案和常见问题。迁移限制由于Blink作业的State和Flink的State无法...

使用多机MPP对海量数据分析提速

本文介绍了多机并行执行能力的技术背景、技术原理、适用场景以及使用说明等内容。背景信息列存索引（IMCI）是PolarDB的HTAP解决方案。随着用户查询数据量、查询复杂度以及对OSS等外部表的查询需求的增加，单个只读列存节点已无法满足海量...

存储资源

可能原因包含数据库服务进程异常退出、数据库节点宕机、数据库网络异常等，常见的容错策略如下：自动重启：当数据库实例异常终止或崩溃时，可以设置自动重启和恢复机制，自动重新启动数据库服务，并进行必要的数据恢复操作，以确保数据库的...

术语

跨机并行查询（Parallel Execution）支持多个节点跨机并行执行SQL，充分发挥所有计算节点的CPU、内存、网络的硬件资源，加速分析型查询性能。具体可参见跨机并行查询。硬件压缩盘（Smart-SSD）硬件压缩盘使用阿里巴巴自研的Aliflash ...

创建调度任务

假设单台并行索引块数量上限为 x，集群并行执行索引块数量上限为 y，客户端数量为 m，则单台客户端实际最大并行索引块数量为 min(x,y/m)。单台并行执行索引块数量上限：配置单台客户端最大并行索引块（chunk）数量。默认值为 5。单个分片...

常见问题

本文汇总了云数据库ClickHouse 的常见问题及解决方案。选型与购买云数据库ClickHouse和官方版本对比多了哪些功能和特性？购买实例时，推荐选择哪一个版本？单双副本实例各有什么特点？购买链路资源时显示“当前区域资源不足”，应该如何...

并行网关

在拓扑任务中，您可以添加并行网关实现多个节点并行处理效果，满足业务存在多个独立任务需要并行处理的需求，以此提高整体处理性能。本文将快速引导您如何在拓扑任务中使用并行网关。操作步骤创建拓扑子任务。创建两个或两个以上的简单或...

应用场景

GPU计算的处理优势在于拥有众多专用的并行计算单元以及超高的显存带宽，让多路大规模数据搬移和快速并行计算成为典型的计算模式，但该模式也导致了每路数据的处理延迟增加。在具有低延迟需求的在线业务场景中，例如语音识别等，在Batch值较...

使用EXPLAIN查看并行计划

即 PolarDB 优化器选择提前并行执行该子查询并将执行结果Share给外层所有Worker做共享访问，在这种查询计划下，子查询外层的查询块由于策略限制，将无法做跨机执行，即外层查询的多个并行worker需要在查询下发的节点内单机并行执行。...

MaxFrame概述

MaxFrame可直接使用MaxCompute海量弹性计算资源，并支持自动分布式、并行处理，大幅缩短数据处理的时间。更便捷的开发体验 MaxFrame已与MaxCompute Notebook、DataWorks集成，无需配置环境即可直接使用；同时MaxFrame也支持在用户本地环境...

验证分析型查询请求能力

它适用于处理大规模、多维的数据集，能够帮助用户进行数据分析、数据挖掘、业务决策等。并行执行 OceanBase 数据库的并行执行指的是在分布式架构下进行的并发处理。OceanBase 数据库采用了分布式架构，将数据分片存储在不同的节点上，通过...

支持计划

4.7大客户专属服务（顶级）故障应急：针对云上故障提供快速响应、组织应急及实时止血技术方案同步能力。关键时刻保障：针对重要业务上线、业务变更等关键场景提供应急保障服务。业务监控设计：在重要活动及日常保障过程中协助客户设计云上...

StarRocks概述

高可用易扩展 StarRocks的元数据和数据都是多副本存储，并且集群中服务有热备，多实例部署，避免了单点故障。集群具有自愈能力，可弹性恢复，节点的宕机、下线和异常都不会影响StarRocks集群服务的整体稳定性。StarRocks采用分布式架构，...

管理MySQL集群

主机故障处理策略主机故障时，系统的处理策略：自动替换主机：系统会自动替换故障主机。说明如果故障主机是云盘主机，云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机，则系统会先将故障主机上的实例迁移走，然后自动...

应用场景

高性能计算适用于大规模高性能科学计算、并行计算、仿真计算等场景，如气象预报、生物制药、基因测序、图像处理等。推荐使用弹性高性能计算E-HPC，弹性高性能计算可以将计算能力积聚，用并行计算方式解决更大规模的科学、工程和商业问题...

查询流程和执行计划

Stage的数据来源可以是底层存储系统中的数据或者网络中传输的数据，一个Stage由分布在不同Executor节点上相同类型的Task组成，多个Task会并行处理数据。说明 AnalyticDB MySQL版 SQL诊断功能支持对Stage级别进行结果诊断。更多详情，请参见...

AI助手使用说明

当发生故障或异常时，通过AI助手底层的告警系统可以自动和PAI进行交互，上报故障信息，并根据故障触发阶段和并行策略选择规避故障方法，对故障机自动进行隔离，并从Checkpoint快速恢复任务。AI助手提供的具体功能如下：异常采集和上报：...

管理集群

主机故障处理策略主机故障时，系统的处理策略：自动替换主机：系统会自动替换故障主机。说明如果故障主机是云盘主机，云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机，则系统会先将故障主机上的实例迁移走，然后自动...

管理集群

主机故障处理策略主机故障时，系统的处理策略：自动替换主机：系统会自动替换故障主机。说明如果故障主机是云盘主机，云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机，则系统会先将故障主机上的实例迁移走，然后自动...

快速开始

设置阈值控制多机并行引擎的自适应弹性调度 PolarDB提供了两个阈值来控制是否选择多机并行，SQL语句只要满足如下任意一个条件，并行查询会考虑弹性扩展为多机并行。records_threshold_for_mpp 若查询语句中存在扫描记录超过该阈值的表，...

什么是故障

故障追踪：支持对故障的最新进展、故障影响面（影响服务）、舆情反馈、Timeline时间线进行在线化管理、协同，基于统一视角协同处理故障，提升故障处理效率；故障复盘：基于最佳实践经验，沉淀了对故障进行深度复盘的结构化要求，形成了线上...

应用场景

灵骏主要面向图形图像识别、自然语言处理、搜索广告推荐、通用大模型等大规模分布式的AI研发场景，适用于自动驾驶、金融风控、药物研发、科学智能、元宇宙、互联网和ISV等行业。大规模分布式训练高性能打造AI进化底座。超大规模GPU算力...

离线异步任务场景

充足的GPU资源供给函数计算平台提供充足的GPU资源供给，当业务遭遇大规模离线任务时，函数计算将以秒级弹性供给海量GPU算力资源，避免因GPU算力供给不足、GPU算力弹性滞后导致的业务受损，适合忙闲流量分明（长时空闲、短时繁忙）、忙闲...

产品优势

与共享宿主机（多租户环境）相比，DDH为您...高可用 DDH提供自动宕机迁移能力，在物理机故障时自动迁移，您无需准备备机，故障迁移自动完成。同时支持在不停机的情况下将ECS实例在不同宿主机间迁移，在需要时进行负载均衡，保障业务的高可用。

影响查询性能的因素

但 AnalyticDB MySQL版能否充分利用多节点来并行处理查询，还取决于数据在存储节点上的分布特征。如果数据能够均匀分布在存储节点上，那么 AnalyticDB MySQL版中的多个子任务在处理数据时，就能几乎同时结束任务，实现理想的查询处理；...

并行（Parallel）

本文介绍了并行状态及其相关使用示例。基本概念并行状态用来并行执行多个状态。它定义了多个分支（Branches），每个分支包含一系列状态。执行并行状态会并发执行所有分支包含的状态。当所有分支执行结束后，默认将输出一个包含所有分支...

Transaction Table2.0概述

现状分析当前典型的数据处理业务场景中，对于时效性要求低的大规模数据全量批处理的单一场景，直接使用MaxCompute足以很好的满足业务需求，对于时效性要求很高的秒级实时数据处理或者流处理，则需要使用实时系统或流系统来满足需求。...

基本介绍

通过并行循环（foreach）步骤来并行处理数组数据。流程包含以下属性：version（必需）：流程版本，仅支持 v1。type（必需）：flow表示是流程类型。steps（必需）：定义了流程的多个串行步骤。一个步骤执行完成后，如果成功，则会执行下一个...

应用场景

故障跟踪：支持对故障进展、故障影响面、舆情反馈、Timeline进行在线化管理、协同，提升故障处理效率。故障复盘：基于最佳实践经验，沉淀了对故障进行深度复盘的结构化要求，形成了线上检查点，以产品的方式承载流程落地。故障改进：支持对...

虚拟机场景

本文列出了虚拟机常见的故障演练场景。JvmCodeCache满制造JVM CodeCache区域满的故障，CodeCache区域满会直接导致JIT编译关闭，从而引起业务系统性能下降。一般用于验证业务系统在高并发且系统性能下降的情况下，是否能够通过限流、快速扩...

应用场景

系统运维和业务实时监控通过对大规模应用集群和机房设备的监控，实时关注设备运行状态、资源利用率和业务趋势，实现数据化运营和自动化开发运维。通过日志或者其他方式对原始指标数据进行采集和实时计算，最后将实时计算的结果数据存储到 ...

并行查询性能

并行查询利用多核CPU的并行处理能力，以8核32 GB 独享规格的集群为例，并行查询示意图如下所示。下文将介绍8.0.1和8.0.2版本并行查询参数取值分别设置为如下表所示时，PolarDB 集群负载并行查询测试方法与执行结果。关于如何配置参数，...

开源ChaosBlade与商业化AHAS CHAOS故障演练对比

演练专家经验库支持不支持基于系统架构的组件化演练支持不支持 大规模的集群演练能力支持不支持快速接入项目 AHAS CHAOS故障演练 ChaosBlade 阿里云ECS快速接入支持不支持 K8s集群快速接入支持不支持自建系统公网快速接入 ...

产品简介

这些功能旨在帮助加快应用程序开发和连接，通过流处理实现转换，简化大规模企业操作，并满足严格的体系结构要求。Confluent Platform 让您可以专注于从数据中获取业务价值，而不必担心底层机制 —— 例如，数据如何在不同的系统之间进行...

热点行优化

因此 PolarDB 在数据库内核层进行了创新性的优化，不但能够自动识别热点行更新请求，而且将一定时间间隔内对同一数据行的更新操作进行分组，不同分组采用流水线的方式并行处理，通过这些优化，极大地提升了系统的性能。具体方案如下：串行...

功能优势

无论您是需要设置集群级别的大规模故障还是应用级别的请求级别细粒度故障，都可以在 AHAS Chaos 找到适合的场景，下图是 AHAS Chaos 提供的部分故障场景。多样的专家经验 AHAS Chaos 将阿里内部多年的故障演练经验浓缩成了专家经验，专家...

大规模并行处理机常见故障

新品推荐