软起动性能故障排除-软起动性能故障排除文档介绍内容-阿里云

设计方案

容错容错是指在分布式系统中，系统出现故障时，通过设计和实现可靠的机制和策略，使系统能够自动检测、排除或者纠正错误，保证系统能够正常运行，从而提高系统的可靠性和稳定性。容量容量是在一定时间内，系统能够处理的最大工作量或数据...

功能概述

数据库发生故障后，无法在发生故障时定位到原因，可以通过智能压测功能，在克隆库上复现故障场景，定位故障原因。功能架构智能压测的功能架构如下图所示：源数据库：将要进行大促、将要业务变更或者已经发生故障，需要进行流量捕获的数据...

测试指标

本文介绍性能测试的各种测试指标。编写目的和适用对象本指标适用于使用性能测试进行性能测试项目技术质量评价依据，规范技术测试结果评价，统一性能测试技术测试质量度量。应用系统技术质量度量指标范围广泛，本文难以涵盖全部。预期读者...

ZooKeeper的使用场景和MSE ZooKeeper的优势

优势四：性能提升写入性能提升：ZooKeeper的写入性能和磁盘性能强相关。MSE ZooKeeper采用了阿里云ESSD高性能云盘，最大IOPS能够达到5W，最大吞吐量350M/S，数据的可靠性达99.9999999%（即9个9），整个写入TPS性能可提升约20%。基于...

8.0.1和8.0.2版功能对比

支持支持全局一致性（高性能模式）PolarTrans事务系统利用提交时间戳技术CTS和RDMA网络，在内核层面提供全局一致性（高性能模式）服务，保证发往集群任意副本的读请求都可以获得强一致性的结果。支持支持 REDO IO Cache 优化计算存储...

Hive巡检项及服务关键指标说明

P1级异常：较严重，表示服务当前可用，但可能性能较低或者压力较大，也必须马上排除问题。HiveServer相关巡检项 HiveServer可用性巡检项（inspection_hive_server_availability）如果检查失败并报：hive server availability permission ...

无法连接Windows实例

故障现象无法ping通ECS实例，在排除Iptables和网卡IP配置问题且回滚系统后，仍然无法ping通。故障原因可能是ECS实例安全组默认的公网规则被删除。解决方法重新配置ECS实例的安全组公网规则，具体操作请参见 ECS实例安全组默认的公网规则...

跨地域容灾

勾选表示复制过程中使用SSD，使用SSD可以显著提高服务器迁移或故障切换后云上ECS的IO性能，但是会增加使用成本，请按需选择。复制网络从下拉列表中选择复制网络。HDR使用该网络复制容灾数据到云上。HDR默认读取从站VPC网络的可用虚拟交换...

产品功能

分布式架构，单节点故障业务不受影响云数据库Memcache版采用分布式集群架构，每个节点均由双机热备架构组成，具备自动容灾及故障迁移能力。多种规格可适配不同的业务压力，数据库性能支持无限扩展。支持数据持久化及备份恢复策略，有效的...

功能特性

灵骏满足AI、HPC等计算密集场景需要的高性能算力，可实现高性能、大规模的池化算力，满足自动驾驶、科研、金融、生物制药等多行业的异构算力需求。本文为您介绍灵骏的功能特性。高速RDMA网络架构阿里巴巴2016年开始投入专项研究RDMA...

企业版和标准版功能对比

PolarDB MySQL版企业版和标准版在功能上有很多差异，可分为集群管理、弹性管理、高性能、备份与恢复、高可用性、高安全、连接管理、高性价比、监控与优化、DB for AI、数据迁移&同步等11个类别。本文为您介绍这两个版本的功能区别，帮助您...

附录：SOFAStack 产品目录

产品架构产品优势高性能分布式服务框架提供高性能和透明化的 RPC 远程服务调用，具有高可伸缩性、高容错性的特点。微服务治理中心提供一系列的服务治理策略，保障服务高质量运行，最终达到对外承诺的服务质量等级协议。高可靠的轻量级...

功能特性

微服务平台提供高性能和透明化的 RPC 远程服务调用，具有高可伸缩性、高容错性的特点。高性能分布式服务框架提供高性能和透明化的 RPC 远程服务调用，具有高可伸缩性、高容错性的特点。支持多协议/多序列化/多语言包括 Bolt（默认自由...

功能特性

微服务有高性能分布式服务框架、微服务治理中心、高可靠的轻量级配置中心、多活数据中心等特性，本文主要介绍这些特性。高性能分布式服务框架提供高性能和透明化的 RPC 远程服务调用，具有高可伸缩性、高容错性的特点。支持多协议、多序列...

PAI灵骏智算服务概述

PAI灵骏是一种大规模高密度计算服务，全称“PAI灵骏智算服务”，提供高性能AI训练、高性能计算所需的异构计算算力服务。PAI灵骏主要面向图形图像识别、自然语言处理、搜索广告推荐、通用大模型等大规模分布式的AI研发场景，适用于自动...

功能发布记录

支持的监控指标如下：instance_cpu_utilization：CPU使用率 instance_memory_utilization：内存使用率 advance_credit：突发性能实例-预支CPU积分 burst_credit：突发性能实例-已消耗CPU积分 notpaid_surplus_credit：突发性能实例-超额CPU...

EMR Kafka磁盘故障运维

原Broker数据恢复方式方案描述当磁盘故障时，如果磁盘IO性能已经明显下降，则需要快速隔离故障磁盘避免因单点故障影响集群性能。磁盘隔离之后，对应kafka日志目录处于offline状态。此时，如果分区存在ISR副本或者允许分区数据丢失，可以...

云盘存储卷概述

云盘支持在可用区内自动复制您的数据，防止意外硬件故障导致的数据不可用，保护您的业务免于组件故障的威胁。ESSD云盘：基于新一代分布式块存储架构的超高性能云盘产品，结合25GE网络和RDMA技术，单盘可提供高达100万的随机读写能力和更低...

云盘异步复制概述

功能介绍功能原理云盘异步复制功能支持将一块ESSD云盘（主盘）的数据跨地域或者同地域跨可用区异步复制到另一块相同配置的ESSD云盘（从盘）中，当主盘出现故障时，可通过从盘进行故障切换以及数据恢复。异步复制功能原理如下图所示：跨...

部分索引

通常，本数据库会对索引使用做出合理的选择（例如，它会在检索公值时避开索引，这样前面的例子只能节约索引尺寸，它并非是避免索引使用所必需的），非常不正确的规划选择则需要作为故障报告。记住建立一个部分索引意味着我们知道的至少和...

ECS系统事件汇总

Stalled 磁盘性能受到严重影响严重 Disk:Stalled:Executing：磁盘性能开始受到严重影响 Disk:Stalled:Executed：磁盘性能受到严重影响已恢复当阿里云识别到ECS实例所挂载云盘出现IO夯，导致云盘性能受到严重影响，无法进行正常读写时，...

告警规则指标说明

Full GC耗时的瞬时值可以反映出当前JVM的垃圾回收性能，通常情况下，Full GC耗时越短，JVM的性能越好。如果Full GC耗时过长，可能会导致应用程序出现明显的停顿，从而影响用户体验。JVM YoungGC次数（瞬时值）无是最近N分钟JVM执行Young ...

为什么选择安全沙箱？

性能性能分类 ACK安全沙箱v2 社区Kata Containers 沙箱启动速度约150ms 约500ms 沙箱额外开销低高容器RootFS virtio-fs，性能：☆9pfs，性能：☆容器存储卷 HostPath/EmptyDir virtio-fs，性能：☆云盘块存储 virtio-fs，性能：☆NAS...

性能优化与诊断简介

在RDS PostgreSQL日常运维中，您可以通过数据库自治服务DAS（Database Autonomy Service）来处理数据库故障、优化性能、提升效率、降低运维成本。DAS是一种基于机器学习和专家经验的云服务，实现数据库自感知、自修复、自优化、自运维和自...

性能优化与诊断简介

在RDS SQL Server日常运维中，您可以通过数据库自治服务DAS（Database Autonomy Service）来处理数据库故障、优化性能、提升效率、降低运维成本。DAS是一种基于机器学习和专家经验的云服务，实现数据库自感知、自修复、自优化、自运维和自...

性能优化与诊断简介

在RDS MySQL日常运维中，您可以通过数据库自治服务DAS（Database Autonomy Service）来处理数据库故障、优化性能、提升效率、降低运维成本。DAS是一种基于机器学习和专家经验的云服务，实现数据库自感知、自修复、自优化、自运维和自安全，...

DeviceLinkDown

DeviceLinkDown事件提示您线下机构侧动态路由邻居发生故障或者静态接入链路发生故障。告警信息事件名称事件级别状态码状态描述 DeviceLinkDown CRITICAL linkdown Device Link State Change 可能原因用户侧交换机设备故障。用户侧交换...

故障诊断

抓取性能数据功能，如下图所示：一般来说，如果涉及到内存泄漏的，可以抓取堆快照，如果是 CPU 异常飙高的，可以抓取 CPU Profile 数据，下面我们以一个 CPU 异常飙高和内存泄漏的例子来看下如何使用 Node.js 性能平台提供的故障诊断功能...

故障复盘

故障复盘规范故障复盘作为故障体系中的重要一环，整体复盘流程包括故障处理过程、改进分析、故障定责，基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制，全面地回溯线上故障的发生，产出故障复盘报告和改进措施，避免故障重复...

高性能版实例

以下内容为 AnalyticDB PostgreSQL版实例常见故障场景中高性能版和高可用版的对比：恢复（Recovery）模式根据以往 AnalyticDB PostgreSQL版运行情况，故障最大的场景为恢复模式，故障概率远大于另外两种场景（计算节点故障和计算节点宿...

故障管理

故障管理概述故障管理是源于ITIL的一个概念，在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营，将组件失败对业务所造成的负面影响降到最低，从而确保满足事先与业务客户之间所约定的服务级别...

一键诊断

在数据库出现故障时，您可以利用一键诊断功能，快速诊断选定时间段内数据库性能情况，直观地查看数据库性能情况的全貌，快速定位异常原因。前提条件实例为如下版本：RDS MySQL 8.0 高可用系列或集群系列 RDS MySQL 5.7 高可用系列或集群...

功能更新记录

本文介绍故障演练Chaos历次发布涉及的功能变更，帮助您了解故障演练的发布动态。2021年10月功能名称功能概述支持资源包类型支持地域发布时间微服务强弱依赖支持Dubbo 在应用强弱依赖治理的基础上，微服务强弱依赖治理功能，通过接入...

概述

通过 DST，运维人员、开发人员和架构师能看清楚复杂的大规模微服务架构下的应用及服务之间的复杂调用关系、性能指标、出错信息与关联日志，从而实现故障根因分析、服务治理、应用开发调试、性能管理、性能调优、架构管控、故障定责等运...

常见问题

Node.js 性能平台运行时与社区 Node.js 运行时是什么关系 Node.js 性能平台运行时完全兼容社区对应版本 Node.js 运行时，对应关系请查看。Node.js 性能平台运行时是否会影响性能 Node.js 性能平台运行时每分钟在主线程将监控数据写到内存...

概述

分区剪枝是指优化器自动从 FROM 和 WHERE 子句里根据分区键提取出需要扫描的分区，减少扫描的数据块，从而避免全表扫描，提高性能。分区剪枝机制支持以下两种剪枝方式：排除约束快速剪枝排除约束参数 constraint_exclusion 用于控制排除...

分布式链路概述

帮助运维人员、开发人员和架构师轻松应对复杂的大规模微服务架构下的应用及服务之间的复杂调用关系、性能指标、出错信息与关联日志，从而实现故障根因分析、服务治理、应用开发调试、性能管理、性能调优、架构管控、故障定责等运维开发工作...

应用场景

Node.js 提供的精确到虚拟机级别的深度监控，能够如实的反应应用运行状态，通过配置报警规则，用户可以在发现系统出现故障（内存泄露或者 CPU 热点等）趋势时，通过诊断接口迅速定位故障点。Node.js 性能平台特别适合业务发展迅速、应用...

网络类场景

排除端口无需注入网络延迟调用故障的端口，与本地服务端口和远程服务端口功能互斥。可以指定多个，使用逗号分隔，使用连接符表示范围。例如80,8000-8080。远端服务IP 指定演练对象访问的远端服务IP。可以通过子网掩码来指定一个网段的IP...

功能架构

分布式链路帮助运维人员、开发人员和架构师看清楚复杂的大规模微服务架构下的应用及服务之间的复杂调用关系、性能指标、出错信息与关联日志，从而实现故障根因分析、服务治理、应用开发调试、性能管理、性能调优、架构管控、故障定责等运维...

软起动性能故障排除

新品推荐