计算机性能故障排除-计算机性能故障排除文档介绍内容-阿里云

概述

通过 DST，运维人员、开发人员和架构师能看清楚复杂的大规模微服务架构下的应用及服务之间的复杂调用关系、性能指标、出错信息与关联日志，从而实现故障根因分析、服务治理、应用开发调试、性能管理、性能调优、架构管控、故障定责等运...

常见问题

Node.js 性能平台运行时与社区 Node.js 运行时是什么关系 Node.js 性能平台运行时完全兼容社区对应版本 Node.js 运行时，对应关系请查看。Node.js 性能平台运行时是否会影响性能 Node.js 性能平台运行时每分钟在主线程将监控数据写到内存...

概述

分区剪枝是指优化器自动从 FROM 和 WHERE 子句里根据分区键提取出需要扫描的分区，减少扫描的数据块，从而避免全表扫描，提高性能。分区剪枝机制支持以下两种剪枝方式：排除约束快速剪枝排除约束参数 constraint_exclusion 用于控制排除...

分布式链路概述

帮助运维人员、开发人员和架构师轻松应对复杂的大规模微服务架构下的应用及服务之间的复杂调用关系、性能指标、出错信息与关联日志，从而实现故障根因分析、服务治理、应用开发调试、性能管理、性能调优、架构管控、故障定责等运维开发工作...

性能监控概念

性能监控对象性能监控的对象包括计算机系统、网络、应用程序等，主要分为以下几类：服务器：包括物理服务器和虚拟服务器，监控服务器的CPU、内存、磁盘、网络等资源使用情况。操作系统：监控操作系统的运行状态、进程、服务、文件系统等。...

应用场景

Node.js 提供的精确到虚拟机级别的深度监控，能够如实的反应应用运行状态，通过配置报警规则，用户可以在发现系统出现故障（内存泄露或者 CPU 热点等）趋势时，通过诊断接口迅速定位故障点。Node.js 性能平台特别适合业务发展迅速、应用...

网络类场景

排除端口无需注入网络延迟调用故障的端口，与本地服务端口和远程服务端口功能互斥。可以指定多个，使用逗号分隔，使用连接符表示范围。例如80,8000-8080。远端服务IP 指定演练对象访问的远端服务IP。可以通过子网掩码来指定一个网段的IP...

功能架构

分布式链路帮助运维人员、开发人员和架构师看清楚复杂的大规模微服务架构下的应用及服务之间的复杂调用关系、性能指标、出错信息与关联日志，从而实现故障根因分析、服务治理、应用开发调试、性能管理、性能调优、架构管控、故障定责等运维...

附录：SOFAStack 产品目录

产品架构产品优势高性能分布式服务框架提供高性能和透明化的 RPC 远程服务调用，具有高可伸缩性、高容错性的特点。微服务治理中心提供一系列的服务治理策略，保障服务高质量运行，最终达到对外承诺的服务质量等级协议。高可靠的轻量级...

什么是业务实时监控

分布式链路：提供应用拓扑和链路查询功能，观测应用及服务之间的复杂调用关系、性能指标、出错信息与关联日志，从而实现故障根因分析、服务治理、应用开发调试、性能管理、性能调优、架构管控、故障定责等运维开发工作。日志查询和日志关联...

跨可用区容灾

当生产站点因为不可抗力因素（比如机房火灾、断电）或者设备故障（软、硬件破坏）导致应用在短时间内无法恢复时，ECS容灾服务支持业务的跨可用区（Availability Zone）的容灾能力，对整体的应用做容灾备份来应对单地区的故障，满足业务的...

跨可用区容灾

当生产站点因为不可抗力因素（比如机房火灾、断电）或者设备故障（软、硬件破坏）导致应用在短时间内无法恢复时，ECS容灾服务支持业务的跨可用区（Availability Zone）的容灾能力，对整体的应用做容灾备份来应对单地区的故障，满足业务的...

跨地域容灾

勾选表示复制过程中使用SSD，使用SSD可以显著提高服务器迁移或故障切换后云上ECS的IO性能，但是会增加使用成本，请按需选择。复制网络从下拉列表中选择复制网络。HDR使用该网络复制容灾数据到云上。HDR默认读取从站VPC网络的可用虚拟交换...

性能趋势

在进行数据库日常维护或处理数据库故障时，查看数据库相关的性能指标是必不可少的步骤。RDS MySQL的性能趋势提供了丰富的性能监控指标，多种监控视图，以及强大的诊断能力，能够及时发现数据库的异常并提供相应的治理方案。前提条件实例为...

什么是应用实时监控服务ARMS？

其覆盖浏览器、小程序、APP、分布式应用、容器等不同可观测环境与场景，帮助企业实现全栈性能监控与端到端追踪诊断。提高监控效率，减少运维工作量。产品架构 ARMS子产品计费详情请参见产品计费（新版）。子产品功能概述常见场景计费...

自研内核

AliSQL在功能、性能、稳定和安全方面进行了诸多优化创新，典型的有：Thread Pool 实现Listener-Worker处理模型，提升AliSQL的连接能力，并能够针对不同类型的操作进行并发优化，使RDS数据库在高连接大并发情况下始终保持高性能。...

Hive巡检项及服务关键指标说明

P1级异常：较严重，表示服务当前可用，但可能性能较低或者压力较大，也必须马上排除问题。HiveServer相关巡检项 HiveServer可用性巡检项（inspection_hive_server_availability）如果检查失败并报：hive server availability permission ...

混沌工程缓存实战系列-Redis

Redis是一个开源高性能的Key-Value存储系统，虽然Redis本身具备了非常高的可用性，但是在实际应用中也会随着系统业务的复杂性以及不合理的使用，而导致很多的问题。本文将讲述如何通过混沌工程来暴露可能存在的使用风险，提升缓存问题的...

开启热备前后性能对比

本文档介绍了开启热备功能前后的性能差异。对比总览热备节点（开启热备切换功能）与只读节点的性能差异总览如下：对比维度热备节点只读节点服务能力提供只读服务，预热会额外占用少量内存。提供只读服务。switchover（主动运维，如小...

Co、递归调用

然而这种写法其实也不是万无一失的，我们来看下面这个生产故障案例。发现问题客户接入 Node.js 性能平台后，通过监控经常出现内存增长导致的 OOM，于是客户加上了一条告警规则：@heap_used/heap_limit>0.5，目的是在堆较小但是发生泄漏时...

服务管控和治理

您可以对应用开启服务熔断功能，使有故障的服务端及时返回错误，并释放系统资源，提高用户体验和系统性能。更多信息，请参见服务熔断。故障注入您可以通过故障注入功能向测试应用注入故障，检测应用面对异常时的处理情况。您可以根据检测...

移动性能监控简介

移动性能监控（Application Performance Management，APM）是移动开发平台（mPaaS）提供的一款集移动应用性能数据采集、分析、监控于一体的应用性能运维产品，支持实时检测、分析并可视化展示应用各项性能指标统计数据。通过对移动客户端、...

使用HPL测试集群浮点性能

本文介绍如何使用HPL测试E-HPC集群的浮点性能。背景信息 HPL（The High-Performance Linpack Benchmark）是测试高性能计算集群系统浮点性能的基准。HPL通过对高性能计算集群采用高斯消元法求解一元N次稠密线性代数方程组的测试，评价高性能...

电源故障定位

您可以参考以下方法定位电源故障并进行处理流程。诊断流程电源故障详细处理流程，如下图所示。处理步骤测量输入电压。使用万用表测量输入电压，根据电源适配器的工作电压范围判断输入电压是否异常。插拔电源适配器。把电源适配器以及电源...

Persistent Buffer Pool

模拟异常退出时的场景，回放日志总大小为2093 MB情况如下：参数日志回放耗时故障恢复耗时未使用PBP 598s 746s 使用PBP 68s 294s 耗时对比如图所示：性能前后对比。并不是Buffer Pool中所有的页都是可以复用的。例如：在重启前，某进程对...

概述

分布式系统将计算任务和数据分布在多个节点上以实现更高的性能、可靠性和可扩展性，当一个节点发生故障或错误时，其他节点可以继续工作，相比于单机系统，架构本身就有较高的节点容错性。但随着服务拆分，更多组件的引入，分布式系统的复杂...

功能特性

阿里云自主研发了基于端网协同的RDMA高性能网络协议和HPCC拥塞控制算法，并通过智能网卡实现了协议硬件卸载，降低了端到端网络延时，提升了网络IO吞吐能力，并有效规避和弱化了网络故障、网络黑洞等传统网络异常给上层应用带来的性能损失。...

PAI灵骏智算服务概述

PAI灵骏是一种大规模高密度计算服务，全称“PAI灵骏智算服务”，提供高性能AI训练、高性能计算所需的异构计算算力服务。PAI灵骏主要面向图形图像识别、自然语言处理、搜索广告推荐、通用大模型等大规模分布式的AI研发场景，适用于自动...

监控指标说明

Source是性能瓶颈点如果仅是Source的吞吐量不足，那么您的作业中不应该检测到反压，sourceIdleTime会维持在较低的值（Source一直在工作），currentFetchEventTimeLag和currentEmitEventTimeLag接近，但是两个指标均较高。上游数据倾斜或...

网站耗资源（客户程序故障）常见问题

本文汇总了使用云虚拟主机出现网站耗资源（客户程序故障）时的常见问题。什么是网站耗资源（客户程序故障）？网站程序占用CPU及内存过多，是对资源的一种浪费。当您使用普通版共享云虚拟主机建站后，可能会因为网站程序编写不合理、代码...

产品功能

多种规格可适配不同的业务压力，数据库性能支持无限扩展。支持数据持久化及备份恢复策略，有效的保证数据可靠性，可避免物理节点故障缓存失效对后端数据库造成的巨大压力冲击。多层安全防护体系，为您抵御90%以上的网络攻击 DDoS 防护：在...

虚拟机场景

JvmCodeCache满制造JVM CodeCache区域满的故障，CodeCache区域满会直接导致JIT编译关闭，从而引起业务系统性能下降。一般用于验证业务系统在高并发且系统性能下降的情况下，是否能够通过限流、快速扩容等手段保证业务连续性。参数说明如下...

什么是性能分析

性能分析服务为移动App提供实时线上性能数据的“采集-分析-...性能分析服务支持Android/iOS应用类型，帮助客户建立5分钟线上故障感知能力，并与崩溃分析/远程日志服务配合使用，构建异常“感知-定位-恢复”的运维能力闭环，提升App使用体验。

性能趋势

CloudDBA的性能趋势功能可以监控MongoDB实例在某个时间段的基础性能及其运行趋势，包括CPU使用率、使用内存量、总连接数、网络流量等。前提条件实例为单节点实例、副本集实例或协议类型为MongoDB的分片集群实例。操作步骤登录 MongoDB...

【通知】AnalyticDB PostgreSQL版发布高性能版实例

AnalyticDB PostgreSQL版于2021年09月29日全新推出高性能版实例，大幅降低客户的数据存储成本及建仓门槛，致力于解决小微企业及个人建仓门槛高，中大企业数据存储成本大的问题。功能发布时间 2021年09月29日适用范围支持的地域及可用区...

云盘存储卷概述

云盘支持在可用区内自动复制您的数据，防止意外硬件故障导致的数据不可用，保护您的业务免于组件故障的威胁。ESSD云盘：基于新一代分布式块存储架构的超高性能云盘产品，结合25GE网络和RDMA技术，单盘可提供高达100万的随机读写能力和更低...

云盘存储卷概述

云盘支持在可用区内自动复制您的数据，防止意外硬件故障导致的数据不可用，保护您的业务免于组件故障的威胁。ESSD云盘：基于新一代分布式块存储架构的超高性能云盘产品，结合25GE网络和RDMA技术，单盘可提供高达100万的随机读写能力和更低...

AIOps 解决方案专家服务内容说明

常见的AIOps应用路径为：对监控的各种关键性能指标（KPI）行实时异常检测；对多维指标进行根源分析，快速下钻到异常维度和元素；基于应用拓扑和实时Trace，实现根因定位；结合CMDB、关联等、构建异常根因上下文，帮助快速修复问题等等。...

ECS系统事件概述

是突发性能实例性能受限事件突发性能实例性能受限事件是指突发性能实例的CPU积分已经耗尽，实例的CPU将会持续运行在基准性能附近，可能对实例的应用运行、实例管控、运维等操作产生影响，包括出现访问缓慢，卡顿等情况的提醒事件。...

核心自治技术案例解析

本文以双11期间的实际案例介绍DAS已拥有的核心自治特性：7x24实时异常检测、故障自愈、自动优化、自动弹性、智能压测。7x24实时异常检测 DAS的7x24实时异常检测通过机器学习算法，实时对数据库的Workload进行异常检测，相比传统基于阈值的...

计算机性能故障排除

新品推荐