内存

小规格实例网络带宽具备突发能力 实例网络性能与计算规格对应(规格越高网络性能越强)安全 支持vTPM特性,依托TPM/TCM芯片,实现从服务器到实例的启动链可信度量,提供超高安全能力 采用英特尔TME(Total Memory Encryption)运行内存加密...

单节点实例规格表

说明 实例规格定义的内存包括MongoDB相关管理服务、数据库服务和底层操作系统占用的内存(例如BIOS预留内存、内核和Hypervisor运行内存等),因此,您查看的可用内存会小于实例规格定义的内存。数据库版本 规格类型 规格信息 规格代码 最大...

如何解决MSE Nacos实例域名无法解析的问题?

如果使用的是ACK,请 提工单 联系ACK技术支持协助排查CoreDNS故障原因。方案二:使用ping命令 使用 ping${mse.nacos.host} 指令尝试解析。如果提示 unknown host,则无法解析域名。如果提示 PING${mse.nacos.host}(xxx.xx.xx.xx)56(84)...

诊断网页加载过慢的问题

慢加载详情 页面顶部的 页面信息 区域展示了本次访问的客户端IP地址、浏览器、操作系统等信息,帮助您确认故障原因。慢加载详情 页面的 页面资源加载瀑布图 区域展示了页面静态资源加载的瀑布图,帮助您快速定位资源加载的性能瓶颈。慢加载...

故障止损恢复

故障初因定位 集成企业内部可利用的所有稳定性相关数据(变更事件,...通用垂直专项快恢能力:通过集成包括DB侧慢SQL限流、变更极速回滚、多活容灾切流快恢等通用的快恢能力,结合监控、日志等数据自动定位的故障原因进行对应的快恢方式推荐。

查看运行分析

该指标协助您进行作业诊断,排查作业Task级别的故障原因。个 TM自JVM启动以来已加载的类总数(TM ClassLoader)TM自JVM启动以来已加载的类总数。JM所在的JVM创建后加载类的总数或卸载类的总数过大,会导致占用过大内存空间,从而影响作业...

什么是故障

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

如何管理故障

可对故障根因进行原因检查并结构化录入,检查点包括:故障原因、最近活动、注入方式、恢复方式等;关联故障期间的故障变更,新增故障改进措施等操作。故障状态 处理中:处理中仍未恢复的故障;已恢复:故障对处理中的故障做 恢复 操作后是...

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生、故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

监控指标说明

该指标协助您进行作业诊断,排查作业Task级别的故障原因。次数 TM GC Time 每次TM GC时间。长时间GC会导致占用过大内存空间,从而影响作业性能。该指标协助您进行作业诊断,排查作业级别的故障原因。毫秒(ms)TM ClassLoader/...

为什么Sidecar的内存持续升高?

本文介绍Sidecar的内存持续升高的问题现象、问题原因和解决方案。问题现象 在容器Pod的内存监控中,发现Sidecar的内存持续升高。问题原因 内存持续升高的原因及说明如下。原因 说明 Sidecar配置 默认情况下,Sidecar拥有集群下所有服务的...

解读实例诊断报告

内存使用率 80%内存使用率持续升高可能导致Key频繁被逐出、响应时间上升、QPS(每秒访问次数)不稳定等问题,进而影响业务运行。可能的原因内存被数据占满。大Key较多。排查方法,请参见 排查内存使用率高的问题。连接数使用率(数据节点...

Linux系统的ECS实例运行卡顿,在/var/log/messages...

当某个进程因为某种原因无法继续执行,并且长时间停滞在某个状态下无法响应,就会发生挂起任务(hung task)故障,出现hung task故障可能原因如下:进程卡住(blocked):当某个进程在执行过程中出现死锁、内存泄漏或者其他异常问题时,该...

指标说明

nginx_ingress_controller_success-process_resident_memory_bytes 即RSS(Resident Set Size),指的是常驻内存集,是进程实际使用的内存,他不包括分配但未使用的内存,也不包括换出的内存页面,但包含共享内存。process_open_fds 通过...

指标说明

nginx_ingress_controller_success-process_resident_memory_bytes 即RSS(Resident Set Size),指的是常驻内存集,是进程实际使用的内存,他不包括分配但未使用的内存,也不包括换出的内存页面,但包含共享内存。process_open_fds 通过...

捕获内核的内存污染问题(KFENCE)

内存污染可能是由于编程错误、软件漏洞、恶意软件或硬件故障原因引起的。slab slab是Linux内核中一种高效的内存分配机制。它通过预先分配一定数量的内存对象,组织成一个内存缓存池,用于快速分配和释放内存。slab可以避免频繁的内存分配...

监控报警概述

故障预警 云电脑的故障信息、故障原因及故障时间等信息。使用场景 在日常业务运行的过程中,监控大盘帮助您及时了解账号下全部云电脑资源的全局情况,实时监控提供更详细的数据指标和故障预警信息,帮助您了解终端用户使用云电脑的情况,...

Tair客户端重连指南

引发暂时性故障原因 原因 说明 故障触发了高可用机制 云原生内存数据库Tair 支持节点健康状态监测,当监测到实例中的主节点不可用时,会自动触发主备切换,例如将主节点和从节点进行互换,保障实例的高可用性。此时,客户端可能会遇到...

使用SysOM定位容器内存问题

为解决因容器引擎层的不透明性而导致的故障排查困难问题,阿里云 容器服务 Kubernetes 版 ACK(Container Service for Kubernetes)团队推出操作系统内核层的容器监控可观测能力,为您提供更可靠、透明的容器引擎层,助力您更顺利地进行...

搭建高可用架构

设置监控报警 为避免实例因为CPU、磁盘、内存、连接等原因导致实例不可用,建议您监控实例相关性能,并设置超过阈值时 自动报警,防患于未然。恢复数据 如果您已经按照前文的步骤搭建了高可用架构实例,您的业务一般是可以稳定运行的,即使...

网站耗资源(客户程序故障)常见问题

本文汇总了使用云虚拟主机出现网站耗资源(客户程序故障)时的常见问题。什么是网站耗资源(客户程序故障)?网站程序占用CPU及内存过多,是对资源的一种浪费。当您使用普通版共享云虚拟主机建站后,可能会因为网站程序编写不合理、代码...

Tair选型指南

3 选择容灾方案 云原生内存数据库Tair 实例若因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制保障数据的一致性和业务可用性。云原生内存数据库Tair 提供多种灾备方案供您选择,可满足不同的业务场景。4 预估内存规格 提前...

自治服务(CloudDBA)

您可以通过该功能排查Redis数据库的故障和性能降低的原因。开启自动扩容 当内存平均使用率达到阈值后会自动升级Redis实例的规格,帮助您快速弹性适配业务高峰,避免内存溢出的风险,有效保障线上业务稳定性。基于预测自动弹性伸缩 以实例...

内存诊断

相关概念 名词 解释 内存泄露 指程序动态分配的内存由于某种原因未释放,造成系统内存利用率升高,导致程序运行速度减慢甚至系统崩溃等严重后果。内存利用率 内存利用率=(总内存-可用内存)x100/总内存,其中文件缓存属于可用内存,不影响...

PolarDB Serverless实现了哪些突破

简而言之,第一代云原生数据库无法实现计算和内存资源解耦,导致目前云原生数据库价格依然高于RDS和自建数据库,这也是其无法占据大部分市场的核心原因。实现新架构的突破 随着 PolarDB Serverless新架构的率先提出,原生数据库的困境出现...

云数据库Redis版产品选型必读

重要 在确定云数据库Redis实例的内存容量时,首先要考虑存储的业务数据大小,除此之外,您还需额外考虑Redis自身运行占用的必要内存开销(例如进程元数据、复制缓冲区、碎片等)。不同于自建Redis数据库,选用云数据库Redis时,您无需再...

查看监控信息

内存的增长和业务指标正相关,大部分情况下,导致内存突增的SQL还未运行完成就因OOM(Out of Memory)无法追溯,因此建议:检查业务日志,判断内存突增的原因。升级内存规格,并且开启 SQL洞察和审计,在内存突增时查看SQL的执行时间来判断...

主备切换

实例底层主机故障 阿里云检测到实例底层主机发生故障,例如进程异常中断、实例负载过高导致内存异常等无法正常使用时,系统会立即触发主备切换,及时恢复实例,降低故障影响时长。此类触发方式会以 短信或 站内信、邮件等形式通知到您,...

DNS最佳实践

CoreDNS所运行的集群节点应避免CPU、内存用满的情况,否则会影响域名解析的QPS和响应延迟。当集群节点条件允许时,可以考虑使用自定义参数将CoreDNS调度至独立的集群节点上,以提供稳定的域名解析服务。关于CoreDNS调度至独立的集群节点的...

DNS最佳实践

CoreDNS所运行的集群节点应避免CPU、内存用满的情况,否则会影响域名解析的QPS和响应延迟。当集群节点条件允许时,可以考虑使用自定义参数将CoreDNS调度至独立的集群节点上,以提供稳定的域名解析服务。关于CoreDNS调度至独立的集群节点的...

围绕混沌工程的平台实践

原则3在生产环境中运行实验 混沌工程推荐故障演练是在生产环境中进行,主要的原因有以下两点:系统的行为会根据环境和流量模式的变化,例如系统依赖的组件在测试环境和生产环境会有比较大的差异。系统的监控和人员的应急响应在测试环境和...

主从实例读写分离部署(共享存储)

当出现1分钟容器响应超时(可能是内存溢出、硬件故障、软件Bug等原因导致),Resource Manager会自动拉起新的计算节点,并迁移Shard职责到新的节点上(例如Worker Node3响应超时,Resource Manager拉起Worker Node4取代Worker Node3),...

耗资源用户处理流程

为了保证您的站点能够安全、...关于网站耗资源的原因以及排查方法,更多信息,请参见 网站耗资源(客户程序故障)常见问题。增强版共享虚拟主机和独享虚拟主机可以更好地应对耗资源问题,避免站点被关停。更多信息,请参见 云虚拟主机官网。

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACK集群中使用集群诊断功能。前提条件 已创建Kubernetes托管版集群。具体...

系统运维工具集SysAK使用说明

SysAK(System Analyse Kit)是阿里云操作系统提供的一个全方位的系统运维工具集,可以覆盖系统的日常监控、线上问题诊断和系统故障修复等常见运维场景。本文为您介绍SysAK的安装部署和使用方法。运维场景 阿里云通过对百万服务器运维经验...

监控、诊断和故障排除

相对于传统应用程序,开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本,但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息,帮助您深刻洞察程序行为,及时发现并快速定位问题。本文主要描述...

SysAK 2.2.0版本导致运行DNF命令发生段错误,如何处理...

说明 段错误(Segmentation Fault)是指在程序运行过程中,当尝试访问内存时违反了系统的内存访问规则而引发的一种错误。问题描述 在安装了sysak-2.2.0-1.al7.x86_64.rpm版本的Alibaba Cloud Linux实例中运行 dnf 命令时,提示如下报错。...

主备切换

实例底层主机故障 阿里云检测到实例底层主机发生故障,例如进程异常中断、实例负载过高导致内存异常等无法正常使用时,系统会立即触发主备切换,及时恢复实例,降低故障影响时长。此类触发方式会以 短信或 站内信、邮件等形式通知到您,...

AIOps套件概述

集群诊断 集群诊断提供一键故障诊断能力,辅助您定位集群中出现的问题,包括Pod诊断、节点诊断、Service诊断、Ingress诊断、内存诊断。诊断项 说明 Pod诊断 涵盖了常见的Pod问题,例如Pod启动失败、Pod镜像拉取失败、Pod运行异常等,并在...

如何使用Prometheus监控Windows

内存 物理内存使用率(%)、虚拟内存使用率(%):Windows正常运行最重要的指标之一。分页文件使用率(%)、分页错误率(%)。分页/非分页内存量。磁盘 磁盘空间使用率(%):显示磁盘剩余可用空间。磁盘空闲率(%):反映磁盘繁忙程度。...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 数据传输服务 云监控 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用