通过可观测性能力进行故障处理最佳实践

具体使用时可将这些指标大致分为以下三类:一级指标:建议将没有歧义的、可衡量业务正常运行的指标作为一级指标,这些指标出现异常则一定是业务链路出现问题一般可用做监控报警项。例如,消息收发TPS超过规格限制可触发实例流控,您可以...

如何排查Java场景下故障注入不生效的问题

在对Java进程注入故障时,可能会出现故障注入失败的情况。为解决此类问题,在创建或编辑演练时,您可以在故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,...

如何解决备份客户端OOM问题

背景信息 使用 云备份 备份数据时,在极端大数据量以及系统资源不足的备份场景,备份客户端会占用较多的系统资源,可能会出现OOM问题,即备份进程触发OOM被系统终止而导致备份失败。重要 当遇到OOM问题时,您可以根据实际情况为备份客户端...

使用配置巡检检查集群工作负载

RAM授权 请完成ACK容器服务配置巡检页面的RAM授权操作,确保当前RAM用户拥有操作当前集群配置巡检页面的权限,否则会出现权限不足无法操作配置巡检页面功能的问题。具体操作,请参见 自定义RAM授权策略。展开查看配置巡检授权代码 {...

EMR Kafka磁盘故障运维

业务场景 Kafka将日志数据存储到磁盘中,当磁盘出现故障时,导致磁盘IO能力下降、集群吞吐下降、消息读写延时或日志目录offline等问题。这些情况有可能影响到线上业务平稳运行、数据丢失、Kafka集群容错能力下降,单块盘故障甚至有可能...

使用配置巡检功能检查注册集群Workload安全隐患

如果未配置的话,Pod有被调度到资源紧张的节点上的风险,可能会出现容器内进程运行缓慢的情况。修改Pod Spec,增加 resources.requests.cpu 字段。示例:cpuLimitsMissing 通过检查Workload的Pod Spec中是否未配置 resources.limits.cpu ...

Linux系统日志提示“file-max limit 65535 reached”...

如果是应用进程出现问题,对相关应用进行检查和优化。否则 执行如下命令,修改 fs.file-max 配置项参数。echo“fs.file-max=100000”>>/etc/sysctl.conf 执行如下命令,使其 修改生效。sysctl-p 适用于 云服务器ECS

使用限制

故障切换 对于高可用系列、集群系列实例,当主节点出现故障时,RDS在30秒内切换到备节点(某些主备不一致等特殊场景可能切换时间较长)。切换过程中有30秒左右的连接闪断,需要您设置好程序的自动重连,避免因为切换导致服务不可用。切换...

常见问题概览

下载备份文件 性能、空间与内存 热点问题 其他常见问题 如何排查MongoDB实例负载过高的问题 MongoDB实例内存使用率高问题 MongoDB实例的CPU使用率高问题 MongoDB实例IOPS使用率高问题 MongoDB实例空间使用率高问题什么高可用系统触发...

在/var/log/messages日志中出现“INFO:task jbd2/vda1...

系统内核问题:当系统内核存在漏洞或者其他问题时,可能会出现hung task故障。系统资源紧张:ECS实例中应用或进程占用系统资源使用率(如CPU、内存等)过高时,可能会出现hung task故障。解决方案 出现hung task的原因比较复杂,您可以参考...

自动故障剔除

自动故障剔除功能自动监控 RPC 调用的情况,当某个节点出现故障时,可对故障节点进行权重降级,并在节点恢复健康时进行权重恢复。目前支持 Bolt 协议。配置方式 将自动故障剔除的参数配置到 SOFABoot 中的 application.properties 即可。...

回切至本地物理机

如果扩充的是包含系统分区的磁盘,那么扩充的这部分空间会被ECS自动填充给系统分区,这样在恢复到本地的物理机时可能会出现分区越界的问题。如果系统分区相对源端机器被扩容,将会收缩相应的空间,确保和源端机器保持一致。反向注册。确认...

连接保持

当Proxy在新旧主节点中进行切换时,需要保留这个状态,否则会出现字符集乱码问题。所以连接保持的核心在于保证连接切换前后的会话状态一致。说明 当Proxy将连接从旧主节点切换到新主节点的过程中,会存在短暂的新老数据库同时不可写不可读...

自动故障转移和读写分离

libpq实现自动故障转移和读写分离 通过libpq函数连接多个数据库,当出现故障自动切换到可用的数据库。命令 postgresql:/[user[:password]@][netloc][:port][,.][/dbname]?param1=value1&.]示例 如下示例为连接1个RDS PostgreSQL主实例...

割接与上线

割接上线前的准备 应用的割接上线是整个应用上云迁移实施的最关键环节,这一环节出问题,可能造成重大故障。针对割接上线的重要性,我们建议在实施应用割接前,制定详细的割接前检查清单,这个清单的严谨程度很大程度上决定了割接成功率...

网络架构容灾

不同部门和团队使用云产品时,一般会使用多个VPC把业务隔离,不同的VPC承载不同部门或团队的业务。但不同团队和部门间在特定场景下也需要互相访问双方的服务,这时就需要实现不同VPC间的互通。实现不同VPC之间的互通在阿里云上有两个主要...

围绕混沌工程的平台实践

可能发生什么样的新问题?有哪些问题是正在解决中的?这些问题可以帮助您在设计演练流程时选择和系统业务有关的更优场景。为了帮助您选择合适的演练场景,AHAS Chaos在功能设计上做了以下两点:丰富的演练场景。首先在全面性上AHAS Chaos...

进程监控

云监控采集CPU消耗Top5进程的CPU使用率,可能存在以下问题:如果您的进程占用多个CPU,则会出现CPU使用率超过100%的情况,因为采集结果为多核CPU的总使用率。如果您查询的时间范围内,CPU消耗Top5的进程不固定,进程列表会显示该时间范围内...

Resource Manager

内存限制方式 Resource Manager守护进程会随着集群启动而建立,同时对RW、RO以及Standby节点起作用。可以通过修改以下参数改变Resource Manager的行为。当前Resource Manager限制内存的方式为:在集群内存使用超过Resource Manager参数设定...

Resource Manager

内存限制方式 Resource Manager守护进程会随着集群启动而建立,同时对RW、RO以及Standby节点起作用。可以通过修改以下参数改变Resource Manager的行为。当前Resource Manager限制内存的方式为:在集群内存使用超过Resource Manager参数设定...

集群版-单副本

纯缓存应用 单副本集群版的分片服务器由单节点组成,分片服务器某节点出现故障时,系统重新拉起一个Redis进程(没有数据),当节点故障业务自动切换完成后,数据将丢失,有可能流量被冲击到后端数据库,需要做好应用程序的预热保护机制...

时序引擎版本说明

修复并发更新Schema时会出现大量版本冲突的问题。修复Lindorm ML时序预测在预测条件为大于或小于某时间点时,拉取数据不足的问题。修复Lindorm ML时序异常检测ostl-ttest算法和ostl-esd在数据量较大时会报错的问题。优化Lindorm ML时序异常...

云盒计算资源配置最佳实践

反之,如果选择最大实例规格为ecs.g6.26xlarge的SKU,由于该规格族的vCPU和内存配比1:4,则会出现内存浪费的情况。根据业务需求选择SKU时,可能会需要多种不同配比的ECS实例,此时可以选择多种规格族混合的SKU,以减少资源浪费。例如:您...

ack-node-repairer

当节点出现故障时,自愈系统自动对故障所在节点触发相应的修复操作。当故障被修复后,NPD修改故障状态,达到故障检测以及修复的闭环。运维人员也可以自定义需要采取修复操作的故障以及具体的修复操作。NPD是Kubernetes节点诊断的工具,...

什么页面出现滚动条?

问题描述 为什么页面出现滚动条?解决方案 一般是因为父级容器设置了滚动条,导致子级容器宽或高超出了父级容器的宽或高,可通过将父级容器的宽或高设置为100%解决。

使用说明

背景信息 设备基于物联网平台的消息通信能力开展业务,由于不同设备业务的复杂性,以及业务需要定期变更升级,导致设备的业务程序容易出现故障,导致设备不可用。如果设备的业务程序与远程登录程序在同一进程导致设备不可使用远程登录...

Pod异常问题排查

本文目录 类别 内容 诊断流程 诊断流程 常见排查方法 检查Pod的状态 检查Pod的详情 检查Pod的配置 检查Pod的事件 检查Pod的日志 检查Pod的监控 使用终端进入容器 Pod故障诊断 常见问题及解决方案 常见的Pod异常状态及处理方式 Pod OOM异常...

补数据

什么补数据选择业务时间昨天和今天,也会出现等待时间的情况?为什么补数据选择补0点~1点生成了多个实例?为什么进行大量补数据操作时,会出现等待资源情况(实例显示黄色,实例状态为等待资源)?为什么补数据报错调起的节点运行时间不...

NAS存储卷FAQ

对于吞吐密集型应用,Stunnel监听进程会消耗大量CPU执行加解密操作。在极端情况下,每个挂载会占用一整个核。NAS客户端传输加密功能依赖第三方证书,第三方证书需要定期更换。NAS会提前一个月通过邮件、站内信发出通知,请您关注信息并及时...

NAS存储卷FAQ

对于吞吐密集型应用,Stunnel监听进程会消耗大量CPU执行加解密操作。在极端情况下,每个挂载会占用一整个核。NAS客户端传输加密功能依赖第三方证书,第三方证书需要定期更换。NAS会提前一个月通过邮件、站内信发出通知,请您关注信息并及时...

常见问题

本文汇总了Flume使用时的常见问题。Hive日志数量少于实际日志数量?终止Flume进程出现DeadLock报错,如何处理?如何处理强制退出后,FileChannel偶发性异常?Hive日志数量少于实际日志数量?问题现象:通过Flume将日志写入Hive,发现Hive...

步骤五:应用容灾

故障恢复 本机出现故障后在云上拉起本地业务,待本地环境恢复后再将其恢复到本地。具体步骤如下:在 主站点管理 页签,单击+添加。在 添加计算平台 页面,填写计算平台 名称,选择 类型,填写 IP地址、用户名 和 密码。单击 创建。在连续...

Java后台进程自动关闭如何排查

概述 本文主要讲述Java后台进程自动关闭的排查思路。详细信息 阿里云提醒您:如果您对实例或数据有修改、变更等风险操作,务必...一般会生成 hs_err_pid.log 日志,具体操作请参见 JVM致命错误日志(hs_err_pid.log)分析。适用于 云服务器ECS

部署和使用跨可用区实例

同时,您可以通过控制台的切流操作,将出现故障的可用区隔离,这时系统自动在剩余的可用区中补充计算资源,满足业务对资源的需求。本文介绍如何部署和使用(切流和恢复)跨可用区实例。应用场景 跨可用区部署支持单可用区、跨2个可用区、...

跨可用区容灾

警告 故障切换操作适用于被保护服务器已经出现严重故障的情形,进行该操作停掉实时复制流程。您需要重新启动复制,并完成一次全量复制才能对被保护服务器继续进行容灾保护。按如下步骤进行故障切换:在 受保护服务器 页签,在要启动故障...

跨地域容灾

警告 故障切换操作适用于被保护服务器已经出现严重故障的情形,进行该操作停掉实时复制流程。您需要重新启动复制,并完成一次全量复制才能对被保护服务器继续进行容灾保护。按如下步骤进行故障切换:在 受保护服务器 页签,在要启动故障...

在集成移动推送辅助通道后显示"register not in main ...

问题详述 注册推送辅助通道,打印了如下日志:...问题原因 移动推送除了应用进程外还有一个后台进程channel,而辅助通道的注册只在主进程执行,在其他进程打印这条日志,表示在该进程不执行通道注册。所以这条日志是正常的,没有问题

跨地域容灾

警告 故障切换操作适用于被保护服务器已经出现严重故障的情形,进行该操作停掉实时复制流程。您需要重新启动复制,并完成一次全量复制才能对被保护服务器继续进行容灾保护。故障切换步骤如下:登录 混合云容灾管理控制台。单击 切换到...

跨可用区容灾

警告 故障切换操作适用于被保护服务器已经出现严重故障的情形,进行该操作停掉实时复制流程。您需要重新启动复制,并完成一次全量复制才能对被保护服务器继续进行容灾保护。故障切换步骤如下:登录 混合云容灾管理控制台。单击 切换到...

可用性与可靠性

备份恢复 在某些极端异常的场景,例如整个机房出现故障或者用户数据误删,导致数据丢失,AnalyticDB PostgreSQL版 仍然可以通过远端数据备份的方式恢复集群,提供服务,为极端场景或者用户数据误删情况下提供进一步的数据恢复手段。...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
负载均衡 商标服务 Web应用防火墙 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用