K8s应用运维管理最佳实践

在Java类型应用中,如果出现故障Pod实例,可以借助Arthas诊断,排查Pod故障点。相关文档,请参见 Arthas诊断。如果应用无法正常启动,可以将启动命令修改为 sleep,再通过 kubectl exec 手动启动进程,观察输出并分析原因。相关文档,请...

故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...

监控、诊断和故障排除

另外,通过日志的时间戳,不仅可以迅速查找和定位日志范围,还能够了解在请求发生时间范围内,客户端应用、网络或者服务系统发生的其他事件,有利于问题的分析和调查。RequestID OSS服务为接收的每个请求分配唯一的服务器请求ID,即...

数据面质量

这样做的目的是防止服务端出现问题后,仍收到客户端的服务调用,导致请求失败。为了验证该场景,蚂蚁团队在线下测试环境中,通过 iptables 命令 drop 掉 APP 返回给 MOSN 的响应数据,人为制造应用 APP 异常的场景。通过这种方式,蚂蚁团队...

CLB健康检查FAQ

如上所述,由于健康检查成功后,负载均衡服务器直接发送TCP RST包中断了连接,并没有做进一步的业务数据交互,导致上层业务(例如Java连接池等)认为相应的连接是异常的,所以会出现 Connection reset by peer 等错误信息。解决方案 更换...

常见网络问题

常见网络问题概览 问题 诊断工具检测 客户端日志 问题分析及排查方法 控制台显示 打开备份库失败 通过诊断工具检测,出现如下问题:i/o timeout An existing connection was forcibly closed by the remote host No connection could be ...

设计原则

业界衡量因数据带来的故障会用到两个指标:RPO(Recovery Point Objective)即数据恢复目标,以时间为单位,即在灾难发生时,系统和数据必须恢复的时间要求。RPO标志系统能够容忍的最大数据丢失量。系统容忍丢失的数据量越小,RPO的值...

消息堆积和延迟问题

本文主要介绍 云消息队列 RocketMQ 版 TCP协议的Java客户端使用过程中,经常会出现的消息堆积和消息延迟的问题。通过了解 云消息队列 RocketMQ 版 客户端的消费原理和消息堆积的主要原因,帮助您可以在业务部署前更好的规划资源和配置,或...

主备方案介绍

灾备方案 说明 单可用区高可用方案 主备节点部署在同一可用区中的不同机器上,当任一节点发生故障时,由高可用HA(High Availability)系统监控主备节点的健康状态并自动执行故障切换,避免单点故障引起的服务中断。同城容灾方案 主备节点...

集群高可用架构推荐配置

节点池高可用配置 您可以基于节点的弹性伸缩、部署集、多AZ,结合K8s调度的拓扑分布约束,确保服务在不同的故障域(failure-domain)资源充足且有所隔离,从而当某一故障出现问题时,服务仍然可以保持运行,减少单点故障的风险,提高系统...

跨可用区容灾

如果检查后发现当前时间应用状态不符合要求,例如数据库一致性问题,或者源端被污染的数据已经被同步到另一个地域,请在确认故障切换前,选择 更多>故障切换>更换恢复。说明 切换恢复操作与故障切换操作类似,仅需选择更早的恢复...

节点诊断

节点文件系统只读状态 节点出现文件系统只读,通常是因为磁盘故障导致节点无法写入数据,可能造成业务异常。请尝试在节点上使用fsck命令修复文件系统,然后重启节点。节点硬件时间 检查节点硬件时钟与系统时间是否一致,时间相差超过2...

割接与上线

割接上线前的准备 应用的割接上线是整个应用上云迁移实施的最关键环节,这一环节出问题,可能造成重大故障。针对割接上线的重要性,我们建议在实施应用割接前,制定详细的割接前检查清单,这个清单的严谨程度很大程度上决定了割接成功率...

跨可用区容灾

如果检查后发现当前时间应用状态不符合要求,例如数据库一致性问题,或者源端被污染的数据已经被同步到另一个地域,请在确认故障切换前,选择 更多>故障切换>切换恢复,重新选择恢复。说明 切换恢复操作与故障切换操作类似,仅需...

跨地域容灾

如果检查后发现当前时间应用状态不符合要求,例如数据库一致性问题,或者源端被污染的数据已经被同步到另一个地域,请在确认故障切换前,选择 更多>故障切换>切换恢复,重新选择恢复。说明 切换恢复操作与故障切换操作类似,仅需...

跨地域容灾

如果检查后发现当前时间应用状态不符合要求,例如数据库一致性问题,或者源端被污染的数据已经被同步到另一个地域,请在确认故障切换前,选择 更多>故障切换>更换恢复。说明 切换恢复操作与故障切换操作类似,仅需选择更早的恢复...

发现并处理大Key和热Key

在使用 云原生内存数据库Tair 的过程中,如果未能及时发现并处理Big keys(下文称为“大Key”)与Hotkeys(下文称为“热Key”),可能导致服务性能下降、用户体验变差,甚至引发大面积故障。本文将介绍大Key与热Key产生的原因、其可能...

Ingress诊断

Addon 检查项名称 检查项说明 修复方案 Ingress就绪Pod百分比 Ingress Deployment已就绪的Pod百分比,此值小于100表明Ingress Pod可能出现问题导致启动或健康检查失败。请根据错误日志查找问题Pod并修复。关于Ingress异常问题排查,请参见 ...

Ingress诊断

Addon 检查项名称 检查项说明 修复方案 Ingress就绪Pod百分比 Ingress Deployment已就绪的Pod百分比,此值小于100表明Ingress Pod可能出现问题导致启动或健康检查失败。请根据错误日志查找问题Pod并修复。关于Ingress异常问题排查,请参见 ...

重置消费位点

从指定时间的位点开始消费:选择此项后会出现时间选择控件。请指定一个时间,消费者将从这个时间之后发送的消息开始消费,不管之前的消息是否又被消费过。在弹出的 提示 对话框,确认提示信息,然后单击 确定。消费位点重置常见问题 ...

读写访问文件类问题

当您访问文件系统中的文件时,...问题现象 当您混用NFS和SMB协议文件系统,导致第一次通过 net use 命令挂载NFS协议文件系统连接失败后,挂载正确的SMB协议文件系统也会出现问题。解决方案 检查确保挂载正确的文件系统后,暂时停止挂载,5分钟...

发现并处理Redis的大Key和热Key

热key 预期外的访问量陡增,如突然出现的爆款商品、访问量暴涨的热点新闻、直播间某主播搞活动带来的大量刷屏赞、游戏中某区域发生多个工会之间的战斗涉及大量玩家等。快速找出大Key和热Key Redis提供多种方案帮助您轻松找出大Key与热Key...

常见问题

警告 创建单节点地址后,当此节点故障时,该地址可能会出现最多1小时不可用的情况,请勿用于生产环境。Q:一个集群内最多允许创建多少个单节点地址?A:如果您的集群内有3个节点,则只允许为其中1个只读节点创建单节点地址;若集群内有4个...

专线接入常见问题

阿里云侧线路出现故障时您可以通过提交工单的方式联系阿里云售后支持人员解决故障问题。速率不符合预期怎么办?对于路由器接口的规格在1Gbps以下的情况,可以使用iperf等工具测试带宽。如果无法超过10Mbps,则有可能是专线某一侧的端口协商...

Pod诊断

节点文件系统只读状态 节点出现文件系统只读,通常是因为磁盘故障导致节点无法写入数据,可能造成业务异常。请尝试在节点上使用fsck命令修复文件系统,然后重启节点。节点硬件时间 检查节点硬件时钟与系统时间是否一致,时间相差超过2...

常见问题

警告 创建单节点地址后,当此节点故障时,该地址可能会出现最多1小时不可用的情况,请勿用于生产环境。Q:一个集群内最多允许创建多少个单节点地址?A:如果您的集群内有3个节点,则只允许为其中1个只读节点创建单节点地址;若集群内有4个...

如何确认AP为正常工作

详细信息 查看AP指示灯 AP指示灯将根据不同故障问题,进行不同频率的闪烁。闪烁情况请见下表:闪烁间隔 原因 不亮 没通电 50ms 没有IP地址 200ms 到网关没通 1000ms 到公网不通 2000ms DNS有问题 4000ms 其它原因导致连不上云端 常亮 ...

实例启动异常常见错误与对应解决方案

针对实例启动过程中因操作系统内配置异常、异常关机等问题导致操作系统无法正常启动的情况,您可以通过VNC登录实例发现的启动异常或者实例健康诊断工具返回的异常字段,在本文查看此类问题的解决方案。Windows 1662001135:Windows系统因...

GTM如何实现同城容灾

常见问题 故障切换时间是多少?在健康检查间隔设置为15秒,TTL10秒,连续失败次数3次的配置下,GTM能在1分钟左右准确发现故障并切换,故障切换后理论上10秒左右可以全网生效,但实际情况取决于全国各地运营商的缓存设置时间。DNS未使用云...

畅捷通

随着畅捷通业务的增长接入的应用系统增多,畅捷通很快发现平台出现各种问题,各产品的稳定运行受到极大挑战。并发量大 几万个并发发送数据,每天产生的各种日志与消息达到TB级。自建的ELK系统性能较差,优化性能需要耗费大量开发资源。...

常见问题

警告 创建单节点地址后,当此节点故障时,该地址可能会出现最多1小时不可用的情况,请勿用于生产环境。Q:一个集群内最多允许创建多少个单节点地址?A:如果您的集群内有3个节点,则只允许为其中1个只读节点创建单节点地址;若集群内有4个...

附录:SOFAStack 产品目录

汇总聚合调用链路:所有的调用信息被聚合汇总,方便对各个应用的调用情况和响应情况进行分析。定位关键路径:快速发现整个系统调用拓扑中的关键应用路径。优化不合理调用:及时发现某些不合理的调用并进行处理,如频繁进行数据库操作等。...

组复制简介

如果此时备节点已经被切换成新主节点,就会出现主节点数据少于备节点,主备节点数据不一致的情况。全局 事务强一致性 组复制具备集群的节点间的数据全局强一致读和全局强一致写能力,并且可根据业务需要修改group_replication_consistency...

挂载访问FAQ

问题原因 对于某些内核版本,如果执行挂载操作的ECS实例名称与其他ECS实例名称相同,且该重名ECS实例已使用NFSv4.0挂载了同一个NFS挂载,此时产生冲突。解决方案 在报错的ECS实例上执行以下命令。echo 'install nfs/sbin/modprobe-...

Pod异常问题排查

本文目录 类别 内容 诊断流程 诊断流程 常见排查方法 检查Pod的状态 检查Pod的详情 检查Pod的配置 检查Pod的事件 检查Pod的日志 检查Pod的监控 使用终端进入容器 Pod故障诊断 常见问题及解决方案 常见的Pod异常状态及处理方式 Pod OOM异常...

调用链采样配置最佳实践

基于重保角度考虑,特定时间段全采样 运维过程中也经常面临重大事件保障的场景,比如大促、新版本压测等,需要针对某一类标签的数据甚至全部应用开启全量数据采集和存储,以便出现问题或者故障时,可以快速定位,甚至影响审计和定责。...

配置网络

交换机所在的子网故障或子网中的IP地址已用尽,您可以在配置VPC时提供两个或者多个交换机ID,如果一个可用区出现故障,您的函数可以在其他可用区运行,提高容错能力。安全组配置错误,请您按照以下要求配置安全组。需要设置VPC中的安全组的...

节点弹性大盘

随着集群规模扩大和频繁自动伸缩弹性,仅凭人工手动方式很难快速定位及发现问题,也很难追溯历史,基本不可能发现在长时间线上统计才能发现的异常。本文介绍如何通过节点弹性大盘上展示的Pod、Node详情及变化图表,快速排查定位问题。前提...

ECS容灾常见问题

SuSE Linux Enterprise Server 12.1由于系统本身的原因导致在VMware环境下存在重启后黑屏的问题出现此类问题与ECS容灾服务无关。Alibaba Cloud Linux 2.1903 LTS 64位 目前支持Alibaba Cloud Linux 2.1903 LTS 64位如下的内核版本:4.19....

ECS容灾常见问题

SuSE Linux Enterprise Server 12.1由于系统本身的原因导致在VMware环境下存在重启后黑屏的问题出现此类问题与ECS容灾服务无关。Alibaba Cloud Linux 2.1903 LTS 64位 目前支持Alibaba Cloud Linux 2.1903 LTS 64位如下的内核版本:4.19....
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 云数据库 MongoDB 版 应用高可用服务 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用