Nginx Ingress异常问题排查

Nginx错误日志:一般在处理请求出现错误时产生,可以执行以下命令过滤出Nginx错误日志。kubectl logs<controller pod name>-n|grep error 在Controller Pod中手动访问Ingress和后端Pod 执行以下命令,进入Controller Pod。kubectl exec...

Nginx Ingress异常问题排查

Nginx错误日志:一般在处理请求出现错误时产生,可以执行以下命令过滤出Nginx错误日志。kubectl logs<controller pod name>-n|grep error 在Controller Pod中手动访问Ingress和后端Pod 执行以下命令,进入Controller Pod。kubectl exec...

如何排查Java场景下故障注入不生效的问题

在对Java进程注入故障时,可能会出现故障注入失败的情况。为解决此类问题,在创建或编辑演练时,您可以在故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,...

异地双活切流

选择 故障单元,代表此时该单元当前出现故障,无法承接流量,MSHA自动将该单元的流量置0,将另一个单元置为100。b.单击 下一步,进入 容灾切换预览,在预览页,可以看到单元前后比例的对比,和 当前切流服务,如果和您预期不符,请返回 ...

常见问题

警告 创建单节点地址后,当此节点故障时,该地址可能会出现最多1小时不可用的情况,请勿用于生产环境。Q:一个集群内最多允许创建多少个单节点地址?A:如果您的集群内有3个节点,则只允许为其中1个只读节点创建单节点地址;若集群内有4个...

事件中心

该视图可以帮助您在应用出现故障时,快速排查关联的资源各自发生了什么问题。例如在大型企业中,由于某个员工的误操作,重启了生产环境的RDS,导致线上业务故障,利用该视图,可以快速的发现应用访问的RDS出现了重启操作。订阅规则 订阅...

K8s应用运维管理最佳实践

在Java类型应用中,如果出现故障Pod实例,可以借助Arthas诊断,排查Pod故障点。相关文档,请参见 Arthas诊断。如果应用无法正常启动,可以将启动命令修改为 sleep,再通过 kubectl exec 手动启动进程,观察输出并分析原因。相关文档,请...

常见问题

警告 创建单节点地址后,当此节点故障时,该地址可能会出现最多1小时不可用的情况,请勿用于生产环境。Q:一个集群内最多允许创建多少个单节点地址?A:如果您的集群内有3个节点,则只允许为其中1个只读节点创建单节点地址;若集群内有4个...

事件中心

该视图可以帮助您在应用出现故障时,快速排查关联的资源各自发生了什么问题。例如在大型企业中,由于某个员工的误操作,重启了生产环境的RDS,导致线上业务故障,利用该视图,可以快速的发现应用访问的RDS出现了重启操作。集群视图 集群...

常见报错及解决方案

Q:谐云组件故障排查思路 A:elasticsearch《故障排查思路》mysql《故障排查思路》redis《故障排查思路》harbor《故障排查思路》通用排查《中间件通用故障排查思路》ingress《故障排查思路》rocketmq《故障排查思路》kafka《故障排查思路》...

ECS系统事件汇总

根据实例规格的不同,支持的操作也不同,具体说明如下:d1、d1ne、d2sd2c:支持在线隔离、离线隔离、在线维修、重新部署 d3c、d3sd2c、i2、i2g、i2ne、i2gne、i3、i3g、i4、i4g、i4r、i4p:支持在线隔离、离线隔离、重新部署 i1:支持...

使用负载感知调度

ACK集群Pro版 调度器的负载感知调度功能根据节点的实际负载情况,将Pod优先调度到负载较低的节点,以实现节点负载均衡,降低节点故障风险。前提条件 已安装ack-koordinator组件,且版本为1.1.1-ack.1及以上。具体操作,请参见 ack-...

系统类故障排查

概述 本文主要介绍使用阿里云服务器ECS时的系统类故障排查,包含CPU、磁盘I/O、内存、硬盘、带宽资源占用异常的问题排查与定位。详细信息 说明 阿里云提醒您:如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,...

自动监控和响应ECS系统事件

在大规模集群、实时资源调度等场景,如果您需要主动监控和响应阿里云提供的ECS系统事件,来实现故障处理、动态调度等自动化运维,可通过云助手插件 ecs-tool-event 实现。说明 ECS系统事件是由阿里云定义的,用于记录和通知云资源的信息,...

健康检查最佳实践

本文介绍什么是健康检查、以及健康检查的推荐配置和参数详解。背景信息 K8s中的健康检查主要分为两种:Liveness:存活检测,负责判断容器是否需要重启。Readiness:就绪检测,负责判断容器是否需要承接流量。核心参数:检查方式:TCP/...

集群资源规格评估建议

本文主要介绍通过简单规则来评估一般业务场景下EMR Kafka集群所需硬件资源。实际业务场景中,您可以通过这些规则评估出资源规模后,再结合负载测试来确定最终的集群规格。集群创建后,您也可以根据实际资源使用率通过集群扩容功能来变更...

异地应用双活切流

选择 故障单元,代表此时,该单元当前出现故障,无法承接流量,MSHA自动将该单元的流量置0,将另一个单元置为100。b.单击 下一步,进入 容灾切换预览,在预览页,可以看到单元前后比例的对比,和 当前切流服务,如果和您预期不符,请返回...

大数据型

大数据存储密集型实例规格族d3s d3s的特点如下:实例配备12 TB大容量、高吞吐SATA HDD本地盘,辅以最大64 Gbit/s实例间网络带宽 支持在线更换坏盘,支持热插拔坏盘,避免导致实例停机 如果单块本地盘出现故障,您收到系统事件,确认响应...

网络架构容灾

不同部门和团队使用云产品时,一般会使用多个VPC把业务隔离,不同的VPC承载不同部门或团队的业务。但不同团队和部门间在特定场景下也需要互相访问双方的服务,这时就需要实现不同VPC间的互通。实现不同VPC之间的互通在阿里云上有两个主要...

云解析DNS如何实现故障切换

全局流量管理支持IP地址健康检查功能,并根据健康检查的结果,来判断运营商IP地址是否出现故障,如果出现故障,则将域名解析切换到备份的运营商IP上,并最终帮用户实现自动故障转移的功效。请参阅 GTM实现跨网访问加速与故障切换 操作...

Windows系统的ECS实例ping外网地址提示“一般故障”...

本文介绍Windows系统的ECS实例ping外网地址提示“一般故障”的错误原因和解决方案。问题现象 Windows系统的ECS实例ping外网地址时提示“一般故障”错误。问题原因 出现该问题可能有以下原因:可能原因 排查方案 ECS实例中安装了第三方杀毒...

强弱依赖治理概述

如果商品详情页对下游依赖是强依赖,例如当下游依赖 库存、优惠、物流 出现故障的时候,将导致业务流程无法推进,会出现类似如下的说明,严重影响用户体验。如果商品详情页对下游依赖是弱依赖,例如当下游依赖 评价、店铺 等系统出现故障的...

ZooKeeper的使用场景和MSE ZooKeeper的优势

节点故障自愈:依托于K8s的Liveness能力,在节点出现故障时,自动恢复故障节点,及时地保障服务的可持续性。数据安全:MSE ZooKeeper专业版提供了快照的备份能力,在集群出现非预期的情况时,能够快速重建恢复集群中的数据,保障数据的...

自动故障转移和读写分离

libpq实现自动故障转移和读写分离 通过libpq函数连接多个数据库,当出现故障自动切换到可用的数据库。命令 postgresql:/[user[:password]@][netloc][:port][,.][/dbname]?param1=value1&.]示例 如下示例为连接1个RDS PostgreSQL主实例...

应用场景

如果现有计算资源突然出现故障导致业务受到影响,很难及时进行故障修复或者替换。您可以利用弹性伸缩的高可用优势,开启健康检查模式。阿里云自动检查实例的健康状态,当发现存在实例不健康时,自动增加实例替换不健康的实例,确保...

同城多活切流

选择 故障单元格,代表此时,该单元格当前出现故障,无法承接流量,MSHA自动将该单元格的流量置0,将另一个单元格置为100。b.单击 下一步,进入 容灾切换预览,在预览页,可以看到单元格前后比例的对比,和 当前切流服务,如果和您预期...

网站耗资源(客户程序故障)常见问题

什么会出现网站耗资源(客户程序故障)?常见的造成网站耗资源(客户程序故障)现象的原因如下所示:网站程序编写不合理,例如ASP程序变量没有清空。网站数据库调用频繁,例如当ACCESS数据库的容量比较大时(超过100 MB以上),性能可能...

设置Pod故障处理策略

默认情况下,ECI Pod创建失败后,系统自动重试尝试创建。如果您希望尽快得到创建结果以便及时处理故障,可以修改Pod故障处理策略。配置说明 在虚拟节点上创建ECI Pod时,可能因为库存不足等原因导致Pod创建失败,默认情况下,系统...

LTS(原BDS)服务介绍

使用指南 日志生命周期管理说明 开启日志订阅后,如果不消费数据,默认日志保留48小时,超时后订阅关系自动取消,保留的数据自动删除 什么场景导致“不消费数据”:没有终止任务的前提下直接释放LTS集群;同步任务暂停;使用日志订阅的...

路由方式概述

当某个集群出现故障时,设置分发到该集群的流量权重为0,即可达到流量切换目的。例如,以下应用系统中以K8s容器服务作为服务发现的用户服务,部署在两个不同的ACK集群中,集群A和集群B。对于/user 的路由请求流量,希望80%的流量转发至集群...

路由方式概述

当某个集群出现故障时,设置分发到该集群的流量权重为0,即可达到流量切换目的。例如,以下应用系统中以K8s容器服务作为服务发现的用户服务,部署在两个不同的ACK集群中,集群A和集群B。对于/user 的路由请求流量,希望80%的流量转发至集群...

围绕混沌工程的平台实践

本文主要介绍AHAS Chaos是如何围绕混沌工程来打造故障演练服务,您可以了解到混沌工程的基本知识和AHAS Chaos的优势。混沌工程和故障演练 首先您需要了解混沌工程和故障演练的关系。以下是混沌工程官方定义:混沌工程是在分布式系统上进行...

如何在SLES for SAP高可用环境下不停机修改SBD设备的...

问题描述 阿里云上SAP用户系统的核心应用(如SAP S/4HANA、SAP PO、SAP HANA等)主要是通过操作系统的高可用组件(如SUSE HAE、RHEL HA、Microsoft Windows Cluster等)实现SAP系统高可用架构,为业务连续性提供保障。SLES HAE是SUSE linux...

LTS(原BDS)服务介绍

安全可靠:LTS充分考虑对源端和目标端系统在线影响最小化,以及兼容可能出现故障。在任务启动前有网络联通性、安全性等前置校验,运行过程中实时监控同步延迟、目标集群存储水位等并有相关的限速和报警,任务结束后还提供数据校验...

SQL版本说明

重要 在宽表引擎中使用 SELECT@VERSION 语句查询SQL版本时,可能会出现语句执行失败的情况。这是因为宽表引擎中搭载的SQL引擎在2.6.0版本对技术架构进行了升级,SELECT@VERSION 是新版本(即2.6.0及以上版本)支持的能力。因此,一些版本较...

高性能版实例

SQL崩溃时,主要会出现Coredump或Out of Memory等情况,使 AnalyticDB PostgreSQL版 进入恢复模式。恢复模式中,系统会对残留的锁和内存执行一些清理操作,并通过回放WAL文件来保证数据的完整性。恢复期间,实例会暂时无法服务,完成恢复后...

常见问题

当您使用阿里云E-MapReduce(简称EMR)on ACK 时,可以根据本文...如果在绑定了Bucket A的EMR on ACK集群执行Spark作业尝试读写另一个Bucket B时,将会出现访问拒绝错误:“AccessDenied The bucket you access does not belong to you”。

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...

如何书写正则表达式

开头的所有 IP 地址,无论后面出现什么数字。在示例 2 中,\d 匹配最后一个句号之后从 0 到 9 的所有数字,{1,3} 表示最后一个句号之后可以出现 1-3 位数。在这种情况下,正则表达式匹配以 192.168.1.开头的所有完整 IP 地址。注意,该正...

ECS系统事件概述

系统事件由阿里云定义,用于记录和通知云资源的信息,例如运维任务执行情况、资源是否出现异常、资源状态变化等。说明 阿里云有众多产品支持系统事件,例如ECS、RDS、SLB等。本文仅说明云服务器ECS支持的系统事件,如需了解其他产品的系统...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
负载均衡 数据库自治服务 应用高可用服务 云数据库 OceanBase 版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用