故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...

常见问题

Q:当出现系统故障需要进行主备切换时,单节点集群地址下对应的只读节点能否切换为新主节点?A:主备切换时,单节点地址下对应的只读节点不会被自动切换为新主节点。但您仍可以通过手动切换将其设置为新主节点,详细操作请参见 主备切换。Q...

服务管控和治理

您可以对应用开启服务熔断功能,使有故障的服务端及时返回错误,并释放系统资源,提高用户体验和系统性能。更多信息,请参见 服务熔断。故障注入 您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测...

步骤五:应用容灾

故障恢复 本机出现故障后在云上拉起本地业务,待本地环境恢复后再将其恢复到本地。具体步骤如下:在 主站点管理 页签,单击+添加。在 添加计算平台 页面,填写计算平台 名称,选择 类型,填写 IP地址、用户名 和 密码。单击 创建。在连续...

常见问题

在4.x的手机系统上可能出现的崩溃问题的解决方法 在7.0以上版本的手机系统出现异常的解决方法 IOException异常,找不到补丁怎么办?线上拉取补丁时,找不到补丁怎么办?应用在多个市场发布,是否有问题?签名信息不匹配或没有签名如何...

读写访问文件类问题

当您访问文件系统中的文件时,文件系统中的文件受到某些限制影响,导致文件操作错误、挂载点无响应或访问无响应等。您可以在本文中查找一些常见文件操作错误、文件属主、数据不同步或访问无响应的解决方案。交叉挂载兼容性问题 Linux挂载...

ARMS统一告警管理最佳实践

本文介绍告警统一管理的最佳实践,以帮助企业更好地处理异构监控系统所带来的挑战和问题。背景信息 在云原生时代,企业IT基础设施的规模越来越大,越来越多的系统和服务被部署在云环境中。为了监控这些复杂的IT环境,企业通常选择使用...

容灾演练断网方式说明

如果ECS绑定了多块辅助网卡,每一块辅助网卡对应的安全组策略同样会进行故障注入,故障实验恢复时,系统会还原ECS绑定的原始安全组策略及辅助网卡对应的原始安全组。可用区断网在交换机级别进行模拟,而安全组断网在实例级别进行模拟。针对...

Pod诊断

节点文件系统只读状态 节点出现文件系统只读,通常是因为磁盘故障导致节点无法写入数据,可能造成业务异常。请尝试在节点上使用fsck命令修复文件系统,然后重启节点。节点硬件时间 检查节点硬件时钟与系统时间是否一致,时间相差超过2...

实例FAQ

本章节汇总了使用云服务器ECS实例时的常见问题。购买实例问题 如何查看某个地域或可用区是否能购买实例?购买实例时,资源已经售罄怎么办?如何选择适合我业务的ECS实例?购买ECS实例如何付款?开通一台云服务器需要多久?购买实例付款成功...

割接与上线

割接上线前的准备 应用的割接上线是整个应用上云迁移实施的最关键环节,这一环节出问题,可能造成重大故障。针对割接上线的重要性,我们建议在实施应用割接前,制定详细的割接前检查清单,这个清单的严谨程度很大程度上决定了割接成功率...

SDK相关FAQ

什么会出现内存泄漏?setSDKAuthSDKInfo的密钥如何获取?什么情况下会返回600005页面非法修改?当使用移动卡请求一键登录不成功,可能出现的报错日志及解决方法有哪些?若出现权限相关问题,该怎样做?检查App的权限是否可以正常申请。...

DCDN节点运维下线说明

节点流量调度:阿里云DCDN节点的运维操作有一套规范的处理流程,对于需要运维的节点,阿里云DCDN的调度系统会在下线节点之前把流量调度到周边正常运行的节点上。异常情况监测:阿里云DCDN节点也可能会因为一些少量的异常情况(例如:运营商...

网站耗资源(客户程序故障)常见问题

什么会出现网站耗资源(客户程序故障)?常见的造成网站耗资源(客户程序故障)现象的原因如下所示:网站程序编写不合理,例如ASP程序变量没有清空。网站数据库调用频繁,例如当ACCESS数据库的容量比较大时(超过100 MB以上),性能可能...

Linux系统的ECS实例CPU使用率或CPU负载较高问题的排查...

操作成功后,界面会出现类似 Send pid 23 signal[15/sigterm]的提示信息,按Enter键确认即可。常见CPU资源过高案例分析 案例一:CPU使用率较低但负载较高 问题现象 当前Linux系统没有业务程序运行。通过top命令观察,发现CPU使用率不高,...

Linux实例中数据恢复

数据恢复方法 在Linux实例里,您重启系统后,可能会出现数据盘分区丢失或者数据丢失的问题。这可能是因为您未在/etc/fstab 文件里设置自动挂载。此时,您可以先手动挂载数据盘分区。如果手动挂载时报分区表丢失,您可以尝试如下三种办法...

可观测性的设计原则

监控系统的指标可以让组织了解系统的健康状况和性能情况,以便在系统出现异常时快速发现问题。监控指标可以通过监控工具来实现,并允许在发生异常时发送警报。有很多监控工具可以使用,例如Prometheus、Grafana、Zabbix等,以及阿里云提供...

ECS系统事件概述

说明 非预期运维事件一般指的是因底层宿主机发生了无法预测的故障,或者ECS实例的操作系统发生了内核错误等问题,导致ECS实例突然出现宕机或重启。因宿主机故障导致ECS实例宕机或重启事件(SystemFailure.Reboot)属于偶发现象,无法避免。...

应用场景

主节点对外提供服务,当主节点出现故障系统自动切换备用节点接管服务,整个切换过程对用户全部透明。电商行业应用 电商行业通过Redis实现商品秒杀、购物推荐等功能。场景一:秒杀类购物系统 大型促销秒杀系统系统整体访问压力非常大,...

更新软件

重要 由于该命令可能更新系统内核,导致出现系统无法启动、内核与软件不兼容等问题。建议您完成不升级系统内核的配置后,再运行该命令。yum update 执行以下命令,查看软件版本号。软件名>-V#请将<软件名>替换为您需要查看版本号的软件 ...

自动或手动主备切换

临时关闭主备自动切换 自动切换默认为开启,主实例出现故障会自动切换到备实例,在遇到如下情形时您可以选择临时关闭主备自动切换:大促活动等,不希望主备切换影响系统可用性。重要应用系统升级等,不希望主备切换引进其他变数。重大事件...

性能说明FAQ

本文介绍NAS SMB/NFS协议文件系统性能相关的常见问题及解决方案。文件系统的读写吞吐阈值与什么相关?通用型NAS 单个文件系统的读写性能上限(峰值)与文件系统的当前使用容量线性相关且成正比例关系,即使用容量越大,吞吐性能上限(峰值...

网络架构容灾

不同部门和团队使用云产品时,一般会使用多个VPC把业务隔离,不同的VPC承载不同部门或团队的业务。但不同团队和部门间在特定场景下也需要互相访问双方的服务,这时就需要实现不同VPC间的互通。实现不同VPC之间的互通在阿里云上有两个主要...

开启或关闭SELinux

重要 完成修改 config 文件后,需要重启ECS实例使配置生效,但直接重启实例将会出现系统无法启动的错误。因此,在重启之前需要在根目录下新建 autorelabel 文件,以避免出现该问题。执行以下命令,在根目录下新建隐藏文件 autorelabel。...

常见问题

区别于用户自己控制事务开始和提交的方式,GDB系统会对每一个DSL开启一个事务并在结束的时候按照运行情况自动提交或者回滚。公测期间,GDB默认提供READ COMMITTED隔离级别的事务支持,后续商业化后会开放更多的隔离级别选项。此外,需要...

Linux内存碎片化的应对措施

Linux系统长时间运行会出现内存碎片化的问题,本文主要提供了应对该问题的一些措施。问题现象 实例内部署的业务偶然出现响应时间过长或者系统调用时间过长,系统的 sys 指标也会相应的增高,伙伴系统会缺少高阶内存(order 大于3的内存)。...

测试分析及调优

例如:SLB/WAF/高防IP,甚至是CDN/全站加速等)可能就会出现由于各种规格(带宽、最大连接数、新建连接数等)限制或者因为压测的某些特征符合CC和DDoS的行为而触发了防护策略导致压测结果达不到预期,详情请见 为什么后端压力不大但压测时...

连接保持

当Proxy在新旧主节点中进行切换时,需要保留这个状态,否则会出现字符集乱码问题。所以连接保持的核心在于保证连接切换前后的会话状态一致。说明 当Proxy将连接从旧主节点切换到新主节点的过程中,会存在短暂的新老数据库同时不可写不可读...

升级内核小版本

问:升级过程中,为什么会出现实例切换?是否会有其他严重风险?答:为保证业务稳定,升级采用先备后主的方式,备实例升级完成后,业务自动切换至备实例。无其他严重风险。实例切换的影响请参见 实例切换的影响。问:升级版本是否会有兼容...

集群管理FAQ

当Kubernetes集群出现问题或者节点异常时,您可通过容器服务ACK提供的一键故障诊断功能,辅助您定位集群中出现问题,详情请参见 使用集群诊断。如果集群诊断功能无法满足需求,您需要分别在Master节点和异常的Worker节点上收集Kubernetes...

管理主备切换

临时关闭主备自动切换 自动切换默认为开启,主实例出现故障会自动切换到备实例,在遇到如下情形时您可以选择临时关闭主备自动切换:大促活动等,不希望主备切换影响系统可用性。重要应用系统升级等,不希望主备切换引进其他变数。重大事件...

公共镜像已知问题

Debian问题 Debian 9.6经典网络配置问题 Fedora CoreOS问题 通过Fedora CoreOS自定义镜像创建的ECS实例中主机名不生效问题 OpenSUSE问题 OpenSUSE 15内核升级可能导致启动hang的问题 Red Hat Enterprise Linux问题 Red Hat Enterprise ...

访问云虚拟主机网站时无法正常访问(显示报错信息)

问题描述 网站成功安装在云虚拟主机后,运行一段时间后,可能出现无法正常使用网站(显示报错信息)的问题。说明 如果访问云虚拟主机网站无法正常访问且没有报错信息时,具体操作,请参见 访问云虚拟主机网站时无报错信息但无法正常访问...

网站测速任务错误码

错误码 说明 详细说明 601 DNS解析失败 网络出现问题、DNS服务器不正确或者域名不正确上报此错误码。602 连接服务器失败 网络出现问题或者服务器没有正常工作上报此错误码。603 服务器不支持请求的协议 例如对于URL ...

Linux系统常用内核网络参数介绍与常见问题处理

什么/var/log/messages日志中会出现“Time wait bucket table overflow”错误信息?为什么Linux系统的ECS实例中,出现大量的处于FIN_WAIT2状态的TCP连接?为什么Linux系统的ECS实例中,出现大量的处于CLOSE_WAIT状态的TCP连接?为什么...

安装

Linux 对于Linux系统,如果出现问题,请执行以下步骤:执行以下命令卸载crcmod。pip uninstall crcmod 安装python-devel。具体操作,请参见 安装python-devel。执行以下命令重新安装crcmod。pip install crcmod 如果执行上述步骤依然安装...

什么是调用链

调用链可以帮助运维人员解决以下问题故障排查:当请求失败或出现错误时,调用链可以显示整个请求的路径和每个服务的执行情况,从而帮助运维人员快速定位问题所在。性能优化:通过调用链,运维人员可以了解请求在系统中的执行时间和瓶颈...

常见问题

本文为您整合了使用Proxima CE过程中的常见问题。Proxima CE用的是哪里的资源?用户所在MaxCompute Project下的资源。输入表中的vector可以直接使用MaxCompute的Binary类型吗?目前不支持,Proxima CE当前版本构建索引的处理方法是将doc表...

常见问题以及改进措施

由于数据分布和查询复杂度等因素,可能出现查询性能不符合预期的情况,检查查询的执行计划是重要的问题排查方式之一。常见计划问题 Join Method以及Inner和Outer表 根据Join Method选择Inner和Outer表,一般情况下 AnalyticDB MySQL版 自动...

耗资源用户处理流程

为了保证您的站点能够安全、稳定的运行,阿里云的监控系统会实时关注您的站点运行状态。当您的站点出现因过度消耗资源导致运行速度下降或严重影响服务器性能时,系统会根据影响程度采取不同的处理方式以保证网站正常运行。耗资源即程序异常...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
负载均衡 商标服务 Web应用防火墙 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用