故障诊断

lastState.terminated.reason="OOMKilled"]|any'#对jq表达式的结果进行匹配,结果是否匹配'true'-type:regexp expression:"true"#问题严重等级:Critical/Warning/Info level:Critical#问题总结 summary:Pod因OOM被Kill#问题原因,支持...

监控、诊断和故障排除

相对于传统应用程序,开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本,但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息,帮助您深刻洞察程序行为,及时发现并快速定位问题。本文主要描述...

连接保持

PolarDB 新增支持连接保持功能,避免由于一些运维操作(如升级配置、主备切换或升级小版本等)或非运维操作故障(如节点所在服务器故障)导致的连接闪断或新建连接短暂失败的问题,进一步提高 PolarDB 的高可用性。前提条件 PolarDB 数据库...

历史记录

分布式任务,根任务失败,无法看到失败原因。并行任务子任务列表不能重试子任务。1.0.6-compatible,2019-07-02 优化:兼容 schedulerx1.0(DTS)接口的兼容版本。不支持同时依赖 schedulerx-client 和 schedulerx-worker 两个,只能依赖 ...

GTM如何实现异地容灾

两地三中心容灾架构,是指在同城双中心的基础上,在异地的城市建立一个备份的灾备中心,用于双中心的数据备份,当双中心出现自然灾害等原因而发生故障时,异地灾备中心可以用备份数据进行业务的恢复。目标读者 企业网络部、业务运维部工作...

Java SDK

无 1.1.2.RELEASE,2020-02-10 变更类型 功能描述 相关文档 新增 shade protobuf and netty from AccessKey IDka,解决接入90%以上JAR冲突。无 优化 AppKeys不支持多分组。无 1.1.0,2019-12-17 变更类型 功能描述 相关文档 新增 支持多...

接入ARMS监控

故障演练时通过接入应用实时监控服务ARMS(Application Real-Time Monitoring Service)可以对演练过程的指标进行监控,包含JVM内存、JVM线程数、JVMGC相关、网络出入口流量、磁盘、CPU等指标。本文介绍如何在故障演练中接入ARMS并监控演练...

运维服务内容说明

因客户自身原因导致的问题故障,不属于阿里云运维服务范围。如客户有不定期现场服务需求,可按天购买运维专家现场服务。运维服务专家可帮助客户进行疑难问题现场处理,故障现场救援,变更现场保障、现场运维培训等服务。运维专家现场服务需...

2019年

分布式任务,根任务失败,无法看到失败原因。并行任务子任务列表不能重试子任务。无 1.0.6-compatible,2019-07-02 变更类型 功能描述 相关文档 优化 兼容 schedulerx1.0(DTS)接口的兼容版本。不支持同时依赖 schedulerx-client 和 ...

Android设备重启后App无法自启动,其他有的App却可以...

问题原因 操作系统在启动的时候会发出一个“BOOT_COMPLETED”的系统广播,该广播会发送到该广播的所有广播接收器。但是在Android 3.1中,Google为广播增加了FLAG_INCLUDED_STOPPED_PACKAGES和FLAG_EXCLUDED_STOPPED_PACKAGES两个参数用来...

混合云应用双活容灾最佳实践

容灾切换数据质量保障难 容灾切换过程中,可能因数据同步延迟导致读到旧数据,以及切换规则推送到分布式应用节点时间不一致等原因可能造成云上云下数据库同时读写而出现脏写的问题,整个切换过程数据质量保障是关键点及难点。无业务代码...

Tair选型指南

3 选择容灾方案 云原生内存数据库Tair 实例若因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制保障数据的一致性和业务可用性。云原生内存数据库Tair 提供多种灾备方案供您选择,可满足不同的业务场景。4 预估内存规格 提前...

系统类故障排查

概述 本文主要介绍使用阿里云服务器ECS时的系统类故障排查,包含CPU、磁盘I/O、内存、硬盘、带宽资源占用异常的问题排查与定位。详细信息 说明 阿里云提醒您:如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,...

Windows实例通过外部访问网络不通的处理

Windows Server 2012引入的新功能ECN(Explicit Congestion Notification)根据RFC规定来减少网络重传的机制,但是由于中国内地某些ISP封杀此类的SYN,导致目标机器无法收到带有ECN标志的SYN,Windows机器在发送2次ECN没有得到响应...

概述

在集群选主流程结束后,PCR会将新的拓扑信息广播给所有的VDS Observer。这样只读节点就能够自动连接到新的主节点,并恢复LSN和Binlog等同步链路。全局预热系统 热备节点是弱化版的只读节点,同时也是一个更接近主节点,并随时准备切换的灾...

基本概念

更多请查看 什么是事件 故障 在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。故障比事件优先级更高,事件在处理过程中出现影响扩大或恶化时...

混沌工程缓存实战系列-Redis

因为服务端出现故障更加真实,所以可以从服务端层面去制造故障,但对于问题定位和排查的要求会更高。注入故障,观察指标的变化。缓存监控指标 目前支持的可监控的缓存指标如下:指标 说明 缓存QPS QPS是最通用也是最易观察的指标。缓存命中...

变更流程错误码说明

EDAS-10015 报错信息 EDAS-10015 WAR_URL_404 可能的原因 下载WAR失败,没有找到对应的WAR。EDAS-10016 报错信息 EDAS-10016 JAVA_PROCESS_ROOT 可能的原因 停止应用失败,应用进程是root身份启动的,EDAS无权操作。处理办法 请使用...

常见报错及解决方案

Q:谐云组件故障排查思路 A:elasticsearch《故障排查思路》mysql《故障排查思路》redis《故障排查思路》harbor《故障排查思路》通用排查《中间件通用故障排查思路》ingress《故障排查思路》rocketmq《故障排查思路》kafka《故障排查思路》...

NAT网关故障排查指南

本文介绍NAT网关的常见故障及排查方案。流量不通类故障排查:ECS实例配置DNAT条目后无法被公网访问 VPC内新建交换机的ECS无法通过SNAT访问公网 VPC内存在多个NAT网关时,某交换机的ECS实例不能访问公网 访问流量异常类故障排查:客户端访问...

Ping健康检查

率=(丢失数据/Ping数据数目)*100%,达到丢率阈值时,异常报警。丢率可选值为:10%、30%、50%、80%、90%、100%。超时时间 每次Ping监控,对发出的ping数据,计算返回时间,大于超时时间未返回的数据即判断为健康检查超时...

地址标准化服务等级协议

2.3除外情形 因下述原因导致的服务不可用的时长不计入服务不可用时间:(1)阿里云预先通知客户后进行系统维护所引起的,包括割接、维修、升级和模拟故障演练;(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)客户的...

查看消费者状态

应用场景 消费者状态信息包括在线状态、订阅关系、消费TPS、消息堆积量和线程堆栈信息等,经常被应用于以下故障排查场景:故障场景 现象 处理建议 订阅关系不一致 在 Group 详情 页面,看到Group ID的 订阅关系 显示 订阅关系不一致,请...

DATASOURCE:ECS:DedicatedHosts

无 OperationLocks List 专有宿主机资源被锁定的原因。无 Tags List 专有宿主机的标签。无 SupportedInstanceTypeFamilies List 专有宿主机支持的ECS实例规格族。无 SupportedCustomInstanceTypeFamilies List 专有宿主机支持的自定义实例...

GxP欧盟附录11标准合规

本文为您介绍GxP欧盟附录11标准合规的业务背景、应用场景,以及合规中的默认规则。业务背景 GxP欧盟附录11(GxP EU Annex 11)是欧盟对于计算机化系统使用的规范性要求,主要针对在制药、生物技术和医疗器械领域中使用计算机化系统的...

计费常见问题

其他原因:免费资源已过期:您领取的免费资源已过期时,已购通用型NAS资源容量① 会显示为0。例如您在2023年01月05日10:39:41领取了免费通用型NAS资源(50 GiB,3个月),到期时间为2023年04月06日 00:00:00,到期后将按量付费,...

使用须知

节点网络 单一边缘节点到同一运营商的同省或邻省监测节点的平均ping丢率⩽1%,新疆和西藏地区另行约定。节点资源 边缘节点存储支持本地盘和高效云盘,不同节点存在差异。本地盘来自单台宿主机,数据可靠性取决于宿主机的可靠性,存在单点...

点播CDN常见问题

TCP重传由于互联网中网络情况较为复杂,在出现网络拥堵、设备故障等情况下就会出现丢,通常有3%~10%的数据会被互联网丢弃,数据被丢弃后的重传动作是由操作系统内核层的协议栈处理的,无法记录到应用层日志中,因此这部分也会产生额外...

蓝牙BLE OTA规范

基础规范使用 广播规范 空中升级(OTA)是可选功能,如果蓝牙设备实现了此功能,需要在广播规范的FMSK字段中标示。服务规范 传输过程使用基础规范已定义的Service和Characteristics,采用指令类型区分。手机App发送固件时,采用...

License相关

提示 license authorization failed 或 license is invalid 相关报错信息时,您可以参考下述原因进行排查:检查创建License时,所设置的名及签名(Android应用)、Bundle ID(iOS应用)等信息是否正确。其中,Android应用的签名可以通过...

License相关

提示 license authorization failed 或 license is invalid 相关报错信息时,您可以参考下述原因进行排查:检查创建License时,所设置的名及签名(Android应用)、Bundle ID(iOS应用)等信息是否正确。其中,Android应用的签名可以通过...

ADP底座介绍

具体支持以下功能:诊断异常原因及详情 提供诊断处理建议 展示异常资源关联 展示异常事件 运维操作 提供了多种全面的运维操作。具体支持以下功能:组件水平扩缩容 组件垂直扩缩容 组件PVC存储扩容 组件备份还原 组件主备切换

在Windows实例无法访问外部网络如何处理?

可能原因 造成该问题的原因与 Windows实例通过外部访问网络不通的处理 类似,常见问题原因参考如下。公网ISP运营商的管控。Windows实例异常行为,导致阿里云安全策略阻止该Windows实例访问外部网络。Windows实例安全组配置错误。Windows...

事件中心

物理链路丢对业务的影响风险 带宽流量用量突增突减的故障风险 实例欠费即将停机风险 事件等级 按照对实例正常运行的影响程度进行划分,事件分为以下几个等级:严重:影响重大,需要尽快处理,否则可能导致实例无法使用。警告:有一定影响...

网络不通畅导致网站无法正常访问

本文主要介绍由于您本地到网站所在服务器中间的网络不通畅导致网站无法正常访问的解决方案...根据数据在网络上的停止位置,判断故障位置并自行解决网络问题。说明 如果您的网络异常情况自己仍无法解决,请您 提交工单 联系阿里云技术支持。

常见问题

例如您有3个存储容量均为40 GB的集群(即总容量为120 GB),这3个集群可以共享一个100 GB的存储,多出的20 GB则按量计费,详情请参见 购买存储。集群访问(读写分离)Q:如何实现 PolarDB 的读写分离?A:只需在应用程序中使用集群地址...

DDH常见问题

如果您因为过保迁移等原因被分配了一台新的物理服务器,您的DDH会对应一个新的机器码,该机器码就是这台新物理服务器的唯一识别码。DDH故障时是否会自动迁移到健康的DDH?阿里云为您提供DDH故障迁移服务,开启服务后,DDH因故障停机时,会...

如何排查Java场景下故障注入不生效的问题

为解决此类问题,在创建或编辑演练时,您可以在故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,您需要先确认该演练的故障执行步骤是否已开启Debug模式。若...

如何通过 mPaaS 框架解决 App 线上问题

发布 H5 离线更新如果某些故障是发生在离线内,在定位到问题后,可以直接通过实时发布控制台发布新的版本即可。这种方式也是推拉结合,及时触达用户。发布小程序更新如果故障发生在小程序中,只需要重新修改小程序,重新发布。和 H5 离...

Windows系统的ECS实例ping外网地址提示“一般故障”...

本文介绍Windows系统的ECS实例ping外网地址提示“一般故障”的错误原因和解决方案。问题现象 Windows系统的ECS实例ping外网地址时提示“一般故障”错误。问题原因 出现该问题可能有以下原因:可能原因 排查方案 ECS实例中安装了第三方杀毒...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
共享流量包 数据库自治服务 负载均衡 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用