事件分析概述

链路追踪:提供事件轨迹能力,还原事件整体链路状态,帮助您快速排除故障定位链路问题。低成本 事件总线EventBridge 支持事件以云服务事件总线和自定义事件总线形式接入,云服务事件总线支持接入所有阿里云产品事件,无缝支持云服务事件...

电源故障定位

您可以参考以下方法定位电源故障并进行处理流程。诊断流程 电源故障详细处理流程,如下图所示。处理步骤 测量输入电压。使用万用表测量输入电压,根据电源适配器的工作电压范围判断输入电压是否异常。插拔电源适配器。把电源适配器以及电源...

运维服务内容说明

《问题清单》4 故障救援 有效协调资源,推动故障快速定位恢复,故障应急响应分钟。《故障报告》5 监控预警 帮助客户完善监控体系,及时处理告警事件,提升主动预警和快恢能力。《事件清单》6 智能巡检 定期健康巡检,提前识别风险隐患,...

趋势分析

通过延时、丢包率、探测次数三个指标在不同维度、不同汇聚粒度的表现来判断网络趋势,可以用来定位网络故障发生的时间点以及业务的网络质量趋势。首页点击 详情分析 按钮,进入“趋势分析”页面。筛选条件:说明 筛选条件“统计时间段”,...

运营商回执错误码

其他未能定位故障 500 运营商错误 运营商侧未能定位故障 400 网元繁忙 网元是通信网中关键的设备,通信网是按照容量规划建设的,容量不够表明当前某个关键设备的已经满负载 482 被叫号码不可用 检查被叫号码状态后重试 476 号码强制...

重启设备

网络故障时,重启设备可消除部分软件故障。背景信息 重启设备一般有两种方法:通过关闭或打开设备电源进行重启。通过智能接入网关控制台,远程重启设备。关闭或打开设备电源 警告 您通过关闭或打开设备电源进行重启时,请注意保存设备的...

功能特性

同时,屏蔽了不同运维人员在故障排查时的经验和技能差异,实现故障的快速定位。应急预案 应急预案 提供了应用运维原子操作的编排能力,如应用重启、应用摘流、数据库切换、物理服务器重启等操作。运维人员可以根据常见故障场景的处理过程,...

ECS系统事件汇总

Executed:因系统错误实例重启结束 Instance:SystemFailure.Reboot:Failed:因系统错误实例重启失败 当阿里云识别到ECS实例因底层宿主机出现了非预期的软硬件故障(如CPU、内存硬件损坏等)被重启时,立即发送该系统事件。建议您等待实例...

三网合一卡2.0使用入门

步骤四:验证重启是否切网成功 设备手工重启后自动切换网络,查看运营商信息是否更新 步骤五:验证网络故障设备自动重启切网 登录阿里云控制台,对当前使用的运营商卡片进行停机操作,模拟断网场景,在 步骤二 的基础上等触发检测后,设备...

诊断规则

故障诊断功能有效提升了故障排查效率,实现故障的快速定位与处理。本节将向您介绍诊断规则的相关操作。诊断规则是诊断节点的构成,诊断规则提供多种诊断能力,包括巡检、监控告警、变更查询。新建诊断规则 登录高可用管理控制台。在左侧...

服务管控和治理

故障隔离能够定位到异常的服务实例,实现实例级别精细化的隔离和摘流,使故障影响的范围更小、更可控。更多信息,请参见 故障隔离。服务拓扑 实际业务中,应用之间的关联与依赖非常复杂,需要通过全局视角检查具体的局部异常。您可以在...

一键调试应用实例

当 SAE 应用实例无法启动时,用户可以通过SAE控制台的一键调试功能来高效地进行故障排查和定位。前提条件 部署应用 背景信息 在部署应用时,如果因为应用自身或其他配置的因素,导致实例无法正常启动(比如一直处于CrashLoopBackOff状态)...

功能特性

手动执行主备切换 重启Proxy节点 支持手动重启Proxy节点,适用于由业务异常造成的Proxy节点问题或故障演练。重启或重搭代理节点 释放保护 被保护的按量付费实例不可被释放。开启实例释放保护 风险命令动态屏蔽 支持动态禁用风险命令,提高...

产品优势

自动化故障诊断和标准化应急预案快速定位并恢复故障,减少因故障引起的业务中断时间。故障演练主动检验应用高可用能力。支持蚂蚁产品双中心容灾切换,满足监管合规需求。技术风险防控内容库快速更新 阿里云、蚂蚁技术风险团队基于域内、...

Persistent Buffer Pool

在集群重启进入到故障恢复状态时,会根据WAL日志进行数据页面的修改,需要重新加载数据甚至修改数据,影响集群可用时间。其次,Shared Buffer Pools的重新初始化将会导致重新加载数据业务需要的数据,会带来严重的性能抖动。为了解决以上...

Persistent Buffer Pool

在集群重启进入到故障恢复状态时,会根据WAL日志进行数据页面的修改,需要重新加载数据甚至修改数据,影响集群可用时间。其次,Shared Buffer Pools的重新初始化将会导致重新加载数据业务需要的数据,会带来严重的性能抖动。为了解决以上...

EMR Kafka磁盘故障运维

磁盘故障恢复 当出现log directory offline、Under Replicated Partition时,需要尽快定位是否是由于磁盘故障导致的。当出现磁盘故障时,需要根据故障原因、故障影响程度、业务需求(是否接受数据丢失、是否允许服务较长时间不可用)、集群...

查看血缘关系

提升故障排查效率 当数据在处理过程中出现问题时,通过血缘关系,您可以追踪到问题的根源,快速定位和解决故障,避免业务损失和高昂的人力成本。提升数据分析效率 当数据资产变更或者出错的情况下快速定位所影响的线上作业,及时进行处理,...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

错误码字典

调用生活物联网平台API出现错误时,您可以根据错误码信息来定位问题并尝试解决。常见错误码 错误码 错误信息 描述 可尝试解决方法 200 success 请求成功。不涉及。400 request error 请求错误。根据错误提示和日志自行定位解决或联系技术...

Mesh 常见问题

重启电脑或者 Docker。重新 pull 一下脚手架代码。在 go-plugin 目录执行以下命令:git pull 开源 Mesh demo 编译问题 当编译 sofastack-mesh-demo 遇到无法拉取 JAR 问题,报错如下:[ERROR]Non-resolvable import POM:Could not transfer...

SanityCheck:算力健康检测

功能介绍 在执行DLC任务时,可能会遇到以下问题:在任务花费一定时间加载模型Checkpoint或其他初始化操作后,由于申请的资源存在故障,无法顺利开始训练,需要调查定位故障问题并重新提交任务。该过程中会导致GPU资源的浪费。在任务运行...

监控与日志

监控与日志可有效保障您轻量应用服务器...轻量数据库 错误日志和慢日志 日志管理页面查询轻量数据库服务实例的错误日志和慢日志,帮助您定位故障。错误日志保留天数为30天。慢日志明细保留天数为7天。更多信息,请参见 查看错误日志和慢日志。

混沌工程缓存实战系列-Redis

因为服务端出现故障更加真实,所以可以从服务端层面去制造故障,但对于问题定位和排查的要求会更高。注入故障,观察指标的变化。缓存监控指标 目前支持的可监控的缓存指标如下:指标 说明 缓存QPS QPS是最通用也是最易观察的指标。缓存命中...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括Pod诊断、Service诊断、Ingress诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACS集群中使用集群诊断功能。前提条件 已创建ACS集群。具体操作,请参见 创建ACS集群。确保ACS集群运行...

RebootMachine-重启实例

重启实例,目前仅支持Windows机器。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,可以在RAM权限策略语句的 ...

DescribeInstanceRebootStatus-查询实例重启状态

查询实例的重启状态。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,可以在RAM权限策略语句的 Action 元素中使用...

步骤五:应用容灾

当被保护的服务器完成阿里云复制服务(AReS)安装并重启后,您就可以对受保护的服务器启动、停止容灾复制、故障切换、容灾演练等一系列的应用容灾操作。前提条件 已安装阿里云复制服务。更多信息,请参见 步骤四:安装阿里云复制服务。操作...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACK集群中使用集群诊断功能。前提条件 已创建Kubernetes托管版集群。具体...

功能特性

通过数据闪回按时间点恢复数据 高可用 自动和手动执行主备切换 支持自动HA实现故障转移,支持手动执行主备切换(即切换节点角色),便于您进行实时容灾演练。手动执行主备切换 重启或重搭代理节点 支持手动重启或重新搭建代理节点,便于您...

同城多活常见问题

因为这样会涉及业务重启恢复,如果每次容灾演练都需要全部业务配合进行机器重启及顺序控制,这样是用户无法接受的。数据库是两个机房各一个主备,还是主机房一主一备,备机房一备的部署形态?一主一备。若新增备节点,成本可控下可多备节点...

作业调试

标签名 您可以在标签选项中添加作业标签,便于在总览页面快速定位作业。标签值 无。配置 引擎版本 引擎版本详情请参见 引擎版本介绍 和 生命周期策略。建议您使用推荐版本或稳定版本,引擎版本标记含义详情如下:推荐版本:当前最新大版本...

应用FAQ

如何进行ACK应用故障排查?如何手动升级Helm的版本?如何支持私有镜像?Cloud Controller Manager(CCM)组件升级检查失败 在Kubernetes集群中如何支持私有镜像编排容器 容器镜像服务源码绑定失败问题排查 容器镜像仓库构建服务失败问题...

Pod诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查...

CPFS-NFS客户端挂载文件系统(推荐)

客户端日志 您可以通过访问/var/log/aliyun/cpfs/路径下的CPFS-NFS客户端日志定位挂载报错信息。同时可以通过修改日志配置文件/etc/aliyun/cpfs/cpfs-utils.conf 中的参数,定制CPFS-NFS客户端日志内容。修改配置文件后,请您执行 sudo ...

节点诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。基于专家经验和AI智能诊断两种诊断模式,节点诊断可以深入定位问题根因。节点诊断包括诊断检查项和诊断根因。诊断检查项:包括Node检查、...

通过可观测性能力进行故障处理最佳实践

设计思路 核心问题 运维场景下,故障处理的核心问题如下:服务出现异常如何预警并上报 出现异常问题如何快速定位 解决方案 云消息队列 RocketMQ 版 定义的Metrics、Tracing指标覆盖消息收发各阶段的状态信息、云消息队列 RocketMQ 版 服务...

Pod诊断

容器服务平台构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查、...

常见报错及解决方案

Q:谐云组件故障排查思路 A:elasticsearch《故障排查思路》mysql《故障排查思路》redis《故障排查思路》harbor《故障排查思路》通用排查《中间件通用故障排查思路》ingress《故障排查思路》rocketmq《故障排查思路》kafka《故障排查思路》...

IIS Web网站访问故障

本文介绍IIS(Internet Information Service)作为Web服务的网站,访问故障相关的问题及解决方案。本文介绍的IIS Web网站访问故障相关问题如下:访问部署在Windows实例上的基于IIS搭建的Web网站时,提示“500-内部服务器错误”,如何处理?...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 应用高可用服务 Node.js 性能平台 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用