时延洞察

您可以通过该功能排查 Tair 数据库的故障和性能降低的原因。功能简介 原生Redis在2.8.13版引入时延监控(Latency Monitoring)特性,基于事件机制帮助您发现和排查可能的时延问题。该功能仅支持获取最近160秒的数据,且只存取每秒内时延...

查询审计日志

开通 云数据库Redis版 审计日志后,您可以在审计日志中查询数据写入、修改与删除的记录,也可以进行故障排查或 Redis 实例资源消耗突增等性能分析。前提条件 已开通审计日志,详情请参见 开通审计日志。背景信息 当您需要查看数据库请求...

使用ASM构建分布式系统的容错能力

背景信息 容错能力是指系统在部分故障期间,仍然能够继续运行的能力。创建一个可靠的弹性系统会对其中的所有服务提出容错要求。云环境的动态性质要求服务能预见这些失败,并能优雅地响应意外情况。任何一个服务都有可能存在请求失败的情况...

使用ASM构建分布式系统的容错能力

背景信息 容错能力是指系统在部分故障期间,仍然能够继续运行的能力。创建一个可靠的弹性系统会对其中的所有服务提出容错要求。云环境的动态性质要求服务能预见这些失败,并能优雅地响应意外情况。任何一个服务都有可能存在请求失败的情况...

专线连接类

本文介绍物理专线连接的常见问题。通过物理专线接入阿里云之后,是否可以访问不同地域?阿里云支持哪些类型的物理专线?物理专线支持的最大带宽是多少?物理专线是否支持动态路由协议?物理专线是否支持多条专线链路的容灾?如何实现物理...

时延洞察

在排查Redis数据库实例的故障和性能降低的原因时,您可以通过时延洞察功能,对数据库所有命令以及自定义特殊事件进行时延统计,得到精确到微秒级别的延迟时间,从事件、时间、时延三个维度对实例进行分析,快速定位和修复故障。前提条件 ...

查询审计日志

开通 云原生内存数据库Tair 审计日志后,您可以在审计日志中查询数据写入、修改与删除的记录,也可以进行故障排查或 Tair 实例资源消耗突增等性能分析。前提条件 已开通审计日志,详情请参见 开通审计日志。RAM用户访问审计日志,需要具备...

CLB使用访问日志快速定位异常后端服务器

在使用CLB的七层负载均衡(HTTP/HTTPS监听)期间,如果您遇到业务故障或异常,怀疑是后端服务器问题,您可通过CLB访问日志功能快速定位异常后端服务器。CLB结合阿里云日志服务提供的访问日志功能,...CLB常见问题及解决办法可参考 常见问题。

分片集群实例连接说明

您可以选择以下任意一种方法登录:通过DMS连接MongoDB分片集群实例 通过Mongo Shell连接MongoDB分片集群实例 通过程序代码连接MongoDB分片集群实例 常见的连接场景 如何通过公网连接MongoDB实例 不同网络类型的ECS实例与MongoDB实例如何...

副本集实例连接说明

您可以选择以下任意一种方法登录:通过DMS连接MongoDB副本集实例 通过Mongo Shell连接云数据库MongoDB副本集实例 通过程序代码连接MongoDB副本集实例 常见的连接场景 如何通过公网连接MongoDB实例 不同网络类型的ECS实例与MongoDB实例如何...

事件中心

risk-ec-bgpRouterFail BGP连接故障 警告 BGP 连接故障 物理专线网络连通性故障或BGP配置异常,导致BGP连接故障和路由丢失。建议您联系您的商务经理沟通处理。risk-ec-inTrafficDroppedToZero VBR入方向流量陡降 警告 VBR入方向流量陡降 ...

故障演练常见问题

欢迎您反馈在使用故障演练过程中遇到的问题,目前提供以下常见问题供您参考。单个演练活动成功状态怎么判断?因为一个活动可能会有很多目标机器,当所有机器执行完毕之后,如果有机器没有执行成功,那么这个演练活动就会被系统判断为失败。...

创建演练

背景信息 一次完整的故障演练包括以下四个阶段:安装故障演练探针 创建演练 执行演练 停止演练 操作步骤 登录 AHAS控制台,在左侧导航栏中选择 故障演练>我的空间。在 我的空间 页面,单击 新建演练。选择 新建空白演练 或 从经验库新建。...

未收到告警通知的排查思路

在左侧导航栏中,单击 告警。在 告警中心 页面的 告警规则 页签中,单击目标告警监控规则。在页面底部的 告警历史 区域,查看告警的触发结果。已触发告警 跳过当前步骤前往第5步。表示此次评估统计结果成功,但与是否触发条件、是否触发告...

监控、诊断和故障排除

相对于传统应用程序,开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本,但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息,帮助您深刻洞察程序行为,及时发现并快速定位问题。本文主要描述...

演练执行

在左侧导航栏上,单击 故障演练>演练执行。选择 演练执行单 页签。单击目标执行单 操作 列下的 执行详情,查看执行单的详细信息,包括执行状态(执行成功、执行失败、未执行、执行中、取消执行)、执行进程、基本信息。针对不同状态的执行...

应用诊断

应用诊断是对应用的单独故障诊断,可以由链路诊断触发或人工触发。高可用管理平台通过应用诊断初步定位问题,锁定可疑应用,再通过 Arthas 和线程分析进一步确认问题。目前,应用诊断支持用户应用和蚂蚁应用。应用诊断是故障诊断的原子能力...

诊断规则

在左侧导航栏上,单击 故障诊断>诊断规则。单击 新建,在 新建诊断规则 页面,输入诊断规则名称与描述,并根据选择的诊断规则类型,配置对象与应用范围等。巡检规则:选择诊断对象类型(蚂蚁产品/用户应用/基础资源)、产品范围(全部产品/...

演练方案

演练方案指针对不同故障场景设计、编排的一套容灾演练计划。故障演练模块支持创建、编辑、发布、复用、删除、导出演练方案,以及查看演练记录,下面逐一进行操作说明。创建演练方案 在左侧导航栏选择 运维管理>高可用管理。在左侧导航栏上...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障的发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>创建...

主备切换

常见问题 Q:实例故障触发主备切换的原理是什么?A:依赖高可用HA(High Availability)系统的探活机制实现故障检测,具体如下:主要事件 说明 健康检测 HA系统会探测确认主备节点健康状态。主节点异常 发现主节点不可用,会将备节点提升为...

主备切换

常见问题 Q:实例故障触发主备切换的原理是什么?A:依赖高可用HA(High Availability)系统的探活机制实现故障检测,具体如下:主要事件 说明 健康检测 HA系统会探测确认主备节点健康状态。主节点异常 发现主节点不可用,会将备节点提升为...

常见问题旧版索引

本文介绍容器服务ACK的常见问题。您在使用容器服务ACK时如果收到容器服务ACK返回的错误信息,可查阅 容器服务ACK错误码 匹配解决方案。如果您没有收到具体的错误信息,可根据以下问题分类匹配问题场景和解决方案。入门FAQ 方案规划 容器...

常见问题FAQ

云投屏产品FAQ问题 M21播放盒子常见问题 Q:遥控器无法控制屏幕 A:请尝试将遥控器与屏幕重新配对。操作步骤如下:拔掉盒子的电源,然后重新插上,盒子开机。在盒子开机后10分钟内,同时按住遥控器的“OK键”(中间大圆圈按键)和“返回键...

AIOps 解决方案专家服务内容说明

常见的AIOps应用路径为:对监控的各种关键性能指标(KPI)行实时异常检测;对多维指标进行根源分析,快速下钻到异常维度和元素;基于应用拓扑和实时Trace,实现根因定位;结合CMDB、关联等、构建异常根因上下文,帮助快速修复问题等等。...

故障止损恢复

建议在故障应急协同群中推荐输出常见的快速恢复能力,并提供PC、手机端的一键快速执行能力,减少研发在各自平台上查找快恢入口的时间,也解决研发在外无电脑应急的尴尬局面。快恢能力主要包含人工梳理快恢预案、通用垂直专项快恢能力:人工...

故障排除

CC API在调用时可能会遇到一些错误,遇到错误时以错误码为依据进行故障排除,本文为您介绍 常见错误码的解决方案。云产品运行时错误码 云产品API运行时返回的错误码。以下两个错误码为云产品运行时错误,如想获取云产品详细错误信息,需...

托管节点池节点自动恢复

当节点的运行状态发生变化并持续一段时间后,ACK将判定该状态符合故障状态,存在节点故障。当发现节点故障时,ACK会根据故障原因触发对应恢复任务,并记录相应的事件。当恢复任务完成后,故障状态解除,节点恢复正常状态。当恢复任务完成后...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括Pod诊断、Service诊断、Ingress诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACS集群中使用集群诊断功能。前提条件 已创建ACS集群。具体操作,请参见 创建ACS集群。确保ACS集群运行...

存储资源

可能原因包含数据库服务进程异常退出、数据库节点宕机、数据库网络异常等,常见的容错策略如下:自动重启:当数据库实例异常终止或崩溃时,可以设置自动重启和恢复机制,自动重新启动数据库服务,并进行必要的数据恢复操作,以确保数据库的...

基于多集群实现跨地域容灾和流量负载均衡

服务网格 ASM为应用服务提供了跨地域流量分布和跨地域故障转移能力。跨地域流量分布功能可以将流量按照设定的权重路由至多个集群,实现多地域负载均衡。跨地域故障转移功能可以在某地域服务发生故障时,将该地域流量转移至其他地域,实现跨...

自助诊断GPU节点问题

ACK集群提供节点级别的GPU诊断功能,供您进行部分GPU相关问题的故障排查。如果您在ACK Pro版集群中使用GPU节点时遇到问题,可以启用GPU节点自助诊断,采集GPU诊断的基础指标进行问题排查。本文介绍如何使用节点诊断功能,自助排查GPU节点...

基于多集群实现跨地域容灾和流量负载均衡

服务网格 ASM为应用服务提供了跨地域流量分布和跨地域故障转移能力。跨地域流量分布功能可以将流量按照设定的权重路由至多个集群,实现多地域负载均衡。跨地域故障转移功能可以在某地域服务发生故障时,将该地域流量转移至其他地域,实现跨...

NVMe协议介绍

NVMe共享盘可以帮助应用实现高可用、高并发、可扩展的业务,可以帮助基于传统SAN的业务无缝上云,共享盘常见的应用场景包括数据共享、高可用故障转移、分布式缓存加速、机器模型训练等。数据共享 NVMe最简单的应用场景为数据共享,当数据被...

智能语音导航(文档停止维护)

智能语音导航是综合利用自动语音识别(Automatic Speech Recognition,ASR)、文字转语音(Text To Speech,TTS)以及自然语言理解(Natural Language Understanding,简称NLU)技术并面向企业客户提供的一款电话机器人产品。

故障演练

故障演练是整体容灾流程中极其重要的一环。本文介绍ECS容灾中故障演练的操作流程。故障演练的意义 故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被容灾保护的...

查看应用分组

创建应用分组后,您可以查看应用分组的组内资源、监控视图、故障列表、可用性监控等数据,并执行相关操作。通过应用分组集中管理资源,便于您及时接收故障资源的报警通知,并及时处理故障。操作步骤 登录 云监控控制台。在左侧导航栏,选择...

运维事件中心

运维事件中心是企业业务连续性的运营管理平台,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能,一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应、更短的故障时长、更...

操作日志

MSHA控制台提供查看操作日志功能,出现切流故障时,您可以通过查看操作日志来排查故障。操作步骤 登录 AHAS控制台。在控制台左侧导航栏中单击 多活容灾。在控制台左侧导航栏选择 监控中心>操作日志。在 操作日志 页面,可以通过设置过滤...

通过一致性复制组实现容灾恢复

当您创建并启动一致性复制组后,如果生产站点中的云盘发生严重故障,您可以通过一致性复制组批量对生产站点的云盘数据进行容灾恢复。本文主要介绍如何通过一致性复制组进行容灾恢复。背景信息 一致性复制组支持故障切换和反向复制功能,当...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数知地球 AI Earth 数据库自治服务 应用高可用服务 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用