故障协同处理(基于钉钉)

云钉运维故障协同效果 功能概述 移动应用端(目前仅支持“钉钉”,以下功能说明均基于钉钉场景)支持接收故障消息提示和进行故障操作,且支持移动端操作管理故障,操作记录实时同步到 运维事件中心 控制台。故障协同处理使用条件 成功开通...

EMR Kafka磁盘故障运维

当出现磁盘故障时,需要根据故障原因、故障影响程度、业务需求(是否接受数据丢失、是否允许服务较长时间不可用)、集群状态等综合考虑恢复采取的策略。如果业务优先保证服务可用,但允许丢失部分数据,则应考虑在可能会丢失数据的情况下,...

集群管理FAQ

journalctl-u kubelet 集群常见问题 下表罗列了一部分ACK集群常见的故障原因以及处理方法。故障场景 处理方法 API Server组件停止或Master组件停止:不能创建、停止、更新Pod、Service、Deployment等资源。已有的Pod和Service仍然能够正常...

如何管理事件

故障状态:处理中(升级时故障还在处理中),输入发现故障的时间、已恢复(升级时故障已恢复),输入故障生成的时间和故障恢复的时间;所属服务:升级故障所属的 服务;影响服务:选择 影响服务(可多选);进展摘要:处理人将事件升级为...

Redis客户端重连指南

引发暂时性故障原因 原因 说明 故障触发了高可用机制 云数据库Redis支持节点健康状态监测,当监测到实例中的主节点不可用时,会自动触发主备切换,例如将主节点和从节点进行互换,保障实例的高可用性。此时,客户端可能会遇到下列暂时性...

主备切换

若您收到短信、邮件、控制台站内信等通知,告知您 Tair 实例已完成主备切换,您可以参考本文了解主备切换的原因、影响和处理建议等。为什么会触发主备切换?实例底层主机故障 阿里云检测到实例底层主机发生故障,例如进程异常中断、实例...

主备切换

若您收到短信、邮件、控制台站内信等通知,告知您 Redis 实例已完成主备切换,您可以参考本文了解主备切换的原因、影响和处理建议等。为什么会触发主备切换?实例底层主机故障 阿里云检测到实例底层主机发生故障,例如进程异常中断、实例...

围绕混沌工程的平台实践

原则3在生产环境中运行实验 混沌工程推荐故障演练是在生产环境中进行,主要的原因有以下两点:系统的行为会根据环境和流量模式的变化,例如系统依赖的组件在测试环境和生产环境会有比较大的差异。系统的监控和人员的应急响应在测试环境和...

使用前须知

阿里云全球加速服务联合日志服务提供访问日志功能,用于记录所有访问终端节点的流量信息,帮助您检查访问控制规则、排查网络故障等。本文介绍全球加速访问日志功能相关的资产、费用以及使用限制等信息。简介 您可以为全球加速实例的一个...

网络资源

网络闪断故障可能由多种原因引起,如网络设备故障、电力波动、通信线路故障等。网络闪断会导致数据传输中断,影响系统和应用程序之间的数据传输,频繁的网络闪断可能导致系统或应用程序无法正常运行。常使用的容错策略如下:设备冗余:使用...

主备方案介绍

主备容灾:当云数据库HBase实例因不可预料的原因(例如设备故障、机房断电断网等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。功能优势 主备双活:请求低毛刺。故障自动容错。资源利用率高。主备容灾:支持云数据库HBase、EMR...

集群高可用架构推荐配置

您可以使用拓扑分布约束来控制Pod在不同故障域之间的分布,提升对底层基础设施故障的容忍能力。关于如何在ACK集群中使用拓扑感知调度能力,例如使Pod在多个拓扑域中重试或将Pod调度到属于同一低延时部署集的ECS中,请参见 拓扑感知调度。...

故障排查

排查故障的经典步骤与常见原因 如何通过查看日志排查故障?ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes集群网络异常的...

Mesh 常见问题

XDS 配置不下发 问题原因:Pilot 未启动或 Pilot 与 MOSN 网络不通。解决方案:查看 MOSN 连接 Pilot 是否正常。进入 MOSN 容器,执行如下命令,如果和pilot没有链接则检查pilot的地址是否填写正确 netstat-na|grep 15050 进到MOSN容器,在...

耗资源用户处理流程

为了保证您的站点能够安全、...关于网站耗资源的原因以及排查方法,更多信息,请参见 网站耗资源(客户程序故障)常见问题。增强版共享虚拟主机和独享虚拟主机可以更好地应对耗资源问题,避免站点被关停。更多信息,请参见 云虚拟主机官网。

接入ARMS监控

操作步骤 登录 AHAS控制台,在左侧导航栏选择 故障演练>我的空间。单击 新建演练,选择 新建空白演练,进入 演练配置 页面。单击 新建空白演练 后,在 演练配置 页面,填写 演练名称、演练描述、演练标签 和 演练空间。配置项 配置说明 ...

ADP底座/本地运维控制台

修复trident从v1.1.9升级至1.11时PV创建Pending的问题 v1.4.0 新特性 线下故障诊断:本地运维控制台提供故障诊断大盘 可视化资源状态展示,辅助进行问题定位和根因分析。针对常见故障场景,提供修复方案和处理建议。组件运维操作可视化:...

SSL-VPN连接常见问题

本文汇总了建立SSL-VPN连接时出现客户端连接失败、流量不通现象的常见原因并提供了相应的解决方案。常见问题快捷链接 客户端连接问题 客户端连接失败怎么办?客户端之前连接成功,但间歇性中断下线怎么办?仅部分客户端连接成功怎么办?SSL...

Tair选型指南

3 选择容灾方案 云原生内存数据库Tair 实例若因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制保障数据的一致性和业务可用性。云原生内存数据库Tair 提供多种灾备方案供您选择,可满足不同的业务场景。4 预估内存规格 提前...

查询并配置计划内事件

云原生多模数据库 Lindorm 的运维事件(例如小版本升级)除了通过 短信、语音、邮件或站内信通知之外,还会在控制台进行通知。您可以在计划内事件中,查看具体的事件类型、地域、流程、注意事项和系统默认切换时间等信息,也可以手动修改...

混合云应用双活容灾最佳实践

多活控制台提供MSFE集群界面白屏化的部署、扩缩容、监控等常规运维能力,以及应对故障场景的分钟级切流能力。服务互通和同单元优先调用:业务应用需要按业务产品线分批上云,过程中存在下游应用仅IDC部署的情况。利用MSHA注册中心同步功能...

GTM如何实现异地容灾

两地三中心容灾架构,是指在同城双中心的基础上,在异地的城市建立一个备份的灾备中心,用于双中心的数据备份,当双中心出现自然灾害等原因而发生故障时,异地灾备中心可以用备份数据进行业务的恢复。目标读者 企业网络部、业务运维部工作...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括Pod诊断、Service诊断、Ingress诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACS集群中使用集群诊断功能。前提条件 已创建ACS集群。具体操作,请参见 创建ACS集群。确保ACS集群运行...

Pod异常问题排查

Pod故障诊断 登录 容器服务管理控制台。在控制台左侧导航栏,单击 集群。在 集群列表 页面,单击目标集群名称或者目标集群右侧 操作 列下的 详情。在集群管理页左侧导航栏,选择 工作负载>容器组。在 容器组 页面,单击目标容器组右侧 操作...

K8s应用运维管理最佳实践

重要 禁止从负载均衡控制台直接修改SLB实例的监听配置(含监听+证书),可能导致SLB控制台修改的配置回退,引发应用入口相关的故障。请勿配置私网SLB进行集群内部服务的访问。Pod实例之间无法直接访问私网SLB地址,私网SLB只是用来提供VPC...

自动/手动主备切换

当系统发生故障时,PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换,指定一个只读节点为新的主节点。注意事项 不论是自动切换还是手动切换,切换过程中,都可能会出现30秒左右的闪断,因此切换前请务必确保应用具备重连机制。...

自动/手动主备切换

当系统发生故障时,PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换,指定一个只读节点为新的主节点。注意事项 不论是自动切换还是手动切换,切换过程中,都可能会出现30秒左右的闪断,因此切换前请务必确保应用具备重连机制。...

采集客户端数据的高可用方案

但是在一些相对极端的场景下,单集群可能由于一些预期外原因存在故障停服风险。针对该单集群故障风险,日志服务提供两种异地多活的客户端数据采集方案。方案比较 对比项 方案1:双写 方案2:数据加工复制+写入切换 部署复杂度 低 需要额外...

创建演练

背景信息 一次完整的故障演练包括以下四个阶段:安装故障演练探针 创建演练 执行演练 停止演练 操作步骤 登录 AHAS控制台,在左侧导航栏中选择 故障演练>我的空间。在 我的空间 页面,单击 新建演练。选择 新建空白演练 或 从经验库新建。...

连接保持

PolarDB 新增支持连接保持功能,避免由于一些运维操作(如升级配置、主备切换或升级小版本等)或非运维操作故障(如节点所在服务器故障)导致的连接闪断或新建连接短暂失败的问题,进一步提高 PolarDB 的高可用性。前提条件 PolarDB 数据库...

GxP欧盟附录11标准合规包

他要求涵盖了计算机化系统的开发、验证、操作、维护和监测等方面,以确保这些系统符合相关法规和标准,用于生产、控制和保证产品质量和可靠性。Annex 11是GMP(Good Manufacturing Practice)的一部分,作为药品生产过程中的重要指导标准之...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACK集群中使用集群诊断功能。前提条件 已创建Kubernetes托管版集群。具体...

主从实例读写分离部署(共享存储)

当出现1分钟容器响应超时(可能是内存溢出、硬件故障、软件Bug等原因导致),Resource Manager会自动拉起新的计算节点,并迁移Shard职责到新的节点上(例如Worker Node3响应超时,Resource Manager拉起Worker Node4取代Worker Node3),...

自助诊断GPU节点问题

ACK集群提供节点级别的GPU诊断功能,供您进行部分GPU相关问题的故障排查。如果您在ACK Pro版集群中使用GPU节点时遇到问题,可以启用GPU节点自助诊断,采集GPU诊断的基础指标进行问题排查。本文介绍如何使用节点诊断功能,自助排查GPU节点...

实例启动异常常见错误与对应解决方案

问题原因 该问题可能是因为Windows系统引导配置数据(Boot Configuration Data,BCD)配置异常或者磁盘文件系统故障,导致系统无法加载。解决方案 在存有快照的情况下,您可以使用快照来恢复系统盘。具体操作如下:警告 回滚云盘是不可逆...

运维服务内容说明

因客户自身原因导致的问题故障,不属于阿里云运维服务范围。如客户有不定期现场服务需求,可按天购买运维专家现场服务。运维服务专家可帮助客户进行疑难问题现场处理,故障现场救援,变更现场保障、现场运维培训等服务。运维专家现场服务需...

DDH常见问题

如果您因为过保迁移等原因被分配了一台新的物理服务器,您的DDH会对应一个新的机器码,该机器码就是这台新物理服务器的唯一识别码。DDH故障时是否会自动迁移到健康的DDH?阿里云为您提供DDH故障迁移服务,开启服务后,DDH因故障停机时,会...

上下文查询

开发人员无需登录服务器,在大量日志中通过关键字检索日志,日志服务支持通过控制台查看指定日志在原始文件中的上下文信息。前提条件 已通过Logtail采集到日志。具体操作,请参见 通过Logtail采集日志。重要 如果您使用了Logtail插件处理...

使用ACK AI助手进行故障排查和智能问答

若ACK AI助手无法定位问题的根因并提供可用的解决方案,您可以发起进一步发起诊断,对异常的Pod、Node节点发起基于ACK技术专家诊断经验的深度故障诊断功能。更多信息,请参见 使用集群诊断。前提条件 已开通 容器服务 Kubernetes 版 并已...

配置任务常见错误码及排查方法

原因:通讯链路故障,JDBC驱动程序数据包成功发送到源数据库服务器,但未收到来自源数据库的数据包。解决方法:排查数据库的连接数是否过多。参考 communications link failure 处理。联系技术支持解决。DTS.Msg.SQLExecuteError....
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 智能语音交互 音视频通信 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用