分程控制故障原因-分程控制故障原因文档介绍内容-阿里云

采集客户端数据的高可用方案

但是在一些相对极端的场景下，单集群可能由于一些预期外原因存在故障停服风险。针对该单集群故障风险，日志服务提供两种异地多活的客户端数据采集方案。方案比较对比项方案1：双写方案2：数据加工复制+写入切换部署复杂度低需要额外...

主从实例读写分离部署（共享存储）

当出现1分钟容器响应超时（可能是内存溢出、硬件故障、软件Bug等原因导致），Resource Manager会自动拉起新的计算节点，并迁移Shard职责到新的节点上（例如Worker Node3响应超时，Resource Manager拉起Worker Node4取代Worker Node3），...

常见问题旧版索引

排查故障的经典步骤与常见原因如何通过查看日志排查故障？产品FAQ 授权管理FAQ 集群管理FAQ 节点与节点池FAQ 容器网络FAQ Service FAQ Ingress FAQ DNS FAQ 应用FAQ 存储FAQ-CSI 存储FAQ-Flexvolume 容器安全FAQ 为什么可观测监控 ...

自动/手动主备切换

当系统发生故障时，PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换，指定一个只读节点为新的主节点。注意事项不论是自动切换还是手动切换，切换过程中，都可能会出现30秒左右的闪断，因此切换前请务必确保应用具备重连机制。...

自动/手动主备切换

当系统发生故障时，PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换，指定一个只读节点为新的主节点。注意事项不论是自动切换还是手动切换，切换过程中，都可能会出现30秒左右的闪断，因此切换前请务必确保应用具备重连机制。...

Pod异常问题排查

Pod故障诊断登录容器服务管理控制台。在控制台左侧导航栏，单击集群。在集群列表页面，单击目标集群名称或者目标集群右侧操作列下的详情。在集群管理页左侧导航栏，选择工作负载>容器组。在容器组页面，单击目标容器组右侧操作...

创建演练

背景信息一次完整的故障演练包括以下四个阶段：安装故障演练探针创建演练执行演练停止演练操作步骤登录 AHAS控制台，在左侧导航栏中选择故障演练>我的空间。在我的空间页面，单击新建演练。选择新建空白演练或从经验库新建。...

Kibana FAQ

本文汇总了使用阿里云Elasticsearch的Kibana控制台时的常见问题。如何登录Kibana控制台，用户名和密码是什么？Kibana控制台的elastic账号的密码有什么作用？我可以在Kibana控制台中，访问公网中的服务吗（例如百度地图、高德地图等）？如何...

动态与公告

全局流量管理（GTM）新版发布计划（20201116）阿里DNS将于2020年11月16日对全局流量管理进行版本升级，新版本发布后，原历史版本在云解析DNS控制台仍可继续使用，使用历史版本的用户不受影响。发布内容新版GTM提供标准版、旗舰版两个版本...

K8s应用运维管理最佳实践

重要禁止从负载均衡控制台直接修改SLB实例的监听配置（含监听+证书），可能导致SLB控制台修改的配置回退，引发应用入口相关的故障。请勿配置私网SLB进行集群内部服务的访问。Pod实例之间无法直接访问私网SLB地址，私网SLB只是用来提供VPC...

使用集群诊断

容器智能运维平台提供一键故障诊断能力，包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断，可以辅助您定位集群中出现的问题。本文介绍如何在ACK集群中使用集群诊断功能。前提条件已创建Kubernetes托管版集群。具体...

连接保持

PolarDB 新增支持连接保持功能，避免由于一些运维操作（如升级配置、主备切换或升级小版本等）或非运维操作故障（如节点所在服务器故障）导致的连接闪断或新建连接短暂失败的问题，进一步提高 PolarDB 的高可用性。前提条件 PolarDB 数据库...

GxP欧盟附录11标准合规包

他要求涵盖了计算机化系统的开发、验证、操作、维护和监测等方面，以确保这些系统符合相关法规和标准，用于生产、控制和保证产品质量和可靠性。Annex 11是GMP（Good Manufacturing Practice）的一部分，作为药品生产过程中的重要指导标准之...

需求控制图

下面以两个例子来解读需求累积流图例1：用控制线了解当前的整体交付情况根据敏捷交付理论建议，项目内 85%的需求的交付时间应该控制在 2 周内，该图表提供了85%这分位点的具体数值，同时也提供了 50%、75%、90%的控制线，了解需求交付的...

自助诊断GPU节点问题

ACK集群提供节点级别的GPU诊断功能，供您进行部分GPU相关问题的故障排查。如果您在ACK Pro版集群中使用GPU节点时遇到问题，可以启用GPU节点自助诊断，采集GPU诊断的基础指标进行问题排查。本文介绍如何使用节点诊断功能，自助排查GPU节点...

灾备方案

Tair 容灾架构演进当 Tair 实例因不可预料的原因（例如设备故障、机房断电等）发生故障，容灾机制可用于保障数据的一致性和业务可用性。Tair 提供多种灾备方案供您选择，可满足不同的业务场景。图 1.Tair 容灾架构演进灾备方案灾备级别 ...

灾备方案介绍

云数据库Redis容灾架构演进当云数据库Redis实例因不可预料的原因（例如设备故障、机房断电等）发生故障，容灾机制可用于保障数据的一致性和业务可用性。云数据库Redis提供多种灾备方案供您选择，可满足不同的业务场景。图 1.Redis容灾架构...

运维服务内容说明

因客户自身原因导致的问题故障，不属于阿里云运维服务范围。如客户有不定期现场服务需求，可按天购买运维专家现场服务。运维服务专家可帮助客户进行疑难问题现场处理，故障现场救援，变更现场保障、现场运维培训等服务。运维专家现场服务需...

演练场景

故障演练是业务系统上线前必要的演练环节，旨在对应急预案的可行性，进一步完成应急预案，从而帮助提升产品、集群、机房的稳定性，减少故障的发生，提高故障应急效率，进而提升产品竞争力。一个完整的故障演练过程为创建故障原子服务>创建...

创建DDH

本章节介绍如何在ECS管理控制台上，创建一台计费方式为包年包月的DDH。前提条件已注册阿里云账号并完善账号相关信息。具体操作，请参见准备工作。背景信息您可以观看视频了解如何快速创建一台DDH。具体信息，请参见如何创建一台专有宿...

实例启动异常常见错误与对应解决方案

问题原因该问题可能是因为Windows系统引导配置数据（Boot Configuration Data，BCD）配置异常或者磁盘文件系统故障，导致系统无法加载。解决方案在存有快照的情况下，您可以使用快照来恢复系统盘。具体操作如下：警告回滚云盘是不可逆...

混沌工程缓存实战系列-Redis

登录 AHAS控制台，在左侧栏选择故障演练>我的空间。在我的空间页面，单击新建演练>新建空白演练。在演练配置页面，填写相关参数，选择演练内容为主机内网络延迟。更多参数信息，请参见创建演练。单击主机内网络延迟，在本地...

创建专有宿主机

本章节介绍如何在ECS管理控制台上，创建一台计费方式为包年包月的专有宿主机DDH。前提条件已注册阿里云账号并完善账号相关信息。具体操作，请参见阿里云账号注册流程。背景信息您可以观看视频了解如何快速创建一台DDH。具体信息，请参见...

DDH常见问题

如果您因为过保迁移等原因被分配了一台新的物理服务器，您的DDH会对应一个新的机器码，该机器码就是这台新物理服务器的唯一识别码。DDH故障时是否会自动迁移到健康的DDH？阿里云为您提供DDH故障迁移服务，开启服务后，DDH因故障停机时，会...

上下文查询

开发人员无需登录服务器，在大量日志中通过关键字检索日志，日志服务支持通过控制台查看指定日志在原始文件中的上下文信息。前提条件已通过Logtail采集到日志。具体操作，请参见通过Logtail采集日志。重要如果您使用了Logtail插件处理...

使用ACK AI助手进行故障排查和智能问答

若ACK AI助手无法定位问题的根因并提供可用的解决方案，您可以发起进一步发起诊断，对异常的Pod、Node节点发起基于ACK技术专家诊断经验的深度故障诊断功能。更多信息，请参见使用集群诊断。前提条件已开通容器服务 Kubernetes 版并已...

自动/手动主备切换

当系统发生故障时，PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换，指定一个只读节点为新的主节点。注意事项不论是自动切换还是手动切换，当只读节点未开启热备时，主备切换过程中可能会出现20~30秒左右的闪断，因此切换前请...

应用场景

场景三：查询分载/读能力横向扩展在有大量读请求的场景，大量读取流量可能会对主流程业务产生影响，这时可以通过构建只读库，主生产库与只读库之间通过数据同步服务实现数据的实时增量复制，将只读流量切换至只读实例，大大降低了主数据库...

分片集群实例连接说明

MongoDB分片集群实例分别提供Mongos、Shard和ConfigServer组件单独的连接地址，以及适用于应用程序连接的高可用ConnectionStringURI地址。本文介绍分片集群实例连接地址的获取方式和连接说明。获取数据库连接地址登录 MongoDB管理控制台。...

功能概述

数据库发生故障后，无法在发生故障时定位到原因，可以通过智能压测功能，在克隆库上复现故障场景，定位故障原因。功能架构智能压测的功能架构如下图所示：源数据库：将要进行大促、将要业务变更或者已经发生故障，需要进行流量捕获的数据...

开启健康检查

开启健康检查是指对地址池中的地址配置健康检查策略，开启后可监测应用服务的可用性状态，并最终帮助企业实现自动故障隔离和自动故障切换的功效。健康检查的类型包括：Ping监控、TCP监控、HTTP（S）监控。前提条件已完成创建实例、创建...

I-V曲线诊断

数据服务中提供光伏智能运维的IV曲线诊断算法，结合环境光强度、环境温度等影响因素，对组串式光伏发电阵列的电流-电压曲线（I-V曲线）进行分析，检测系统可能出现的故障，进而提高设备的运行效率，保障电站高效运行。本文介绍光伏智能运维...

ADP底座介绍

具体支持以下功能：诊断异常原因及详情提供诊断处理建议展示异常资源关联展示异常事件运维操作提供了多种全面的运维操作。具体支持以下功能：组件水平扩缩容组件垂直扩缩容组件PVC存储扩容组件备份还原组件主备切换

访问控制常见问题

报错信息：X-Tengine-Error:denied by req auth:expired timestamp 问题原因：鉴权过期，CDN 开启了鉴权，并且URL携带了鉴权参数，但是鉴权参数过期。解决方案：如果鉴权过期，请参见 URL鉴权，重新生成鉴权URL。报错信息：X-Tengine-Error...

订阅事件通知

数据传输服务DTS（Data Transmission Service）已接入云监控平台，您可以通过事件订阅对重要的事件设置定制化的报警通知，让您及时了解事件的发生与进展，帮助您实时掌握事件动态，便于您在业务故障时快速分析并定位问题。背景信息云监控...

归档存储服务等级协议

阿里云将对不可用时间进行赔偿，但不包括以下原因所导致的服务不可用时间：（1）阿里云预先通知用户后进行系统维护所引起的，包括割接、维修、升级和模拟故障演练；（2）任何阿里云所属设备以外的网络、设备故障或配置调整引起的；（3）...

功能特性

管理标签变更实例配置支持变更Tair实例配置，包括架构、规格容量、副本数量、分片数量等。变更实例配置迁移实例可用区直接将Tair实例在同地域中的多个不同可用区之间进行迁移，也支持单、双可用区的部署模式转化。更换实例所属的可用区...

AIOps 解决方案专家服务内容说明

智能故障发现解决方案基于调研与评估的结果，为客户设计智能故障发现解决方案，包含：多账号统一监控数据接入，并根据应用分组为客户设计AI算法能力用于实时故障发现，并根据分析结果智能定位根因，提供实时异常检测的稳定性方案，保障...

快速使用专属集群MyBase

主机故障处理策略主机故障时，系统的处理策略：自动替换主机：系统会自动替换故障主机。说明如果故障主机是云盘主机，云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机，则系统会先将故障主机上的实例迁移走，然后再替换...

功能发布记录

V1.0.16 2022-5-19 用户绑定”企业移动应用”并关联人员后，支持以钉钉渠道将流转规则或通知订阅中配置的通知信息发送至个人钉钉，对于有RAM账户的用户支持在移动端登录运维事件中心控制台进行相关操作。V1.0.18 2022-6-16 1.优化事件预警...

分程控制故障原因

新品推荐