混合云应用双活容灾最佳实践

通过MSHA活容灾助力企业进行混合云应用双活容灾建设的实践案例,给了容灾架构建设实践方法,同时利用Chaos故障演练产品注入真实故障,来验证故障场景业务容灾能力是否符合预期。若您在使用过程中有任何疑问,欢迎您搜索钉钉群号...

回切至本地物理机

在操作列,选择 更>故障切换。在 故障切换 面板,填写 CPU、内存 信息、选择 恢复网络、IP地址、是否 使用SSD、选择 恢复点、弹性公网IP、切换后执行脚本。注意 当前时间 恢复点只能使用一次。在弹的 完成故障切换 对话框,单击 确定。...

代码逻辑场景

本文列故障演练支持的代码逻辑场景。篡改Java方法返回值 修改Java指定方法的返回值,返回指定的值。具体示例,请参见 JVM注入动态脚本。参数名称 是否必选 默认值 参数说明 类名 是 无 完整的类名,包含包名。例如:...

使用指定实例属性方式配置伸缩配置

执行伸缩活动时,伸缩组扩容的实例规格可能是符合要求的实例规格中的任何一种,您可以针对匹配的实例规格进行排除。使用 指定实例属性 方式能有效解决以下难题:如果伸缩配置仅指定了一个或个实例规格,但扩容时指定的实例规格已下线...

以太网接口频繁Up/Down

本文介绍以太网接口频繁Up/Down的原因和处理方法。问题现象 以太网接口频繁Up/Down。可能原因 线缆没有连接好...如果检查线缆故障,请尝试更换线缆,如果更换线缆故障依然存在,请尝试更换两端接口光模块。检查本端和对端设备硬件是否故障

背景信息以及准备工作

在进行故障排除、状态监控或者预测告警时,都需要对日志文件进行查询分析。阿里云对象存储服务OSS(Object Storage Service),是阿里云提供的海量、安全、低成本、高可靠的云存储服务。越来越的用户倾向于把大量的日志文件存储在OSS中,...

通过DaemonSet方式采集Kubernetes容器文本日志

个黑名单之间为或关系,即只要容器的环境变量满足任一键值对即可被排除。K8s Pod标签白名单 通过Kubernetes Pod标签白名单指定待采集的容器。如果设置了 标签名 但不设置 标签值,则Pod标签中包含该标签名的容器都匹配。如果设置了 标签 ...

以太网接口无法接通

本文介绍以太网接口没有接通的可能原因和处理方法。问题现象 以太网接口没有接通(物理上)。...如果检查光纤故障,请尝试更换光纤,如果更换光纤故障依然存在,请尝试更换两端接口光模块。检查本端和对端设备硬件是否故障

故障排除

CC API在调用时可能会遇到一些错误,遇到错误时以错误码为依据进行故障排除,本文为您介绍 常见错误码的解决方案。云产品运行时错误码 云产品API运行时返回的错误码。以下两个错误码为云产品运行时错误,如想获取云产品详细错误信息,需...

什么是云工作流(CloudFlow)

方便您快速识别故障位置,并快速排除故障问题。支持长时间运行流程 云工作流 可以跟踪整个流程,持续长时间执行确保流程执行完成。有些流程可能要执行几个小时、几天、甚至几个月。例如运维相关的Pipeline和邮件推广流程。流程状态管理 云...

什么是Serverless工作流

方便您快速识别故障位置,并快速排除故障问题。支持长时间运行流程 Serverless 工作流 可以跟踪整个流程,持续长时间执行确保流程执行完成。有些流程可能要执行几个小时、几天、甚至几个月。例如运维相关的Pipeline和邮件推广流程。流程...

故障隔离

故障隔离是在服务实例出现故障时,实现实例级别的精细化摘流隔离,使故障影响范围更小,提高服务的可用性。添加故障隔离规则 登录 SOFAStack 控制台。在左侧菜单栏选择 中间件>微服务平台>服务网格>服务治理,然后单击 故障隔离 页签。单击...

功能更新记录

2021年10月 功能名称 功能概述 支持资源包类型 支持地域 发布时间 微服务强弱依赖支持Dubbo 在应用强弱依赖治理的基础上,微服务强弱依赖治理功能,通过接入MSE,可分析应用所依赖的Dubbo服务,并能够快速发起方法级别的故障注入(支持...

归档存储服务等级协议

B:当出现服务不可用且无失败请求返回的情况,通过计算前7天用户单位时间请求数的平均值(根据可用性中心基线调整),再用该平均值乘以服务不可用时间,从而计算该情况下的失败请求数;就以上A、B两种情况,月总请求次数低于10万的用户不...

产品简介

当前事件:当发生涉及区域性或产品的故障时,阿里云健康看板会在页面头部重点显示事件信息。事件详情:每个事件都会尽可能详细的描述(受影响产品、受影响地域,事件进展、问题报告等),以帮助客户理解其对自身应用程序和服务的影响程度...

设置网络

固定公网IP:适用于一个VPC内有个应用需要公网,访问数据库、微信小程序或其他第三方服务时需通过配置白名单来访问。需要提前创建NAT网关并绑定应用已选择的VPC和vSwitch。单击 创建,跳转至专有网络控制台创建。更信息,请参见 创建...

管理容器组(Pod)

故障诊断 在容器组列表页面,您可以单击目标容器组右侧的 操作 列的 诊断,对该容器组进行故障诊断。更信息,请参见 使用集群诊断。设置容器的CPU和内存资源上下限 应用创建完成后,您可以根据业务需求调整容器的CPU和内存资源上下限,...

增量迁移源服务器

常见错误及修复方案,请参见 故障排除 和 常见问题。相关操作 在增量迁移的过程中,您可以执行下列操作:暂停增量迁移任务。具体操作步骤如下:说明 仅当增量迁移任务状态为 同步中 或 等待中 时,您才可以暂停该任务。在 迁移任务 页面,...

应用场景

故障跟踪:支持对故障进展、故障影响面、舆情反馈、Timeline进行在线化管理、协同,提升故障处理效率。故障复盘:基于最佳实践经验,沉淀了对故障进行深度复盘的结构化要求,形成了线上检查点,以产品的方式承载流程落地。故障改进:支持对...

FAQs

答:经过测试团队对GTM次测试验证,当应用服务发生故障时,GTM能在 3分钟左右 准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台、...

企业版和标准版功能对比

PolarDB MySQL版 企业版和标准版在功能上有很差异,可分为集群管理、弹性管理、高性能、备份与恢复、高可用性、高安全、连接管理、高性价比、监控与优化、DB for AI、数据迁移&同步等11个类别。本文为您介绍这两个版本的功能区别,帮助您...

分配辅助私网IP地址

弹性网卡(包括主网卡和辅助弹性网卡)支持分配一个或个辅助私网IP地址,以满足您在应用、故障转移和负载均衡等业务场景下的需求。本文介绍如何分配辅助私网IP地址,并在ECS实例内部配置辅助私网IP地址。操作场景 分配辅助私网IP地址...

AIOps 解决方案专家服务内容说明

调研的服务范围包含:基础资源调研、业务现状调研、应用系统调研《调研报告》2 智能故障发现方案设计 基于业务数据、资源组维度建立业务组单元,将业务组单元指标通过智能AI算法进行实时分析,帮助企业快速发现故障,列可疑根因事件,并...

自动/手动主备切换

当系统发生故障时,PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换,指定一个只读节点为新的主节点。注意事项 不论是自动切换还是手动切换,切换过程中,都可能会出现30秒左右的闪断,因此切换前请务必确保应用具备重连机制。...

自动/手动主备切换

当系统发生故障时,PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换,指定一个只读节点为新的主节点。注意事项 不论是自动切换还是手动切换,切换过程中,都可能会出现30秒左右的闪断,因此切换前请务必确保应用具备重连机制。...

自动/手动主备切换

当系统发生故障时,PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换,指定一个只读节点为新的主节点。注意事项 不论是自动切换还是手动切换,当只读节点未开启热备时,主备切换过程中可能会出现20~30秒左右的闪断,因此切换前请...

Container演练场景

Kubernetes集群中Pod资源下的容器故障场景,包含容器以及容器内故障场景。每个容器故障场景下都包含通用的容器筛选参数,用于查找目标容器。通用参数 参数名称 参数说明 Pod资源名称 Pod资源名称,个资源名称之间使用逗号分隔,表示选择...

功能概览

跨可用区容灾 当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障...

故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...

故障演练

高速通道故障演练功能是一种模拟故障场景的工具。例如,模拟在高速通道冗余链路中的一条链路发生故障时,网络流量会自动切换至其他冗余链路的场景。借助该工具,您可以测试和验证您与阿里云组建的混合云组网的可靠性。重要 故障演练会通过...

概览

使用云监控的Dashboard,您不仅能够查看服务概览,还可以查看监控细节,并排查故障。展示个实例的监控数据走势 例如:您的一个应用部署在台ECS实例上,可以将部署了相同应用的台ECS实例监控信息添加在同一张监控图表中,查看相关台...

服务管控和治理

信息,请参见 故障注入。服务鉴权 服务提供者提供服务后,您可以通过服务鉴权功能对服务调用方进行鉴权。更信息,请参见 服务鉴权。故障隔离 某个服务故障或者异常时,如果该服务触发熔断会造成整个服务的不可用。而故障隔离能够定位...

功能特性

高可用管理平台 HAS 定位于 IT 技术...故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定详细的演练和恢复计划,保证用户能够有计划地测量和观测应用高可用能力。

使用ACK AI助手进行故障排查和智能问答

若ACK AI助手无法定位问题的根因并提供可用的解决方案,您可以发起进一步发起诊断,对异常的Pod、Node节点发起基于ACK技术专家诊断经验的深度故障诊断功能。更信息,请参见 使用集群诊断。前提条件 已开通 容器服务 Kubernetes 版 并已...

高可靠模式

高速通道 物理专线端口初装提供高可靠模式,以满足您线接入阿里云上业务的稳定性需求,并在线路容灾后帮助您避免因为单线故障而导致的业务损失。概述 高速通道的高可靠模式具备当您其中一条线路故障时可以通过冗余线路进行流量切换的...

如何管理故障

更新故障通知:在故障处理的过程中,当故障进展发生变化,包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下,可更新故障过程中的内容,并在 故障详情 页点击更新故障通知,选择需要的故障通告类型,并最终确认发出故障...

自动服务

订单排重:可多选,多笔订单志催付1笔、排除多笔订单中有催付过的客户。催付时间 催付类型:实时(符合条件的买家只要一下单,就会按照设定的延迟时间来催付),定时(整点的去催付符合条件的买家,统一在延迟时间后的最近的整点来催付)。...

设计方案

容错 容错是指在分布式系统中,系统出现故障时,通过设计和实现可靠的机制和策略,使系统能够自动检测、排除或者纠正错误,保证系统能够正常运行,从而提高系统的可靠性和稳定性。容量 容量是在一定时间内,系统能够处理的最大工作量或数据...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障的发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>创建...

Pod演练场景

Kubernetes集群中Pod资源故障场景,包含删除Pod和Pod网络异常场景。每个Pod场景下都包含通用的Pod筛选参数,用于查找目标Pod。通用参数 参数名称 参数说明 Pod资源名称 Pod资源名称,个资源名称之间使用逗号分隔,表示选择个Pod。Pod...
共有117条 < 1 2 3 4 ... 117 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 应用高可用服务 云数据库Cassandra版 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用