流水单据型业务场景多活实践

验证爆炸半径是否控制故障单元内:预期:UserID为2000的用户路由到杭州单元,不受北京单元故障的影响。结果:下正常,符合预期。切流恢复 验证故障场景下的容灾恢复能力。在北京单元发生故障的情况下,可以使用MSHA切流功能将受影响的...

读多写少型业务场景多活实践

验证爆炸半径是否控制故障单元内:预期:UserID为2000的用户路由到北京单元,不受杭州单元故障的影响。结果:导购页访问正常,符合预期。切流恢复 接下来将验证故障场景下的容灾恢复能力。在杭州单元发生故障的情况下,可以使用MSHA切流...

EMR Kafka磁盘故障运维

当出现磁盘故障时,需要根据故障原因、故障影响程度、业务需求(是否接受数据丢失、是否允许服务较长时间不可用)、集群状态等综合考虑恢复采取的策略。如果业务优先保证服务可用,但允许丢失部分数据,则应考虑在可能会丢失数据的情况下,...

什么是消息演练

随着应用规模的扩大,系统变得越来越复杂,不可避免地会走向分布式化。各种中间组件会相继被引入系统,其中分布式消息服务更是系统中必不可少的一...需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

K8s应用运维管理最佳实践

重要 禁止从负载均衡控制台直接修改SLB实例的监听配置(含监听+证书),可能导致SLB控制台修改的配置回退,引发应用入口相关的故障。请勿配置私网SLB进行集群内部服务的访问。Pod实例之间无法直接访问私网SLB地址,私网SLB只是用来提供VPC...

跟踪概览

故障诊断与运维 服务故障分析:在出现服务中断或性能下降时,可以使用跟踪日志来分析事件前后的操作,以帮助确定故障原因。配置变更追踪:记录对云资源配置的所有更改,帮助识别可能导致服务中断的配置错误。基本概念 概念 说明 跟踪 跟踪...

混合云应用双活容灾最佳实践

多活控制台提供MSFE集群界面白屏化的部署、扩缩容、监控等常规运维能力,以及应对故障场景的分钟级切流能力。服务互通和同单元优先调用:业务应用需要按业务产品线分批上云,过程中存在下游应用仅IDC部署的情况。利用MSHA注册中心同步功能...

产品优势

同时,OSS基于高可用架构设计,消除故障,确保数据业务的持续性。服务可用性最高可达99.995%。数据设计持久性最高可达99.9999999999%(12个9)。规模自动扩展,不影响对外服务。OSS会通过计算网络流量包的校验和,验证数据包在客户端和...

主从实例读写分离部署(共享存储)

共享存储的多实例高可用方案 技术原理 在实例方案中,采用的是故障实时监测、节点替换的方案,在节点恢复时存在一定的服务不可用周期,对于关键业务场景,需要更高级别的高可用方案,支持故障隔离、负载隔离。Hologres在 V1.1版本,支持...

包年包月实例变配

由于备案、故障或机房迁移等原因生成的补偿续费订单,不予退款。适用场景 适用于想更加灵活地按需使用负载均衡实例,并且业务用量经常有变化、资源使用有临时性和突发性的场景。登录 传统型负载均衡CLB控制台。在 实例管理 页面,找到目标...

归档存储服务等级协议

故障恢复能力 阿里云为付费用户的云服务提供7×24小时的运行维护,并以在线工和电话报障等方式提供技术支持,具备完善的故障监控、自动告警、快速定位、快速恢复等一系列故障应急响应机制。2.11.网络接入性能 阿里云归档存储对用户不限制...

开通备份恢复

说明 保留全备个数+1的原因是只有在新备份完成后才会淘汰旧数据,在备份的过程中需要额外一份全备空间。全量空间大小可以在HBase Master页面或者UE集群管理页面获取。增量空间=日志保留天数*每天增量LOG大小。假设平均1MB/s的写入,每天需要...

查看并管理计划内事件

为确保您收到 云数据库故障或运维通知 的通知,请您需要登录 消息中心,开启通知并设置消息接收人(推荐设置为数据库运维人员),否则您将无法收到相应的通知信息。通知方式为 短信、语音、邮件、站内信或控制台等。说明 如需第一时间获知...

查看并管理计划内事件

为确保您收到 云数据库故障或运维通知 的通知,请您需要登录 消息中心,开启通知并设置消息接收人(推荐设置为数据库运维人员),否则您将无法收到相应的通知信息。通知方式为 短信、语音、邮件、站内信或控制台等。说明 如需第一时间获知...

退订方式说明

部分云产品支持自助退订,可在 控制台(或用户中心-订单管理-退订管理)发起自助退订。若云产品不支持自助退订,您可在对应的产品工分类中提交 工申请 退订。退货退款前,请先确认是否满足退订规则,并确保已完成数据迁移。自助退订 ...

AIOps 解决方案专家服务内容说明

智能故障发现解决方案 基于调研与评估的结果,为客户设计智能故障发现解决方案,包含:多账号统一监控数据接入,并根据应用分组为客户设计AI算法能力用于实时故障发现,并根据分析结果智能定位根因,提供实时异常检测的稳定性方案,保障...

为ECS实例自动绑定有EIP的辅助弹性网卡

本教程介绍如何使用弹性伸缩生命周期挂钩挂起ECS实例,并结合 系统运维管理 OOS(CloudOps Orchestration Service)的模板,实现为ECS实例自动绑定有弹性公网IP(EIP)的辅助弹性网卡。前提条件 使用本教程进行操作前,请确保您已经注册了...

常见问题

OSS的可用性SLA的定义不同于实例型产品,其服务可用性将根据服务周期内每5分钟错误率之和除以服务周期内5分钟的总个数计算出每5分钟错误率的平均值,按照如下方式计算:每5分钟错误率=每5分钟失败请求数/每5分钟有效总请求数x100%服务可用...

更新故障复盘改进详情

problemReason":"故障原因A","recentActivity":"2","injectionMode":"1","recoveryMode":"2","discoverSource":1,"userReport":10,"monitorSourceName":"Zabbix","relationChanges":"关联变更","dutyUserId":1231,"replayDutyUserId":1213...

故障止损恢复

故障初因定位 集成企业内部可利用的所有稳定性相关数据(变更事件,...通用垂直专项快恢能力:通过集成包括DB侧慢SQL限流、变更极速回滚、多活容灾切流快恢等通用的快恢能力,结合监控、日志等数据自动定位的故障原因进行对应的快恢方式推荐。

无法开启域名控制台功能

如果您无法在控制台上开启域名控制台功能,请参见本文进行排查。问题现象 在阿里云域名控制台上无法找到开启域名控制台功能的入口。可能原因 如果在域名控制台上无法找到开启域名控制台功能的入口,可能是因为您当前登录的账号不是...

基于最后一次访问时间的生命周期规则

注意事项 规则数量 通过控制台最多可配置100条生命周期规则,条生命周期规则中可同时包含最后一次修改时间以及最后一次访问时间的策略。如果您需要配置更多数量的生命周期规则,请使用SDK或者命令行工具ossutil。费用说明 Object监控管理...

什么是故障

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

限流算法选择

可以通过拉长限流周期来应对突发流量。如 1 秒限流 10 个,想要放过瞬间 20 个请求,可以把限流配置改成 3 秒限流 30 个。拉长限流周期会有一定风险,用户可以自主决定承担多少风险。缺点:没有很好的处理单位时间的边界。比如在前一秒的...

容灾恢复

集群中通常一个服务有多个服务提供者,其中部分服务提供者可能由于网络、配置、长时间 fullgc、线程池满、硬件故障等导致长连接还存活但是程序已经无法正常响应。单机故障剔除功能会将这部分异常的服务提供者进行降级,使客户端的请求更多...

故障复盘改进详情

0c4840fd3812 幂等校验token 返回数据 名称 类型 示例值 描述 requestId String 4361a0e1-6747-4834-96ce-0c4840fd3811 Id of the request data Object data problemId String 231231 故障ID problemReason String 故障的原因 故障原因 ...

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生、故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

故障演练

故障演练就是这个背景下诞生的,沉淀通用的故障场景,以可控成本在线上故障重放,以持续性的演练和回归方式的运营来暴露问题,不断验证和推动系统、工具、流程、人员能力的提升,从而提前发现并修复可避免的重大问题,或通过验证故障发现...

应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断

采集客户端数据的高可用方案

但是在一些相对极端的场景下,集群可能由于一些预期外原因存在故障停服风险。针对该集群故障风险,日志服务提供两种异地多活的客户端数据采集方案。方案比较 对比项 方案1:双写 方案2:数据加工复制+写入切换 部署复杂度 低 需要额外...

如何管理故障

可对故障根因进行原因检查并结构化录入,检查点包括:故障原因、最近活动、注入方式、恢复方式等;关联故障期间的故障变更,新增故障改进措施等操作。故障状态 处理中:处理中仍未恢复的故障;已恢复:故障对处理中的故障做 恢复 操作后是...

如何解决MSE Nacos实例域名无法解析的问题?

请 提工 联系网络技术支持协助排查DNS服务器或NameServer故障原因。如果使用的是ACK,请 提工 联系ACK技术支持协助排查CoreDNS故障原因。方案二:使用ping命令 使用 ping${mse.nacos.host} 指令尝试解析。如果提示 unknown host,则...

健康检查最佳实践

检查周期 通常用于控制探测的灵敏度,理论上如果高频率的检查不会对业务有实质影响,则检查周期越短越好。但是,如果Liveness的检查周期太短,可能会让业务容器更容易重启。因此,可以根据计算公式(节点最大可容忍故障时间/3),来确定...

集群高可用架构推荐配置

节点池高可用配置 您可以基于节点的弹性伸缩、部署集、多AZ,结合K8s调度的拓扑分布约束,确保服务在不同的故障域(failure-domain)资源充足且有所隔离,从而当某一故障域出现问题时,服务仍然可以保持运行,减少故障的风险,提高系统...

托管节点池节点自动恢复

当发现节点故障时,ACK会根据故障原因触发对应恢复任务,并记录相应的事件。当恢复任务完成后,故障状态解除,节点恢复正常状态。当恢复任务完成后,故障状态依然存在,节点会被置为恢复失败状态。说明 如果集群中存在多个节点池,节点池...

设计方案

故障恢复 定位故障原因后,按照应急预案快速恢复业务,并在事后进行复盘总结。预案执行:在故障响应的过程中,需要按照事先制定的应急预案进行执行。应急预案包括了应急响应流程、各个岗位的职责、处理流程等。预案执行能够保证故障恢复和...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

域名控制台授权

本文为您介绍域名控制台授权的功能使用说明,以及开启和关闭域名控制台授权的操作指导。适用场景 当实际注册域名的阿里云账号(如注册代理商的阿里云账号)和域名所有者分属不同人员时,注册代理商可以在域名控制台上开启域名控制台...

主备方案介绍

灾备方案 说明 可用区高可用方案 主备节点部署在同一可用区中的不同机器上,当任一节点发生故障时,由高可用HA(High Availability)系统监控主备节点的健康状态并自动执行故障切换,避免故障引起的服务中断。同城容灾方案 主备节点...

实例快速恢复

为了能够快速恢复系统故障,Hologres提供了实例快速恢复的机制。本文为您介绍实例快速恢复的触发条件和行为。实例快速恢复逻辑说明 Hologres在 V2.0版本之前,Hologres计算节点均为容器调度(即下图中的Worker Node),资源管理器...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
容器镜像服务 数据库自治服务 轻量应用服务器 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用