应用故障自动诊断

网络问题 机房发生网络故障导致应用运行异常。查看故障自动诊断报告 登录 EDAS控制台。在左侧导航栏,单击 应用管理>应用列表,在顶部菜单栏选择地域并在页面上方选择 所属微服务空间,在 集群类型 下拉列表,选择 K8s集群,然后在页面单击...

故障管理

通过建立一个规范可遵循、全流程闭环的故障管理体系,配合技术手段的提升,可以有效降低故障发生的几率,缩短故障的MTTR,最终使故障造成的破坏性趋近于0。在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的...

设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

围绕混沌工程的平台实践

因此混沌工程是一门学科,它提供了基本的理论指导,而故障演练是混沌工程的具体实践,通过向目标系统注入真实可能发生故障来考量系统的稳定性。混沌工程和AHAS Chaos AHAS Chaos是以混沌工程为理论指导的故障演练平台,目标是成为混沌...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>创建...

自助诊断GPU节点问题

ACK集群提供节点级别的GPU诊断功能,供您进行部分GPU相关问题的故障排查。如果您在ACK Pro版集群中使用GPU节点时遇到问题,可以启用GPU节点自助诊断,采集GPU诊断的基础指标进行问题排查。本文介绍如何使用节点诊断功能,自助排查GPU节点...

什么是故障

本文主要介绍什么是故障。定义 在日常运营中,无论什么原因导致业务服务中断、服务品质...故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务连续性形成改进,避免历史同类故障重复发生

常见问题-FAQ

答:经过测试团队对GTM多次测试验证,当应用服务发生故障时,GTM最快可在1分钟左右准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台...

FAQs

答:经过测试团队对GTM多次测试验证,当应用服务发生故障时,GTM能在 3分钟左右 准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台、...

Tair选型指南

3 选择容灾方案 云原生内存数据库Tair 实例若因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制保障数据的一致性和业务可用性。云原生内存数据库Tair 提供多种灾备方案供您选择,可满足不同的业务场景。4 预估内存规格 提前...

网络资源

容灾:建立容灾和高可用的系统架构,将系统部署在多个地理位置或数据中心,并使用负载均衡和故障切换技术,以确保即使发生网络分区,系统仍然可以继续提供服务。网络闪断故障 指网络连接在短时间内频繁中断和恢复,造成网络连接不稳定的...

云数据库Redis版产品选型必读

选择容灾方案 当云数据库Redis实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。云数据库Redis提供多种灾备方案供您选择,可满足不同的业务场景。选择大版本 推荐使用更新的大版本...

混沌工程缓存实战系列-Redis

Redis延迟增加10000 ms,此时缓存超出了Jedis的超时配置时间100 ms,使得查询缓存故障,导致查询路径切换至数据库,此时业务正常。实施演练。通过阿里云Chaos演练平台可以快速的配置以上的演练场景,并且结合平台提供的业务探活功能,可以...

主备方案介绍

主备容灾:当云数据库HBase实例因不可预料的原因(例如设备故障、机房断电断网等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。功能优势 主备双活:请求低毛刺。故障自动容错。资源利用率高。主备容灾:支持云数据库HBase、EMR...

MSE注册配置中心高可用最佳实践

无容灾保护 当来自Consumer端的请求量突然增加时,如果Provider容量水位较高,会导致个别Provider发生故障:注册中心会将故障节点摘除,全量流量会给剩余节点。剩余Provider节点负载变高,大概率也会发生故障。最终所有Provider节点故障,...

灾备方案

Tair 容灾架构演进 当 Tair 实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。Tair 提供多种灾备方案供您选择,可满足不同的业务场景。图 1.Tair 容灾架构演进 灾备方案 灾备级别 ...

标准版-双副本

主节点提供日常服务访问,备节点提供HA高可用,当主节点发生故障,系统会自动在30秒内切换至备节点,保证业务平稳运行。特点 可靠性 服务可靠 采用双机主从(master-replica)架构,主从节点位于不同物理机。主节点对外提供访问,用户可...

灾备方案介绍

云数据库Redis容灾架构演进 当云数据库Redis实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。云数据库Redis提供多种灾备方案供您选择,可满足不同的业务场景。图 1.Redis容灾架构...

基于MSE云原生网关实现同城多活

在同城多活的场景下,能够确保对跨可用区的多个业务集群的请求实现高效负载均衡分配,在单个可用区内的业务集群发生故障时,可在1秒内完成故障节点的自动摘除从而实现故障转移,有效的保障服务连续性和高可用性。容灾概述 目前云上容灾主要...

管理缓存

通过将数据写回到UFS,可以保证如果Alluxio发生故障数据还是可恢复的。语法 alluxio fs persist示例:将Alluxio中 tmp 目录持久化到底层文件系统中。alluxio fs persist/tmp 返回如下信息。persisted file/tmp with size 46 setTtl 设置...

应用场景

如果主地域发生故障,您可以将用户请求切换到灾备地域。异地多活 随着业务的快速发展和用户数量的增长,如果业务部署在单个地域中,可能会面临如下问题:用户在地理位置上分布较广,地理位置较远的用户访问延迟较高,影响用户体验。单个...

GTM如何实现异地容灾

两地三中心容灾架构,是指在同城双中心的基础上,在异地的城市建立一个备份的灾备中心,用于双中心的数据备份,当双中心出现自然灾害等原因而发生故障时,异地灾备中心可以用备份数据进行业务的恢复。目标读者 企业网络部、业务运维部工作...

GTM如何实现同城容灾

创建1个全局访问策略,解析请求流量 选择 全局,主地址池集合 选择「业务中心01」地址池和「业务中心02」地址池,负载均衡策略 选择 返回全部地址,此设置可实现两个数据中心同时提供服务和发生故障时系统自动摘除故障地址的效果。...

ECI自定义事件

ImageCacheUnknownError Warning An unknown error occurred while handling the image cache for%s 镜像缓存发生未知错误。请提交工单确认问题。SuccessfulHitImageCache Normal Successfully hit image cache%s 成功匹配镜像缓存。...

Tair Proxy特性说明

A:推荐选择 集群架构,数据分片均采用主备高可用架构,当主节点发生故障后,系统会自动进行主备切换保证服务高可用。在某些极端场景下某个数据分片出现异常后,对数据的影响及优化方案如下。场景 影响与优化方案 图 2.多Key命令场景 影响...

Redis Proxy特性说明

推荐选择 集群版-双副本,数据分片均采用主备高可用架构,当主节点发生故障后,系统会自动进行主备切换保证服务高可用。在某些极端场景下某个数据分片出现异常后,对数据的影响及优化方案如下。场景 影响与优化方案 图 2.多Key命令场景 ...

Linux系统挂载NFS协议文件系统

noresvport:在网络重连时使用新的TCP端口,保障在网络发生故障恢复时不会中断连接。建议启用该参数。重要 不建议使用 soft 选项,有数据一致性风险。如果您要使用soft选项,相关风险需由您自行承担。避免设置不同于默认值的任何其他挂载...

新功能发布记录

2023-06-30 云盒计算资源配置最佳实践 维修事件 云盒中的硬件设备发生故障需要更换时,阿里云会向您发送云盒维修事件通知,您需要授权同意阿里云上门更换并维修硬件设备。2023-06-30 响应云盒维修事件 新增地域 新增以下两个地域:华东2...

如何降低公网权威DNS流量分析费用

警告 若该域名已经接入GTM,调大TTL,故障切换时,故障IP的缓存时间会更长。不建议您调整TTL。若您的域名解析记录需要修改,建议您提前将TTL值调低。在间隔TTL时间之后,再进行解析记录的变更。设置方法 登录 云解析DNS产品控制台。在 域名...

SmartData常见问题

如果缓存服务出现故障,系统自动切换至JindoFS SDK方式,直接读写OSS文件。JindoFS缓存模式和Block模式的区别是怎么?Block模式可以管理文件的元数据,组织数据的块,把OSS作为磁盘来使用,类似HDFS。读写Block模式的数据需要通过JindoFS ...

CreateImageCache-创建一个镜像缓存

调用CreateImageCache接口创建一个镜像缓存,以便后续创建ECI实例可以加速镜像拉取,减少实例启动耗时。接口说明 注意事项 创建镜像缓存涉及资源计费。建议您提前了解相关计费信息。更多信息,请参见 镜像缓存计费。创建镜像缓存前,您需要...

存储资源

存储资源是指用于存储和管理数据的硬件和软件资源,包括节点的本地磁盘、分布式文件存储、数据库和缓存...可以使用自动检测与恢复、依赖降级、故障迁移、多级缓存、配置验证与回滚、读写分离、分库分表、多副本等容错策略分别应对以上风险点。

发现并处理大Key和热Key

通过此类监控手段,可以提前规避许多问题,例如LIST数据类型的消费程序故障造成对应Key的列表数量持续增长,将告警转变为预警从而避免故障发生,更多信息,请参见 报警设置。对过期数据进行定期清理 堆积大量过期数据会造成大Key的产生,...

通过Dataload定时更新Dataset数据

此时参数设置如下:oauto_cache-oattr_timeout=0-oentry_timeout=0-onegative_timeout=0 说明 使用auto_cache以确保如果文件大小或修改时间发生变化,缓存就会失效。同时将超时时间都设置为0。执行以下命令,通过部署 dateset.yaml 创建...

发现并处理Redis的大Key和热Key

通过此类监控手段,可以提前规避许多问题,例如LIST数据类型的消费程序故障造成对应Key的列表数量持续增长,将告警转变为预警从而避免故障发生,更多信息,请参见 报警设置。对过期数据进行定期清理 堆积大量过期数据会造成大Key的产生,...

JindoFuse使用指南

okernel_cache auto_cache 否 4.3.0及之后版本 与 kernel_cache 二选一,与 kernel_cache 不同的是,如果文件大小或修改时间发生变化,缓存就会失效。默认开启。无 entry_timeout 否 4.3.0及之后版本 文件名读取缓存保留时间(秒),用于...

使用ECI运行Argo工作流

镜像缓存完成创建后,指定该镜像缓存,并将Pod的镜像拉取策略设置为IfNotPresent,实现Pod在启动阶段无需拉取镜像,可以加速Pod创建,缩短Argo任务的运行时长,降低运行成本。更多信息,请参见 使用ImageCache加速创建Pod。如果之前已经...

进阶功能

说明 Android端播放器SDK 5.5.2.0及以上版本才支持本功能,并且需要开启本地缓存,开启方法请参见 本地缓存。Android端播放器SDK从5.5.2.0版本开始提供 getPreRenderPlayer 和 moveToNextWithPrerendered 接口,用于提升滑动切换到下一个...

Elasticsearch

String 否 ALL 支持以下三种缓存策略:ALL:缓存维表里的所有数据。在Job运行前,系统会将维表中的所有数据加载到Cache中,之后所有的维表查找数据都会通过Cache进行。如果在Cache中无法找到数据,则KEY不存在,并在Cache过期后重新加载一...

基于Kubernetes容器集群的容灾架构与方案

备份与恢复(Backup-Restore)如上图所示,在备份与恢复模式下,系统运行时会备份应用和数据,故障或灾难发生时,系统会将备份的应用和数据在另一地点进行恢复,并切换业务流量。由于数据无法实时备份,在恢复数据时会有一定的数据丢失,...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 混合云存储 负载均衡 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用