网络资源

网络闪断故障可能由多种原因引起,如网络设备故障、电力波动、通信线路故障等。网络闪断会导致数据传输中断,影响系统和应用程序之间的数据传输,频繁的网络闪断可能导致系统或应用程序无法正常运行。常使用的容错策略如下:设备冗余:使用...

DDH常见问题

如果您因为过保迁移等原因被分配了一台新的物理服务器,您的DDH会对应一个新的机器码,该机器码就是这台新物理服务器的唯一识别码。DDH故障时是否会自动迁移到健康的DDH?阿里云为您提供DDH故障迁移服务,开启服务后,DDH因故障停机时,会...

配置任务常见错误码及排查方法

本文介绍了用户在使用控制台或OpenAPI配置任务时系统返回的错误码、出现报错的场景及解决方法。用户配置使用类错误码 错误码 报错场景 原因及解决方法 DTS.Msg.LXCreateOrderError 购买DTS实例时创建订单不成功。原因:未将UID添加至白名单...

主从实例读写分离部署(共享存储)

当出现1分钟容器响应超时(可能是内存溢出、硬件故障、软件Bug等原因导致),Resource Manager会自动拉起新的计算节点,并迁移Shard职责到新的节点上(例如Worker Node3响应超时,Resource Manager拉起Worker Node4取代Worker Node3),...

集群高可用架构推荐配置

您可以使用拓扑分布约束来控制Pod在不同故障域之间的分布,提升对底层基础设施故障的容忍能力。关于如何在ACK集群中使用拓扑感知调度能力,例如使Pod在多个拓扑域中重试或将Pod调度到属于一低延时部署集的ECS中,请参见 拓扑感知调度。...

混合云应用双活容灾最佳实践

说明 演练前,基于MSHA流量监控或其他监控产品,确定业务稳态的监控指标(如日常情况RT≤200ms,错误率),以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。步骤二:应用故障注入 这里使用阿里云故障演练产品,对...

数据类云产品专家服务

同时提供对用户技术人员针对重点问题的技术原理和技术支持方案的赋能,帮助提升用户运维团队的技术能力。2.服务范围 2.1.服务范围 服务范围 包含:阿里云服务与产品功能、云上架构的咨询、使用、配置,提供最佳实践。与阿里云的管理控制台...

升级ASM实例

为避免过期版本实例存在的安全和稳定性风险,同时保证您业务的连贯性,服务网格 ASM支持通过原地升级或金丝雀升级的方式升级控制平面和数据平面。本文介绍ASM实例升级前后的注意事项和说明、升级路径、升级流程和操作步骤等。前提条件 已...

归档存储服务等级协议

故障恢复能力 阿里云为付费用户的云服务提供7×24小时的运行维护,并以在线工单和电话报障等方式提供技术支持,具备完善的故障监控、自动告警、快速定位、快速恢复等一系列故障应急响应机制。2.11.网络接入性能 阿里云归档存储对用户不限制...

ECS容灾常见问题

操作系统 版本 Windows Server 2008R2、2012、2012R2、2016 Linux 重要 Linux系统的/boot 分区和/分区必须在一磁盘,若不满足一磁盘要求,建议手动调整磁盘后,再注册受保护实例进行ECS容灾。Red Hat Enterprise Linux 7.0~7.9 Red Hat...

ECS容灾常见问题

操作系统 版本 Windows Server 2008R2、2012、2012R2、2016 Linux 重要 Linux系统的/boot 分区和/分区必须在一磁盘,若不满足一磁盘要求,建议手动调整磁盘后,再注册受保护实例进行ECS容灾。Red Hat Enterprise Linux 7.0~7.9 Red Hat...

全链路专家服务内容说明

同时提供对用户技术人员针对重点问题的技术原理和实施方案的咨询,帮助提升用户运维团队的技术能力。2.服务范围 2.1.服务范围 服务范围 包含:阿里云服务与产品功能、云上架构的咨询、使用、配置,提供最佳实践。与阿里云的管理控制台或...

大数据实时计算性能调优服务

本项目计划、实施时间和工作量评估是基于本SOW约定范围制定的,如果项目范围发生调整,双方应依照本工作说明书附件一《项目变更流程与项目变更控制申请单》中规定的程序评估对项目价款、计划和工作量的影响,并在签署《项目变更控制申请单...

监控、诊断和故障排除

相对于传统应用程序,开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本,但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息,帮助您深刻洞察程序行为,及时发现并快速定位问题。本文主要描述...

业务流量隔离功能实践

所涉及技术栈:SpringBoot RPC框架:SpringCloud(注册中心使用自建的Eureka)案例体验地址:多活容灾MSHA控制台 登录 AHAS控制台。在控制台左侧导航栏,选择 多活容灾。在控制台进行操作时,命名空间 需选择 官方示例命名空间。案例实践一...

GxP欧盟附录11标准合规包

业务背景 GxP欧盟附录11(GxP EU Annex 11)是欧盟对于计算机化系统使用的规范性要求,主要针对在制药、生物技术和医疗器械领域中使用计算机化系统的企业和组织。他要求涵盖了计算机化系统的开发、验证、操作、维护和监测等方面,以确保...

集群系列

可靠性更强的备节点 阿里云技术团队通过云原生技术对RDS进行了一系列深度优化,进一步提升了RDS MySQL集群系列实例备节点的可靠性:重构RDS高可用系统,将备节点的故障发现时长从分钟级优化到秒级。基于EBS(Elastic Block Storage)提供的...

附录:SOFAStack 产品目录

SOFAStack 源于自蚂蚁内部沉淀十多年的金融级分布式中间件技术体系,吸收了支付宝自创立以来在关键金融交易系统锤炼出来的架构实践。SOFAStack 所有的产品技术均经过蚂蚁集团自身严苛的金融场景验证,为金融交易技术保证风险安全的同时,...

如何解决MSE Nacos实例域名无法解析的问题?

请 提工单 联系网络技术支持协助排查DNS服务器或NameServer故障原因。如果使用的是ACK,请 提工单 联系ACK技术支持协助排查CoreDNS故障原因。方案二:使用ping命令 使用 ping${mse.nacos.host} 指令尝试解析。如果提示 unknown host,则...

故障应急协同

故障通告及更新 基于7x24监控值班工作特性,对于业务异常达到故障等级时,以用户定制的(语音、短信、IM)的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组,并持续更新直至故障结束。故障应急协同群 故障发生后,可以...

设计方案

故障恢复 定位故障原因后,按照应急预案快速恢复业务,并在事后进行复盘总结。预案执行:在故障响应的过程中,需要按照事先制定的应急预案进行执行。应急预案包括了应急响应流程、各个岗位的职责、处理流程等。预案执行能够保证故障恢复和...

更新故障复盘改进详情

problemReason":"故障原因A","recentActivity":"2","injectionMode":"1","recoveryMode":"2","discoverSource":1,"userReport":10,"monitorSourceName":"Zabbix","relationChanges":"关联变更","dutyUserId":1231,"replayDutyUserId":1213...

ping不通云服务ECS(SAG-1000)

本文介绍SAG-1000设备无法ping通ECS实例的原因和处理方法。问题现象 终端无法连接到阿里云,例如ping不通CEN的ECS。可能原因 终端到设备的链路故障。设备到阿里云的VPN链路故障。目标ECS故障。运营商网络故障。解决方案 登录 智能接入...

云盘三副本技术

重要 如果ECS实例由于病毒感染、人为误删除或黑客入侵等软故障原因造成数据丢失,需要您采用备份或者快照等技术手段来解决。任何技术都不可能解决全部问题,因地制宜地选择合适的数据保护措施,才能为您的业务数据筑起一道坚实的防线。更多...

故障止损恢复

故障初因定位 集成企业内部可利用的所有稳定性相关数据(变更事件,...通用垂直专项快恢能力:通过集成包括DB侧慢SQL限流、变更极速回滚、多活容灾切流快恢等通用的快恢能力,结合监控、日志等数据自动定位的故障原因进行对应的快恢方式推荐。

广告活动

修改追频控制:在弹窗中修改所选择活动的追频控制,如下图所示。关闭:活动及其广告订单不进行追。按活动追:在活动中设置追范围,活动的所有广告订单统一使用此追范围。请设置要求的追范围。按订单追:活动的每个订单单独设置...

设备显示离线

本文介绍智能接入网关设备显示离线的原因和处理方法。问题现象 登录 智能接入网关控制台,查看设备状态为 离线。可能原因 设备软件故障。设备到阿里云联网故障。解决方案 通过尝试在一个运营商出口环境内 ping 其他知名网站,确认您的...

ping不通云服务(SAG-100WM)

介绍SAG-100WM设备 ping 不通云企业网CEN(Cloud Enterprise Network)的云服务器ECS(Elastic Compute Service)或云连接网CCN(Cloud Connect Network)内的客户端的处理方法。问题现象 终端无法连接到阿里云。例如 ping 不通CEN的...

如何管理故障

可对故障根因进行原因检查并结构化录入,检查点包括:故障原因、最近活动、注入方式、恢复方式等;关联故障期间的故障变更,新增故障改进措施等操作。故障状态 处理中:处理中仍未恢复的故障;已恢复:故障对处理中的故障做 恢复 操作后是...

故障复盘改进详情

0c4840fd3812 幂等校验token 返回数据 名称 类型 示例值 描述 requestId String 4361a0e1-6747-4834-96ce-0c4840fd3811 Id of the request data Object data problemId String 231231 故障ID problemReason String 故障的原因 故障原因 ...

功能概述

数据库发生故障后,无法在发生故障时定位到原因,可以通过智能压测功能,在克隆库上复现故障场景,定位故障原因。功能架构 智能压测的功能架构如下图所示:源数据库:将要进行大促、将要业务变更或者已经发生故障,需要进行流量捕获的数据...

故障管理

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

流水单据型业务场景多活实践

验证爆炸半径是否控制故障单元内:预期:UserID为2000的用户路由到杭州单元,不受北京单元故障的影响。结果:下单正常,符合预期。切流恢复 验证故障场景下的容灾恢复能力。在北京单元发生故障的情况下,可以使用MSHA切流功能将受影响的...

营销投放

新建广告活动:创建新的广告活动,配置以下信息:控要求:控即频次控制控制一个用户在指定时间周期内展示广告的次数上限。默认选择 不限,即该活动及其广告订单不设置控要求。按活动控:在活动中设置频次要求,该活动的所有...

托管节点池节点自动恢复

当发现节点故障时,ACK会根据故障原因触发对应恢复任务,并记录相应的事件。当恢复任务完成后,故障状态解除,节点恢复正常状态。当恢复任务完成后,故障状态依然存在,节点会被置为恢复失败状态。说明 如果集群中存在多个节点池,节点池...

读多写少型业务场景多活实践

验证爆炸半径是否控制故障单元内:预期:UserID为2000的用户路由到北京单元,不受杭州单元故障的影响。结果:导购页访问正常,符合预期。切流恢复 接下来将验证故障场景下的容灾恢复能力。在杭州单元发生故障的情况下,可以使用MSHA切流...

SA混合云存储阵列

控制故障时,支持在线故障切换,业务连续性不受影响。阿里云混合云存储阵列将云存储的高性价比和可扩展性与本地数据中心架构相结合,帮助客户轻松实现数据在本地数据中心和公共云之间的无缝流动。产品规格 阿里云 SA混合云存储阵列 ...

故障协同处理(基于钉钉)

云钉运维故障协同效果 功能概述 移动应用端(目前仅支持“钉钉”,以下功能说明均基于钉钉场景)支持接收故障消息提示和进行故障操作,且支持移动端操作管理故障,操作记录实时同步到 运维事件中心 控制台。故障协同处理使用条件 成功开通...

流量回放和压测

此外,在数据库发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。前提条件 源数据库支持:RDS MySQL PolarDB MySQL版 说明 不支持 PolarDB MySQL版 的 企业版 单节点 实例。PolarDB-X 2.0。目标数据库实例...

智能压测

此外,在数据库发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。前提条件 源数据库支持:RDS MySQL PolarDB MySQL版 说明 不支持 PolarDB MySQL版 的 企业版 单节点 实例。PolarDB-X 2.0。目标数据库实例...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云服务器 ECS 负载均衡 弹性公网IP 短信服务 人工智能平台 PAI 金融分布式架构
新人特惠 爆款特惠 最新活动 免费试用