金融行业最佳实践

金融两地三中心 业务挑战:金融源站往往采用两地三中心的架构,当某个源站发生故障时,需要快速地将业务切换到其他可用源站,保障业务的连续性和稳定性。方案优势:阿里云DCDN提供多源负载均衡能力,实现多源异地灾备,可以按照主备、权重...

传媒行业最佳实践

基于动、静态混合加速技术,实现静态资源就近缓存分发,动态资源以最快路径回源响应,成倍提高访问速率。新闻互动 业务挑战:互联网+时代,新闻媒体互动性越来越强。点赞、评论、回复等动态请求需要回到源站进行内容响应,这对网络传输链路...

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

零售行业最佳实践

方案优势:阿里云DCDN融合了动静态资源加速技术和智能选路技术,接入DCDN可快速构建全站加速的能力。静态资源实现就近缓存分发,动态资源以最快路径回源响应,实现对全站点的提速,缩短商品浏览、秒杀、支付等场景的响应速度。客户收益 ...

FAQs

答:经过测试团队对GTM多次测试验证,当应用服务发生故障时,GTM能在 3分钟左右 准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台、...

常见问题-FAQ

答:经过测试团队对GTM多次测试验证,当应用服务发生故障时,GTM最快可在1分钟左右准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台...

步骤五:应用容灾

确保操作人员熟悉容灾恢复流程,当主站真正发生故障时,操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练:在 受保护服务器 页签,单击要启动容灾演练服务器右侧对应的 操作 列表下的 容灾演练。在 容灾演练 页面,选择 恢复网络、...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

跨可用区容灾

确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练:在 受保护服务器 页签,单击要启动容灾演练服务器右侧对应的 操作 列表下的 容灾演练。在 容灾演练 面板,选择 恢复...

AI加速概述

加速存算分离场景下I/O性能。TorchAcc(模型训练加速框架)支持数据并行训练,优化计算和通信overlap,提升分布式训练效果。支持AMP训练加速。支持自动显存优化等。EPL(大规模分布式训练框架)支持数据并行,算子拆分流水并行。支持自动...

故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

ESSD云盘

实例规格的存储I/O性能 部分全新一代实例规格族的存储I/O性能和实例规格成正比线性关系,以存储增强型实例规格族g7se为例,实例规格越高可获得的存储IOPS和吞吐量越高。更多信息,请参见 存储I/O性能。实例规格与ESSD云盘性能的关系规则...

MongoDB实例IOPS使用率高问题

背景信息 ⼀般云数据库厂商为了避免宿主机出现I/O争抢,会使⽤CGroup(Control Groups)等技术进⾏实例间的I/O隔离和IOPS(Input/Output Operations Per Second)限制,即不同规格的实例配置对应不同的IOPS使⽤上限。注意事项 MongoDB单...

配置AMD实例应用加速

这些调优集合了阿里云多个领域相关专家的调优经验积累,不仅针对AMD实例的特点对CPU、内存、I/O、网络等领域进行了全面优化,也会对应用本身进行调优,来保障您的业务运行在最佳性能环境中。针对应用加速的全栈调优能够发挥出AMD实例的性能...

跨可用区容灾

确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。容灾演练操作步骤如下:登录 混合云容灾管理控制台。单击 切换到连续复制型容灾。在 概览 页面,单击目标容灾站点对。在容灾中心页面,单击 受...

EMR Kafka磁盘故障运维

ECS系统层面:可以在云监控中设置相应ECS实例的I/O wait和mbps等指标,来监控磁盘的健康状态。ECS后台也会自动的检测磁盘状态,当发现问题时,会自动为您推送相关的磁盘事件。磁盘故障恢复 当出现log directory offline、Under Replicated ...

配置倚天实例应用加速

这些调优集合了阿里云多个领域相关专家的调优经验积累,不仅针对倚天实例的特点对CPU、内存、I/O、网络等领域进行了全面优化,也会对应用本身进行调优,来保障您的业务运行在最佳性能环境中。针对应用加速的全栈调优能够发挥出倚天实例的...

故障协同处理(基于钉钉)

时间线:展示故障的时间线记录,其中有7个节点必须完善详细内容,节点已用红星标注,包含:故障发生故障发现、故障通告、业务响应、初因定位、恢复执行和故障恢复。节点记录和PC端故障时间线保持一致。复盘 按钮:故障恢复后,需进行故障...

同城多活架构实践

在杭州单元格B的商品应用发生故障的情况下,可使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换...

如何管理故障

故障发生条件 当事件重要程度上升、整体影响面恶化、持续长时间未解决,综合评估已达到故障时(P1-P4),处理人可手动将事件升级为故障。当报警来源的指标持续恶化,触发故障产生规则,系统自动产生故障。故障过程 故障过程用于记录管理...

产品优势

性能深度优化 基于阿里云IaaS基础资源(GPU、CPU、网络以及I/O等基础设施)提供性能的深度优化。弹性伸缩 基于IaaS基础资源,支持一键构建、弹性伸缩。开源兼容 轻量便捷、开源兼容。您基于开源框架编写的算法代码或模型代码,几乎无需进行...

故障演练

但这些措施在故障发生时的有效性、故障恢复工具的真实容灾能力、处理问题人员的熟练度,沟通机制、容灾措施对上层的影响等问题,平时并没有太多的机会验证,往往都是在真实故障中暴露。故障演练就是这个背景下诞生的,沉淀通用的故障场景,...

本地盘

满足I/O密集型应用对块存储的低时延和高I/O性能需求。对存储I/O性能有较高要求,同时具备应用层高可用架构的业务场景。例如,NoSQL非关系型数据库(例如Cassandra、MongoDB、HBase等)、MPP数据仓库和分布式文件系统等。SATA HDD本地盘 ...

诊断规则

而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现故障的快速定位与处理。本节将向您介绍诊断规则的相关操作。诊断规则是诊断节点的构成,诊断规则...

什么是消息演练

单个或多个模块都可能会有不同类型的故障发生,导致模块不能正常运行,例如Producer无法发送消息,这种场景叫做消息的演练场景。需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

什么是边缘函数

使用限制 功能 限制 说明 CPU时间 5ms、50ms、100ms ER单次执行分配的CPU时间片(等待I/O不算作CPU时间),提供了5ms、50ms、100ms三种规格供您选择。更多信息,请参见 计费说明。内存 128 MB 单个域名在单台机器上的内存大小,同域名的...

使用EAIS训练PyTorch模型(EAIS内置AIACC-Training)

使用场景 EAIS实例适合用于对数据I/O要求不高,但对模型的性能、承载能力有较高要求的场景,例如可以使用EAIS实例训练AIGC、LLMs相关的模型(例如Stable-Diffusion、LLama等)。操作步骤 远程登录ECS实例。登录 EAIS控制台。在页面左上角...

自助诊断GPU节点问题

ACK集群提供节点级别的GPU诊断功能,供您进行部分GPU相关问题的故障排查。如果您在ACK Pro版集群中使用GPU节点时遇到问题,可以启用GPU节点自助诊断,采集GPU诊断的基础指标进行问题排查。本文介绍如何使用节点诊断功能,自助排查GPU节点...

CreateEaiEcs-创建EAIS实例并绑定至客户端实例

已停售的实例规格且非 I/O 优化实例默认值为 cloud,否则默认值为 cloud_efficiency。cloud_ssd SystemDiskSize long 否 ECS 实例系统盘大小,单位为 GiB。取值范围:20~500。该参数的取值必须大于或者等于 max{20,ImageSize }。默认值:...

I/O

本文介绍高I/O的相关概念以及常见高I/O的原因。I/O的相关概念 概念 说明 I/O 对磁盘进行读写的动作。I/O延时 一个I/O操作的执行时间。逻辑I/O 由应用程序发给文件系统的I/O。物理I/O 由文件系统发给磁盘的I/O。顺序I/O 顺序的从磁盘进行...

产品架构介绍

多活流量必须经过接入层,以便在故障发生时,通过接入层切换入口流量。比例分流:接入层支持按比例将流量分流到机房。特殊场景下,可以将机房流量切零,从而实现故障情况下的流量切换。精准路由:接入层支持根据HTTP请求Header/Cookie/...

系统类故障排查

概述 本文主要介绍使用阿里云服务器ECS时的系统类故障排查,包含CPU、磁盘I/O、内存、硬盘、带宽资源占用异常的问题排查与定位。详细信息 说明 阿里云提醒您:如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,...

网络资源

容灾:建立容灾和高可用的系统架构,将系统部署在多个地理位置或数据中心,并使用负载均衡和故障切换技术,以确保即使发生网络分区,系统仍然可以继续提供服务。网络闪断故障 指网络连接在短时间内频繁中断和恢复,造成网络连接不稳定的...

全球加速联动WAF和GTM实现企业ERP应用加速

带宽类型 加速类型 加速后端服务 加速范围 标准加速带宽 加速部署在阿里云上的应用 标准型全球加速实例:阿里云公网IP 云服务器ECS 传统型负载均衡CLB(原SLB)应用型负载均衡ALB 对象存储服务OSS 交换机(vSwitch)基础型全球加速实例:...

GetInstance-获取实例详情

2023-05-17 OpenAPI 入参发生变更、OpenAPI 返回结构发生变更 看变更集 变更项 变更内容 入参 OpenAPI 入参发生变更。删除入参:RegionId 出参 OpenAPI 返回结构发生变更。2023-04-10 OpenAPI 返回结构发生变更 看变更集 变更项 变更内容 ...

IO加速

当您需要应对数据库磁盘IO性能瓶颈时,云数据库RDS PostgreSQL的通用云盘IO加速功能为您提供了一个高效的解决方案。本文档将详细介绍该技术的优势、适用场景和工作原理,帮助您在面临大规模或频繁数据读写需求时显著提升数据库性能。背景 ...

混沌工程缓存实战系列-Redis

借助混沌工程可以了解到问题发生时对系统、业务的影响面是否符合预期。梳理演练场景 对于示例应用,可以按照以下思路来梳理演练场景:明确缓存监控的指标。分析影响这些指标可能的因素、故障场景、参数等。因为客户端层面的影响面可控,...

故障管理

通过建立一个规范可遵循、全流程闭环的故障管理体系,配合技术手段的提升,可以有效降低故障发生的几率,缩短故障的MTTR,最终使故障造成的破坏性趋近于0。在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的...

RDS SQL Server I/O高问题

I/O吞吐限制 本地盘实例 本地SSD盘实例的架构是多个实例共享同一物理机的本地SSD盘,只限制了单个实例的最大IOPS,没有限制单个实例的I/O吞吐量,因此实际上单个实例的最大I/O吞吐量可以达到1 GB/Sec以上,但同时也存在I/O吞吐资源争抢问题...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
全球加速 视频点播 负载均衡 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用