常见故障场景自动诊断:内置长期经验沉淀的运维知识库,自动识别常见故障问题,并提供故障处置建议。自动化巡检和告警通知:内置基础告警策略并可灵活配置,可对接多种告警通知方式,定期巡检,及时感知问题。业务数据的存储备份及还原:...
以下内容为 AnalyticDB PostgreSQL版 实例常见故障场景中高性能版和高可用版的对比:恢复(Recovery)模式 根据以往 AnalyticDB PostgreSQL版 运行情况,故障最大的场景为恢复模式,故障概率远大于另外两种场景(计算节点故障和计算节点宿...
集群架构单副本:每个分片服务器采用单副本模式,无高可用功能,适用于纯缓存类常见或者QPS压力较大的业务场景。说明 集群架构还支持两种连接模式:代理模式 可提供智能的连接管理,降低应用开发成本。直连模式 支持客户端绕过代理服务器...
环境一致性 容器技术让您交付的不仅是代码,还有基于不可变架构的运行环境。持续反馈 每次集成或交付,都会将结果实时反馈。推荐搭配使用:云服务器 ECS+容器服务 基于云原生技术的机器学习 专注机器学习本身,快速实现从 0 到 1 帮助数据...
针对需要变更实例规格的数据库实例,DAS规格自动变配服务可进行计算资源的调整,用更符合用户业务负载的计算资源来处理应用请求,在该服务中,用户可自主配置业务负载流量的突发程度和持续时间,并可以指定规格变配的最大配置以及变配之后...
应用场景 传统应用微服务改造 通过微服务产品将传统金融业务系统拆分为模块化、标准化、松耦合、可插拔、可扩展的微服务架构,可缩短产品面世周期,快速上架,抢占市场待机;不仅可确保客户服务的效率,也降低了运营成本。高并发业务快速...
实例存储介质 随着互联网的高速发展,业务场景变得越来越丰富和复杂,云原生内存数据库Tair 作为一个高可用、高性能的分布式NoSQL数据库,从访问延时、持久化需求、整体成本这三个核心维度考量,基于DRAM、NVM和ESSD云盘存储介质,推出了...
30人 基于ITSM/ITIL的阿里云运维最佳实践工作坊 8 数字化时代业务形态越来越复杂,IT技术已经是业务发展的主要驱动力,面对复杂不确定的业务形态,如何让运维体系保障业务的安全、稳定和灵活性?阿里云集合传统IT运维理论并通过大规模商业...
随着云原生、容器化和微服务的快速发展,迭代节奏愈发加快,运维和SRE团队面临更多挑战,运维和SRE团队面临常见的困境如下:业务线广泛 业务线分布广泛,包括客户端、前端Web、应用后端。同时支持几条甚至数十条业务线。人力严重短缺 相对...
同时伴随着业务团队承接的业务体量越来越大,所需要的数据源的类型会变的越来越多。通常情况下,最近写入的数据访问频率会比很久之前写入的数据高很多,此时我们可以认为这些数据为“热”的。随着时间的推移,初始写入的,被认为是“热”的...
在进行数据库日常维护或处理数据库故障时,查看数据库相关的性能指标是必不可少的步骤。RDS MySQL的标准监控提供了丰富的性能监控指标,以及强大的诊断能力,能够及时发现数据库的异常并提供相应的治理方案。并且提供了常见数据库问题场景...
常见问题 基础系列升级/变配为什么很慢?因为基础系列是单节点,升级/变配时会检查当前所在物理机是否有足够资源,如果资源不足会在其他物理机上复制节点数据并切换,极端情况下会有30分钟以上不可用。建议您使用 高可用系列/集群系列,...
从负载均衡到路由,一键解决微服务应用问题 2022-09-08 利用MSE可观测能力和容量规划为业务保驾护航 业务大促备战是企业必做功课之一,趁着99大促来袭前,谈一谈如何利用MSE的服务自治能力提前发现潜在风险,通过可观测能力了解引擎内部...
如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...
多可用区部署的常见应用:关键业务系统:对于需要高可用性和连续性的关键业务系统,如金融服务、医疗保健和电子商务平台,多AZ部署可以确保系统即使在一个数据中心发生故障的情况下也能继续运行。容灾要求高的场景:当组织需要符合特定的...
扩缩容变配的数据迁移任务与正常业务争抢处理资源,迫使用户需要在业务低峰期进行扩缩容操作,影响扩缩容的灵活性。Tair集群版无感扩缩容方案 云原生内存数据库Tair 集群版基于新一代管控架构,通过中心化控制组件,高效、准确地控制集群...
扩缩容变配的数据迁移任务与正常业务争抢处理资源,迫使用户需要在业务低峰期进行扩缩容操作,影响扩缩容的灵活性。Tair集群版无感扩缩容方案 Tair(Redis企业版)集群版基于云数据库Redis版新一代管控架构,通过中心化控制组件,高效、...
本文介绍 PolarDB MySQL版 的常见问题和解答。基本问题 Q:什么是 PolarDB?A:PolarDB 是一个关系型数据库云服务,目前已在全球十多个地域(Region)的数据中心部署,向用户提供开箱即用的在线数据库服务。PolarDB 目前支持3种独立的引擎...
本文介绍 PolarDB PostgreSQL版(兼容Oracle)的常见问题和解答。基本问题 Q:什么是 PolarDB?A:PolarDB 是一个关系型数据库云服务,目前已在全球十多个地域(Region)的数据中心部署,向用户提供开箱即用的在线数据库服务。PolarDB 目前...
为确保ALB后端服务器的业务可用性,您可以通过为ALB服务器组配置健康检查来检查服务器组的运行状况,以避免后端服务器异常对业务的影响,并提升业务可靠性。本文为您介绍如何创建、编辑和删除健康检查等操作。背景信息 ALB 支持基于每个...
本文介绍 PolarDB PostgreSQL版 的常见问题和解答。基本问题 Q:什么是 PolarDB?A:PolarDB 是一个关系型数据库云服务,目前已在全球十多个地域(Region)的数据中心部署,向用户提供开箱即用的在线数据库服务。PolarDB 目前100%兼容...
Proxy为阿里云完全自研,承担着路由转发、负载均衡、模式转换与故障转移等职责,同时支持执行 阿里云自研的Proxy命令,具有聚合连接、增强读性能、简单易用等优势,有助于您设计更高效的业务系统,更多信息请参见 Tair Proxy特性说明。...
Proxy为阿里云完全自研,承担着路由转发、负载均衡、模式转换与故障转移等职责,同时支持执行 阿里云自研的Proxy命令,具有聚合连接、增强读性能、简单易用等优势,有助于您设计更高效的业务系统,更多信息请参见 Redis Proxy特性说明。...
介绍Link Visual视频能力集成过程中遇到的常见问题,以及对应的解决方法。请求接口返回错误,提示“请求被禁止”Link Visual服务未开通,请参见 快速体验Link Visual。请求接口返回错误,提示“Stream push failed”产品中缺少对应功能依赖...
常见的几种场景如下:机器/磁盘故障导致数据丢失 人为误操作导致数据丢失 有状态服务如数据库的升级出现问题,需要进行回滚恢复 解决方案 ADP的本地运维控制台提供了面向业务数据的备份还原能力:以组件下工作负载(通常是statefulset)为...
容器镜像服务镜像版本为不可变,视为“合规”。应用场景 开启镜像版本不可变后,除latest版本外,存量和新增的镜像版本不可覆盖,从而避免人为操作引起的镜像版本覆盖问题,保障企业的容器镜像版本一致性。风险等级 默认风险等级:高风险。...
ACR基于仓库级别的配置,支持镜像版本不可变,开启镜像不可变功能后,除latest版本外,存量和新增的其他镜像版本均不可覆盖,保障您的容器镜像版本一致性。您可以使用该功能,保证相同版本的镜像只可以被成功推送一次,而且可以避免人为误...
运维人员可以根据常见故障场景的处理过程,选择需要的原子能力进行编排组合,形成可执行的应急预案。当风险事件发生时,风险事件中心会推荐可执行的应急预案,供运维快速选择并自动化执行,从而通过标准化处理流程,实现故障快速恢复。故障...
NVMe共享盘可以帮助应用实现高可用、高并发、可扩展的业务,可以帮助基于传统SAN的业务无缝上云,共享盘常见的应用场景包括数据共享、高可用故障转移、分布式缓存加速、机器模型训练等。数据共享 NVMe最简单的应用场景为数据共享,当数据被...
分片数不变,仅调整分片规格,可变配至:每分片4 GB,4分片,实例总内存为16 GB(提高分片规格)每分片1 GB,4分片,实例总内存为4 GB(降低分片规格)分片规格不变,仅调整分片数为原来的2倍或0.5倍,可变配至:每分片2 GB,8分片,实例总...
故障演练就是这个背景下诞生的,沉淀通用的故障场景,以可控成本在线上故障重放,以持续性的演练和回归方式的运营来暴露问题,不断验证和推动系统、工具、流程、人员能力的提升,从而提前发现并修复可避免的重大问题,或通过验证故障发现...
本文介绍同城多活的常见问题以及解决方案。假设数据库主备,ECS双可用区部署,是否就是同城多活?和EDAS、MSE集群流量同可用区优先的差异和优势?消息是基于Shutdown机制实现多活么?数据库是两个机房各一个主备,还是主机房一主一备,备...
概述 方案介绍 同城容灾指应用服务部署是多机房、单地域时,当其中一机房出现故障时,全局流量管理(简称GTM)可实现业务7*24小时稳定运行,即使单机房故障也不影响业务的可持续性,保障用户访问连续不间断。本文将以同城双活的灾备架构为...
概述 方案介绍 大部分企业的应用服务都会使用多个运营商的IP地址,因此可能会存在跨网延迟、丢包、故障不可用等问题,而全局流量管理产品方案可以根据用户请求源地址的运营商,解析就近的应用服务器IP地址,实现就近接入、访问加速、故障...
在同城多活的场景下,能够确保对跨可用区的多个业务集群的请求实现高效负载均衡分配,在单个可用区内的业务集群发生故障时,可在1秒内完成故障节点的自动摘除从而实现故障转移,有效的保障服务连续性和高可用性。容灾概述 目前云上容灾主要...
数据传输服务DTS(Data Transmission Service)已接入云监控平台,您可以通过事件订阅对重要的事件设置定制化的报警通知,让您及时了解事件的发生与进展,帮助您实时掌握事件动态,便于您在业务故障时快速分析并定位问题。背景信息 云监控...
本文介绍NAT网关的常见故障及排查方案。流量不通类故障排查:ECS实例配置DNAT条目后无法被公网访问 VPC内新建交换机的ECS无法通过SNAT访问公网 VPC内存在多个NAT网关时,某交换机的ECS实例不能访问公网 访问流量异常类故障排查:客户端访问...
概述 方案介绍 异地容灾是指应用服务部署在不同地域时,当其中一地出现故障时,全局流量管理(简称GTM)可以将出现故障地域的用户访问流量,调度至异地灾备中心,保障用户访问连续不间断。本文将以两地三中心灾备架构为读者讲解异地灾备的...
架构图 方案描述 网络架构如上图所示,各模块分别是:HK业务VPC-1用于承载业务1的资源,HK业务VPC-2用于承载业务2的资源,以上两个业务部署在中国香港地域,BJ业务VPC用于承载北京业务资源,本业务部署在北京地域。在中国香港部署一个安全...
常见问题 什么原因会导致变配失败?若实例中存在大Key,可能会导致变配失败。建议在变配前,排查并删除大Key,再执行变配操作。关于排查大Key的方法请参见 离线全量Key分析。为避免数据丢失,降配时存在如下限制:新实例内存规格的80%需...