设置合理的监控可以让您实时了解系统业务的运行情况,并能帮助您提前发现问题,避免可能会出现的业务故障。同时,告警机制能让您在故障发生后第一时间发现问题,缩短故障处理时间,以便尽快恢复业务。前提条件 在开始设置云监控前,您需要...
具体使用时可将这些指标大致分为以下三类:一级指标:建议将没有歧义的、可衡量业务正常运行的指标作为一级指标,这些指标出现异常则一定是业务链路出现问题,一般可用做监控报警项。例如,消息收发TPS超过规格限制可触发实例流控,您可以...
CoreDNS版本过低 异常影响:集群内CoreDNS组件版本过低,会导致业务出现DNS解析问题。最新版的CoreDNS提供了更好的稳定性配置和新的功能。解决方案:为避免业务出现DNS解析问题,您需要尽快升级CoreDNS。Ingress版本过低 异常影响:集群内...
CoreDNS版本过低 异常影响:集群内CoreDNS组件版本过低,会导致业务出现DNS解析问题。最新版的CoreDNS提供了更好的稳定性配置和新的功能。解决方案:为避免业务出现DNS解析问题,您需要尽快升级CoreDNS。具体操作,请参见 CoreDNS手动升级...
当然中小企业可能也会出现业务突增的情况,需要高并发高吞吐的数据库来处理业务,对数据库的扩展性有一定的要求。或者随着业务规模的发展,使用集中式数据库的业务也会有分布式扩展的需求。因此 云原生数据库PolarDB分布式版(简称...
CoreDNS版本过低 异常影响:集群内CoreDNS组件版本过低,会导致业务出现DNS解析问题。最新版的CoreDNS提供了更好的稳定性配置和新的功能。解决方案:为避免业务出现DNS解析问题,您需要尽快升级CoreDNS。具体操作,请参见 CoreDNS手动升级...
说明 云盒中的硬件设备出现故障时,业务会迁移到冗余资源上来确保业务连续性,同时阿里云会向您发送云盒维修事件通知,您需要授权同意阿里云上门更换并维修硬件设备。关于如何授权维修以及维修相关流程,请参见 响应云盒维修事件 和 云盒...
如果现有计算资源突然出现故障,会导致业务受到影响,很难及时进行故障修复或者替换。您可以利用弹性伸缩的高可用优势,开启健康检查模式。阿里云会自动检查实例的健康状态,当发现存在实例不健康时,自动增加实例替换不健康的实例,确保...
如果现有计算资源突然出现故障,会导致业务受到影响,很难及时进行故障修复或者替换。此时可以利用弹性伸缩的高可用优势,开启健康检查模式。阿里云会自动检查实例的健康状态,当发现存在实例不健康时,自动增加实例替换不健康的实例,确保...
业务将会出现计划中的流量高峰,例如限时秒杀场景,需要灵活地变更带宽。业务中临时出现较多的大Key读写,需要快速消除带宽限制避免影响业务,同时为处理大Key问题预留时间。主机内网基础带宽详情 主机规格 规格族 CPU(核)内存(GB)内网...
说明 库表数量多不一定会出现问题,是否出现问题与业务模型和负载等因素也有关系。例如以下两种业务场景,数据库规格相同且都有1万的库表数和10万的总文件数,但面临的问题完全不一样:会计软件系统:访问具备明显的聚集性特征,大多数库表...
在对Java进程注入故障时,可能会出现故障注入失败的情况。为解决此类问题,在创建或编辑演练时,您可以在故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,...
恢复数据 如果您已经按照前文的步骤搭建了高可用架构实例,您的业务一般是可以稳定运行的,即使出现问题也能快速恢复到可用状态。如果是单机故障,RDS除了基础系列之外的实例都可以在短时间内进行 主备切换 快速恢复您的业务。如果是可用区...
为什么补数据选择业务时间昨天和今天,也会出现等待时间的情况?为什么补数据选择补0点~1点生成了多个实例?为什么进行大量补数据操作时,会出现等待资源情况(实例显示黄色,实例状态为等待资源)?为什么补数据报错调起的节点运行时间不...
相关api:查询全部行业包(ListIndustryPackages)订阅行业包(InstallPackage)取消订阅行业包(UninstallPackage)步骤4 为机器人配置商家域知识 系统内置行业包无法覆盖商家全部业务问题,也可能会出现商家对场景的理解和系统内置行业包...
背景信息 备实例切换为主实例的过程可能会导致业务出现秒级闪断,建议在业务低谷期操作。切换完成后,原主实例将变为备实例,原主实例工作台展示的信息将切换为备实例的工作台信息。操作步骤 登录 OceanBase 管理控制台。在左侧导航栏中,...
警告 根据变更项不同,切换过程中可能会出现业务闪断或实例重启,而且与数据库、账号、网络等相关的大部分操作都无法执行,请选择在 可维护时间段 内执行变配操作。变更项 说明 业务影响 系列 支持 PostgreSQL基础系列升级高可用系列。会...
局部性质:数据直接或间接用于某些业务线的运营、报告等,如果出现问题会给业务线造成一定的影响或造成工作效率降低。标记为A3。一般性质:数据主要用于日常数据分析,出现问题带来的影响极小。标记为A4。未知性质:无法明确数据的应用场景...
局部性质:数据直接或间接用于某些业务线的运营、报告等,如果出现问题会给业务线造成一定的影响或造成工作效率降低。标记为A3。一般性质:数据主要用于日常数据分析,出现问题带来的影响极小。标记为A4。未知性质:无法明确数据的应用场景...
局部性质:数据直接或间接用于某些业务线的运营、报告等,如果出现问题会给业务线造成一定的影响或造成工作效率降低。标记为A3。一般性质:数据主要用于日常数据分析,出现问题带来的影响极小。标记为A4。未知性质:无法明确数据的应用场景...
例如,业务日期为 1月11日~1月13日,并行数为2组,则会生成两个补数据实例(其中一个补数据实例会包含两个业务日期,这两个业务日期对应的任务串行执行),两个补数据实例并行执行。补数据告警 设置此次补数据操作是否会触发告警。是:满足...
故障切换 对于高可用系列、集群系列实例,当主节点出现故障时,RDS会在30秒内切换到备节点(某些主备不一致等特殊场景可能切换时间较长)。切换过程中有30秒左右的连接闪断,需要您设置好程序的自动重连,避免因为切换导致服务不可用。切换...
业务场景 Kafka将日志数据存储到磁盘中,当磁盘出现故障时,会导致磁盘IO能力下降、集群吞吐下降、消息读写延时或日志目录offline等问题。这些情况有可能影响到线上业务平稳运行、数据丢失、Kafka集群容错能力下降,单块盘故障甚至有可能...
当主节点出现故障,自研的HA系统会自动进行主从切换,保证业务平稳运行。数据可靠 默认开启数据持久化功能,数据全部落盘。支持数据备份功能,用户可以针对备份集回滚实例或者克隆实例,有效地解决数据误操作等问题。同时,在支持容灾的...
当主节点出现故障,自研的HA系统会自动进行主从切换,保证业务平稳运行。数据可靠 默认开启数据持久化功能,数据全部落盘。支持数据备份功能,用户可以针对备份集回滚实例或者克隆实例,有效地解决数据误操作等问题。同时,在支持容灾的...
3)检查当前业务是否有绑定外呼号码(一般控制台内发起外呼时会进行校验业务下号码,但代码上传过程中会出现此状况);到号码管理中查看号码绑定情况。4)检查当前业务并发是否为0,业务并发为0时任务也无法正常发起;4、业务管理中,新建...
通常情况下,数据库实例中只有Main Master在工作,Standby Master节点作为高可用备份,当Main Master节点出现故障时,Standby Master才会切换成Main Master进行工作。随着业务的发展,例如实时数仓和HTAP场景需求的增加,Single-Master的...
实时告警与通知:云拨测提供实时告警功能,当业务出现异常时,会主动发送告警通知,快速响应并处理问题。数据可视化:通过直观的数据展示和报表,您可以轻松了解网络状况、性能以及故障分析。应用场景 网络性能监控:云拨测可以帮助企业和...
故障恢复 本机出现故障后在云上拉起本地业务,待本地环境恢复后再将其恢复到本地。具体步骤如下:在 主站点管理 页签,单击+添加。在 添加计算平台 页面,填写计算平台 名称,选择 类型,填写 IP地址、用户名 和 密码。单击 创建。在连续...
同时,您可以通过控制台的切流操作,将出现故障的可用区隔离,这时系统会自动在剩余的可用区中补充计算资源,满足业务对资源的需求。本文介绍如何部署和使用(切流和恢复)跨可用区实例。应用场景 跨可用区部署支持单可用区、跨2个可用区、...
如果商品详情页对下游依赖是强依赖,例如当下游依赖 库存、优惠、物流 出现故障的时候,将导致业务流程无法推进,会出现类似如下的说明,严重影响用户体验。如果商品详情页对下游依赖是弱依赖,例如当下游依赖 评价、店铺 等系统出现故障的...
一般会将新版本的实例规格和数量与旧版本保持一致。当新版本服务验证通过后,将业务流量全部切至新版本。旧版本作为热备。如新版本上线后出现问题,可将流量全部切回至旧版本完成回滚,缩短故障恢复时间。A/B测试:通过用户请求的元信息将...
在日常业务链路中,会出现多次跨机房调用,增加性能损耗。同城双活模式:会优先调用同可用区,同可用区找不到调用目标,再调用其他可用区。最佳实践 最佳实践方案建议包含下述逻辑:每个应用的所有节点对等部署在同城的两个可用区。每个...
节点文件系统只读状态 节点出现文件系统只读,通常是因为磁盘故障,会导致节点无法写入数据,可能造成业务异常。请尝试在节点上使用fsck命令修复文件系统,然后重启节点。节点硬件时间 检查节点硬件时钟与系统时间是否一致,时间相差超过2...
当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...
JvmCodeCache满 制造JVM CodeCache区域满的故障,CodeCache区域满会直接导致JIT编译关闭,从而引起业务系统性能下降。一般用于验证业务系统在高并发且系统性能下降的情况下,是否能够通过限流、快速扩容等手段保证业务连续性。参数说明如下...
在实例进行主备切换时,业务可能会出现长连接闪断的情况,以此验证业务是否具备失效重连机制。使用场景 部分业务或大规模业务实例不可用。Redis、RDS云服务高可用实例部分不可用。使用限制 安全组断网只针对新建立的网络连接进行阻断,并不...
本文汇总了Lindorm实例在扩缩容、升降配、实例重启、版本升级等实例运维场景中的常见问题,包括但不限于操作耗时、业务影响及费用说明,帮助您快速了解运维操作中的相关细节和注意事项。问题导览 扩容、升配、服务开通 实例扩容节点需要...
容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...
Spark访问外部数据源时,为什么会出现网络连接失败问题?Spark SQL应用使用SHOW TABLES或SHOW DATABASE命令查询库表时,为什么显示的库表与实际库表不符?Spark应用为什么提示错误日志oss object 403?如何定位Spark应用运行速度变慢的原因...