通过可观测性能力进行故障处理最佳实践

具体使用时可将这些指标大致分为以下三类:一级指标:建议将没有歧义的、可衡量业务正常运行的指标作为一级指标,这些指标出现异常则一定是业务链路出现问题一般可用做监控报警项。例如,消息收发TPS超过规格限制可触发实例流控,您可以...

补数据

什么补数据选择业务时间昨天和今天,也会出现等待时间的情况?为什么补数据选择补0点~1点生成了多个实例?为什么进行大量补数据操作时,会出现等待资源情况(实例显示黄色,实例状态为等待资源)?为什么补数据报错调起的节点运行时间不...

云盒计算资源配置最佳实践

说明 云盒中的硬件设备出现故障时,业务会迁移到冗余资源上来确保业务连续性,同时阿里云会向您发送云盒维修事件通知,您需要授权同意阿里云上门更换并维修硬件设备。关于如何授权维修以及维修相关流程,请参见 响应云盒维修事件 和 云盒...

应用场景

如果现有计算资源突然出现故障导致业务受到影响,很难及时进行故障修复或者替换。您可以利用弹性伸缩的高可用优势,开启健康检查模式。阿里云自动检查实例的健康状态,当发现存在实例不健康时,自动增加实例替换不健康的实例,确保...

外呼机器人常见问题解决方式

3)检查当前业务是否有绑定外呼号码(一般控制台内发起外呼时会进行校验业务下号码,但代码上传过程中会出现此状况);到号码管理中查看号码绑定情况。4)检查当前业务并发是否为0,业务并发为0时任务也无法正常发起;4、业务管理中,新建...

修改带宽策略

业务会出现计划中的流量高峰,例如限时秒杀场景,需要灵活地变更带宽。业务中临时出现较多的大Key读写,需要快速消除带宽限制避免影响业务,同时为处理大Key问题预留时间。主机内网基础带宽详情 主机规格 规格族 CPU(核)内存(GB)内网...

标准版-双副本

当主节点出现故障,自研的HA系统自动进行主从切换,保证业务平稳运行。数据可靠 默认开启数据持久化功能,数据全部落盘。支持数据备份功能,用户可以针对备份集回滚实例或者克隆实例,有效地解决数据误操作等问题。同时,在支持容灾的...

标准架构

当主节点出现故障,自研的HA系统自动进行主从切换,保证业务平稳运行。数据可靠 默认开启数据持久化功能,数据全部落盘。支持数据备份功能,用户可以针对备份集回滚实例或者克隆实例,有效地解决数据误操作等问题。同时,在支持容灾的...

强弱依赖治理概述

如果商品详情页对下游依赖是强依赖,例如当下游依赖 库存、优惠、物流 出现故障的时候,将导致业务流程无法推进,会出现类似如下的说明,严重影响用户体验。如果商品详情页对下游依赖是弱依赖,例如当下游依赖 评价、店铺 等系统出现故障的...

事件中心

重命名分组 鼠标移动到自定义分组上方,会出现省略号图标,如下图所示。单击省略号图标,出现 重命名 按钮,单击 重命名。在弹窗中输入新的分组名称,单击 确定 完成重命名。删除分组 鼠标移动到自定义分组上方,会出现省略号图标,如下图...

实例运维常见问题

本文汇总了Lindorm实例在扩缩容、升降配、实例重启、版本升级等实例运维场景中的常见问题,包括但不限于操作耗时、业务影响及费用说明,帮助您快速了解运维操作中的相关细节和注意事项。问题导览 扩容、升配、服务开通 实例扩容节点需要...

数据服务

数据服务不支持ECS自建的数据库,配置内网地址时,会出现网络不通的情况。是否必须开通API网关?API网关提供了API托管服务,如果您的API计划对外开放调用,则必须先开通API网关服务。如何配置数据源?数据源需要在 工作空间管理>数据源管理...

PolarDB MySQL版CPU使用率高

此类问题一般可以通过开启集群的thread_pool特性进行流控缓解,具体请参见 Thread Pool。如果活跃线程有所缓解,同时还要注意应用侧是否已经产生了业务堆积,如果CPU负载较高同时活跃线程依然高居不下,此时则同样要考虑是不是对集群进行扩...

专享实例集群

在添加专享实例到集群之后,如果集群的出口地址有新增,请注意将新增的出口地址添加到您后端服务的白名单中,避免出现配置后访问不通的问题;在添加或移除专享实例时,集群下API分组的域名添加或解除DNS解析,解析配置的TTL为60秒。

管理通用云盘

影响 将ESSD云盘变更为通用云盘时,立即执行,过程中没有闪断,一般情况下对业务无影响。少数情况下实例的IOPS有波动,建议在业务低峰期操作。注意事项 实例的存储类型由ESSD云盘变更为通用云盘,对主备实例(高可用系列)、主实例...

常见问题

本文汇总了使用多活容灾时的常见问题。MSHA基础常见问题 什么是...同城多活单元格流量切零后,企业版RocketMQ的ons.log中为什么会出现日志brokerName=msha_mock_queueBrokerName?异地多活如何查看MSHA-agent是否从HTTP流量中提取出了路由标?

数据库代理常见问题

本文汇总了 PolarDB 数据库代理相关的常见问题。为什么刚插入的语句,立即查的时候查不到?读写分离的架构下,主节点和只读节点之间复制有延迟,但 PolarDB 支持会话一致性,即同一个会话内保证能读到之前的更新,详情请参见 会话一致性...

故障演练

故障演练就是这个背景下诞生的,沉淀通用故障场景,以可控成本在线上故障重放,以持续性的演练和回归方式的运营来暴露问题,不断验证和推动系统、工具、流程、人员能力的提升,从而提前发现并修复可避免的重大问题,或通过验证故障发现...

混沌工程缓存实战系列-Redis

Redis是一个开源高性能的Key-Value存储系统,虽然Redis本身具备了非常高的可用性,但是在实际应用中也随着系统业务的复杂性以及不合理的使用,而导致很多的问题。本文将讲述如何通过混沌工程来暴露可能存在的使用风险,提升缓存问题的...

DataWorks节点合集

DataWorks的数据开发(DataStudio)模块为您提供多种类型的节点,包括用于数据同步的数据集成节点,用于数据清洗的引擎计算节点(例如,ODPS SQL、Hologres SQL、EMR Hive),以及可对引擎计算节点进行复杂逻辑处理的通用节点(例如,可...

图片管理常见问题

由于元数据索引机制为异步处理,从图片索引、人脸分组、人脸分组能被搜索到均需要一定的时间,所以在设计业务逻辑时,请考虑延迟带来的数据一致性问题。图片索引:通常调用 IndexFileMeta-索引文件元信息 接口对图片进行索引需要10秒。人脸...

人群基本功能

添加、移动分组 最多添加三级分组,操作步骤:鼠标移动到任意分组(或 全部人群)上方,会出现加号图标,如下图所示。单击加号图标。在弹窗中选择新分组是原分组的同级还是子级,输入新分组名称。单击 确定 完成创建。新分组将加入目录。...

出海加速

例如,在CDN和高防联动且回源到OSS的场景,由于CDN回源支持修改 回源HOST,而DDoS高防不支持,导致发生攻击自动切换到DDoS高防后,DDoS高防回源到OSS的正常流量无法被识别,出现业务故障。关于验证流量调度规则的操作,请参见 本地验证转发...

添加安全加速规则

例如,在CDN和高防联动且回源到OSS的场景,由于CDN回源支持修改 回源HOST,而DDoS高防不支持,导致发生攻击自动切换到DDoS高防后,DDoS高防回源到OSS的正常流量无法被识别,出现业务故障。关于验证流量调度规则的操作,请参见 本地验证转发...

服务分组

服务部署完成后,部分卡型在某些地域可能会出现停卡或库存不足的问题,导致服务无法正常扩容。您可以通过服务分组功能,在同一个服务分组中使用不同的卡型动态创建新服务。因为不同卡型对CUDA环境有不同程度的依赖,不同服务可以适配不同的...

异地应用双活切流

在⼀个数据中心发生故障或灾难的情况下,将流量切换到其他数据中心,其他数据中心可以正常运行并对关键业务或全部业务进行接管,实现故障灾难场景的业务快速恢复。本文将介绍在异地应用双活中如何创建切流任务并查看切流详情。前提条件 ...

WAF接入配置最佳实践

这种情况下,在将域名接入WAF后可能会出现访问空白页502的错误信息,您只需禁用该配置选项即可解决该问题。防护策略配置。参考以下推荐防护配置对已接入的网站业务进行防护:规则防护引擎 一般情况下,建议选用 拦截 模式,并选用 中等规则...

变更配置

警告 根据变更项不同,切换过程中可能会出现业务闪断或实例重启,而且与数据库、账号、网络等相关的大部分操作都无法执行,请选择在 可维护时间段 内执行变配操作。变更项 说明 业务影响 系列 支持 PostgreSQL基础系列升级高可用系列。...

网关结果码说明

本文对使用移动网关过程中出现的结果码进行说明,方便您进行问题排查。网关侧结果码 1000 为 API 调用成功,其他都是失败的错误码。1001-5999、7XXX 为网关错误。其中,7XXX 表示无线保镖验签或解密报错,具体参见 无线保镖结果码说明 进行...

资源组设计最佳实践

为了满足上述需求,该公司以“业务系统+环境”的维度进行了资源组设计,共创建了“业务系统A开发环境”、“业务系统A生产环境”、“业务系统B开发环境”、“业务系统B生产环境”共4个资源组,并给相应的公司职能人员赋予了对应资源组的权限...

云产品联动

例如,在CDN和高防联动且回源到OSS的场景,由于CDN回源支持修改 回源HOST,而DDoS高防不支持,导致发生攻击自动切换到DDoS高防后,DDoS高防回源到OSS的正常流量无法被识别,出现业务故障。关于验证流量调度规则的操作,请参见 本地验证转发...

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...

CLB健康检查FAQ

如上所述,由于健康检查成功后,负载均衡服务器直接发送TCP RST包中断了连接,并没有做进一步的业务数据交互,导致上层业务(例如Java连接池等)认为相应的连接是异常的,所以会出现 Connection reset by peer 等错误信息。解决方案 更换...

带宽扩展包

业务带宽超限有什么影响 如果接入WAF防护的网站的正常业务流量超出您已购买的WAF实例的业务带宽(即业务带宽超限),WAF降低超用业务的网络、计算等资源分配的优先级,触发限流、随机丢包等动作,导致您的业务在一定时间内出现卡顿、延迟...

数据库代理常见问题

如果您在使用RDS MySQL数据库代理过程中存在疑问或遇到问题,可以参考本文查看解决方案。目录 什么是数据库代理?通用型代理和独享型代理有什么区别?数据库代理是否占用主实例的QPS或者TPS?数据库代理地址和常规地址是否是一个地址?开通...

消费进度管理

某消息被指定消费者消费过一次后,如果业务出现异常需要做故障恢复,该消息能否被重新消费?消费进度原理 消息位点(Offset)参考 云消息队列 RocketMQ 版 主题 和 队列 的定义,消息是按到达服务端的先后顺序存储在指定主题的多个队列中,...

使用云监控功能监控网站环境(部署于ECS实例)

设置合理的监控可以让您实时了解系统业务的运行情况,并能帮助您提前发现问题,避免可能会出现业务故障。同时,告警机制能让您在故障发生后第一时间发现问题,缩短故障处理时间,以便尽快恢复业务。前提条件 在开始设置云监控前,您需要...

Mesh 网关

本文结合无线网关的发展历程,解读进行 Service Mesh 改造的缘由和价值,同时介绍在双十一落地过程中如何保障业务流量平滑迁移至新架构下的 Mesh 网关。具体内容将从下述几个方面展开:网关的演变历史:解释网关为什么要 Mesh 化。网关 ...

业产技融合分层协作方案

第一个问题如果回答的不好,就会出现技术团队很忙,效率也很高,但是仍然无法满足公司的业务发展,或者无法让业务团队感到满意。第二个问题如果回答的不好,就会出现产品技术团队每天在不断的接需求、做需求,功能在不断增加和堆叠,但是...

使用须知

⑥当号码作为热点使用时,网络不稳定可能会出现定向流量和通用流量交错使用的情况。4.其他规则 该定向流量包不参与套餐分享,不可结转,副卡不可共享。5.其他规则和要求以中国电信要求为准。大视频聚合定向流量包使用须知 1.该定向流量包只...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
商标服务 物联网无线连接服务 云服务器 ECS 云数据库 Redis 版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用