ADP提供基于线下交付经验设计的丰富故障演练场景,对基础设施、底座、中间件的常见故障场景进行覆盖,涵盖了集群级别的大规模故障以及节点、pod级别的资源故障。部分演练场景为破坏性场景(如机器重启、网卡损坏),可能导致环境状态异常、...
本文介绍NAT网关的常见故障及排查方案。流量不通类故障排查:ECS实例配置DNAT条目后无法被公网访问 VPC内新建交换机的ECS无法通过SNAT访问公网 VPC内存在多个NAT网关时,某交换机的ECS实例不能访问公网 访问流量异常类故障排查:客户端访问...
在定义故障等级的时候,需要从功能等级、业务体量、业务特性、量化影响4个维度进行设计,一个简要的通用故障等级定义参考模板如下:业务量级 功能分类 影响面 P1 P2 P3 P4 大体量 核心功能 成功率下跌30%及以上 P1 成功率下跌20%~30%P2 ...
在企业数字化转型过程中,基于云计算平台服务,可以让企业快速构建新业务、减少业务故障率、持续观测业务指标、提升业务稳定性,使企业更加专注于业务本身。总体而言,主要包括以下几个关键领域:卓越运营第一个关键领域是确定组织的运营...
数据传输服务DTS(Data Transmission Service)已接入云监控平台,您可以通过事件订阅对重要的事件设置定制化的报警通知,让您及时了解事件的发生与进展,帮助您实时掌握事件动态,便于您在业务故障时快速分析并定位问题。背景信息 云监控...
故障根源定位:后台系统的故障,往往通过上一级的业务故障表现出来。故障处理讲究的是争分夺秒,良好的强弱依赖,对于系统自动化诊断有非常大的助力作用。依赖容量评估:正常调用链路下的系统容量需要评估。例如当某个弱依赖挂掉时,需要...
在突袭演练中,红蓝双方是纯对抗的关系,因此对红蓝双方提出了更高的要求,蓝军不仅需要了解目标系统的薄弱点,更需要了解目标系统的业务,红军不仅仅需要修复故障,还需要快速的发现故障和有效的应急协同。相比较计划演练,突袭演练涉及到...
例如,在CDN和高防联动且回源到OSS的场景,由于CDN回源支持修改 回源HOST,而DDoS高防不支持,导致发生攻击自动切换到DDoS高防后,DDoS高防回源到OSS的正常流量无法被识别,出现业务故障。关于验证流量调度规则的操作,请参见 本地验证转发...
云产品联动表示通过自定义规则,联动使用DDoS高防与阿里云公网IP资源,解决网站业务接入高防防护后,正常业务访问延时增加的问题。前提条件 业务使用阿里云公网IP资源,具体包括拥有公网IP的云服务器ECS或负载均衡SLB、弹性公网IP、Web应用...
常见故障场景自动诊断:内置长期经验沉淀的运维知识库,自动识别常见故障问题,并提供故障处置建议。自动化巡检和告警通知:内置基础告警策略并可灵活配置,可对接多种告警通知方式,定期巡检,及时感知问题。业务数据的存储备份及还原:...
云消息队列 RocketMQ 版 支持通过云监控配置告警规则,以便您可以实时监控实例的运行状态和关键的业务指标,并能够及时收到异常的告警通知,实现生产环境的风险预警。背景信息 云消息队列 RocketMQ 版 提供全托管的消息服务,对于每个规格...
本文为您介绍PCDN服务适用的常见业务场景。PCDN服务适用于哪些业务场景?PCDN服务适用于视频点播、直播、大文件下载等业务场景,包括且不限于版权长视频点播、短视频点播、互动娱乐直播、晚会赛事直播、应用市场分发、音频点播等各类产品,...
云消息队列 RocketMQ 版 支持通过云监控配置告警规则,以便您可以实时监控实例的运行状态和关键的业务指标,并能够及时收到异常的告警通知,实现生产环境的风险预警。背景信息 云消息队列 RocketMQ 版 提供全托管的消息服务,对于每个规格...
使用场景 纯缓存类业务场景 单副本架构不能提供数据可靠性,如果发生节点故障,您需要重新对业务进行预热,因此,在对数据可靠性要求较高的敏感性业务中,建议选用双副本架构。对Redis协议兼容性要求较高的业务 标准版完全兼容Redis协议,...
智能语音导航是综合利用自动语音识别(Automatic Speech Recognition,...避免大量简单重复工作流入人工客服处理 业务咨询-将智能知识库用在热线电话场景中,当客户拨打客服电话时,机器人可以解答部分常见业务问题,有效减少人工客服接听率。
分布式架构,单节点故障业务不受影响 云数据库Memcache版采用分布式集群架构,每个节点均由双机热备架构组成,具备自动容灾及故障迁移能力。多种规格可适配不同的业务压力,数据库性能支持无限扩展。支持数据持久化及备份恢复策略,有效的...
纯缓存应用 单副本集群版的分片服务器由单节点组成,分片服务器某节点出现故障时,系统会重新拉起一个Redis进程(没有数据),当节点故障业务自动切换完成后,数据将会丢失,有可能流量被冲击到后端数据库,需要做好应用程序的预热保护机制...
本文列举了接入 美颜特效SDK 常见的咨询类问题。目录 什么是 美颜特效SDK?美颜特效SDK 是否支持第三方接入使用?如何选择 美颜特效SDK 版本?如何申请不同版本的SDK?想要手势识别或智能抠图SDK如何获取?什么是 美颜特效SDK?美颜特效SDK...
标准架构单副本类型的适用场景:纯缓存类业务场景 单副本架构不能提供数据可靠性,如果发生节点故障,您需要重新对业务进行预热,因此,在对数据可靠性要求较高的敏感性业务中,建议选用双副本架构。对Redis协议兼容性要求较高的业务 标准...
本文列举了接入 美颜特效SDK 常见的咨询类问题。目录 什么是 美颜特效SDK?美颜特效SDK 是否支持第三方接入使用?如何选择 美颜特效SDK 版本?如何申请不同版本的SDK?想要手势识别或智能抠图SDK如何获取?什么是 美颜特效SDK?美颜特效SDK...
阿里云服务 主要特征 常见业务场景 块存储 EBS 高性能、低延迟,99.9999999%数据可靠性 应用程序、OLTP数据库、NoSQL数据库等I/O密集型的高性能、低时延业务 对象存储 OSS 海量、高吞吐、安全、低成本,多种访问方式,99.9999999999%数据...
标签设计示例 下表列举了常见业务维度的标签命名示例。涉及英文标签命名时,建议使用小写英文字母。业务维度 标签键(key)标签值(value)组织架构 company department organization team group 相关名称 业务架构 product business ...
标签设计示例 下表列举了常见业务维度的标签命名示例。涉及英文标签命名时,建议使用小写英文字母。业务维度 标签键(key)标签值(value)组织架构 company department organization team group 相关名称 业务架构 product business ...
应用场景 支付与转账 金融行业常见的支付、转账、账务等业务场景对于吞吐量有很高的要求。SOFAStack 分布式事务在各类大促中的优异表现证明了性能不会成为瓶颈。财富理财 这类场景中往往涉及的金额较大,所以对于产品的稳定性要求非常高。...
常见的故障自动诊断场景 RT突增 下游业务导致的本应用的RT突增,您可以联系下游业务的负责人进行排查。应用变更导致的RT突增,您可以查看此次变更的具体变更进行排查。应用的某个服务导致RT突增,可以排查以下情况:服务是否在此时有发生...
分布式拒绝服务攻击(DDoS攻击)是一种针对目标系统的恶意网络攻击行为,DDoS攻击经常会导致被攻击者的业务无法正常访问,也就是所谓的拒绝服务。常见的DDoS攻击包括以下几类:网络层攻击 比较典型的攻击类型是UDP反射攻击,例如NTP Flood...
当消费者出现故障或者消费错误数据时,您可通过重置消费位点将消费位置回滚到之前的某个位点,重新开始消费。您也可以将消费位置移动至最新位点,暂时不处理堆积的消息。背景信息 云消息队列 RocketMQ 版 通过消费位点管理消息的消费进度。...
稳定运行的云原生业务 云原生化进行后,业务持续运行过程中需要根据业务的动态变化制定相应的成本治理策略,常见于以下场景:业务呈现较明显周期性波动,例如出现早九晚五是流量高峰期的现象。此场景推荐使用成本洞察功能观测规律,并采取...
NVMe共享盘可以帮助应用实现高可用、高并发、可扩展的业务,可以帮助基于传统SAN的业务无缝上云,共享盘常见的应用场景包括数据共享、高可用故障转移、分布式缓存加速、机器模型训练等。数据共享 NVMe最简单的应用场景为数据共享,当数据被...
7*24监控值班 对于有条件的企业,可以设立全球运行指挥中心(Global Operations Center,简称GOC),实现7*24监控值班,时刻关注核心业务线上异常与故障。对于完成监控覆盖的核心业务场景,在异常上报时,通过工具自动检测或值班人员人工...
NLP自然语言处理 常见问题 调用异常自助排查(错误码汇总)服务协议 NLP自学习平台 常见问题 实体抽取项目常见问题 故障排除 私有化部署 企业智能搜索 错误码对照表 常见问题
云数据库Lindorm高可用方案:同城主备架构,使业务具备故障情况下的快速切换能力。客户价值 迁移到云数据库Lindorm后,性能显著提升,存储开销下降,从而使得业务的吞吐量大幅提高。迁移后具备了同城主备能力,使得业务具备了跨可用区容灾...
云端可以对批量设备发送广播下行通知,设备端可以按照如下方式对广播进行处理。目前云端支持单设备广播和批量广播,这两种下发的topic格式是不一样的,设备端需要根据需要支持的形式做响应。批量广播 批量广播是系统广播,无需端上进行订阅...
高可用管理平台 HAS 定位于 IT 技术...故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的演练和恢复计划,保证用户能够有计划地测量和观测应用高可用能力。
物联网平台支持广播通信,即向指定产品下的全量设备(设备无需订阅广播Topic),或订阅了指定Topic的所有设备发送消息。设备在线,即可收到服务器发送的广播消息。本文以向全量在线设备广播消息为例,介绍广播通信的具体配置流程。背景信息...
故障通告及更新 基于7x24监控值班工作特性,对于业务异常达到故障等级时,以用户定制的(语音、短信、IM)的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组,并持续更新直至故障结束。故障应急协同群 故障发生后,可以...
在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个阶段:安装故障演练探针 创建演练 执行演练 停止...
概述 方案介绍 异地容灾是指应用服务部署在不同地域时,当其中一地出现故障时,全局流量管理(简称GTM)可以将出现故障地域的用户访问流量,调度至异地灾备中心,保障用户访问连续不间断。本文将以两地三中心灾备架构为读者讲解异地灾备的...
数据服务中提供光伏智能运维的IV曲线诊断算法,结合环境光强度、环境温度等影响因素,对组串式光伏发电阵列的电流-电压曲线(I-V曲线)进行分析,检测系统可能出现的故障,进而提高设备的运行效率,保障电站高效运行。本文介绍光伏智能运维...
控制台访问集群异常问题排查 组件异常问题排查 ACK Serverless集群 故障排查 常见问题索引 集群类型 相关文档 托管版与专有版容器集群ACK 常见问题 ACK Serverless集群 常见问题 分布式云容器平台ACK One 常见问题 容器服务ACK发行版 常见...