故障管理

故障管理的重要性 无论是理论还是实践,均证明故障只要有发生的可能,它总会发生。根据墨菲定律,假设某意外事件在一次实验(活动)中发生的概率为p(p>0),则在n次实验(活动)中至少有一次发生的概率为P=1-(1-p)n。由此可见,当实验次数...

附录:SOFAStack 产品目录

SOFAStack 分布式事务在各类大促中的优异表现证明了性能不会成为瓶颈。财富理财 这类场景中往往涉及的金额较大,所以对于产品的稳定性要求非常高。SOFAStack 分布式事务拥有金融级的品质,可为业务的持续性与稳定性保驾护航。保险与监管...

发现并处理大Key和热Key

在使用 云原生内存数据库Tair 的过程中,如果未能及时发现并处理Big keys(下文称为“大Key”)与Hotkeys(下文称为“热Key”),可能会导致服务性能下降、用户体验变差,甚至引发大面积故障。本文将介绍大Key与热Key产生的原因、其可能...

发现并处理Redis的大Key和热Key

在使用Redis的过程中,如果未能及时发现并处理Big keys(下文称为“大Key”)与Hotkeys(下文称为“热Key”),可能会导致服务性能下降、用户体验变差,甚至引发大面积故障。本文将介绍大Key与热Key产生的原因、其可能引发的问题及如何快速...

更新故障复盘改进详情

problemReason":"故障原因A","recentActivity":"2","injectionMode":"1","recoveryMode":"2","discoverSource":1,"userReport":10,"monitorSourceName":"Zabbix","relationChanges":"关联变更","dutyUserId":1231,"replayDutyUserId":1213...

如何解决MSE Nacos实例域名无法解析的问题?

如果使用的是ACK,请 提工单 联系ACK技术支持协助排查CoreDNS故障原因。方案二:使用ping命令 使用 ping${mse.nacos.host} 指令尝试解析。如果提示 unknown host,则无法解析域名。如果提示 PING${mse.nacos.host}(xxx.xx.xx.xx)56(84)...

工作负荷

工作负荷,支持基于用户组快速筛选、查看成员的工作安排情况,通过自动统计组内成员未来 30 天工作饱和度,以及过去完成工作内容和未来的工作量的情况,管理者可以清晰地看到成员的工作量、工作效率,及时做出调整。工作负荷数据属于企业...

诊断网页加载过慢的问题

慢加载详情 页面顶部的 页面信息 区域展示了本次访问的客户端IP地址、浏览器、操作系统等信息,帮助您确认故障原因。慢加载详情 页面的 页面资源加载瀑布图 区域展示了页面静态资源加载的瀑布图,帮助您快速定位资源加载的性能瓶颈。慢加载...

故障止损恢复

故障初因定位 集成企业内部可利用的所有稳定性相关数据(变更事件,...通用垂直专项快恢能力:通过集成包括DB侧慢SQL限流、变更极速回滚、多活容灾切流快恢等通用的快恢能力,结合监控、日志等数据自动定位的故障原因进行对应的快恢方式推荐。

迭代规划与执行

相比数量分布图,Story point分布图同时考虑了任务的复杂度和工作量因素,对于合理评估了Story point的团队,能够更加准确的反映工作量的实际分配。3.缺陷趋势 迭代中发现的缺陷和修复的缺陷数量趋势,能够反映项目问题的收敛情况。若累计...

应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断

什么是故障

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

跨项目场景,我们度量什么?

看资源分配情况:时刻关注项目投入与工作量 在跨项目度量场景的报表中,通过「项目投入人力排名」、「项目工作量排名」2 张指标卡,我们可以:查看各项目投入成员/工时排名,了解各项目资源投入情况;查看各项目存量工作项/预估工时排名,...

访问策略

6.备用地址池是在默认地址池因故障原因不可用时,可以将用户的访问流量切换至备用地址池上。在 备用地址池 的下拉框中,选择已创建的地址池名称,最后单击 下一步。如果您还没有创建地址池,请参考 创建地址池 文档。注意:如未设置备用...

故障复盘改进详情

0c4840fd3812 幂等校验token 返回数据 名称 类型 示例值 描述 requestId String 4361a0e1-6747-4834-96ce-0c4840fd3811 Id of the request data Object data problemId String 231231 故障ID problemReason String 故障的原因 故障原因 ...

什么是消息演练

随着应用规模的扩大,系统变得越来越复杂,不可避免地会走向分布式化。各种中间组件会相继被引入系统,其中分布式消息服务更是系统中必不可少的一...需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

什么是客服工作

支持人工个性化服务能力配置,新人/老人合理安排工作量。支持根据在线客服的繁忙程度进行分配(饱和度分配)。支持根据客服-客户的历史接触情况进行分配(熟客分配)。统一的客服工作台,多种沟通辅助工具,大幅提升客服人员服务效率 PC、h...

监控报警概述

故障预警 云电脑的故障信息、故障原因及故障时间等信息。使用场景 在日常业务运行的过程中,监控大盘帮助您及时了解账号下全部云电脑资源的全局情况,实时监控提供更详细的数据指标和故障预警信息,帮助您了解终端用户使用云电脑的情况,...

高级功能:全局变量

全局变量可以减轻您在使用PAI平台配置组件时,重复配置参数的工作量。支持创建和删除全局变量,并通过复制功能获取全局变量的引用方式。本文介绍如何配置与使用全局变量。应用场景 工作流中多个组件使用相同的参数。详情请参见 示例1:工作...

集群资源规格评估建议

说明 数据盘推荐使用云盘机型,避免因磁盘故障产生的运维工作量,可以获取更高的服务可用性并降低人力运维成本。选择数据盘类型以及块数之后,计算出总的磁盘IO吞吐量。建议选择网卡带宽不低于磁盘IO吞吐量。评估Broker的节点数 理想情况下...

什么是应用实时监控服务ARMS?

完整再现用户操作过程,从页面打开速度(测速)、请求服务调用(API)和故障分析(JS错误、网络错误等)稳定性(JS错误、崩溃、ANR 等)方面监测前端应用性能表现情况,并支持日志数据查询,帮助您快速跟踪定位故障原因,提升用户体验。...

无法连接Windows实例

故障原因 可能是网卡驱动未开启或网卡配置有问题。解决方法 使用管理终端 登录实例,检查网卡驱动,如果存在异常,则重新安装。步骤三:检查重置实例密码后是否未重启实例 确认是否存在故障现象,如果存在,则参考本步骤解决问题,如果不...

设计方案

容量 容量是在一定时间内,系统能够处理的最大工作量或数据量,或指系统所能够承载的最大负载。系统容量与系统的硬件、软件、架构以及网络带宽等因素密切相关。在云上,还需要关注单个阿里云账号下的云服务配额,避免因触及云服务配额限制...

大数据实时计算性能调优服务

本项目计划、实施时间和工作量评估是基于本SOW约定范围制定的,如果项目范围发生调整,双方应依照本工作说明书附件一《项目变更流程与项目变更控制申请单》中规定的程序评估对项目价款、计划和工作量的影响,并在签署《项目变更控制申请单...

性能监控最佳实践

这样可以大大提高监控效率,减少监控人员的工作量,同时也可以更加全面地监控系统的性能。提高监控精度:传统的性能监控方案往往只能监控系统的基本指标,例如CPU使用率、内存利用率等。而一体化性能监控则可以通过集成多种监控工具和技术...

SLA服务等级协议

(2)因客服工作故障导致的正常请求未能到达客服工作台服务器端的请求(通过故障前7天内使用客服工作台的域名的平均请求数计算)。1.4有效的总请求:客户某一阿里云账号下客服工作台服务器端接收到的所有请求视为有效的总请求。1.5每5...

大数据上云及巡检服务内容说明

升级服务有如下约束(其中任务量的计算受迁移的组件异构性、任务是否改造等多种因子影响,具体要根据售前调研情况来确定):服务类型 服务内容 服务范围 数据迁移或者任务迁移技术支持的工作量扩充 扩充同一场景下基础服务包未能覆盖的迁移...

变更管理

信息的明确可减轻变更评估人的工作量,同时明确变更的意义。变更信息包括:基本信息:标题、时间、变更人、原因等。变更信息:变更系统、变更场景、变更类型等。变更方案:变更实施方案、回滚方案、验证方案等。变更审批:由于变更系统相关...

客户案例

同时容灾上具备任意时间,任意服务器,任意机房,任意城市出现不可抗拒因素灾难时,完全无需人工接入的无损自适应容灾,RPO=0,RTO秒,极大的减少了运营和维护 IT 基础设施的工作量,从而降低了运行和维护的成本。在平台建设期间和投产后,...

网站耗资源(客户程序故障)常见问题

本文汇总了使用云虚拟主机出现网站耗资源(客户程序故障)时的常见问题。什么是网站耗资源(客户程序故障)?网站程序占用CPU及内存过多,是对资源的一种浪费。当您使用普通版共享云虚拟主机建站后,可能会因为网站程序编写不合理、代码...

自动或手动主备切换

当主实例发生故障或不可用时(例如操作系统错误、硬件故障等),系统会自动触发主备切换,主实例和备实例将进行互换,切换后实例地址保持不变,应用程序会自动连接到新的主实例(原备实例),从而保障业务的连续性和高可用性。此外,您还...

自动/手动主备切换

当系统发生故障时,PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换,指定一个只读节点为新的主节点。注意事项 不论是自动切换还是手动切换,当只读节点未开启热备时,主备切换过程中可能会出现20~30秒左右的闪断,因此切换前请...

应用场景

大量读取流量可能会对主流程业务产生影响,这时可以通过构建只读库,主生产库与只读库之间通过数据同步服务实现数据的实时增量复制,将只读流量切换至只读实例,大大降低了主数据库读取工作负载,从而方便得扩展了应用的吞吐。...

Tair选型指南

创建 云原生内存数据库Tair 实例前,您需要结合产品性能、价格、业务场景、工作负载等因素,做出性价比与稳定性最优的决策。本文围绕以上因素,着重介绍实例类型、引擎版本、架构、存储介质,为您的选型提供相关参考。免费试用 阿里云免费...

云数据库Redis版产品选型必读

创建Redis实例前,您需要结合产品性能、价格、业务场景、工作负载等因素,做出性价比与稳定性最优的决策。本文围绕以上因素,着重介绍实例类型、引擎版本、架构、存储介质,为您的选型提供相关参考。免费试用 阿里云免费试用面向符合条件的...

远程连接FAQ

本文介绍在远程连接轻应用服务器过程中可能存在的问题、排查思路和相应的解决方案。排查思路 如果无法远程连接轻应用服务器时,阿里云推荐您按照以下思路排查问题。以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低...

混沌工程缓存实战系列-Redis

通过以上的演练证明了以下几点:缓存RT轻微增长,对业务影响可控。但是如果业务内部存在多次的缓存查询,会导致整体RT增加明显,就像本示例RT延长处于客户端连接超时范围内,无法触发弱依赖降低,但是整个接口RT超时,最终导致业务受损。在...

保险行业解决方案与案例

方案价值 该公司作为我国最大的保险公司之一,其主要业务系统完成国产化迁移工作,标志着保险业机构向基于自主可控技术的数字化转型迈出了重要一步,充分证明了国产化数据库能够满足金融级业务需求,项目实施形成工艺和组件,也具有重要的...

东软案例

总得来说,造成这种现象的主要问题原因,可总结为以下两个方面:新需求推动IT系统监控数据激增:移动智能终端设备的普及使应用逐渐渗入到我们工作生活的方方面面,企业应用数量激增。企业面向客户、合作伙伴和内部员工建设IT系统及应用...

集群高可用架构推荐配置

vsw-yyy,vsw-zzz kind:ConfigMap 工作负载高可用配置 工作负载的高可用能够保障在故障发生时,应用Pod能够正常运行,或迅速恢复。您可以通过配置拓扑分布约束(Topology Spread Constraints)、Pod反亲和(PodAntiAffinity)、Pod ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
轻量应用服务器 对象存储 云数据库 Redis 版 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用