故障排查

本文介绍微服务引擎MSE在使用过程中常见问题的故障分析和排查流程。微服务注册配置中心问题排查 在浏览器中输入 XXX:8848/nacos,访问MSE的Nacos注册中心时返回404错误。具体操作,请参见 通过“XXX:8848/nacos”访问MSE的Nacos注册中心时...

故障排查

本文介绍阿里云容器服务ACK集群在使用过程中常见问题的故障分析和排查流程。ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes...

Quick BI怎样使趋势分析表的形展示默认展开或关闭

详细信息 趋势分析表由趋势分析图和趋势分析明细表组成,您可以通过趋势分析图查看指标的宏观趋势,然后通过趋势分析表查看指标详情,帮助您更好的分析决策。用户可以根据自己需要设置该形展示的默认关闭或开启,首先进入仪表板的编辑...

趋势分析

趋势分析表由趋势分析图和趋势分析明细表组成,您可以通过趋势分析图查看指标的宏观趋势,然后通过趋势分析表查看指标详情,帮助您更好的分析决策。本文为您介绍如何为趋势分析表添加数据并配置样式。前提条件 已完成数据建模,数据集必须...

应用场景

基因数据分析 为任意规模用户,提供开箱即用的基因分析服务,效率高,成本低,灵活可靠,最快30分钟即可获取海量数据的计算结果。提供常用的生信流程和最佳参数配置,直接读写对象存储OSS数据,使用简单方便。使用GPU/FPGA等多种加速工具,...

应用场景

阿里云Elasticsearch能够通过Beats、Logstash等组件,快速对接各种常见数据源,提供弹性可扩展的集中采集和开箱即用的存储分析能力。并借助Kibana仪表盘,高效地构建数据可视化运维看板,并在看板中灵活地配置主机名称、IP地址、部署情况、...

通用性能

告警 支持主流协议 Snmptrap、Syslog、PING(同时支持采集性能告警)告警解析能力:支持 实时计算引擎,1万记录数/秒的分析入库 故障收敛能力:支持 按照规则和拓扑压缩归并 诊断自愈能力:支持 执行预分析和自动化管控任务,设备场景做到1...

使用平台公共应用

基因分析平台的 应用仓库 提供了不同研究领域和分类的公共应用,这些都是权威的、经过验证的行业最佳实践,并且提供了常见的运行参数,真正的帮助用户实现开箱即用的基因数据分析。浏览公共应用 用户可以通过关键字搜索、按照研究领域和...

诊断决策

对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策 登录高可用管理控制台。在左侧导航栏上,单击 故障诊断>诊断决策。单击 新建,在 创建诊断决策 页面,配置诊断决策信息,包括决策...

事件分析概述

功能优势 开箱即 事件总线EventBridge 支持提供的数值检索、可视化分析、多组态分析、事件轨迹、事件溯源和Schema管理等核心能力,无需额外部署,即开即。数值检索:提供基础数值检索能力,支持键入 key、value、=、!exists、AND、OR ...

演练概述

基于阿里巴巴多年业务的真实线上故障库的积累,AHAS故障演练模块为您预定义了丰富的测试任务,检验应用的高可能力。故障演练支持对部署在阿里云ECS实例、容器服务Kubernetes集群、K8s架构类应用、Java类应用进行故障演练。完整的故障演练...

功能特性

高可用管理平台 HAS 定位于 IT 技术...故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的演练和恢复计划,保证用户能够有计划地测量和观测应用高可能力。

什么是用户体验监控

ARMS 用户体验监控(Real User ...可视化 除了满足常规问题分析的控制台页面外,用户体验监控 通过ARMS Grafana强大的可视化能力为您预置了开箱即用的场景化大盘看板,您也可以根据自身业务分析要求通过ARMS Grafana自定义大盘看板。

CLB访问日志功能简介

CLB结合阿里云日志服务提供的访问日志功能,可帮助您大幅提升日志数据分析故障定位处理的效率。什么是CLB访问日志 CLB的访问日志功能收集了所有发送到CLB的请求的详细信息,包括请求时间、客户端IP地址、延迟、请求路径和服务器响应等。...

步骤七:故障切换

该模式适用于生产站点确实发生短时无法恢复的故障,需立即切换至容灾站点的场景。故障恢复类型 数据同步后切换 该故障恢复会停止保护组中被保护的实例,并且一直等到所有被保护的实例停止,再进行最后一轮数据同步,并等待数据同步完成后再...

步骤七:故障切换

该模式适用于生产站点确实发生短时无法恢复的故障,需立即切换至容灾站点的场景。故障恢复类型 数据同步后切换 该故障恢复会停止保护组中被保护的实例,并且一直等到所有被保护的实例停止,再进行最后一轮数据同步,并等待数据同步完成后再...

配置CLB访问日志

CLB结合阿里云日志服务提供的访问日志功能,可帮助您大幅提升日志数据分析故障定位处理的效率。使用限制 仅CLB的七层负载均衡(HTTP/HTTPS监听)支持访问日志功能。前提条件 已创建CLB实例。具体操作,请参见 创建和管理CLB实例。已创建...

如何管理故障

改进分析 改进分析用于记录管理故障恢复后的故障复盘。当故障处于复盘中/已复盘状态时,故障详情默认进入故障改进分析tab页;可对故障根因进行原因检查并结构化录入,检查点包括:故障原因、最近活动、注入方式、恢复方式等;关联故障期间...

发现并处理大Key和热Key

在使用 云原生内存数据库Tair 的过程中,如果未能及时发现并处理Big keys(下文称为“大Key”)与Hotkeys(下文称为“热Key”),可能会导致服务性能下降、用户体验变差,甚至引发大面积故障。本文将介绍大Key与热Key产生的原因、其可能...

发现并处理Redis的大Key和热Key

在使用Redis的过程中,如果未能及时发现并处理Big keys(下文称为“大Key”)与Hotkeys(下文称为“热Key”),可能会导致服务性能下降、用户体验变差,甚至引发大面积故障。本文将介绍大Key与热Key产生的原因、其可能引发的问题及如何快速...

MSE注册配置中心和自建注册配置中心对比

高可用 多可区部署,故障自动检测及恢复,SLA保障率高达99.95%。需自行探索和开发高可用保障体系,对团队技术要求高。性能 深度优化,TPS性能提升40%、QPS性能提升55%。需自行调优。监控告警 可对集群状态、服务数、配置数、TPS、请求...

故障管理

在IT和互联网企业的实践中,以下情况都有可能造成故障:按计划进行的硬件、操作系统维护所引起的故障,包括更换硬盘、操作系统补丁。应用性故障,包括软件应用性能问题、应用缺陷(bug)、系统应用变更。人为操作故障:包括误操作以及不按...

演练原子操作

故障演练原子操作指最小单元的故障。在 故障演练>演练原子操作 页面中,展示了平台上可用于故障演练的原子服务。可根据原子服务状态分类,查看当前环境中的故障原子操作信息,包括原子操作名称、操作编码、添加时间、状态、被引用次数等...

功能优势

AHAS Chaos 支持一次演练包含多个定义的故障场景,同时您可以定制这些场景的运行方式,选择依次进行故障注入或同时注入多个场景,通过不同的策略配置来达到不同的故障注入效果。丰富的故障场景 丰富的故障场景也是 AHAS Chaos 的一大特色,...

故障协同处理(基于钉钉)

5.故障应急场景群:事件升级故障后自动创建故障应急场景群,在原有群聊和生成的故障场景群都支持操作故障,且故障关联数据和消息卡片实时同步推送。故障场景群包含以下三部分功能:(1)消息卡片自动推送:场景群创建成功后,群机器人自动...

设计方案

而红军则需要按照预先定义的故障响应和应急流程进行处置。在演练结束后,建议针对故障中的发现、响应、恢复三个阶段的时长和操作内容进行复盘,并梳理改进点进行优化,提升业务系统的稳定性。突袭演练 突袭演练是一种手段以及目标对红军不...

设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障的发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

故障止损恢复

快恢预案推荐 通用的故障恢复方法一般包括 重启、回滚、扩容、切流、限流、降级 等。快恢的执行效率很大程度取决于是否有完备的预案和定期演练。建议在故障应急协同群中推荐输出常见的快速恢复能力,并提供PC、手机端的一键快速执行能力,...

基础分析

该功能帮助企业从宏观层面洞察呼叫中心的运营情况,并挖掘通话内容的关联性,从而分析出话题之间的对应关系,还支持基于业务对通话内容进行下钻,分析相应变化趋势。基础分析数据维度 在基础分析功能中系统支持以时间维度、技能组、对话...

故障基础数据管理

如评判各业务团队的故障发现能力的标准就是故障等级定义的监控发现率等。在定义故障等级的时候,需要从功能等级、业务体量、业务特性、量化影响4个维度进行设计,一个简要的通用故障等级定义参考模板如下:业务量级 功能分类 影响面 P1 P2 ...

应用故障自动诊断

如果发现问题,则会在应用总览页面上方闪现一个红色盾牌图标,单击该图标即可弹出故障诊断报告,故障报告上的故障定界和根因分析可以帮助您更好地发现和解决问题。常见的故障自动诊断场景 RT突增 下游业务导致的本应用的RT突增,您可以联系...

即席分析概述

即席分析面向一线业务人员,以表格形式提供拖拽式的表格分析能力,让懂业务的人自助实现数据分析。即席分析只适用于Quick BI专业版的群工作空间下,个人空间不支持。产品定位 千万级别规模数据量下的低门槛数据探查及分析工具。核心能力 ...

故障应急协同

每个故障建议设置单独的故障处理群,群内成员均为故障的相关人,为故障的协同处理提供了天然的协同环境。故障应急协同群贯穿整个故障处理过程:7*24故障启动->自动创建应急协同群->自动拉人/通知->定位信息/止损预案推送->一键电话会议->...

停止演练

停止演练后,系统会进入恢复阶段,自动清除相应的故障,使故障演练对象恢复演练前的状态。背景信息 一次完整的故障演练包括以下四个阶段:安装故障演练探针 创建演练 执行演练 停止演练 自动停止 在创建演练过程中需设置自动恢复时间和保护...

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...

故障注入

运行模式 配置故障注入规则的运行模式,取值如下:拦截模式:满足条件的故障注入请求会被注入。观察者模式:满足条件的故障注入请求不会被注入,只会在 MOSN 里打印日志。故障类型 故障注入支持注入错误或者超时等事件,方便服务的异常测试...

开源ChaosBlade与商业化AHAS CHAOS故障演练对比

商业化AHAS CHAOS故障演练是阿里巴巴内部广泛使用的演练平台云上版本,具有灵活的流程编排、丰富的故障场景等特点,可以帮助企业提升分布式系统的容错能力,保障在企业上云或往云原生系统迁移过程中业务的连续性。AHAS CHAOS故障演练在...

申诉统计

申诉统计是根据当前的登录用户权限下全部质检会话的申诉情况进行分析,主要包括申诉基本信息和坐席申诉列表。申诉基本信息 申诉基本分析中主要是针对不同维度坐席的申诉情况进行的数据统计:客服申诉数:所选客服发起的申诉总数。申诉完成...

【通知】故障演练功能模块退市公告

由于业务及技术架构调整,阿里云将于2024年05月01日起停止应用高可用服务AHAS下的故障演练功能模块的技术支持,并于2024年11月01日正式下线该模块,但飞天企业版的应用高可用服务AHAS的故障演练CHAOS模块将持续发展。此外,应用高可用服务...

流水单据型业务场景多活实践

复现故障 改造完成容灾架构后,还需验证容灾能力是否符合预期,接下来将历史故障进行复现,通过制造真实的故障来验证容灾恢复能力。演练准备。登录 AHAS控制台。在控制台左侧导航栏选择 多活容灾。在左侧导航栏选择 监控大盘,在顶部菜单栏...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
检索分析服务 Elasticsearch版 云安全中心 实时数仓 Hologres 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用