Insights事件概览

隐匿行踪事件(TrailConcealmentInsight)用于分析非常规操作者的删除跟踪或停止跟踪行为,采用机器学习算法产生频繁项集与关联关系,过滤常规操作者对跟踪的配置行为,针对非常规操作者的行为产生Insights事件。使用说明 操作审计暂不支持...

以太网接口频繁Up/Down

本文介绍以太网接口频繁Up/Down的原因和处理方法。问题现象 以太网接口频繁Up/Down。可能原因 线缆没有连接好。双绞线过长、光纤超长或链路损耗太大。接口、接口模块或设备故障。解决方案 检查本端和对端设备线缆、模块是否插好。检查设备...

Quick BI创建好了数据找不到实时加速的设置

问题描述 Quick BI创建好数据后找不到实时加速的设置。问题原因 数据实时加速只支持MaxCompute数据源的数据,MySQL数据源只支持手动加速或者定时加速。解决方案 更换MaxCompute数据源后创建相同数据后即可正常开启。适用于 Quick...

更新故障复盘改进详情

problemReason":"故障原因A","recentActivity":"2","injectionMode":"1","recoveryMode":"2","discoverSource":1,"userReport":10,"monitorSourceName":"Zabbix","relationChanges":"关联变更","dutyUserId":1231,"replayDutyUserId":1213...

如何解决MSE Nacos实例域名无法解析的问题?

如果使用的是ACK,请 提工单 联系ACK技术支持协助排查CoreDNS故障原因。方案二:使用ping命令 使用 ping${mse.nacos.host} 指令尝试解析。如果提示 unknown host,则无法解析域名。如果提示 PING${mse.nacos.host}(xxx.xx.xx.xx)56(84)...

故障止损恢复

故障初因定位 集成企业内部可利用的所有稳定性相关数据(变更事件,...通用垂直专项快恢能力:通过集成包括DB侧慢SQL限流、变更极速回滚、多活容灾切流快恢等通用的快恢能力,结合监控、日志等数据自动定位的故障原因进行对应的快恢方式推荐。

一键诊断

相关文档 通过一键诊断了解数据库性能情况的全貌后,您可以使用如下功能对数据库进行全面细致的诊断,准确定位故障原因,并解决故障。会话管理 性能趋势 锁分析 慢SQL 空间分析 常见问题 Q:一键诊断中,如何计算会话的线程使用率、连接数...

应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断

什么是故障

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

访问策略

6.备用地址池是在默认地址池因故障原因不可用时,可以将用户的访问流量切换至备用地址池上。在 备用地址池 的下拉框中,选择已创建的地址池名称,最后单击 下一步。如果您还没有创建地址池,请参考 创建地址池 文档。注意:如未设置备用...

故障复盘改进详情

0c4840fd3812 幂等校验token 返回数据 名称 类型 示例值 描述 requestId String 4361a0e1-6747-4834-96ce-0c4840fd3811 Id of the request data Object data problemId String 231231 故障ID problemReason String 故障的原因 故障原因 ...

什么是消息演练

随着应用规模的扩大,系统变得越来越复杂,不可避免地会走向分布式化。各种中间组件会相继被引入系统,其中分布式消息服务更是系统中必不可少的一...需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

故障管理

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

设计方案

故障恢复 定位故障原因后,按照应急预案快速恢复业务,并在事后进行复盘总结。预案执行:在故障响应的过程中,需要按照事先制定的应急预案进行执行。应急预案包括了应急响应流程、各个岗位的职责、处理流程等。预案执行能够保证故障恢复和...

监控报警概述

故障预警 云电脑的故障信息、故障原因及故障时间等信息。使用场景 在日常业务运行的过程中,监控大盘帮助您及时了解账号下全部云电脑资源的全局情况,实时监控提供更详细的数据指标和故障预警信息,帮助您了解终端用户使用云电脑的情况,...

托管节点池节点自动恢复

当发现节点故障时,ACK会根据故障原因触发对应恢复任务,并记录相应的事件。当恢复任务完成后,故障状态解除,节点恢复正常状态。当恢复任务完成后,故障状态依然存在,节点会被置为恢复失败状态。说明 如果集群中存在多个节点池,节点池...

查询运维报表数据

NormalDeviceNum Integer 1500 正常设备数量 FaultDeviceNum Integer 12 故障设备数 HighFreqFaultDeviceNum Integer 8 频繁故障设备数量 TicketIndex Object 工单指标数据 TotalTicketNum Integer 1000 总故障数量 AutoRecoverTicketNum ...

GetNextResultToVerify-获取下一条文件详情用于人工...

变更历史 变更时间 变更内容概要 操作 2023-08-01 API 内部配置变更,不影响调用 看变更 变更 变更内容 API 内部配置变更,不影响调用。2023-08-01 API 内部配置变更,不影响调用 看变更 变更 变更内容 API 内部配置变更,不影响...

GetRuleDetail-获取规则的明细信息

变更历史 变更时间 变更内容概要 操作 2024-04-19 OpenAPI 变更为 deprecated,即将下线 看变更 变更 变更内容 API 弃用说明(deprecated)OpenAPI 变更为 deprecated,即将下线。2023-08-01 API 内部配置变更,不影响调用 看变更 变更...

GetQualityCheckScheme-获取质检方案详情

变更历史 变更时间 变更内容概要 操作 2023-08-01 API 内部配置变更,不影响调用 看变更 变更 变更内容 API 内部配置变更,不影响调用。2023-08-01 API 内部配置变更,不影响调用 看变更 变更 变更内容 API 内部配置变更,不影响...

GetResultToReview-获取质检结果详情用于复核

变更历史 变更时间 变更内容概要 操作 2023-08-01 API 内部配置变更,不影响调用 看变更 变更 变更内容 API 内部配置变更,不影响调用。2023-08-01 API 内部配置变更,不影响调用 看变更 变更 变更内容 API 内部配置变更,不影响...

DescribeDBClusterAttribute-查看PolarDB集群的详细...

变更历史 变更时间 变更内容概要 操作 2024-04-18 OpenAPI 错误码发生变更、OpenAPI 返回结构发生变更 看变更 变更 变更内容 错误码 OpenAPI 错误码发生变更。删除错误码:400 删除错误码:403 删除错误码:404 出参 OpenAPI 返回结构...

UploadAudioData-上传音频质检

recognizeRoleDataSetId Long 否 数据 ID,使用一个已存在的数据,因为数据在创建时会设置角色分离规则(可以查看新建数据功能中的 话者角色配置),此处指定数据 ID,则本次上传的文件会复用此数据的角色分离规则。...

CreateLoadBalancer-创建网络型负载均衡实例

创建网络型负载均衡实例。接口说明 创建网络型负载均衡实例时会自动为用户创建 AliyunServiceRoleForNlb SLR 角色。CreateLoadBalancer 接口属于异步接口,即系统...2023-06-29 OpenAPI 入参发生变更 看变更 变更 变更内容 入参 OpenAPI...

CreateTairInstance-创建Tair实例

在节点故障后,数据会丢失,系统会自动拉起新的空实例。仅在 单可用区时支持,且不支持创建集群与读写分离架构。MASTER_SLAVE ShardCount integer 否 实例中的数据节点个数,取值:1:默认值,即表示创建的实例为 标准架构,仅拥有 1 个...

CreateTairInstance-创建Tair实例

在节点故障后,数据会丢失,系统会自动拉起新的空实例。仅在 单可用区时支持,且不支持创建集群与读写分离架构。MASTER_SLAVE ShardCount integer 否 实例中的数据节点个数,取值:1:默认值,即表示创建的实例为 标准架构,仅拥有 1 个...

EasyCkpt:AI大模型高性能状态保存恢复

功能介绍 针对频繁故障的情况,PAI通过之前的故障失败场景总结出以下GPU和深度学习场景故障的功能特点:特点1:任务的故障是部分的。通常,故障的根因是一到两台机器的故障,这只会影响部分Worker。对于大规模分布式训练任务而言,不会所有...

功能特性

此外,在数据库实例发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。智能压测 搜索分析 查询并导出SQL语句对应的日志信息。搜索 SQL洞察 SQL洞察聚类分析,用作深度异常的排查。SQL洞察 安全审计 内置了...

流量回放和压测

此外,在数据库发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。前提条件 源数据库支持:RDS MySQL PolarDB MySQL版 说明 不支持 PolarDB MySQL版 的 企业版 单节点 实例。PolarDB-X 2.0。目标数据库实例...

智能压测

此外,在数据库发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。前提条件 源数据库支持:RDS MySQL PolarDB MySQL版 说明 不支持 PolarDB MySQL版 的 企业版 单节点 实例。PolarDB-X 2.0。目标数据库实例...

使用集群诊断

诊断 说明 Pod诊断 诊断K8s Pod状态异常相关的问题,例如Pod启动失败,Pod频繁重启等。Service诊断 诊断Service相关的问题,例如Service配置、资源配额、异常事件信息等。Ingress诊断 诊断Ingress相关的流量配置等问题。配置故障诊断 ...

为什么消费客户端频繁出现Rebalance?

可能原因 可能导致故障原因包括:v0.10.2之前版本的客户端:Consumer没有独立线程维持心跳,而是把心跳维持与poll接口耦合在一起。其结果就是,如果用户消费出现卡顿,就会导致Consumer心跳超时,引发Rebalance。v0.10.2及之后版本的客户...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACK集群中使用集群诊断功能。前提条件 已创建Kubernetes托管版集群。具体...

DeleteGroup-删除服务器分组

变更历史 变更时间 变更内容概要 操作 2022-12-22 OpenAPI 描述信息更新、OpenAPI 去除了 deprecated 标记、OpenAPI 返回结构发生变更 看变更 变更 变更内容 API 描述 OpenAPI 描述信息更新。API 弃用说明(deprecated)OpenAPI 去除了 ...

DescribeDedicatedHosts-查询专有宿主机详细信息

变更历史 变更时间 变更内容概要 操作 2024-04-11 OpenAPI 错误码发生变更、OpenAPI 入参发生变更、OpenAPI 返回结构发生变更 看变更 变更 变更内容 错误码 OpenAPI 错误码发生变更。删除错误码:400 删除错误码:403 删除错误码:404 ...

DescribeDedicatedHosts-查询专有宿主机详细信息

变更历史 变更时间 变更内容概要 操作 2024-04-11 OpenAPI 错误码发生变更、OpenAPI 入参发生变更、OpenAPI 返回结构发生变更 看变更 变更 变更内容 错误码 OpenAPI 错误码发生变更。删除错误码:400 删除错误码:403 删除错误码:404 ...

IgnoreHcCheckWarnings-对基线的风险批量执行忽略或...

对基线的风险批量执行忽略或取消忽略。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,可以在RAM权限策略语句的...

ModifyOperateVul-对检测到的漏洞进行处理

错误码 400 变更 2023-08-29 OpenAPI 错误码发生变更、OpenAPI 入参发生变更 看变更 变更 变更内容 错误码 OpenAPI 错误码发生变更。错误码 400 变更 入参 OpenAPI 入参发生变更。新增入参:From 2023-03-28 OpenAPI 错误码发生变更 看...

监控、诊断和故障排除

平均服务端延时高 对于下载或者上传出现服务端高延时的情况,可能的原因有2个:大量客户端频繁访问同一个小Object 这种情况,可以通过查看日志功能记录的服务端日志信息来确定是否在一段时间内,某个或某组Object被频繁访问。对于下载场景...

通过可观测性能力进行故障处理最佳实践

消息量大时,使用消息堆积量作为告警监控,容易频繁产生误报。消息量波动较大时,无法准确设置消息堆积量告警阈值。查看消息处理耗时(rocketmq_process_time)和消息处理成功率(rocketmq_process_time_count{invocation_status=...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据传输服务 视频点播 云数据库 MongoDB 版 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用