为什么要升级到MongoDB的新版本

发生节点故障或切换节点时,可能会触发磁盘使用率的误告警。推荐版本:5.0及以上版本的云盘版实例。推荐理由:云盘版架构实例的全量备份是基于物理备份结合云盘快照的方式。从原理上缩短了需要在WiredTiger引擎侧维持备份检查点(Backup ...

根因分析函数

时序指标发生异常时,根因分析函数可以快速分析出是哪些相关维度属性发生异常而导致监控指标发生异常。LOG机器学习最佳实战:根因分析(一)rca_kpi_search 函数格式 select rca_kpi_search(varchar_array,name_array,real,forecast,...

概览

在以上业务场景下,智能阈值针对各主要云产品的核心监控指标,可以有效地在指标异常发生3分钟内召回85%以上问题及故障。降低阈值配置维护成本 智能阈值无需输入具体数值,只需要创建一条智能阈值报警规则,选择对应的报警条件(边界以外、...

设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

ECS整机恢复

当ECS整机发生系统故障或者错误操作时,您可以通过备份点的克隆和恢复功能,实现ECS整机回退和创建新的ECS整机。本文介绍整机恢复的相关操作。前提条件 已创建ECS整机备份。具体操作,请参见 备份ECS整机。重要 当源ECS存在时,支持直接...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时,您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点,进行原盘恢复或者创建新盘操作来实现数据恢复。前提条件 已创建ECS整机备份。具体操作,请参见 备份ECS整机。背景信息 云盘恢复...

DeviceWanLinkSwitched

告警信息 事件名称 事件级别 状态码 状态描述 DeviceWanLinkSwitched WARN up Device Wan Link Switched 可能原因 WAN链路原有链路发生故障,切换到备用链路。处理方法 提醒用户WAN链路发生了切换,用户查看原有WAN链路并决定是否主动切...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时,您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点,进行恢复原盘或者创建新盘操作实现数据恢复。本文介绍云盘恢复的相关操作。前提条件 已创建云盘备份。更多信息,请参见 创建云...

故障处理流程

当智能接入网关设备发生网络故障后,您可以先观察现象、收集信息,然后对现象和信息进行分析诊断,尝试修复问题。本文为您介绍智能接入网关设备故障处理流程。SAG-100WM故障处理流程说明 通过SAG-100WM访问阿里云,发现故障,请参见以下...

日志管理

如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览中,输入 https://<块网关IP地址>访问本地块网关控制台。输入用户名和密码,单击 确认。单击 关于,进入 关于系统 页面。找到 日志信息 区域,...

日志管理

如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览中,输入 https://<文件网关IP地址>访问本地文件网关控制台。输入用户名和密码,单击 确认。单击 关于,进入 关于系统 页面。找到 日志信息 区域...

什么是故障

本文主要介绍什么是故障。定义 在日常运营中,无论什么原因导致业务服务中断、服务品质...故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务连续性形成改进,避免历史同类故障重复发生

混合云解决方案

如果MASTER 宕机,发生故障转移,此时SLAVE如果要提供服务,日志读取会等待镜像日志先同步,再做发布,但如果MASTER发生硬件故障,此时SLAVE需要打开一个跟踪标记1448,在镜像故障的情况下可以继续分发数据。说明 1448标记用于在事务...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>创建...

围绕混沌工程的平台实践

因此混沌工程是一门学科,它提供了基本的理论指导,而故障演练是混沌工程的具体实践,通过向目标系统注入真实可能发生故障来考量系统的稳定性。混沌工程和AHAS Chaos AHAS Chaos是以混沌工程为理论指导的故障演练平台,目标是成为混沌...

信号发生器

功能说明 信号发生器组件用于按照信号类型生成指定类型的信号值,信号类型支持6种,包括阶跃、正弦、脉冲、斜线、三角、白噪声。计算逻辑原理 以下表达式涉及的参数定义:① t 表示运行时长。② t 0 表示阶跃滞后周期。③ X(t)表示在t时刻...

概述

针对时序数据分析场景,日志服务提供了丰富的时序分析算法,可以帮助您快速解决时序预测、时序异常检测、序列分解、多时序聚类等场景问题,兼容SQL标准接口,大大降低了您使用算法的门槛,提高分析问题和解决问题的效率。功能特点 支持单...

AIOps 解决方案专家服务内容说明

根据智能AI算法和阿里多年积累的AIOps经验,在故障发生后,提供自动化解决方案。在方案设计中我们提供包括时序预测和根因分析、历史数据预测的3大类算法场景的设计,更多具体算法详见《10.1算法列表》《智能故障发现设计方案》3 定制化业务...

趋势分析

通过延时、丢包率、探测次数三个指标在不同维度、不同汇聚粒度的表现来判断网络趋势,可以用来定位网络故障发生的时间点以及业务的网络质量趋势。首页点击 详情分析 按钮,进入“趋势分析”页面。筛选条件:说明 筛选条件“统计时间段”,...

应用场景

当其中一部分ECS实例发生故障后,CLB 会自动屏蔽故障的ECS实例,将请求分发给正常运行的ECS实例,保证应用系统仍能正常工作。同城容灾(多可用区容灾)为了提供更加稳定可靠的 CLB 服务,CLB 已在各地域部署了多可用区以实现同地域容灾。当...

CREATE MODEL

ttest 达摩院自研算法,适用于识别一个时间窗口内时序指标是否存在因均值变化而发生的异常。详细信息,请参见 时序异常检测。指定列的预处理操作(PREPROCESSORS 'string')PREPROCESSORS 为可选关键字,且仅对时序类任务(TIME_SERIES_...

模型创建

Lindorm AI引擎支持导入预训练AI模型,对数据库内的数据进行分析和处理或对时序数据进行建模,执行时序分析类任务。语法 CREATE MODEL model_name FROM {table_name|(select_statement)|model_file_path|huggingface_repo|modelscope_repo}...

单实例快速恢复

该方案为当前每个实例内部默认启用,当系统发生故障时,无需手工运维介入,系统可以自动恢复。在恢复期间,如果查询算子需要访问恢复中的节点,则查询会立即失败。节点恢复速度在一分钟左右,当表数量明显增加时,恢复时间会更长。Hologres...

灾备方案

Tair 容灾架构演进 当 Tair 实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。Tair 提供多种灾备方案供您选择,可满足不同的业务场景。图 1.Tair 容灾架构演进 灾备方案 灾备级别 ...

灾备方案介绍

云数据库Redis容灾架构演进 当云数据库Redis实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。云数据库Redis提供多种灾备方案供您选择,可满足不同的业务场景。图 1.Redis容灾架构...

应用故障自动诊断

因为单机的问题导致RT突增:线程池满,此时故障诊断报告中会给出线程数的时序图。单机FullGC。单机磁盘读写异常。单机OOM。错误请求或大请求的占比过高 某应用服务的错误请求次数出现突增,导致错误请求占比过高。某段时间出现的大请求和大...

容灾管理服务介绍

容灾切换:模拟故障发生时,验证业务系统是否能够达到预期的灾备效果。容灾切回:故障恢复后,将资源切回到之前的状态,验证系统的灾难恢复预案是否合理。相关概念 容灾计划 当CADT应用需要进行容灾演练时,需要为其创建容灾计划,加入了容...

源为PolarDB-X的功能规范和约束说明

源端执行大量DDL操作、网络、目的库性能等问题,可能会导致DTS任务存在延迟,此时如刚好遇到机房故障,且同步或迁移至目标库的最后一条数据的时间戳与故障发生时的时间戳之差大于RPO(如5分钟),那么切流需要非常谨慎,建议您暂时不要执行...

源为PolarDB-X的功能规范和约束说明

源端执行大量DDL操作、网络、目的库性能等问题,可能会导致DTS任务存在延迟,此时如刚好遇到机房故障,且同步或迁移至目标库的最后一条数据的时间戳与故障发生时的时间戳之差大于RPO(如5分钟),那么切流需要非常谨慎,建议您暂时不要执行...

X-Pack高级特性

可视化 仪表板 Canvas Kibana Lens 时序可视化生成 图表分析 地理空间分析 容器监测 Kibana插件 数据导入教程 MAPS 地图图层 定制区域地图 GeoJson上传 ELASTICLOGS 日志采集 Logs仪表盘 日志速率异常检测 ELASTICMETRICS 指标采集 ...

Tair选型指南

3 选择容灾方案 云原生内存数据库Tair 实例若因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制保障数据的一致性和业务可用性。云原生内存数据库Tair 提供多种灾备方案供您选择,可满足不同的业务场景。4 预估内存规格 提前...

一致性复制组概述

容灾站点 除了生产站点以外另外建立容灾站点,当生产站点发生故障时,容灾站点可以接管业务,实现业务不间断。恢复点目标(RPO)由于云盘异常可能丢失的数据量,以时间为单位,是异步复制功能的数据指标之一(一致性复制组功能的RPO默认为...

网络架构容灾

当地址池中地址发生故障时,HealthCheck模块会准确的检测到异常情况并与DNS交互(如下图中序号3所示),摘除故障地址(如下图中序号4所示),这样用户端会自动解析到可用的地址池(如下图中序号5所示)。并当故障地址恢复时,自动恢复至...

添加过滤

在日志服务仪表盘中添加过滤,即对整个仪表盘进行查询过滤或变量替换操作。本文介绍如何为仪表盘添加过滤。前提条件 已采集数据。具体操作,请参见 数据采集概述。已配置索引。具体操作,请参见 创建索引。已添加统计图表到仪表盘。...

同步数据到时序

在解析Kafka Record或者写入时序表时可能发生错误,您可以可通过以下配置进行处理。指定容错能力,可选值包括none和all,默认值为none。none表示任何错误都将导致Sink Task立即失败。all表示跳过产生错误的Record,并记录该Record。runtime...

购买企业版实例

高可用(SLA 99.99%):采用多单元部署架构,支持双副本容灾,具备故障发生时秒级切换的能力。重要 标准型:华东2(上海)和 华北2(北京)地域支持 标准(SLA 99.95%)和 高可用(SLA 99.99%),且支持购买后将 标准(SLA 99.95%)升级为 ...

UpgradeLindormInstance-变配Lindorm实例

删除入参:PhoenixCoreSpec 删除入参:PhoenixCoreNum 2023-07-03 OpenAPI 错误码发生变更、OpenAPI 入参发生变更 看变更集 变更项 变更内容 错误码 OpenAPI 错误码发生变更。删除错误码:400 删除错误码:403 入参 OpenAPI 入参发生变更。...

GetLindormInstance-获取Lindorm实例的详细信息

错误码 400 变更 删除错误码:403 2023-09-27 OpenAPI 错误码发生变更、OpenAPI 返回结构发生变更 看变更集 变更项 变更内容 错误码 OpenAPI 错误码发生变更。删除错误码:400 删除错误码:403 出参 OpenAPI 返回结构发生变更。2023-08-08 ...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

自助诊断GPU节点问题

ACK集群提供节点级别的GPU诊断功能,供您进行部分GPU相关问题的故障排查。如果您在ACK Pro版集群中使用GPU节点时遇到问题,可以启用GPU节点自助诊断,采集GPU诊断的基础指标进行问题排查。本文介绍如何使用节点诊断功能,自助排查GPU节点...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 时间序列数据库 TSDB 云数据库HBase版 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用