故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...

设计原则

为了确保系统能够持续稳定地工作,建议遵循以下设计原则。面向失败的架构设计原则 众所周知,系统异常事件是不可避免的,如网络延迟、硬件故障、软件错误、突峰流量等,建议在系统设计阶段就要从这些异常事件引起的系统执行“失败”出发,...

应用场景

在有大量读请求的场景,大量读取流量可能会对主流程业务产生影响,这时可以通过构建只读库,主生产库与只读库之间通过数据同步服务实现数据的实时增量复制,将只读流量切换至只读实例,大大降低了主数据库读取工作负载,从而方便得扩展了...

常见问题

问题分类 常见问题 产品计费 计费常见问题 规格类型 规格常见问题 准备工作 常见问题 连接至MaxCompute Java SDK常见问题 Python SDK常见问题 JDBC常见问题 数据迁移 Tunnel命令常见问题 Tunnel SDK常见问题 开发 SQL:SQL常见问题 内建...

故障排查

本文介绍微服务引擎MSE在使用过程中常见问题的故障分析和排查流程。微服务注册配置中心问题排查 在浏览器中输入 XXX:8848/nacos,访问MSE的Nacos注册中心时返回404错误。具体操作,请参见 通过“XXX:8848/nacos”访问MSE的Nacos注册中心时...

故障排查

本文介绍阿里云容器服务ACK集群在使用过程中常见问题的故障分析和排查流程。ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes...

I-V曲线诊断

数据服务中提供光伏智能运维的IV曲线诊断算法,结合环境光强度、环境温度等影响因素,对组串式光伏发电阵列的电流-电压曲线(I-V曲线)进行分析,检测系统可能出现的故障,进而提高设备的运行效率,保障电站高效运行。本文介绍光伏智能运维...

EDAS直播公告

EDAS发布重要的功能后,会通过直播的方式进行介绍,帮助您更好了解和使用EDAS。直播回顾 单击直播主题,即可观看直播回放。直播主题 直播介绍 直播时间 系统概述云原生应用下的流量管理能力 对运维工程师,流量管理是否只需要管好入口...

步骤六:启动复制

保护组初始化完成后,您就可以启动保护组复制。启动复制就是将生产站点所有数据复制到容灾站点,此时会在容灾站点自动...后续步骤 步骤七:故障切换 常见问题 ECS容灾云盘异步复制型启动复制时,控制台提示容灾站点实例规格异常,如何处理?

业务连续性

数据的备份和恢复 故障时流量转移可以很好避免地域级别故障造成业务中断,但此时故障地域的数据服务也可能同样不可用。为了让业务在备地域的应用启用期间也能正常运转,您需要根据自身的业务设计合适的方案,在非故障期间将数据从主地域...

步骤六:启动复制

保护组初始化完成后,您就可以启动保护组复制。启动复制就是将生产站点所有数据复制到容灾站点,此时会在容灾站点自动...后续步骤 步骤七:故障切换 常见问题 ECS容灾云盘异步复制型启动复制时,控制台提示容灾站点实例规格异常,如何处理?

GTM如何实现同城容灾

常见问题 故障切换时间是多少?在健康检查间隔设置为15秒,TTL10秒,连续失败次数3次的配置下,GTM能在1分钟左右准确发现故障并切换,故障切换后理论上10秒左右可以全网生效,但实际情况取决于全国各地运营商的缓存设置时间。DNS未使用云...

GTM实现跨网访问加速与故障切换

概述 方案介绍 大部分企业的应用服务都会使用多个运营商的IP地址,因此可能会存在跨网延迟、丢包、故障不可用等问题,而全局流量管理产品方案可以根据用户请求源地址的运营商,解析就近的应用服务器IP地址,实现就近接入、访问加速、故障...

错误处理

Serverless 工作流 支持与多个云服务集成,当使用云服务作为 Serverless 工作流 任务步骤的执行节点时,您可以根据业务场景对执行的错误进行重试或捕获处理,使您的任务在生产场景中更稳定运行。本文介绍错误处理的方式及如何在不同的...

常见坐席工作台问题

该文档列举的是一些工作台中常见的问题。1.登录坐席工作台显示:未分配技能组,请先进行分配 答:找管理员给该坐席分配技能组,参考 坐席如何绑定技能组。2.怎样设置不出现/取消登录技能组的弹窗 答:管理员在设置中点击管理,选择技能组...

监控服务概览

使用方法请参见:云监控SDK参考 访问监控数据 监控、诊断和故障排除 监控诊断和故障排除 通过详细介绍以下各个方面的内容帮助您更好了解OSS服务的运行状态并进行自主诊断和故障排除:服务监控 介绍如何使用监控服务持续监控OSS存储服务的...

用户窃电识别

传统的防窃漏电方法虽然能够获得用电异常信息,但是由于终端误报或漏报过多,因此无法快速精确定位窃漏电嫌疑用户,导致稽查工作无法开展。传统方法建模时,专家需要根据知识和经验判断模型输入指标的权重,具有强主观性,导致实施效果不...

常见问题

重要提示 AI Earth地球科学云平台现已上线,点击立即体验 AI Earth地球科学云平台基于达摩院在深度学习、计算机视觉、地理空间分析等方向上的技术积累,结合阿里云强大算力支撑,提供低门槛、界面化的云GIS工作空间,适用于多源对观测...

ack-node-repairer

当Node Problem Detector(简称NPD)组件检测到节点上的故障并生成节点的事件(Event)或者Condition上报给集群时,ACK的自愈系统(ACK Node Repairer)会监听每个节点上的新故障事件,并根据配置对故障节点进行相应的修复操作。...

什么是数据库备份DBS

常见问题和故障处理 使用DBS时遇到的各类问题,例如需要修改备份源数据库、数据库恢复失败、如何备份RDS只读实例等,您可以在 常见问题 或 常见报错 内查找,可以解决您的绝大部分问题。说明 若在文档中未找到您遇到的异常或报错,或按照...

围绕混沌工程的平台实践

原则4持续自动化运行实验 由于系统、业务以及依赖的环境是在不断变化,故障演练也需要持续进行下去,因此自动化的故障演练是必不可少的环节。演练平台必须高效安全,为此Chaos提供了以下能力:提供了演练流程编排能力和多种演练运行...

使用OpenAPI诊断工具进行故障排查

阿里云OpenAPI平台提供使用诊断工具。本文介绍如何使用OpenAPI诊断工具进行故障排查。您可以登录 OpenAPI使用诊断,输入完整的RequestID或SDK报错信息,然后...如果诊断工具仍未能解决您的问题,您可以参考 故障排除、常见问题 获取解决方案。

什么是业务实时监控

分布式链路:提供应用拓扑和链路查询功能,观测应用及服务之间的复杂调用关系、性能指标、出错信息与关联日志,从而实现故障根因分析、服务治理、应用开发调试、性能管理、性能调优、架构管控、故障定责等运维开发工作。日志查询和日志关联...

常见问题

本文列举了在使用 云工作流(CloudFlow)过程中常见的问题,方便您在遇到问题时查阅及排查。问题列表 什么是云工作流?云工作流的工作原理是什么?云工作流的优势是什么?云工作流最长执行多长时间?怎么执行云工作流?云工作流使用什么...

常见问题旧版索引

排查故障的经典步骤与常见原因 如何通过查看日志排查故障?产品FAQ 授权管理FAQ 集群管理FAQ 节点与节点池FAQ 容器网络FAQ Service FAQ Ingress FAQ DNS FAQ 应用FAQ 存储FAQ-CSI 存储FAQ-Flexvolume 容器安全FAQ 为什么可观测监控 ...

地址池配置

永远在线:此工作模式系统将认为该IP地址永远处于正常状态,DNS解析始终向用户返回该IP地址,健康检查对永远在线的IP地址进行监控并告警,但是不执行告警后的IP地址摘除、添加和故障切换动作。永远离线:系统认为该IP地址永远处于异常状态...

应用场景

简单易用:最终用户可以在任何本地设备上通过⽆影客户端访问各类专业设计应⽤,无需担心应⽤和系统的适配以及故障问题。性能强劲:提供了多个高性能的GPU实例规格,可以⽀撑不同类型的设计类应⽤运⾏负载。企业办公数据安全 场景痛点 企业...

应用场景

简单易用:最终用户可以在任何本地设备上通过⽆影客户端访问各类专业设计应⽤,无需担心应⽤和系统的适配以及故障问题。性能强劲:提供了多个高性能的GPU实例规格,可以⽀撑不同类型的设计类应⽤运⾏负载。企业办公数据安全 场景痛点 企业...

功能概述

② 配置完成后,如果用户操作 执行 功能,系统则会将故障地址池中的地址工作模式改为“永远离线”的工作模式,地址池状态变为不可用,并按照您配置的访问策略自动执行流量切换。③ 容灾演练或流量切换完成后,如希望恢复到执行前的访问策略...

常见问题

本文主要描述使用物联网络管理平台时遇到的常见问题及其解决方法。物联网络管理服务当前收费吗?服务已正式收费,每个账号可免费接入三台网关体验组网。物联网络管理服务如何收费?收费方式请参考 计费说明。Link WAN与设备接入 Link SDK ...

灾备规划

云容灾服务因免去了灾备中心建设、硬件系统采购、运维等复杂的工作,加上资源可弹性扩展、按量付费的特性,这些都降低了规划工作的难度。您只需花少量的时间进行选型、规划等就可以轻松使用阿里云作为您的容灾服务提供者。本文将从需求分析...

什么是消息演练

随着应用规模的扩大,系统变得越来越复杂,不可避免会走向分布式化。各种中间组件会相继被引入系统,其中分布式消息服务更是系统中必不可少的一环。这些消息服务之前并没有在系统中实际经历过真实流量考验,其中某些隐患或缺陷很难被发现...

窃电用户自动识别概述

通过采集电量异常、负荷异常、线损异常、终端报警、主站报警信息,建立数据分析模型,工作人员可以实时监测窃漏电情况并发现计量装置故障。根据报警事件发生前后,客户计量点有关的电流、电压和负荷等数据情况,构建基于指标的用电异常分析...

专家成长计划技术培训课程

现场面授(特殊情况可调整为线上钉钉群直播)云上存储运维工程师专家培训(专项)1天 30人 本课程将全面介绍块存储、OSS、日志服务三大产品的常见问题的定位、排查和处理,使学习者深入故障处理和排查能力。本课程包含一定的实验动手操作,...

高阶使用

配置为故障转移方式,则表示多个Sink是一主多备的工作方式,当工作的Sink中止后,Event会被转移到备用的Sink上。相关示例如下:示例1:故障转移方式 a1.sinkgroups=g1 a1.sinkgroups.g1.sinks=k1 k2 a1.sinkgroups.g1.processor.type=...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

托管节点池节点自动恢复

当节点的运行状态发生变化并持续一段时间后,ACK将判定该状态符合故障状态,存在节点故障。当发现节点故障时,ACK会根据故障原因触发对应恢复任务,并记录相应的事件。当恢复任务完成后,故障状态解除,节点恢复正常状态。当恢复任务完成后...

存储资源

数据库实例异常 是指数据库系统在运行过程中出现异常情况,导致数据库无法正常工作或提供服务的状态。可能原因包含数据库服务进程异常退出、数据库节点宕机、数据库网络异常等,常见的容错策略如下:自动重启:当数据库实例异常终止或崩溃...

什么是Serverless工作

在 Serverless 工作流 中,您可以用顺序、分支、并行等方式来编排分布式任务,Serverless 工作流 会按照设定好的步骤可靠协调任务执行,跟踪每个任务的状态转换,并在必要时执行您定义的重试逻辑,以确保工作流顺利完成。Serverless 工作...

什么是云工作流(CloudFlow)

在 云工作流 中,您可以用顺序、分支、并行等方式来编排分布式任务,云工作流 会按照设定好的步骤可靠协调任务执行,跟踪每个任务的状态转换,并在必要时执行您定义的重试逻辑,以确保工作流顺利完成。云工作流 通过提供日志记录和审计来...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 文件存储 CPFS 运维安全中心(堡垒机) 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用