概述

在企业数字转型过程中,基于云计算平台服务,可以让企业快速构建新业务、减少业务故障率、持续观测业务指标、提升业务稳定性,使企业更加专注于业务本身。总体而言,主要包括以下几个关键领域:卓越运营第一个关键领域是确定组织的运营...

混合云应用双活容灾最佳实践

业务容灾涉及的技术栈框架和云产品,需要统一管控、统一运维、统一切换,操作收敛在一站式管控平台,方便故障场景快速白屏操作,自动化执行。实施周期短,改造成本低。业务存在多个产品线,依赖关系复杂、调用链路长,且处于高速发展频繁...

实例启动异常常见错误与对应解决方案

1671696280:Windows系统BCD配置异常或磁盘文件系统故障,导致系统启动失败 问题现象 通过VNC登录实例时,Windows系统启动失败,启动界面显示 Windows未能启动,原因可能是最近更改了硬件或软件 错误信息,且 状态 为 0xc0000001。问题原因...

响应云盒维修事件

如果该故障无法通过 阿里云智能运维系统 进行自动化修复,则会触发云盒硬件维修事件(SystemFailure.HostOfflineAndRepair事件),通知您授权同意阿里云上门更换并维修硬件设备。涉及的流程如下:重要 硬件维修采用整机替换的方式现场更换...

什么是故障演练

故障演练是一款遵循混沌工程实验原理并融合了阿里巴巴内部实践的产品,提供丰富故障场景,能够帮助分布式系统提升容错性和可恢复性。流程 故障演练建立了一套标准的演练流程,包含准备阶段、执行阶段、检查阶段和恢复阶段。通过四阶段的...

异常:无法使用捕捉控件捕获SAP客户端中的控件元素

问题原因 实现通过阿里云RPA自动化操作SAP系统前,需要检查自动录制脚本功能与启用脚本功能是否是开启状态。这两个功能默认是关闭状态的,若没开启这两个功能,是无法通过RPA捕获控件进行捕获操作的。所以需要先开启这两个功能。解决方式 ...

设计方案

故障自愈:故障自愈是指系统自动检测到故障并采取自动恢复措施。故障自愈技术可以帮助故障恢复和处理更加快速和准确。例如,利用容器技术,系统可以自动迁移容器来解决故障。故障复盘:故障复盘是指对故障进行分析和总结,以便更好地避免...

查看实例的系统日志和屏幕截图

云服务器ECS是虚拟的云上服务,您无法接入显示设备,也无法手动截屏。但是ECS缓存了实例最近一次启动、重启或者关机时的系统日志,并且支持实时获取实例屏幕截图。您可以利用这些功能分析排查实例故障,例如诊断操作系统无响应、异常重启...

设计原则

自动化监控与报警:通过自动化监控系统,实时监测云计算环境的状态,如网络、存储、计算资源等。当发生异常或故障时,及时发出警报并采取相应的响应措施;容灾演练:定期进行容灾演练,模拟灾难事件,并测试数据恢复的能力和容灾计划的有效...

PTS压测快速入门

演练阶段:在演练排查阶段,您需要对系统进行故障演练,进而发现并验证系统问题,锻炼系统及相关人员的应急能力,阿里云提供了 故障演练 平台帮助您演练预案。更多信息,请参见 什么是故障演练。容灾阶段:在容灾防护阶段,您需要构建系统...

Windows系统的ECS实例ping外网地址提示“一般故障”...

本文介绍Windows系统的ECS实例ping外网地址提示“一般故障”的错误原因和解决方案。问题现象 Windows系统的ECS实例ping外网地址时提示“一般故障”错误。问题原因 出现该问题可能有以下原因:可能原因 排查方案 ECS实例中安装了第三方杀毒...

系统故障排查

概述 本文主要介绍使用阿里云服务器ECS时的系统故障排查,包含CPU、磁盘I/O、内存、硬盘、带宽资源占用异常的问题排查与定位。详细信息 说明 阿里云提醒您:如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,...

自动/手动主备切换

当系统发生故障时,可读写的主节点和只读节点之间会自动进行故障切换(Failover),系统自动选举新的主节点。集群中每个节点都有一个故障切换(Failover)优先级,该优先级决定了故障切换时每个节点被选举为主节点的概率高低。当多个节点的...

自动/手动主备切换

当系统发生故障时,可读写的主节点和只读节点之间会自动进行故障切换(Failover),系统自动选举新的主节点。集群中每个节点都有一个故障切换(Failover)优先级,该优先级决定了故障切换时每个节点被选举为主节点的概率高低。当多个节点的...

光模块故障

本文介绍光模块发生故障原因和处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块不兼容或损坏。智能接入网关设备支持的光模块型号请参见 光模块型号。说明 目前仅SAG-1000设备支持光模块插入。解决方案 通用多...

设备和交换机之间的链路故障

本文介绍SAG-1000设备发生设备和交换机之间链路故障原因和处理方法。问题现象 设备和交换机接口之间ping不通。设备的Web端口配置页,端口前的状态灯为红色。动态路由OSPF接入时,Web端口配置页,端口前的状态灯为红色。设备的Web状态查询...

管理集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

管理集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

Linux系统的ECS实例系统无响应,系统日志中出现“BUG:...

BUG:soft lockup-CPU#0 stuck for 61s 问题原因 该问题通常是由于ECS实例中,系统内核长时间占用CPU资源导致出现软死锁(soft lockup)故障,内核长时间占用CPU资源可能有以下原因系统负载过高 内核死循环或死锁 内核调度问题 内核出现...

故障止损恢复

快恢能力主要包含人工梳理快恢预案、通用垂直专项快恢能力:人工梳理预案:通过全面梳理故障场景及风险场景的可用降级预案来达到该场景触发故障时,系统自动推荐前期关联的预案,提供故障群内一键执行的方式,也提供设定执行条件,符合条件...

应用场景

痛点:因为业务系统多、数据来源多,经营所需的数据需求高频且多样。但数据体系复杂、数据不统一,数据分析速度和数据准确一致性难保障,战略决策与数据运营受阻。解决方案:数据融合:通过数据引入功能,将业务系统数据集成、融合一体...

自动化测试

按照下列格式上传,系统自动检测采样率,当采样率非标准采样率(非16K或8K采样率)时,系统自动调整为适合的采样率。要求如下:路径中不允许有中文。每个WAV文件名必须是唯一的。WAV文件(.wav后缀)和标注TXT(.txt后缀)文件必须分别...

单实例快速恢复

当出现1分钟容器响应超时(可能是内存溢出、硬件故障、软件Bug等原因导致),Resource Manager会自动拉起新的计算节点,并迁移数据分片(Shard)职责到新的节点上(例如Worker Node3响应超时,Resource Manager拉起Worker Node4取代Worker ...

GTM如何实现同城容灾

创建1个全局访问策略,解析请求流量 选择 全局,主地址池集合 选择「业务中心01」地址池和「业务中心02」地址池,负载均衡策略 选择 返回全部地址,此设置可实现两个数据中心同时提供服务和发生故障系统自动摘除故障地址的效果。...

访问策略

6.备用地址池是在默认地址池因故障原因不可用时,可以将用户的访问流量切换至备用地址池上。在 备用地址池 的下拉框中,选择已创建的地址池名称,最后单击 下一步。如果您还没有创建地址池,请参考 创建地址池 文档。注意:如未设置备用...

自动/手动主备切换

当系统发生故障时,可读写的主节点和只读节点之间会自动进行故障切换(Failover),系统自动选举新的主节点。集群中每个节点都有一个故障切换(Failover)优先级,该优先级决定了故障切换时每个节点被选举为主节点的概率高低。当多个节点的...

运维服务内容说明

基于阿里巴巴数字运维解决方案,提供专属运维服务专家,帮助企业客户做好云上运维管理,降低运维开销和风险,提升运维效率和业务连续性,增强系统安全性和合规性,助力企业客户加速数字转型!2.服务范围 运维产品范围:阿里公共云云...

云效自建测试自动化最佳实践

1.选择或编写对应开源测试自动化工具的flow step 云效内置了主流开源测试自动化工具的支持(TODO),同时提供flow cli工具,帮助企业定制地实现符合自己要求的测试自动化组件。如何通过flow cli实现并发布一个flow step,请参见参考资料...

清林云

阿里云 函数计算 承载了清林云的业务API层、常用应用和自定义应用,再配合使用 Serverless工作流,使得整个流程Serverless,轻松应对清林云高峰流量和集中自动化流运行。公司介绍 清林云是一家专业的互联网业务咨询公司,为客户提供技术...

清林云

阿里云 函数计算 承载了清林云的业务API层、常用应用和自定义应用,再配合使用 Serverless工作流,使得整个流程Serverless,轻松应对清林云高峰流量和集中自动化流运行。公司介绍 清林云是一家专业的互联网业务咨询公司,为客户提供技术...

演练场景说明

故障演练场景是演练任务的核心。AHAS提供基础资源类场景和Kubernetes类场景,帮助分布式系统提升容错性和可恢复性。每一个执行阶段的演练场景都对应一个恢复阶段的演练任务。恢复阶段的演练任务目的是清除故障演练的影响,使应用或服务恢复...

同城容灾架构概述

基本原理 同城容灾是在相隔较远的两地(同城)建立两套功能相同的IT系统,当一处系统因意外(火灾、地震等)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作。对于中大型企业来说,如果希望业务系统具备同城容...

如何管理故障

当报警来源的指标持续恶化,触发故障产生规则,系统自动产生故障故障过程 故障过程用于记录管理故障处理的全过程。当故障处于处理中/已恢复状态时,故障详情默认进入故障过程tab页;可以对故障的最新进展、故障影响面(影响服务)、舆情...

利用定时开关机节省成本

什么是OOS 系统运维管理 OOS(CloudOps Orchestration Service),简称OOS,是全面、免费的云上自动化运维平台,提供运维任务的管理和执行。典型使用场景包括:事件驱动运维,批量操作运维,定时运维任务,跨地域运维等,OOS为重要运维场景...

标准版-双副本

主节点提供日常服务访问,备节点提供HA高可用,当主节点发生故障系统自动在30秒内切换至备节点,保证业务平稳运行。特点 可靠性 服务可靠 采用双机主从(master-replica)架构,主从节点位于不同物理机。主节点对外提供访问,用户可...

标准架构

主节点提供日常服务访问,从节点提供HA高可用,当主节点发生故障系统自动在30秒内切换至从节点,保证业务平稳运行。标准架构高可用类型的特点如下:可靠性 服务可靠 采用双机主从(master-replica)架构,主从节点位于不同物理机。主...

异常:编辑器新建工程失败报:string was not ...

问题现象 在阿里云RPA编辑器中新建...问题原因 操作系统的区域日期时间格式与阿里云RPA要求的格式不匹配。解决方式 在Windows设置中找到时间和语言,在区域页面中,点击更改数据格式。根据下图设置即可。重新打开阿里云RPA客户端新建工程。

什么是消息演练

随着应用规模的扩大,系统变得越来越复杂,不可避免地会走向分布式。各种中间组件会相继被引入系统,其中分布式消息服务更是系统中必不可少的一环。这些消息服务之前并没有在系统中实际经历过真实流量考验,其中某些隐患或缺陷很难被发现...

主从实例读写分离部署(共享存储)

当出现1分钟容器响应超时(可能是内存溢出、硬件故障、软件Bug等原因导致),Resource Manager会自动拉起新的计算节点,并迁移Shard职责到新的节点上(例如Worker Node3响应超时,Resource Manager拉起Worker Node4取代Worker Node3),...

托管节点池概述

如果您希望将节点进行分组纳管,同时降低节点的运维负担,例如操作系统(OS)CVE漏洞自动修复、kubelet自动升级、节点故障时重启节点等,您可以启用托管节点池。托管节点池是ACK推出的自动化运维型节点池,在普通节点池的基础上支持多种...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
机器人流程自动化 云安全中心 视频点播 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用