概述

但随着各公司业务范围的扩展和软件系统架构持续迭代升级,系统的复杂度随之增加,面对更多的非预期事件风险,如各类软硬件故障、错误的变更、突发流量,甚至到光纤挖断、自然灾害等引起的整个机房不可用情况,如何保障系统稳定性具有很大...

便宜易用

管理便捷 阿里云负责RDS的日常维护和管理,包括但不限于软硬件故障处理、数据库补丁更新等工作,保障RDS的正常运转。您也可以通过阿里云控制台或者API自行完成数据库的增加、删除、重启、备份、恢复等管理操作。开始使用RDS 快速入门 学习...

ECS系统事件概述

非预期运维事件 当底层宿主机出现突发软硬件故障,或者实例发生OOM、内核错误(kernel panic)等情况时,导致实例突发重启、宕机等异常。阿里云会及时发送非预期运维事件,并尽快恢复ECS资源可用性,同时通知您相应系统运维任务的执行情况...

混合云解决方案

如果MASTER 宕机,发生故障转移,此时SLAVE如果要提供服务,日志读取器会等待镜像日志先同步,再做发布,但如果MASTER发生硬件故障,此时SLAVE需要打开一个跟踪标记1448,在镜像故障的情况下可以继续分发数据。说明 1448标记用于在事务...

自助诊断GPU节点问题

当应用程序遭遇到GPU不可纠正的显存ECC错误时,NVIDIA错误抑制机制会尝试将错误抑制在发生硬件故障的应用程序,避免该错误影响GPU节点上运行的其他应用程序。当抑制机制成功抑制错误时,会产生该事件,仅出现不可纠正ECC错误的应用程序受到...

冷备操作手册

在后续运行中,如一体机发生硬件故障,本文档描述如何一键替换主机,快速恢复现场业务。一 支持声明 冷备支持机型 物业管理一体机-停车版、物业管理一体机-人行版、物业管理一体机-视频版、物业管理一体机-EBA版、物业管理一体机-通行版、...

设计方案

基于稳定性支柱设计原则,整体稳定性设计方案可参考如下:架构设计原则 软件系统从所有的功能都在一个应用程序内运行的单体应用架构,到不同的功能模块分别部署在不同的服务器上的传统分布式应用架构,再到服务细分通过轻量级的通信机制...

故障应急协同

故障应急协同故障发生后,可以基于钉钉的沟通协同能力和API,自动创建故障处理应急协同场景群。将故障相关成员直接拉进处理群,相关成员包括故障受影响业务的“应急接口人”、可疑原因业务的“应急接口人”,并且系统自动电话通知。进群...

响应云盒维修事件

当云盒中的硬件设备发生故障需要更换时,阿里云会向您发送云盒维修事件通知,您需要授权同意阿里云上门更换并维修硬件设备。本文为您介绍云盒维修相关的流程,以及如何响应云盒维修事件。背景信息 配置云盒计算资源时,您需要配置一定的...

新功能发布记录

2023-06-30 云盒计算资源配置最佳实践 维修事件 云盒中的硬件设备发生故障需要更换时,阿里云会向您发送云盒维修事件通知,您需要授权同意阿里云上门更换并维修硬件设备。2023-06-30 响应云盒维修事件 新增地域 新增以下两个地域:华东2...

计算资源

计算资源常指用于执行计算任务的软硬件资源,包括CPU、GPU、内存、操作系统和特定计算任务的软硬件环境等。计算资源的主要作用是执行各种计算任务,包括数据处理、算法运算、业务逻辑执行等。计算资源的性能和容量直接影响到系统的计算能力...

什么是FPGA云服务器

联合仿真平台 支持Intel和Xilinx器件,您无须更改原有设计即可进行软硬件联合仿真,降低输出FPGA高性价比算力的复杂度。互联拓扑动态可配置 支持1片、2片、4片FPGA互联拓扑,可动态配置拓扑,实现最高性价比。同卡FPGA之间使用高速互联通道...

同城容灾架构概述

非机房级故障(某个机房的单产品故障,例如其中一个机房的ECS服务器损坏),可以通过对单产品的灾备设计来保障发生故障时系统及时切换。应用设计相关参考标准 应用设计相关参考标准如下:无状态化。分布式集群设计、避免单点逻辑出现。幂等...

跨可用区容灾

当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...

设计原则

在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急团队有效协同、处理过程准确...

产品架构

黑名单规避,服务端内部会基于超时、抛错、检测等机制,主动拉黑存在慢、停止响应等问题的副本,使得请求能够主动绕开受软硬件缺陷的节点,让服务最大可能保持平滑。比如在掉电断开的场景下,在节点不可服务至失去网络心跳往往会存在一两...

PAI灵骏智算服务概述

产品架构 PAI灵骏 是软硬件一体化设计的算力集群服务,硬件涵盖了服务器、网络、存储以及集群的整体交付管理等,软件包括算力资源管控运维、AI加速套件、云原生任务管理,以及完善的AI开发作业平台,支持Pytorch、TensorFlow等常见AI框架。...

故障演练

为此每一层的系统都会面向失败做设计,对下游组件零信任,确保在故障发生时可以快速的发现和处理。但这些措施在故障发生时的有效性、故障恢复工具的真实容灾能力、处理问题人员的熟练度,沟通机制、容灾措施对上层的影响等问题,平时并没有...

Tair开发运维规范

及时处理阿里云发起的计划内运维操作(即待处理事件)为提供更优质的服务,持续提升产品性能和稳定性,阿里云会不定期地发起计划内运维操作(即待处理事件),对部分实例所属的机器执行软硬件或网络换代升级(例如数据库小版本升级)。...

代码逻辑场景

受影响的请求数 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求数超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障...

弹性裸金属服务器概述

弹性裸金属服务器是阿里云通过自研芯片、自研Hypervisor系统以及重新定义服务器硬件架构等软硬件技术打造的深度融合了物理机和虚拟机特性的创新型计算产品。弹性裸金属服务器开创了一种新型的云服务器形式,它能与阿里云产品家族中的其他...

网络游戏:心动网络股份有限公司

同时在主实例发生故障的时候,系统能在短时间(30s~60s)内完成快速切换,确保在线业务能够在保证数据完整性的同时快速恢复以提供正常的服务。丰富的业务支持 PolarDB 能够100%兼容MySQL 5.6、MySQL 5.7和MySQL 8.0,完全兼容MySQL各种生态...

约束与限制

故障切换:实例协调节点和计算节点均采用主备HA架构,当主节点发生异常或者硬件故障时,会在30秒内切换到备节点。切换过程中有30秒左右的连接闪断,需要您提前做好准备,通过连接池等机制,设置好程序的自动重连。指标 限制 用户最大连接数...

DeviceLinkDown

DeviceLinkDown事件提示您线下机构侧动态路由邻居发生故障或者静态接入链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 DeviceLinkDown CRITICAL linkdown Device Link State Change 可能原因 用户侧交换机设备故障。用户侧交换...

通用

海尔 客户介绍 海尔高举推行业务“小微化”、“个体化”,从组织角度来设计技术架构,借助“移动中台”来统一管理各支线业务的迭代与更新显得尤为重要。甚至,在架构上实现弹性扩展,从而能够集成更多业务,形成生态。项目背景 以用户体验...

搭建云价签系统需要哪些组件

概述 云价签产品由价签硬件基础设施及配套软件,和配套服务两大部分组成,分别由阿里云和其他服务商提供服务。详细信息 产品由以下软硬件及配套服务构成。适用于 云价签

概述

准备软硬件 本示例中,使用了如下MCU、通信模组开发板和软件开发环境:软硬件 准备说明 MCU 来源:ST公司生产的 STM32F103。开发板:NUCLEO-F103RB。通信模组 来源:SIMCom公司(芯讯通无线科技有限公司)生产的 SIM800C。开发板:SIM800C ...

购买云价签的费用是多少

概述 购买云价签系统,需要采购软硬件和配套的服务,包括部分工程实施费用。详细信息 云价签的计费情况,可查看 计费说明 文档。硬件产品价格如下。关于产品定价及商务咨询,请联系阿里云客户经理。适用于 云价签

日志管理

如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览器中,输入 https://<块网关IP地址>访问本地块网关控制台。输入用户名和密码,单击 确认。单击 关于,进入 关于系统 页面。找到 日志信息 区域,...

日志管理

如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览器中,输入 https://<文件网关IP地址>访问本地文件网关控制台。输入用户名和密码,单击 确认。单击 关于,进入 关于系统 页面。找到 日志信息 区域...

应用场景

平时,您还可以方便地进行容灾演练,确保真实故障发生时恢复流程顺畅,保证容灾计划的准确性。混合云容灾服务让您无需承担自建灾备中心的巨大投入,也无需担心传统容灾方案复杂的软硬件部署运维,极大减少了异地容灾的成本,提高容灾的有效...

基本概念

RPO Recovery Point Objective(数据恢复点目标),指应用发生故障时预期的数据丢失量。例如,RPO=15 分钟,表示在应用发生故障时,最近 15 分钟的数据无法在云上恢复。RTO Recovery Time Objective(恢复时间目标),指故障发生时,在云...

概述

物联网边缘计算提供云端API,供您管理边缘一体机及其相关软硬件资源。调用API的方法和说明,请参见以下文档:调用API 公共参数 错误码 为更好地保护您的阿里云账号安全,建议使用RAM用户来调用物联网边缘计算的API。授予RAM用户访问物联网...

JVM注入动态脚本

受影响的请求数 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求数超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障...

AccessGatewayFailover

AccessGatewayFailover事件提示您智能接入网关设备主IPsec链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 AccessGatewayFailover INFO agwfailover Access Gateway Failover 可能原因 IPsec链路网络故障。处理方法 无需处理。...

DeviceWanLinkDown

DeviceWanLinkDown事件提示您设备WAN链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 DeviceWanLinkDown CRITICAL down Wan Link Down 可能原因 WAN链路出现故障。处理方法 请提交工单,联系阿里云工程师。icmsDocProps={'...

概述

准备软硬件 本示例中,使用了如下MCU、通信模组开发板和软件开发环境:软硬件 准备说明 MCU 来源:ST公司生产的 STM32F103。开发板:NUCLEO-F103RB。通信模组 来源:SIMCom公司(芯讯通无线科技有限公司)生产的 SIM800C。开发板:SIM800C ...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,分钟级的高可靠的业务持续性保障,有效避免了地域性灾害导致的系统故障。

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...
共有179条 < 1 2 3 4 ... 179 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 边缘网络加速 无影云电脑 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用