故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先业务客户之间所约定的服务级别...

客户案例

唐家才 网商银行 CTO“网商银行选择 OceanBase 三地五中心部署架构,不仅在数据上从具备抵御同城机房故障提升到具备异地城市容灾的能力,同时内置的多租户隔离的能力,满足全行多应用系统的管理与使用需求,让应用系统多活架构设计上变的...

工作负载安全保护

云上的工作负载是一套支撑IT业务系统运行的相关功能或一些原子能力,诸如服务器、VM、容器、网络、数据库等。通常情况下企业在云上使用最多的工作负载环境就是VM和容器。针对VM和容器的防护要做到以下几点:有效的识别工作负载,梳理清楚在...

网站耗资源(客户程序故障)常见问题

什么会出现网站耗资源(客户程序故障)?常见的造成网站耗资源(客户程序故障)现象的原因如下所示:网站程序编写不合理,例如ASP程序变量没有清空。网站数据库调用频繁,例如当ACCESS数据库的容量比较大时(超过100 MB以上),性能可能...

重启实例

当实例连接数满或出现访问异常时,您可以重启 云原生内存数据库 Tair。重启的影响注意事项 重启可能发生 数据丢失。...单副本实例,重启会出现数据丢失,请谨慎操作。如果对数据有可靠性要求,建议升级至高可用(双副本)。

重启实例

当实例连接数满或出现访问异常时,您可以重启 云数据库 Redis 版。重启的影响注意事项 重启可能发生 数据丢失。...单副本实例,重启会出现数据丢失,请谨慎操作。如果对数据有可靠性要求,建议升级至高可用(双副本)。

设计原则

数据容灾是指在数据中心或服务器发生故障、灾难或意外情况时,能够保证数据的安全性和可用性的一系列措施和策略。数据容灾的目标是确保在不可避免的情况下,数据的完整性、可恢复性和可用性不受到严重影响,以保障业务的持续运行和数据的...

灾备规划

云上容灾 为减少因应用故障导致的业务损失,当数据中心出现严重故障无法快速恢复时,混合云容灾服务可以高效地在ECS上快速恢复您的应用。RTO和RPO要求 应用容灾有两个核心的指标:RPO:指应用发生故障时可以容忍的数据丢失量。数据越重要,...

主备切换

但在切换过程中,会出现以下情况:执行切换的数据节点将出现秒级的连接闪断,可能还会出现30秒内的只读状态。在实例处于 切换中 状态时,将无法执行实例级别的操作(例如变更配置、迁移可用区等)。当实例完成主备切换后,实例状态会显示为...

主备切换

但在切换过程中,会出现以下情况:执行切换的数据节点将出现秒级的连接闪断,可能还会出现30秒内的只读状态。在实例处于 切换中 状态时,将无法执行实例级别的操作(例如变更配置、迁移可用区等)。当实例完成主备切换后,实例状态会显示为...

网络架构容灾

不同部门和团队使用云产品时,一般会使用多个VPC把业务隔离,不同的VPC承载不同部门或团队的业务。但不同团队和部门间在特定场景下也需要互相访问双方的服务,这时就需要实现不同VPC间的互通。实现不同VPC之间的互通在阿里云上有两个主要...

版本管理常见问题

没有下发过升级任务,但为什么会出现在任务页中?为保障稳定性,后端系统会不定期对集群进行维护操作,确保集群平稳运行。您可以将可维护窗口设置在业务低峰期,以免维护过程对业务造成影响。设置可维护窗口时间请参见 可维护时间的设置。...

功能特性

新增服务 重启服务 当配置项修改后,需要重启对应的服务使配置生效,或当某个服务出现故障或异常时,重启服务可以尝试修复服务的问题,并恢复其正常运行状态。重启服务 管理配置项 支持通过控制台的方式修改、添加或查看集群中服务的配置项...

产品简介

什么是运维事件中心 运维事件中心是企业业务连续性的运营管理平台,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能;一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应...

常见问题旧版索引

使用Terway网络的ENI模式出现网络异常 Terway网络场景中交换机的IP资源不足 ACK集群中SLB实例的具体用途 集群管理 容器服务ACK集群故障排查 添加Kubernetes集群节点的常见问题 删除Kubernetes集群失败 通过CloudShell管理集群出现超时问题 ...

MongoDB 7.0

副本集实例 计费管理 功能 独享型云盘版 通用型云盘版 功能影响及建议 按量付费转包年包月 包年包月转按量付费 手动续费包年包月实例 包年包月实例开通自动续费 本操作不影响实例的运行,但是产品费用可能发生变化。实例管理 功能 独享型...

MongoDB 4.0

实例管理 功能 通用型云盘版 功能影响及建议 创建单节点实例 单节点实例的故障恢复时间较长,无SLA保障。变更单节点实例配置 变更配置的完成时间多种因素(如网络、任务队列、数量大小)有关,建议您在业务低峰期执行变配操作,并确保您...

常见问题

如果需要执行物理维护,阿里云会与您预约上门时间进行硬件维护。哪些数据通过云盒和公共云的连接返回到公共云?云盒内的ECS实例及块存储相关的监控指标数据返回到公共云,包括运行健康数据、实例状态和底层的物理机监控数据。这些数据...

什么是容器服务 Kubernetes 版

应用中心:应用部署后,以统一的视角展现整体应用的拓扑结构,同时对于持续部署等场景进行统一的版本管理与回滚。应用备份和恢复:支持对Kubernetes应用进行备份和恢复。更多信息,请参见 集群内备份和恢复应用。Knative:一款基于...

MongoDB 6.0

副本集实例 计费管理 功能 独享型云盘版 通用型云盘版 功能影响及建议 按量付费转包年包月 包年包月转按量付费 手动续费包年包月实例 包年包月实例开通自动续费 本操作不影响实例的运行,但是可能引起费用的变更。实例管理 功能 独享型云...

MongoDB 4.2

计费管理 功能 通用型本地盘版 独享型本地盘版 独占物理机 独享型云盘版 功能影响及建议 按量付费转包年包月 包年包月转按量付费 手动续费包年包月实例 包年包月实例开通自动续费 本操作不影响实例的运行,但是可能引起费用的变更。...

MongoDB 4.4

副本集实例 计费管理 功能 独享型云盘版 功能影响及建议 按量付费转包年包月 包年包月转按量付费 手动续费包年包月实例 包年包月实例开通自动续费 本操作不影响实例的运行,但是可能引起费用的变更。实例管理 功能 独享型云盘版 功能影响...

ACK集群概述

应用中心:应用部署后,以统一的视角展现整体应用的拓扑结构,同时对于持续部署等场景进行统一的版本管理与回滚。应用备份和恢复:支持对Kubernetes应用进行备份和恢复。更多信息,请参见 集群内备份和恢复应用。存储 存储插件:支持CSI...

归档存储服务等级协议

故障恢复能力 阿里云为付费用户的云服务提供7×24小时的运行维护,并以在线工单和电话报障等方式提供技术支持,具备完善的故障监控、自动告警、快速定位、快速恢复等一系列故障应急响应机制。2.11.网络接入性能 阿里云归档存储对用户不限制...

附录:SOFAStack 产品目录

高可靠的轻量级配置中心 提供应用运行时动态修改配置的服务,并提供图形化的集中化管理界面。多活数据中心 支持同城双活/异地多活架构,具备异地容灾能力,保障系统的可用性。应用场景 传统应用微服务改造 通过微服务产品将传统金融业务...

如何开通移动端协同应用

关于移动应用的产品定位:支撑运维事件中心的核心业务在移动端开展,如运维事件/故障的响应、转交完结等事件运行生命周期内的重要节点和状态。打通PC端移动端(目前支持钉钉和企业微信,飞书暂未开通)之间的信息互通的渠道,方便用户...

GTM如何实现同城容灾

概述 方案介绍 同城容灾指应用服务部署是多机房、单地域时,当其中一机房出现故障时,全局流量管理(简称GTM)可实现业务7*24小时稳定运行,即使单机房故障也不影响业务的可持续性,保障用户访问连续不间断。本文将以同城双活的灾备架构为...

步骤五:应用容灾

故障切换 当本地自建数据中心出现重大故障时,对服务器进行故障切换,确保在阿里云上正常运行业务。而当您的主站发生重大故障,需要在云上马上重启核心业务时,则需要进行故障切换操作。警告 故障切换操作适用于被保护服务器已经出现严重...

云解析DNS如何实现故障切换

全局流量管理支持IP地址健康检查功能,并根据健康检查的结果,来判断运营商IP地址是否出现故障,如果出现故障,则将域名解析切换到备份的运营商IP上,并最终帮用户实现自动故障转移的功效。请参阅 GTM实现跨网访问加速与故障切换 操作...

主备切换

RDS在发生异常触发高可用切换时,应用端长连接可能无法感知到连接状态变化,如果没有设置socket超时时间,应用程序会一直等待数据库返回结果,通常会等到几百秒后才会断连,期间数据库的部分连接无法正常工作,SQL会出现大量执行异常。...

基本概念

变更中心 业务开通场景管理中心,以自动化模板为原子操作的网络变更编排引擎,所有业务无论配置开通、例行维护还是故障自恢复都能使用方案通过工单的方式简单执行,支持人工步骤、自动步骤任意组合控制工单逻辑的流转执行。自动化模板 ...

自动或手动主备切换

此外,您还可以手动切换主备实例,应对系统升级、维护故障排查等情况。前提条件 实例系列为高可用系列或集群系列。说明 集群系列实例只支持自动切换,不支持手动切换。集群系列实例未直接开放手动主备切换功能,如有需求,请联系阿里云...

修改实例维护属性

当宿主机存在故障风险和出现突发故障时,阿里云通过系统事件方式通知宿主机上的用户,您可以响应该系统事件。在您响应该系统事件时,ECS实例的默认行为是自动重启。如果您希望在这种情况下不自动重启ECS实例,可以通过修改维护属性来调整...

设计方案

变更设计原则 在企业的运维管理与运行过程中,就有变更产生。变更是指添加、修改或删除任何可能对服务产生直接或间接影响的内容。当变更失败时可能带来严重后果:业务中断、客户舆情等等一系列问题。为了降低变更带来的业务风险,需要...

变更管理

变更管理分为组织变更变更支持:组织变更:确保组织中的变更顺利实施,并通过管理变更的人为方面来实现业务连续稳定运行的实践。变更支持:正确地评估变更风险、对变更进行合理授权、管理变更时间表,通过增加成功变更次数来实现业务的...

托管节点池概述

如果您希望将节点进行分组纳管,同时降低节点的运维负担,例如操作系统(OS)CVE漏洞自动修复、kubelet自动升级、节点故障时重启节点等,您可以启用托管节点池。托管节点池是ACK推出的自动化运维型节点池,在普通节点池的基础上支持多种...

跨可用区容灾

当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...

基本概念

本主要介绍运维事件中心的基本概念。集成中心 名词概念 说明 监控源 监控源表示上游监控系统,包括阿里云监控系统、开源...更多请查看 什么故障 服务中心 名词概念 说明 服务 服务是企业业务连续性管理的最小单元。更多请查看 什么是服务

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...

什么是混合云容灾服务

解决的核心问题 混合云容灾解决的核心问题如下:应用级容灾保障业务持续性(Business Continuity):在数据中心故障或长时间系统维护作业时,在云上快速恢复应用运行,缩短业务停机时间,极大减少损失。数据级容灾:在数据中心备份您的数据...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
轻量应用服务器 云安全中心 商标服务 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用