基于Kubernetes容器集群的容灾架构与方案

在进行系统架构设计时,您必须考虑到信息系统和基础设施可能遇到的各种潜在威胁,例如:硬件故障、软件系统崩溃、人为操作失误、安全攻击、自然灾害等。为了确保系统能够在各种异常故障场景下快速恢复并保持业务连续性,您必须为系统设计...

监控、诊断和故障排除

相对于传统应用程序,开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本,但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息,帮助您深刻洞察程序行为,及时发现并快速定位问题。本文主要描述...

集群高可用架构推荐配置

高可用性(High Availability,HA)是指系统的设计能够确保服务可靠性和持续性的一种特性。容器服务 Kubernetes 版 基于Kubernetes架构提供了多种集群高可用保障机制,以确保集群控制面、节点与节点池、工作负载、负载均衡等维度的高可用,...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACK集群中使用集群诊断功能。前提条件 已创建Kubernetes托管版集群。具体...

ECS系统事件汇总

系统事件用于记录和通知云资源信息,例如运维任务执行情况、资源是否出现异常和资源状态变化等。您可以通过系统事件获取ECS资源的风险和异常信息,例如 某一实例到期、实例因底层升级需迁移或因系统维护重启了某一实例等,然后及时响应和...

创建演练

背景信息 一次完整的故障演练包括以下四个阶段:安装故障演练探针 创建演练 执行演练 停止演练 操作步骤 登录 AHAS控制台,在左侧导航栏中选择 故障演练>我的空间。在 我的空间 页面,单击 新建演练。选择 新建空白演练 或 从经验库新建。...

查询并配置计划内事件

云原生多模数据库 Lindorm 的运维事件(例如小版本升级)除了通过 短信、语音、邮件或站内信通知之外,还会在控制台进行通知。您可以在计划内事件中,查看具体的事件类型、地域、流程、注意事项和系统默认切换时间等信息,也可以手动修改...

混沌工程缓存实战系列-Redis

Redis是一个开源高性能的Key-Value存储系统,虽然Redis本身具备了非常高的可用性,但是在实际应用中也会随着系统业务的复杂性以及不合理的使用,而导致很多的问题。本文将讲述如何通过混沌工程来暴露可能存在的使用风险,提升缓存问题的...

GTM如何实现异地容灾

两地三中心容灾架构,是指在同城双中心的基础上,在异地的城市建立一个备份的灾备中心,用于双中心的数据备份,当双中心出现自然灾害等原因而发生故障时,异地灾备中心可以用备份数据进行业务的恢复。目标读者 企业网络部、业务运维部工作...

服务内容

有 应急响应 针对安全事件发生后,提供遏制、根除、恢复方法,并提供预防和安全建议,协助查找攻击源和入侵原因。安全事件应急响应。应急响应完成后,提供《应急响应报告》。触发条件包含如下两类场景:用户主动请求应急响应支持。安全专家...

混合云应用双活容灾最佳实践

背景信息 A企业是一个零售行业电商交易平台,业务系统部署在自建IDC机房,存在以下痛点:业务仅在IDC单机房部署,缺少容灾能力。IDC容量不足,物理机器升级替换周期长,不足以支撑业务的快速发展。业务在快速发展过程中,多次遇到容量不足...

功能特性

远程连接Windows服务器 使用救援连接Linux服务器 当您的Linux服务器因为修改SSH配置等其它原因导致无法远程连接时,可以通过管理控制台的救援功能临时登录服务器进行问题修复。使用救援连接Linux服务器 管理轻量应用服务器 实例生命周期...

归档存储服务等级协议

阿里云将对不可用时间进行赔偿,但不包括以下原因所导致的服务不可用时间:(1)阿里云预先通知用户后进行系统维护所引起的,包括割接、维修、升级和模拟故障演练;(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)...

监控与日志

系统事件监控 阿里云云监控服务的事件监控功能自动汇集云产品故障、运维事件,并为您提供各云产品系统事件的统一查询和统计入口,使您明确得知其使用状态。通过应用分组进行资源分类后,云产品产生的系统事件会自动与组中资源关联,帮助您...

运维服务内容说明

1.服务概述 阿里云运维服务(Alibaba Cloud Managed Services),基于阿里巴巴数字化运维解决方案,提供专属运维服务专家,帮助企业客户做好云上运维管理,降低运维开销和风险,提升运维效率和业务连续性,增强系统安全性和合规性,助力...

功能架构

作为一个企业级产品,系统提供资源租户隔离、访问鉴权控制和监控配置模板等企业级特性。并且提供数据高可用、服务高可靠、双机房容灾部署等平台特性。基于系统丰富数据和强大功能,可以支撑容灾巡检、故障重放、弹性扩缩、微服务治理和全...

监控与日志

系统事件监控 阿里云云监控服务的事件监控功能自动汇集云产品故障、运维事件,并为您提供各云产品系统事件的统一查询和统计入口,使您明确得知其使用状态。通过应用分组进行资源分类后,云产品产生的系统事件会自动与组中资源关联,帮助您...

发布API

帮助您简单、快速、低成本、低风险地实现微服务聚合、前后端分离、系统集成,向合作伙伴、开发者开放功能和数据。在数据服务中执行发布API时,本质上即为将API发布至API网关,从而自动生成在线调用地址。API网关的产品详情请参见 产品简介...

什么是云网管

系统提供远程集中式标准化的运维平台,各类物理资源可纳管,所有网络业务可编排,性能指标可定义,通过全协议交互支持和可视化引擎,面向运维视角开放完整能力,用自动化替代人工,打造基础设施一体化稳定体系,助力企业伙伴解决运维难题。...

变更管理

变更审批:由于变更系统相关的负责人进行审核,确保变更风险级别,若无法控制或无法预测,则建议明确变更方案或禁止变更。变更审批流程可由多人进行组合,包括:业务负责人、团队TL、技术TL等,变更涉及的人员可根据变更的影响程度以及影响...

ADP底座介绍

ADP底座包含了两个部分:ADP容器底座:整个应用运行时的公共底座,是一个K8s为基础的容器云平台,他是应用自有组件和中间件的部署、运维的基础设施,为上层业务应用的运行和管理维护提供必要的系统支持。ADP-Local:跟随软件产品交付部署到...

AIOps 解决方案专家服务内容说明

调研的服务范围包含:基础资源调研、业务现状调研、应用系统调研《调研报告》2 智能故障发现方案设计 基于业务数据、资源组维度建立业务组单元,将业务组单元指标通过智能AI算法进行实时分析,帮助企业快速发现故障,列出可疑根因事件,并...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

转换计费方式

等待降配退款工单闭环后,再次登录 EDAS控制台,系统会显示当前未开通EDAS,按页面提示选择开通EDAS按量付费。说明 重新开通按量付费之后,原应用实例不会发生变化。在退款后至自助开通按量付费期间,EDAS中业务正常运行,但控制台会被限制...

DT-MPC v3.1

该功能将对闭环控制中的MV主动增加可以调配的激励信号,为系统辨识提供更加丰富的数据信息。自抗扰功能 提供自抗扰功能,使闭环控制可以更好地抵御外部输入的未知扰动,提高控制的可靠性。鲁棒MPC 提供输入动态模型参数范围,并据此进行...

DT-PID V2.1.0

功能说明 PID控制器是最常见的单变量基础控制器,其算法简单、鲁棒性好和可靠性高,被广泛应用于工业过程控制,广泛适用于没有精确模型的控制系统,对于可建立精确数学模型的确定性控制系统也具有较好的精确控制能力。PID控制又称为比例、...

ECS整机恢复

当ECS整机发生系统故障或者错误操作时,您可以通过备份点的克隆和恢复功能,实现ECS整机回退和创建新的ECS整机。本文介绍整机恢复的相关操作。前提条件 已创建ECS整机备份。具体操作,请参见 备份ECS整机。重要 当源ECS存在时,支持直接...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时,您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点,进行原盘恢复或者创建新盘操作来实现数据恢复。前提条件 已创建ECS整机备份。具体操作,请参见 备份ECS整机。背景信息 云盘恢复...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时,您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点,进行恢复原盘或者创建新盘操作实现数据恢复。本文介绍云盘恢复的相关操作。前提条件 已创建云盘备份。更多信息,请参见 创建云...

强弱依赖治理概述

强弱依赖治理的应用 强弱依赖治理主要可以被应用到以下场景:系统改造验收:对于分布式系统,至少在运行态中,不会因为依赖的系统后台出现故障,引起当前应用出现系统级可用性的故障,例如进程挂掉、频繁FullGC、负载飙高等,何时何地都应...

什么是故障演练

故障演练是一款遵循混沌工程实验原理并融合了阿里巴巴内部实践的产品,提供丰富故障场景,能够帮助分布式系统提升容错性和可恢复性。流程 故障演练建立了一套标准的演练流程,包含准备阶段、执行阶段、检查阶段和恢复阶段。通过四阶段的...

流水单据型业务场景多活实践

验证爆炸半径是否控制故障单元内:预期:UserID为2000的用户路由到杭州单元,不受北京单元故障的影响。结果:下单正常,符合预期。切流恢复 验证故障场景下的容灾恢复能力。在北京单元发生故障的情况下,可以使用MSHA切流功能将受影响的...

权限管理

在ADP中,主要包括三类权限:功能权限:控制系统菜单的可见性权限。功能权限属于前端权限,对其进行控制,可以避免用户看到不属于自己的功能。接口权限:控制服务端的接口请求权限。接口权限是后台安全保障中最为基础的权限,主要由服务端...

光模块故障

本文介绍光模块发生故障原因和处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块不兼容或损坏。智能接入网关设备支持的光模块型号请参见 光模块型号。说明 目前仅SAG-1000设备支持光模块插入。解决方案 通用多...

门禁服务

本章节主要介绍在园区门禁通行,平台提供的能力。该能力,是基于物业管理一体机集成本地门禁系统,把本地系统、老旧存量系统...这些标准模型可以由被调用集成,实现系统控制(下行)和业务感知(数据上行)的业务闭环。请参考 门禁服务介绍。

终端访问控制系统FAQ

本文档介绍了使用终端访问控制系统的常见问题和对应的解决方案。有线网络可以通过添加Mac白名单的方式来放行打印机等哑终端设备,无线网络如何支持无法安装客户端的终端入网?终端访问控制系统支持管理哪些类型的终端?管理员在推送Windows...

故障止损恢复

故障初因定位 集成企业内部可利用的所有稳定性相关数据(变更事件,...通用垂直专项快恢能力:通过集成包括DB侧慢SQL限流、变更极速回滚、多活容灾切流快恢等通用的快恢能力,结合监控、日志等数据自动定位的故障原因进行对应的快恢方式推荐。

设备显示离线

本文介绍智能接入网关设备显示离线的原因和处理方法。问题现象 登录 智能接入网关控制台,查看设备状态为 离线。可能原因 设备软件故障。设备到阿里云联网故障。解决方案 通过尝试在同一个运营商出口环境内 ping 其他知名网站,确认您的...

设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障的发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

Windows系统实例的宕机问题排查

当Windows操作系统的ECS实例在运行过程中出现内核panic、内存溢出OOM(Out Of Memory)、蓝屏卡死等问题或收到系统事件通知实例出现操作系统崩溃时,说明该ECS实例发生宕机,您可以通过自助诊断工具或系统事件来定位原因并解决。...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云消息队列 RocketMQ 版 云安全中心 文件存储NAS 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用