故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先业务客户之间所约定的服务级别...

归档存储服务等级协议

服务赔偿条款 2.13.1 赔偿范围:因阿里云设备故障、设计缺陷或操作不当导致用户所购买的归档存储服务无法正常使用,阿里云将对不可用时间进行赔偿,但不包括以下原因所导致的服务不可用时间:(1)阿里云预先通知用户后进行系统维护所引起...

附录:SOFAStack 产品目录

高可靠的轻量级配置中心 提供应用运行时动态修改配置的服务,并提供图形化的集中化管理界面。多活数据中心 支持同城双活/异地多活架构,具备异地容灾能力,保障系统的可用性。应用场景 传统应用微服务改造 通过微服务产品将传统金融业务...

GxP欧盟附录11标准合规包

运行中的ECS实例开启云安全中心防护 运行中的ECS实例开启云安全中心防护,视为“合规”。4.3 应提供所有相关系统及其GMP功能(清单)的最新清单。对于关键系统,应提供最新的系统描述,详细说明物理和逻辑安排、数据流和其他系统或进程的...

基本概念

变更中心 业务开通场景管理中心,以自动化模板为原子操作的网络变更编排引擎,所有业务无论配置开通、例行维护还是故障自恢复都能使用方案通过工单的方式简单执行,支持人工步骤、自动步骤任意组合控制工单逻辑的流转执行。自动化模板 ...

设计原则

这样可以确保一台设备故障时,数据仍然可用;容灾计划:制定容灾计划,包括灾难恢复策略、应急响应流程和恢复时间目标(RTO)等。容灾计划应该经常进行测试和演练,以确保其可行性和有效性;数据备份恢复:定期进行数据备份,并确保备份...

变更管理

通过不同的对比、展示方式,可以分析问题、事件等产生的原因,以助于后续的知识管理与沉淀。可针对不同的问题类型,作出快速应急方案。使用变更改进技术流程,从而不断增强组织提供更好的服务能力。运维事件中心是阿里云提供的云上变更管理...

ACK集群概述

应用中心:应用部署后,以统一的视角展现整体应用的拓扑结构,同时对于持续部署等场景进行统一的版本管理与回滚。应用备份和恢复:支持对Kubernetes应用进行备份和恢复。更多信息,请参见 集群内备份和恢复应用。存储 存储插件:支持CSI...

功能特性

查询管理与分析 用户和权限管理 通过用户管理功能,您可以对数据库进行用户权限控制,这样可以确保只有授权的用户能够管理相关的数据库。管理用户及数据授权 元数据管理 元数据管理功能主要为您展示当前实例的所有数据库,数据表,分区及...

运维服务内容说明

IDC和硬件设备维护,如网络设备、服务器、存储等硬件巡检、更换、诊断等。注:对于不在服务范围内的第三方应用软件问题,客户需联系相应供应商提供技术支持。3.前提条件 客户应提前至少15个自然日申请该服务,以便于阿里云工程师评估可运维...

功能特性

设备诊断 针对设备运行数据提供的一系列运维场景智能服务,帮助您分析判断设备故障、探测设备潜在风险并及时预知业务异常。查看运维大盘 展示设备的地区热力图分布,方便您直观、快速地了解所有设备的状态。在线调试 直接从物联网平台控制...

什么是云网管

观测平台(Observation Platform)基础设施运行状态维护管理,包含性能数据和告警数据,实现对各类监控对象的异常数据判定,网络故障的发现、分析、定位等维护管理。高效采集,分钟级故障定位发现。自定义采集方式和分析过程,兼容所有...

名词解释

这种模式下,两个城市的三个数据中心互联互通,如果⼀个数据中心发生故障或灾难,其他数据中心可以正常运行并对关键业务或全部业务实现接管。命名空间 多活命名空间MSHA Namespace,是一个逻辑租户的概念,用于进行租户粒度的管控配置和云...

客户案例

唐家才 网商银行 CTO“网商银行选择 OceanBase 三地五中心部署架构,不仅在数据上从具备抵御同城机房故障提升到具备异地城市容灾的能力,同时内置的多租户隔离的能力,满足全行多应用系统的管理与使用需求,让应用系统多活架构设计上变的...

设计方案

变更设计原则 在企业的运维管理与运行过程中,就会有变更产生。变更是指添加、修改或删除任何可能对服务产生直接或间接影响的内容。当变更失败时可能会带来严重后果:业务中断、客户舆情等等一系列问题。为了降低变更带来的业务风险,需要...

常见问题旧版索引

排查故障的经典步骤常见原因 如何通过查看日志排查故障?产品FAQ 授权管理FAQ 集群管理FAQ 节点节点池FAQ 容器网络FAQ Service FAQ Ingress FAQ DNS FAQ 应用FAQ 存储FAQ-CSI 存储FAQ-Flexvolume 容器安全FAQ 为什么可观测监控 ...

产品简介

事件中心 统一的报警、事件、故障任务流转处理 事件中心是统一的任务流转中心,统一管理整个企业业务系统运行过程中的所有报警、事件、故障管理系统历史的所有报警记录、报警消息及时通知订阅对象,帮助企业实时发现问题,规避风险;管理...

网络资源

网络闪断故障可能由多种原因引起,如网络设备故障、电力波动、通信线路故障等。网络闪断会导致数据传输中断,影响系统和应用程序之间的数据传输,频繁的网络闪断可能导致系统或应用程序无法正常运行。常使用的容错策略如下:设备冗余:使用...

概述

边缘管理模块主要为您提供实现在云端(交通云控平台)对边缘终端进行统一管控功能。具体可提供边缘终端的入云,运行状态监测,以及其上软件的配置升级等功能。在交通云控平台(下文以“云端”代指)完成对边缘计算终端的统一管控、配置升级...

跨可用区容灾

当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...

跨可用区容灾

当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...

产品优势

弹性云手机是一种新的产品服务,作为移动应用新的载体,不仅可以让移动app在智能手机上运行,同时也可以在云端运行。依托阿里云ARM服务器虚拟化技术,第三代神龙架构加持,丰富的安全、网络等产品矩阵支撑,使得云手机在性能、稳定性、按需...

网络架构容灾

如果为了满足业务对延迟等需求,必须选择相同接入点,也必须保证两条专线在两个不同的接入设备上,这样即使有一台设备故障导致其中一条线路异常时,也可以保证另外一条线路正常运转。专线/VPN主备:在物理专线、IPSec-VPN连接、BGP动态路由...

集群管理FAQ

journalctl-u kubelet 集群常见问题 下表罗列了一部分ACK集群常见的故障原因以及处理方法。故障场景 处理方法 API Server组件停止或Master组件停止:不能创建、停止、更新Pod、Service、Deployment等资源。已有的Pod和Service仍然能够正常...

基本概念

量产中心 主要用来量产设备,批量生成设备激活码(设备证书),还包括记录和管理项目中设备量产的激活码数据。运维中心 运维中心为客户提供实时监控、语音服务和运营管理等功能。运营中心 运营中心提供了一个完整的解决方案,包括设备数据...

集群高可用架构推荐配置

PDB允许定义一个最小可用副本数,当节点处于维护故障状态时,集群将确保至少有指定数量的副本保持运行。PDB可以防止过多的副本同时终止,尤其适合多副本处理流量型的场景。示例如下。apiVersion:apps/v1 kind:Deployment metadata:name:...

灾备规划

云容灾服务因免去了灾备中心建设、硬件系统采购、运维等复杂的工作,加上资源可弹性扩展、按量付费的特性,这些都降低了规划工作的难度。您只需花少量的时间进行选型、规划等就可以轻松使用阿里云作为您的容灾服务提供者。本文将从需求分析...

安全检测

本文介绍通过IoT安全中心对物联网设备进行持续性的安全检测。威胁 登录 产品控制台,在左侧菜单中选择 管理>安全检测。开启:运行检测任务,检测到风险后在常规>风险页面查看。关闭:停止运行检测任务。根据资产接入方式不同,您可以管理的...

功能架构

分布式链路 分布式链路帮助运维人员、开发人员和架构师看清楚复杂的大规模微服务架构下的应用及服务之间的复杂调用关系、性能指标、出错信息关联日志,从而实现故障根因分析、服务治理、应用开发调试、性能管理、性能调优、架构管控、...

配置健康检查

如果本地数据中心网络设备配置了控制面板策略CoPP(Control Plane Policing)(如思科设备)或者本机防攻击策略(如华为设备)可能会导致健康探测报文被丢弃,造成健康检查链路震荡,建议本地数据中心网络设备取消CoPP限速配置。...

支持计划

2.1阿里云支持计划服务范围 阿里云支持计划服务范围包含:阿里云产品的最佳实践 阿里云产品相关的技术问题、故障处置 阿里云API 和阿里云SDK问题的故障处置 阿里云资源相关的操作或系统问题的技术支持 阿里云的管理控制台或其他阿里云...

功能特性

禁用高风险命令 事件中心 可通过事件中心查看实例生命周期中的全部事件,如变更配置、迁移可用区等。管理事件 切换专用网络 支持切换实例的VPC网络。修改专有网络VPC或交换机 参数配置与管理 支持配置实例参数,满足不同业务场景需要。设置...

托管节点池概述

如果您希望将节点进行分组纳管,同时降低节点的运维负担,例如操作系统(OS)CVE漏洞自动修复、kubelet自动升级、节点故障时重启节点等,您可以启用托管节点池。托管节点池是ACK推出的自动化运维型节点池,在普通节点池的基础上支持多种...

什么是云拨测

故障定位诊断:云拨测利用先进的Traceroute诊断技术,快速发现并定位网络故障,提供详细的故障报告和解决建议。实时告警通知:云拨测提供实时告警功能,当业务出现异常时,会主动发送告警通知,快速响应并处理问题。数据可视化:通过...

自助诊断GPU节点问题

ACK集群提供节点级别的GPU诊断功能,供您进行部分GPU相关问题的故障排查。如果您在ACK Pro版集群中使用GPU节点时遇到问题,可以启用GPU节点自助诊断,采集GPU诊断的基础指标进行问题排查。本文介绍如何使用节点诊断功能,自助排查GPU节点...

节点诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。基于专家经验和AI智能诊断两种诊断模式,节点诊断可以深入定位问题根因。节点诊断包括诊断检查项和诊断根因。诊断检查项:包括Node检查、...

主备切换

若您收到短信、邮件、控制台站内信等通知,告知您 Tair 实例已完成主备切换,您可以参考本文了解主备切换的原因、影响和处理建议等。为什么会触发主备切换?实例底层主机故障 阿里云检测到实例底层主机发生故障,例如进程异常中断、实例...

主备切换

若您收到短信、邮件、控制台站内信等通知,告知您 Redis 实例已完成主备切换,您可以参考本文了解主备切换的原因、影响和处理建议等。为什么会触发主备切换?实例底层主机故障 阿里云检测到实例底层主机发生故障,例如进程异常中断、实例...

什么是设备诊断

设备诊断是阿里云物联网平台针对设备运行数据提供的一系列运维场景智能服务,帮助您分析判断设备故障、探测设备潜在风险并及时预知业务异常。服务架构 服务优势 丰富的数据诊断指标 提供网络连接成功率、设备离线原因、云对接次数等丰富的...

数据智能概述

功能简介 算法实例 通过配置算法实例,来分析光伏电站运维数据或设备运行数据,使您能及时监测和掌控光伏电站或设备运行状态和故障情况。算法模板 物联网平台提供算法模板供您使用,您可以查看算法模板的详情信息,如:算法详细介绍、...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
轻量应用服务器 云安全中心 商标服务 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用