故障管理

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

故障应急

包括故障基础数据管理(故障等级定义、应急场景监控覆盖、服务组&值班表管理、故障订阅管理),故障发现(7*24监控值班、智能基线告警),故障应急协同(故障通告及更新、故障应急协同),故障恢复(初因推荐、快恢推荐),故障复盘...

无法连接Windows实例

故障原因 可能是网卡驱动未开启或网卡配置有问题。解决方法 使用管理终端 登录实例,检查网卡驱动,如果存在异常,则重新安装。步骤三:检查重置实例密码后是否未重启实例 确认是否存在故障现象,如果存在,则参考本步骤解决问题,如果不...

应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断

设计方案

故障恢复 定位故障原因后,按照应急预案快速恢复业务,并在事后进行复盘总结。预案执行:在故障响应的过程中,需要按照事先制定的应急预案进行执行。应急预案包括了应急响应流程、各个岗位的职责、处理流程等。预案执行能够保证故障恢复和...

自治服务(CloudDBA)

您可以通过该功能排查Redis数据库的故障和性能降低的原因。开启自动扩容 当内存平均使用率达到阈值后会自动升级Redis实例的规格,帮助您快速弹性适配业务高峰,避免内存溢出的风险,有效保障线上业务稳定性。基于预测自动弹性伸缩 以实例...

集群管理FAQ

journalctl-u kubelet 集群常见问题 下表罗列了一部分ACK集群常见的故障原因以及处理方法。故障场景 处理方法 API Server组件停止或Master组件停止:不能创建、停止、更新Pod、Service、Deployment等资源。已有的Pod和Service仍然能够正常...

常见报错

可能原因:通讯链路故障,JDBC驱动程序数据包成功发送到源数据库服务器,但未收到来自源数据库的数据包。解决方法:排查数据库的连接数是否过多。参考 communications link failure 处理。请 通过钉钉(钉钉通讯客户端下载地址)进入到DTS...

概述

再者云计算平台会提供冗余存储和备份能力,避免系统因为硬件故障或其他原因导致的停机或数据丢失。这种备份机制可以提高系统的可靠性。责任共担模型 阿里云平台提供高可用的基础设施,并提供应用稳定性相关工具体系。用户可以基于阿里云...

主备方案介绍

主备容灾:当云数据库HBase实例因不可预料的原因(例如设备故障、机房断电断网等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。功能优势 主备双活:请求低毛刺。故障自动容错。资源利用率高。主备容灾:支持云数据库HBase、EMR...

混合云应用双活容灾最佳实践

容灾切换数据质量保障难 容灾切换过程中,可能因数据同步延迟导致读到旧数据,以及切换规则推送到分布式应用节点时间不一致等原因可能造成云上云下数据库同时读写而出现脏写的问题,整个切换过程数据质量保障是关键点及难点。无业务代码...

AIOps 解决方案专家服务内容说明

智能故障发现解决方案 基于调研与评估的结果,为客户设计智能故障发现解决方案,包含:多账号统一监控数据接入,并根据应用分组为客户设计AI算法能力用于实时故障发现,并根据分析结果智能定位根因,提供实时异常检测的稳定性方案,保障...

目标检测常见错误码

说明 阿里云视觉智能开放平台各类目视觉AI能力API接入、接口使用或问题咨询等,请通过钉钉(23109592)加入阿里云视觉智能开放平台咨询联系我们。问题诊断中心 使用 问题诊断中心 可帮助开发者更高效地诊断API使用过程中的问题。目标...

内容审核常见错误码

说明 阿里云视觉智能开放平台各类目视觉AI能力API接入、接口使用或问题咨询等,请通过钉钉(23109592)加入阿里云视觉智能开放平台咨询联系我们。问题诊断中心 使用 问题诊断中心 可帮助开发者更高效地诊断API使用过程中的问题。内容...

人脸人体常见错误码

说明 阿里云视觉智能开放平台各类目视觉AI能力API接入、接口使用或问题咨询等,请通过钉钉(23109592)加入阿里云视觉智能开放平台咨询联系我们。问题诊断中心 使用 问题诊断中心 可帮助开发者更高效地诊断API使用过程中的问题。人脸...

运维服务内容说明

因客户自身原因导致的问题故障,不属于阿里云运维服务范围。如客户有不定期现场服务需求,可按天购买运维专家现场服务。运维服务专家可帮助客户进行疑难问题现场处理,故障现场救援,变更现场保障、现场运维培训等服务。运维专家现场服务需...

文件存储NAS

数据持久性和服务可用性 NAS的数据在后端进行多副本存储,每份数据都有多份拷贝在故障域隔离的不同设备上存放,提供99.999999999%(11个9)的数据可靠性,能够有效降低数据安全风险。安全性 权限组 在NAS中,权限组是一个白名单机制,定义...

专家成长计划技术培训课程

1、网络安全产品攻击防护应用技巧(比如CC攻击防护)2、异常诊断分析(比如异常拦截原因分析及处理)3、产品使用技巧/最佳实践 现场面授(特殊情况可调整为线上钉钉直播)云计算运维安全认证专家培训&CCSOP认证 4天 30人 本课程是云计算...

设备显示离线

可能原因 设备软件故障。设备到阿里云联网故障。解决方案 通过尝试在同一个运营商出口环境内 ping 其他知名网站,确认您的运营商网络正常。如果不正常,请处理运营商网络问题。如果正常,请跳转至 步骤2。请检查设备本身是否上电。电源状态...

主从实例读写分离部署(共享存储)

当出现1分钟容器响应超时(可能是内存溢出、硬件故障、软件Bug等原因导致),Resource Manager会自动拉起新的计算节点,并迁移Shard职责到新的节点上(例如Worker Node3响应超时,Resource Manager拉起Worker Node4取代Worker Node3),...

故障基础数据管理

故障场景等级定义 日常运营中,除用户方环境或自身操作引起的问题外,无论什么原因导致的服务中断、服务品质下降或用户服务体验下降的现象,都称为故障。对故障影响程度的划分就是故障等级定义。定义故障等级是为了指定故障等级定义作为各...

GTM如何实现异地容灾

两地三中心容灾架构,是指在同城双中心的基础上,在异地的城市建立一个备份的灾备中心,用于双中心的数据备份,当双中心出现自然灾害等原因而发生故障时,异地灾备中心可以用备份数据进行业务的恢复。目标读者 企业网络部、业务运维部工作...

功能发布记录

9.新增故障协同处理、故障应急场景创建和使用。10.新增事件协同处理-相似事件模块。11.事件和故障的消息卡片支持@关联人员。12.PC端移动应用开通模块支持展示钉应用(维蜜)的开通状态。13.PC端主RAM和子RAM账号权限保持一致,都支持新增...

基本概念

更多请查看 什么是事件 故障 在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。故障比事件优先级更高,事件在处理过程中出现影响扩大或恶化时...

什么是PolarDB PostgreSQL标准版

支持在可用区内自动复制您的数据,防止因意外硬件故障导致数据不可用问题,保护您的业务免于遭受组件故障的威胁。具体请参见 云盘三副本技术。如何购买或迁移到标准版集群 您可以在 PolarDB 的购买页,购买PolarDB PostgreSQL标准版。如果...

批量检测OSS存储图片和音视频数据

检测过程中可能出现检测失败,包括文件过大、格式不支持、文件访问失败等原因,这部分不会产生检测费用,结果不会展示在列表中。如果需要这部分检测结果,请加入钉(钉群号:35573806),联系产品技术专家进行咨询。如果是音视频检测任务...

定时检测OSS增量图片和音视频数据

检测过程中可能出现检测失败,包括文件过大、格式不支持、文件访问失败等原因,这部分不会产生检测费用,结果不会展示在列表中。如果需要这部分检测结果,请加入钉(钉群号:35573806),联系产品技术专家进行咨询。如果是音视频定时任务...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

ZooKeeper的使用场景和MSE ZooKeeper的优势

支持核心告警规则:可以满足日常运维需求,在使用过程中如果您发现核心告警规则无法满足需求,请加入钉(钉群号:34754806)联系技术支持。开放Metrics标准指标:MSE ZooKeeper专业版,通过API的形式把ZooKeeper内置的70+Metrics指标开放...

云盘存储卷概述

云盘支持在可用区内自动复制您的数据,防止意外硬件故障导致的数据不可用,保护您的业务免于组件故障的威胁。ESSD云盘:基于新一代分布式块存储架构的超高性能云盘产品,结合25GE网络和RDMA技术,单盘可提供高达100万的随机读写能力和更低...

云盘存储卷概述

云盘支持在可用区内自动复制您的数据,防止意外硬件故障导致的数据不可用,保护您的业务免于组件故障的威胁。更多信息,请参见 云盘概述。ESSD AutoPL云盘:支持根据业务需求自定义云盘的预配置性能以及性能突发。该类云盘在保持ESSD云盘...

查看消费者状态

应用场景 消费者状态信息包括在线状态、订阅关系、消费TPS、消息堆积量和线程堆栈信息等,经常被应用于以下故障排查场景:故障场景 现象 处理建议 订阅关系不一致 在 Group 详情 页面,看到Group ID的 订阅关系 显示 订阅关系不一致,请...

使用ACK AI助手进行故障排查和智能问答

若ACK AI助手无法定位问题的根因并提供可用的解决方案,您可以发起进一步发起诊断,对异常的Pod、Node节点发起基于ACK技术专家诊断经验的深度故障诊断功能。更多信息,请参见 使用集群诊断。前提条件 已开通 容器服务 Kubernetes 版 并已...

查看Worker倾斜关系

新建的Table Group需要一些时延才能获取 worker_id 的信息,一般时延在10-20s左右,如果新建Table Group后立即查找该系统视图,可能会出现 worker_id 为空的情况。Table Group中没有表,那么Worker就会无法分配资源,查询结果中 worker_id ...

弹性伸缩常见问题

ECI类型伸缩组的扩容时延的主要影响因素包括容器初始化时延、应用启动时延、配置生命周期挂钩时延、扩容容器注册外部资源时延等。说明 ECI类型的伸缩组扩容时,扩容时间指伸缩组中ECI实例扩容时的整个生命周期过程所耗费的时间,关于ECI...

Pod诊断

Pod的部分容器进程处于D状态,通常为容器进程卡在磁盘IO中,您可以加入钉钉 44325004118反馈处理。Pod初始化状态 检查Pod是否正常初始化。请检查Pod状态及日志。更多信息,请参见 Pod异常问题排查。Pod申请的GPU资源 检查Pod是否申请GPU...

查看并管理计划内事件

事件的原因与影响 升级类型 事件原因 影响类型 影响说明 热升级 实例迁移 实例闪断 进入 计划切换时间 后,将产生下述影响:一般情况下,实例小版本升级采用热升级模式。实例或实例中涉及切换的分片将发生连接闪断及30秒以内的只读状态...

CreateClusterNodePool-创建节点池

推荐您使用托管节点池,以帮助您自动完成部分节点运维操作,例如高危CVE漏洞自动修复、部分故障修复等,从而降低您的节点运维负担。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer...

CreateClusterNodePool-创建节点池

推荐您使用托管节点池,以帮助您自动完成部分节点运维操作,例如高危CVE漏洞自动修复、部分故障修复等,从而降低您的节点运维负担。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer...

nodepool

false compensate_with_on_demand boolean 当 multi_az_policy 取值为 COST_OPTIMIZED 时,如果因价格、库存等原因无法创建足够的抢占式实例,是否允许自动尝试创建按量实例满足 ECS 实例数量要求。取值:true:允许自动尝试创建按量实例...
共有194条 < 1 2 3 4 ... 194 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 边缘网络加速 负载均衡 微服务引擎 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用