故障管理

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断

故障演练常见问题

故障不生效的原因较多,可能是参数配置不正确或无对应的请求命中,但故障规则已成功下发,故需要计费。刚刚购买的资源包为什么会被扣减次数?因为购买前已产生欠费,购买资源包后会先扣减所欠的次数。子账号的消费是否独立计费?不是,与主...

单实例快速恢复

当出现1分钟容器响应超时(可能是内存溢出、硬件故障、软件Bug等原因导致),Resource Manager会自动拉起新的计算节点,并迁移数据分片(Shard)职责到新的节点上(例如Worker Node3响应超时,Resource Manager拉起Worker Node4取代Worker ...

设计方案

故障恢复 定位故障原因后,按照应急预案快速恢复业务,并在事后进行复盘总结。预案执行:在故障响应的过程中,需要按照事先制定的应急预案进行执行。应急预案包括了应急响应流程、各个岗位的职责、处理流程等。预案执行能够保证故障恢复和...

故障应急协同

故障应急过程中的重点角色和职责有:故障处理人(技术支持、监控值班):负责故障应急启动、确保应急有序、协调各方资源确保故障快速恢复;同时,在应急过程中,及时更新故障直播间内容,确保各方能够及时获取故障相关信息;同时视情况做好...

主备方案介绍

主备容灾:当云数据库HBase实例因不可预料的原因(例如设备故障、机房断电断网等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。功能优势 主备双活:请求低毛刺。故障自动容错。资源利用率高。主备容灾:支持云数据库HBase、EMR...

运维服务内容说明

因客户自身原因导致的问题故障,不属于阿里云运维服务范围。如客户有不定期现场服务需求,可按天购买运维专家现场服务。运维服务专家可帮助客户进行疑难问题现场处理,故障现场救援,变更现场保障、现场运维培训等服务。运维专家现场服务需...

为何Pod中仍存在已恢复故障的“僵尸进程”?

在容器中,故障演练进程的父进程是PID=1的进程,容器中的一号进程不具有进程资源回收的能力,所以导致故障演练进程被终止之后,资源没有得到回收,从而成为僵尸进程。解决方案 通过手动共享PID Namespace解决该问题。在Pod的YAML文件中增加...

资源中心搜索不到资源怎么办?

本文为您介绍在资源中心搜索不到资源的可能原因和解决方案。问题原因 解决方案 RAM用户未被授予所搜资源的访问权限。资源中心仅支持搜索您有权限访问的资源,请确认RAM用户是否具有所搜资源的访问权限。关于如何查看RAM用户的权限以及为RAM...

ALIYUN:ROS:ResourceCleaner

ALIYUN:ROS:ResourceCleaner类型用于创建资源清理器。支持清理的资源类型 说明 ROS会持续增加支持清理的资源。您可以调用 GetFeatureDetails 接口获取支持清理的资源列表。云服务 资源类型 ACM ACM:Namespace ACTIONTRAIL ACTIONTRAIL:...

什么是云监控

云监控(CloudMonitor)是一项针对阿里云资源互联网应用进行监控的服务。云监控为云上用户提供开箱即用的企业级开放型一站式监控解决方案。云监控涵盖IT设施基础监控和外网网络质量拨测监控,是基于事件、自定义指标和日志的业务监控,为...

管理MySQL集群

资源分配策略 专属集群资源调度的默认分配策略:均衡分配:最大化追求更稳定的系统表现,优先从未分配资源或已分配资源较少的主机中分配资源。紧凑分配:最大化追求更充分的资源利用率,优先从创建时间较早且已分配资源较多的主机中分配...

概览

模块 使用场景 相关文档 ali_ros_stack 创建资源栈 使用ali_ros_stack模块创建资源栈 更新资源栈 使用ali_ros_stack模块更新资源栈 删除资源栈 使用ali_ros_stack模块删除资源栈 ali_ros_stack_info 查询资源栈 使用ali_ros_stack_info模块...

故障排查

容器服务ACK应用故障排查 Pod停留在Pending状态 表示该Pod不能被调度到任何一个节点上,通常是因为集群中缺乏需要的资源导致。您可以通过 kubectl describe pod 命令查看事件和排查。具体操作,请参见 Pod状态为Pending。Pod停留在Waiting...

管理集群

资源分配策略 专属集群资源调度的默认分配策略:均衡分配:最大化追求更稳定的系统表现,优先从未分配资源或已分配资源较少的主机中分配资源。紧凑分配:最大化追求更充分的资源利用率,优先从创建时间较早且已分配资源较多的主机中分配...

创建MySQL集群

资源分配策略 专属集群资源调度的默认分配策略:均衡分配:最大化追求更稳定的系统表现,优先从未分配资源或已分配资源较少的主机中分配资源。紧凑分配:最大化追求更充分的资源利用率,优先从创建时间较早且已分配资源较多的主机中分配...

管理集群

资源分配策略 专属集群资源调度的默认分配策略:均衡分配:最大化追求更稳定的系统表现,优先从未分配资源或已分配资源较少的主机中分配资源。紧凑分配:最大化追求更充分的资源利用率,优先从创建时间较早且已分配资源较多的主机中分配...

创建集群

资源分配策略 专属集群资源调度的默认分配策略:均衡分配:最大化追求更稳定的系统表现,优先从未分配资源或已分配资源较少的主机中分配资源。紧凑分配:最大化追求更充分的资源利用率,优先从创建时间较早且已分配资源较多的主机中分配...

创建集群

资源分配策略 专属集群资源调度的默认分配策略:均衡分配:最大化追求更稳定的系统表现,优先从未分配资源或已分配资源较少的主机中分配资源。紧凑分配:最大化追求更充分的资源利用率,优先从创建时间较早且已分配资源较多的主机中分配...

词汇表

安全组 安全组是云上的虚拟防火墙,它包含安全组规则和安全组内的云资源(虚拟机、弹性网卡等)。用户可以配置安全组规则来允许或拒绝指定类型的网络流量通行,还可以基于安全组划定安全域,通过授权安全组访问的能力,让一个安全组授权另...

DATASOURCE:ECS:DedicatedHosts

无 OperationLocks List 专有宿主机资源被锁定的原因。无 Tags List 专有宿主机的标签。无 SupportedInstanceTypeFamilies List 专有宿主机支持的ECS实例规格族。无 SupportedCustomInstanceTypeFamilies List 专有宿主机支持的自定义实例...

监控、诊断和故障排除

相对于传统应用程序,开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本,但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息,帮助您深刻洞察程序行为,及时发现并快速定位问题。本文主要描述...

网络资源

网络资源是指用于节点之间通信和数据传输的硬件和软件资源,除了包括广域网、局域网、交换机、路由器,还包括常用到的专有网络、虚拟交换机、负载均衡、弹性公网、VPN、DNS、CDN等资源。在分布式系统中,网络资源的主要作用是支持节点之间...

弹性加速计算实例EAIS安全性说明

弹性加速计算实例EAIS的云上安全性,是阿里云在面对当前的网络安全形势和挑战时所采取的措施,以及提高用户在资源和网络访问控制、EAIS资源操作、故障隔离和风险检测等方面的安全性所具备的能力。说明 通过在ECS实例(非GPU实例)上绑定...

故障排除

CC API在调用时可能会遇到一些错误,遇到错误时以错误码为依据进行故障排除,本文为您介绍 常见错误码的解决方案。云产品运行时错误码 云产品API运行时返回的错误码。以下两个错误码为云产品运行时错误,如想获取云产品详细错误信息,需...

ListStackResources-查询资源栈的资源列表

查询指定资源栈的资源列表。接口说明 本文将提供一个示例,为您查询杭州地域 ID 为 4a6c9851-3b0f-4f5f-b4ca-a14bf691*的资源栈的资源列表。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI ...

功能架构

应用监控 系统能同时监控容器应用和经典应用,并通过 LDC、IDC 和单机实例等多视角、多维度逐层下钻分析,实时展现服务实例、依赖的中间件和基础资源运行状态、使用趋势和告警信息,发掘应用故障所在的层级和对象,保证应用的流畅运行。...

概览

如果您因为某些原因无法创建资源栈,可能会出现资源栈实例存在而对应的资源栈不存在的情况,此时资源栈实例将显示资源栈创建失败的原因。删除资源栈实例时可以选择删除或保留所指向的资源栈。直接删除资源栈不会删除资源栈实例。基本概念 ...

ListStacks-查询资源栈列表

2022-03-10T06:46:36 StatusReason string 资源栈状态原因。Stack CREATE completed successfully CreateTime string 创建时间。按照 ISO8601 标准表示,需使用 UTC 时间,格式:YYYY-MM-DDThh:mm:ss。2022-03-10T06:44:36 DisableRollback...

快速使用专属集群MyBase

资源分配策略 专属集群资源调度的默认分配策略:均衡分配:最大化追求更稳定的系统表现,优先从未分配资源或已分配资源较少的主机中分配资源。紧凑分配:最大化追求更充分的资源利用率,优先从创建时间较早且已分配资源较多的主机中分配...

集群监控告警说明

CPU 已经过度使用无法容忍节点故障,节点资源使用的总量超过节点的 CPU 总量,所以如果有节点故障将影响集群资源运行因为所需资源将无法被分配 KubeMemoryOvercommit 集群内存过度使用。内存已经过度使用无法容忍节点故障,节点资源使用的...

检测资源栈操作可能涉及的风险及原因

检测进行资源栈操作可能涉及的风险,并返回风险原因或缺失项。接口说明 本接口目前支持以下情况:删除资源栈操作可能涉及的高风险资源,并返回每个资源对应的风险原因。创建资源栈操作可能出现的创建失败的风险,仅支持检测调用者可能缺失...

GTM如何实现异地容灾

两地三中心容灾架构,是指在同城双中心的基础上,在异地的城市建立一个备份的灾备中心,用于双中心的数据备份,当双中心出现自然灾害等原因而发生故障时,异地灾备中心可以用备份数据进行业务的恢复。目标读者 企业网络部、业务运维部工作...

ping不通云服务ECS(SAG-1000)

可能原因 终端到设备的链路故障。设备到阿里云的VPN链路故障。目标ECS故障。运营商网络故障。解决方案 登录 智能接入网关控制台。单击智能接入网关实例ID,查看设备状态是否为 可用。如果离线,请参见 设备显示离线 处理。如果在线,请跳转...

互联网行业

本文介绍无影互联网行业解决方案的最佳实践。场景介绍 互联网行业具有以下特点:快速变化:互联网行业发展迅速,新的技术和理念不断出现,这就要求企业进行持续的技术创新以保持竞争力,同时还需要具有较高的灵活性和敏捷性来快速调整战略...

API概览

ListStackOperationRisks 检测资源栈操作可能涉及的风险及原因 检测进行资源栈操作可能涉及的风险,并返回风险原因或缺失项。PreviewStack 预览指定模板将要创建的资源栈信息 预览指定模板将要创建的资源栈信息,验证模板资源的准确性。...

公共错误码

公共错误码分为客户端错误码和服务端错误码。客户端错误码 错误码 错误信息 HTTP状态码 ...ServiceUnavailable The request has failed due to a temporary failure of the server.503 服务器故障,请重试。如果多次尝试失败,请提交工单。

创建演练

背景信息 一次完整的故障演练包括以下四个阶段:安装故障演练探针 创建演练 执行演练 停止演练 操作步骤 登录 AHAS控制台,在左侧导航栏中选择 故障演练>我的空间。在 我的空间 页面,单击 新建演练。选择 新建空白演练 或 从经验库新建。...

流水单据型业务场景多活实践

但在电商业务初期,很多互联网企业都没有考虑容灾问题,只在单地域进行了部署,部署的电商应用架构1.0如下图所示,只在杭州单元部署了相关业务。在 读多写少型业务场景多活实践 中,已经将导购链路进行了异地多读改造,而该业务后续在一次...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云消息队列 RocketMQ 版 弹性公网IP 对象存储 负载均衡 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用