故障止损恢复

故障初因定位 集成企业内部可利用的所有稳定性相关数据(变更事件,...通用垂直专项快恢能力:通过集成包括DB侧慢SQL限流、变更极速回滚、多活容灾切流快恢等通用的快恢能力,结合监控、日志等数据自动定位的故障原因进行对应的快恢方式推荐。

什么是故障

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

如何管理故障

可对故障根因进行原因检查并结构化录入,检查点包括:故障原因、最近活动、注入方式、恢复方式等;关联故障期间的故障变更,新增故障改进措施等操作。故障状态 处理中:处理中仍未恢复的故障;已恢复:故障对处理中的故障做 恢复 操作后是...

故障管理

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

EMR Kafka磁盘故障运维

当出现磁盘故障时,需要根据故障原因、故障影响程度、业务需求(是否接受数据丢失、是否允许服务较长时间不可用)、集群状态等综合考虑恢复采取的策略。如果业务优先保证服务可用,但允许丢失部分数据,则应考虑在可能会丢失数据的情况下,...

监控指标

您可以在 函数计算 控制台查询 函数计算 资源概览指标以及资源所在地域和函数维度的监控指标详情。具体的监控指标通过指定MetricName参数实现。本文介绍 函数计算 各类监控指标对应的MetricName参数的取值和含义。资源概览指标 您可以登录 ...

监控指标

您可以在 函数计算 控制台查询 函数计算 资源概览指标以及资源所在地域、服务和函数维度的监控指标详情。具体的监控指标通过指定MetricName参数实现。本文介绍 函数计算 各类监控指标对应的MetricName参数的取值和含义。资源概览指标 您...

故障协同处理(基于钉钉)

2.故障应急场景群:事件升级故障后,群内推出 故障处理中 消息卡片,如果满足自动生成故障场景群的需求(下文详细介绍创建故障场景群逻辑),故障场景群内同时推出 故障处理中 消息卡片。本群故障消息卡片包含按钮:签到、签到记录、应急...

更新故障复盘改进详情

problemReason":"故障原因A","recentActivity":"2","injectionMode":"1","recoveryMode":"2","discoverSource":1,"userReport":10,"monitorSourceName":"Zabbix","relationChanges":"关联变更","dutyUserId":1231,"replayDutyUserId":1213...

单实例快速恢复

当出现1分钟容器响应超时(可能是内存溢出、硬件故障、软件Bug等原因导致),Resource Manager会自动拉起新的计算节点,并迁移数据分片(Shard)职责到新的节点上(例如Worker Node3响应超时,Resource Manager拉起Worker Node4取代Worker ...

故障演练常见问题

仅对下发成功的故障规则进行计费,所以执行一次演练的费用是在演练执行成功后进行计算的,会去除下发失败的故障规则。故障不生效是否计费?计费。故障不生效的原因较多,可能是参数配置不正确或无对应的请求命中,但故障规则已成功下发,故...

无法连接Windows实例

故障原因 可能是网卡驱动未开启或网卡配置有问题。解决方法 使用管理终端 登录实例,检查网卡驱动,如果存在异常,则重新安装。步骤三:检查重置实例密码后是否未重启实例 确认是否存在故障现象,如果存在,则参考本步骤解决问题,如果不...

故障复盘改进详情

0c4840fd3812 幂等校验token 返回数据 名称 类型 示例值 描述 requestId String 4361a0e1-6747-4834-96ce-0c4840fd3811 Id of the request data Object data problemId String 231231 故障ID problemReason String 故障的原因 故障原因 ...

应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断

监控指标说明

该指标协助您进行作业诊断,排查作业Task级别的故障原因。次数 TM GC Time 每次TM GC时间。长时间GC会导致占用过大内存空间,从而影响作业性能。该指标协助您进行作业诊断,排查作业级别的故障原因。毫秒(ms)TM ClassLoader/...

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生、故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

高性能版实例

以下内容为 AnalyticDB PostgreSQL版 实例常见故障场景中高性能版和高可用版的对比:恢复(Recovery)模式 根据以往 AnalyticDB PostgreSQL版 运行情况,故障最大的场景为恢复模式,故障概率远大于另外两种场景(计算节点故障计算节点宿...

设计方案

故障恢复 定位故障原因后,按照应急预案快速恢复业务,并在事后进行复盘总结。预案执行:在故障响应的过程中,需要按照事先制定的应急预案进行执行。应急预案包括了应急响应流程、各个岗位的职责、处理流程等。预案执行能够保证故障恢复和...

配置网络

您在 函数计算 创建的函数,默认可以访问公网,无法访问VPC内的资源。如果您需要函数能够访问VPC内的资源,或允许指定的VPC来调用函数,那么您需要手动为函数配置网络和权限。本文介绍如何通过 函数计算 控制台为函数配置网络。注意事项 ...

故障取消

故障取消 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/problem/...

配置网络

您在 函数计算 创建的函数,默认可以通过公网调用,无法通过VPC调用。如果您需要函数能够访问VPC内的资源,或允许指定的VPC来调用函数,那么您需要手动为服务配置网络访问能力。网络配置为服务级别,即对服务下的所有函数生效。本文介绍...

服务条款

服务条款 本服务条款是阿里云计算有限公司(以下简称“阿里云”)与您就批量计算服务(Batch Computing Service,简称BatchCompute)的相关事项所订立的有效合约。您通过盖章、网络页面点击确认或以其他方式选择接受本服务条款,包括但不...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括Pod诊断、Service诊断、Ingress诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACS集群中使用集群诊断功能。前提条件 已创建ACS集群。具体操作,请参见 创建ACS集群。确保ACS集群运行...

快速创建函数

如果您使用的是阿里云账号或者RAM用户已有创建函数计算FC默认角色的权限,授权失败的原因可能是由于一些功能无法授权造成的。但 函数计算 仍可以正常使用。如果您仍需授予系统默认角色,请加入钉钉用户群(钉钉群号 11721331)咨询。关于...

更新故障详情

P1 故障等级 relatedServiceId Long Body 否 123 关联服务 progressSummary String Body 否 进展摘要xxxx 进展摘要 preliminaryReason String Body 否 原因是服务宕机 初步原因 mainHandlerId Long Body 否 678 主要处理人 feedback String...

归档存储服务等级协议

(2)不可用时间=故障解决时间-故障开始时间,不可用时间按分钟计算;(3)如果用户没有使用到24小时,按实际使用时长计算平均每分钟费用。3.其他 阿里云有权根据变化适时对本服务等级协议部分服务指标 作出调整,并及时在阿里云官网...

GetProblem-故障详情

调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/problem/detail ...

故障升级

新增故障 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/problem/...

管理函数

函数计算 的资源调度与运行以函数为单位。不同函数彼此相互独立,互不影响。您可以通过 函数计算 控制台创建函数、更新函数及获取函数ARN等。创建函数 登录 函数计算控制台,在左侧导航栏,单击 函数。在顶部菜单栏,选择地域,然后在 函数...

实时计算Blink产品公告(已停止新购)

本文为您介绍实时计算Blink产品的相关动态。公有云实时计算Blink产品进入产品收敛期,请下载查看PDF版 公有云实时计算Blink产品进入产品收敛期,Flink产品详情请参见 产品形态。实时计算Blink文档详情请单击 阿里云实时计算Blink独享模式...

计算资源使用

配额组(Quota)是MaxCompute的计算资源池,为MaxCompute中的计算作业提供所需计算资源(CPU及内存)。在MaxCompute中支持根据计算作业对计算资源的需求,指定匹配的Quota,助力您高效使用计算资源。本文为您介绍如何使用MaxCompute的Quota...

历史功能发布记录(2023年及之前)

12-31 使用容器服务部署多租版全托管WordPress服务 计算巢支持用户创建包含快照策略功能的服务并使用快照回滚服务实例云盘 在创建服务时,经常会出现需要定期为云盘备份数据,以应对因误删、勒索病毒等造成的数据丢失或者应用系统故障的...

欠费说明

本文介绍使用视图计算产品产生欠费的原因,以及欠费后的服务状态。欠费停服说明 视图计算为后付费产品,带宽日计费账单在次日零时后执行扣费出账,流量计费每小时结算,实时扣费。当系统检测到您账户余额不足时,阿里云会以短信或邮件的...

为什么我的异步代码在函数计算中执行异常?

问题原因 异步代码在函数计算中执行异常,可能是函数实例进入冻结状态。函数实例冻结时,代码会暂停执行,需要等到下次请求到来时解冻,才能继续执行。函数实例中没有请求执行时,当函数执行返回时,函数实例会进入冻结状态。解决方案 您...

为什么我的异步代码在函数计算中执行异常?

问题原因 异步代码在函数计算中执行异常,可能是函数实例进入冻结状态。函数实例冻结时,代码会暂停执行,需要等到下次请求到来时解冻,才能继续执行。函数实例中没有请求执行时,当函数执行返回时,函数实例会进入冻结状态。解决方案 您...

链路追踪简介

本文介绍函数计算集成链路追踪功能的背景、使用场景、核心功能、采样规则配置和开启方式。背景介绍 阿里云 链路追踪服务(Tracing Analysis)基于 OpenTracing 标准,兼容开源社区,为分布式应用的开发者提供了完整的分布式调用链查询和...

企业级状态后端存储介绍

GeminiStateBackend具有存储计算分离的技术,使得状态存储可以不依赖于本地盘,可以避免因本地状态数据过大而引发作业故障的问题。有关存储计算分离相关配置,请参见 存算分离配置。支持KV分离,大幅提升双流或多流Join作业的效能。双流或...

产品优势

与传统依赖人力的应用交付和运维方式相比,计算巢提供了智能高效、安全可靠的服务交付和运维体验,有助于提升服务商的服务能力、降低运营成本、提升用户的部署效率和降低用户管理软件和资源的成本。智能高效 计算巢集成了阿里云一系列底层...

数据库访问失败的常见原因

本文介绍函数计算访问数据库失败的常见原因。常见原因排查 数据库连接偶现失败 如果您访问数据库偶现失败,可按照以下步骤进行原因排查。数据库断开连接时,是否使用 destroy()替换 end()使用。由于函数实例在空闲2~5分钟左右后,会自动...

设计原则

数据容灾是指在数据中心或服务器发生故障、灾难或意外情况时,能够保证数据的安全性和可用性的一系列措施和策略。数据容灾的目标是确保在不可避免的情况下,数据的完整性、可恢复性和可用性不受到严重影响,以保障业务的持续运行和数据的...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
函数计算(旧版) 云数据库 RDS 轻量应用服务器 云服务器 ECS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用