故障止损恢复

故障初因定位 集成企业内部可利用的所有稳定性相关数据(变更事件,...通用垂直专项快恢能力:通过集成包括DB侧慢SQL限流、变更极速回滚、多活容灾切流快恢等通用的快恢能力,结合监控、日志等数据自动定位的故障原因进行对应的快恢方式推荐。

区间检测

上下线边界的计算原理,请参见 阈值区间计算原理。筛选条件 针对指标进行进一步的筛选过滤以缩短监控范围。告警指标的维度:遍历:会在告警内容中透出实际触发告警的维度内容。无:告警内容中透出这个维度所有数值的和。告警中只透出当前...

区间检测

上下线边界的计算原理,请参见 阈值区间计算原理。筛选条件 针对指标进行进一步的筛选过滤以缩短监控范围。告警指标的维度:遍历:会在告警内容中透出实际触发告警的维度内容。无:告警内容中透出这个维度所有数值的和。告警中只透出当前...

区间检测

上下线边界的计算原理,请参见 阈值区间计算原理。筛选条件 针对指标进行进一步的筛选过滤以缩短监控范围。告警指标的维度:遍历:会在告警内容中透出实际触发告警的维度内容。无:告警内容中透出这个维度所有数值的和。告警中只透出当前...

什么是故障

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

如何管理故障

可对故障根因进行原因检查并结构化录入,检查点包括:故障原因、最近活动、注入方式、恢复方式等;关联故障期间的故障变更,新增故障改进措施等操作。故障状态 处理中:处理中仍未恢复的故障;已恢复:故障对处理中的故障做 恢复 操作后是...

故障管理

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

EMR Kafka磁盘故障运维

当出现磁盘故障时,需要根据故障原因、故障影响程度、业务需求(是否接受数据丢失、是否允许服务较长时间不可用)、集群状态等综合考虑恢复采取的策略。如果业务优先保证服务可用,但允许丢失部分数据,则应考虑在可能会丢失数据的情况下,...

企业版变更弹性配置

计算资源自动弹性按照CCU(ClickHouse Compute Unit)粒度进行资源弹性扩展。企业版集群会在您给定的最小CCU和最大CCU的范围内,根据实际业务压力自动弹性增加或减少CCU。前提条件 已创建 云数据库ClickHouse 企业版集群。具体操作,请参见...

监控指标

您可以在 函数计算 控制台查询 函数计算 资源概览指标以及资源所在地域和函数维度的监控指标详情。具体的监控指标通过指定MetricName参数实现。本文介绍 函数计算 各类监控指标对应的MetricName参数的取值和含义。资源概览指标 您可以登录 ...

监控指标

您可以在 函数计算 控制台查询 函数计算 资源概览指标以及资源所在地域、服务和函数维度的监控指标详情。具体的监控指标通过指定MetricName参数实现。本文介绍 函数计算 各类监控指标对应的MetricName参数的取值和含义。资源概览指标 您...

故障协同处理(基于钉钉)

2.故障应急场景群:事件升级故障后,群内推出 故障处理中 消息卡片,如果满足自动生成故障场景群的需求(下文详细介绍创建故障场景群逻辑),故障场景群内同时推出 故障处理中 消息卡片。本群故障消息卡片包含按钮:签到、签到记录、应急...

更新故障复盘改进详情

problemReason":"故障原因A","recentActivity":"2","injectionMode":"1","recoveryMode":"2","discoverSource":1,"userReport":10,"monitorSourceName":"Zabbix","relationChanges":"关联变更","dutyUserId":1231,"replayDutyUserId":1213...

地域及可用区

高可用和容灾 如果您需要较高的容灾能力,建议您将业务至少部署在不同的可用区,以保证可用区间故障隔离,实现跨可用区容灾。如果您对实例间网络延时要求较高,建议您将实例创建在同一可用区内。地域及可用区列表 说明 部分地域的可用区...

单实例快速恢复

当出现1分钟容器响应超时(可能是内存溢出、硬件故障、软件Bug等原因导致),Resource Manager会自动拉起新的计算节点,并迁移数据分片(Shard)职责到新的节点上(例如Worker Node3响应超时,Resource Manager拉起Worker Node4取代Worker ...

故障演练常见问题

仅对下发成功的故障规则进行计费,所以执行一次演练的费用是在演练执行成功后进行计算的,会去除下发失败的故障规则。故障不生效是否计费?计费。故障不生效的原因较多,可能是参数配置不正确或无对应的请求命中,但故障规则已成功下发,故...

无法连接Windows实例

故障原因 可能是网卡驱动未开启或网卡配置有问题。解决方法 使用管理终端 登录实例,检查网卡驱动,如果存在异常,则重新安装。步骤三:检查重置实例密码后是否未重启实例 确认是否存在故障现象,如果存在,则参考本步骤解决问题,如果不...

常见疑问点

例如,原始写入的指标数据“up”为每小时(整点)一个点,查询参数为:startTime:10:30:00 endTime:18:30:00 step:1h query:count_over_time(up[10m])预期会返回7个数据点,而实际的查询结果为空,原因分析:PromQL计算逻辑会从startTime...

故障复盘改进详情

0c4840fd3812 幂等校验token 返回数据 名称 类型 示例值 描述 requestId String 4361a0e1-6747-4834-96ce-0c4840fd3811 Id of the request data Object data problemId String 231231 故障ID problemReason String 故障的原因 故障原因 ...

应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断

监控指标说明

该指标协助您进行作业诊断,排查作业Task级别的故障原因。次数 TM GC Time 每次TM GC时间。长时间GC会导致占用过大内存空间,从而影响作业性能。该指标协助您进行作业诊断,排查作业级别的故障原因。毫秒(ms)TM ClassLoader/...

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生、故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

高性能版实例

以下内容为 AnalyticDB PostgreSQL版 实例常见故障场景中高性能版和高可用版的对比:恢复(Recovery)模式 根据以往 AnalyticDB PostgreSQL版 运行情况,故障最大的场景为恢复模式,故障概率远大于另外两种场景(计算节点故障计算节点宿...

设计方案

故障恢复 定位故障原因后,按照应急预案快速恢复业务,并在事后进行复盘总结。预案执行:在故障响应的过程中,需要按照事先制定的应急预案进行执行。应急预案包括了应急响应流程、各个岗位的职责、处理流程等。预案执行能够保证故障恢复和...

配置网络

您在 函数计算 创建的函数,默认可以访问公网,无法访问VPC内的资源。如果您需要函数能够访问VPC内的资源,或允许指定的VPC来调用函数,那么您需要手动为函数配置网络和权限。本文介绍如何通过 函数计算 控制台为函数配置网络。注意事项 ...

故障取消

故障取消 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/problem/...

配置网络

您在 函数计算 创建的函数,默认可以通过公网调用,无法通过VPC调用。如果您需要函数能够访问VPC内的资源,或允许指定的VPC来调用函数,那么您需要手动为服务配置网络访问能力。网络配置为服务级别,即对服务下的所有函数生效。本文介绍...

服务条款

服务条款 本服务条款是阿里云计算有限公司(以下简称“阿里云”)与您就批量计算服务(Batch Computing Service,简称BatchCompute)的相关事项所订立的有效合约。您通过盖章、网络页面点击确认或以其他方式选择接受本服务条款,包括但不...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括Pod诊断、Service诊断、Ingress诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACS集群中使用集群诊断功能。前提条件 已创建ACS集群。具体操作,请参见 创建ACS集群。确保ACS集群运行...

2024年

2024-01-25 全部地域 计算成本优化 控制台资源观测支持修改指标聚合算法 控制台资源观测为优化页面体验,每个指标至多支持展示60个时间点,因此当时间范围大于1h时,原先图表默认使用区间范围内(所选时间范围的分钟数/60)的平均值聚合...

快速创建函数

如果您使用的是阿里云账号或者RAM用户已有创建函数计算FC默认角色的权限,授权失败的原因可能是由于一些功能无法授权造成的。但 函数计算 仍可以正常使用。如果您仍需授予系统默认角色,请加入钉钉用户群(钉钉群号 11721331)咨询。关于...

更新故障详情

P1 故障等级 relatedServiceId Long Body 否 123 关联服务 progressSummary String Body 否 进展摘要xxxx 进展摘要 preliminaryReason String Body 否 原因是服务宕机 初步原因 mainHandlerId Long Body 否 678 主要处理人 feedback String...

归档存储服务等级协议

(2)不可用时间=故障解决时间-故障开始时间,不可用时间按分钟计算;(3)如果用户没有使用到24小时,按实际使用时长计算平均每分钟费用。3.其他 阿里云有权根据变化适时对本服务等级协议部分服务指标 作出调整,并及时在阿里云官网...

创建Web函数

取值说明如下:启用:函数的执行日志被持久化保存到日志服务,方便您进行代码调试、故障分析和数据分析等。禁用:函数的执行日志将无法通过日志服务存储和查询。启用 环境变量:设置函数运行环境中的环境变量。更多信息,请参见 环境变量。...

稳态数据挑选

CST法将测量数据划分为等量区间,假定操作状态仅在区间之间变化,而每一区间过程处于稳态。既可用于处理单一变量,也可用于多变量处理。参数说明 IN端口-输入参数 参数名 参数描述 是否必填 输入数据类型 数据源类型 时间变量 如果数据跟...

GetProblem-故障详情

调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/problem/detail ...

故障升级

新增故障 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/problem/...

ECS资源复用版

ECS资源复用版是MaxCompute按量付费类型中的一种实例规格,旨在将ECS闲置实例转换为可用的MaxCompute计算资源,该方式可以充分利用已有的计算资源,而不需要额外购买新的MaxCompute计算资源,从而在满足大数据处理需求的同时,提高资源利用...

计算资源使用

配额组(Quota)是MaxCompute的计算资源池,为MaxCompute中的计算作业提供所需计算资源(CPU及内存)。在MaxCompute中支持根据计算作业对计算资源的需求,指定匹配的Quota,助力您高效使用计算资源。本文为您介绍如何使用MaxCompute的Quota...

实时计算Blink产品公告(已停止新购)

本文为您介绍实时计算Blink产品的相关动态。公有云实时计算Blink产品进入产品收敛期,请下载查看PDF版 公有云实时计算Blink产品进入产品收敛期,Flink产品详情请参见 产品形态。实时计算Blink文档详情请单击 阿里云实时计算Blink独享模式...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
函数计算(旧版) 云数据库 RDS 轻量应用服务器 云服务器 ECS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用