通过可观测性能力进行故障处理最佳实践

具体使用时可将这些指标大致分为以下三类:一级指标:建议将没有歧义的、可衡量业务正常运行的指标作为一级指标,这些指标出现异常则一定是业务链路出现问题一般可用做监控报警项。例如,消息收发TPS超过规格限制可触发实例流控,您可以...

边缘应用告警规则对接

云端和边缘端数据同步API 地产平台通过封装LP云边同步能力,对外开放如下API:0、获取边缘集群列表1、数据同步预检查2、触发数据同步3、数据同步结果查询 3.1 接口定义 分页参数会出现在请求参数和返回结果中,用于下文中API调用参照。...

RDS MySQL排序分页查询数据顺序错乱的处理

问题描述 MySQL排序分页查询某些时候会出现数据顺序错乱的情况,例如alarm_test表结构如下所示。CREATE TABLE alarm_test(id bigint(20)NOT NULL DEFAULT '0',detail varchar(255)CHARACTER SET utf8 NOT NULL,created_on timestamp NOT ...

如何使用Prometheus监控Windows

当吞吐量超过网口带宽的80%时,就会出现网络饱和,此时您可以通过硬件升级来解决。目前,大多数硬件都是千兆或更高的NIC,所以通常机器网络本身不太可能成为瓶颈,而网络交换节点、网络服务提供商给定的带宽很可能是瓶颈。网络连接数 Major...

如何使用Prometheus监控Windows

当吞吐量超过网口带宽的80%时,就会出现网络饱和,此时您可以通过硬件升级来解决。目前,大多数硬件都是千兆或更高的NIC,所以通常机器网络本身不太可能成为瓶颈,而网络交换节点、网络服务提供商给定的带宽很可能是瓶颈。网络连接数 Major...

EMR Kafka磁盘故障运维

业务场景 Kafka将日志数据存储到磁盘中,当磁盘出现故障时,导致磁盘IO能力下降、集群吞吐下降、消息读写延时或日志目录offline等问题。这些情况有可能影响到线上业务平稳运行、数据丢失、Kafka集群容错能力下降,单块盘故障甚至有可能...

如何排查Java场景下故障注入不生效的问题

在对Java进程注入故障时,可能会出现故障注入失败的情况。为解决此类问题,在创建或编辑演练时,您可以在故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,...

自动故障剔除

自动故障剔除功能自动监控 RPC 调用的情况,当某个节点出现故障时,可对故障节点进行权重降级,并在节点恢复健康时进行权重恢复。目前支持 Bolt 协议。配置方式 将自动故障剔除的参数配置到 SOFABoot 中的 application.properties 即可。...

回切至本地物理机

如果扩充的是包含系统分区的磁盘,那么扩充的这部分空间会被ECS自动填充给系统分区,这样在恢复到本地的物理机时可能会出现分区越界的问题。如果系统分区相对源端机器被扩容,将会收缩相应的空间,确保和源端机器保持一致。反向注册。确认...

连接保持

当Proxy在新旧主节点中进行切换时,需要保留这个状态,否则会出现字符集乱码问题。所以连接保持的核心在于保证连接切换前后的会话状态一致。说明 当Proxy将连接从旧主节点切换到新主节点的过程中,会存在短暂的新老数据库同时不可写不可读...

自动故障转移和读写分离

libpq实现自动故障转移和读写分离 通过libpq函数连接多个数据库,当出现故障自动切换到可用的数据库。命令 postgresql:/[user[:password]@][netloc][:port][,.][/dbname]?param1=value1&.]示例 如下示例为连接1个RDS PostgreSQL主实例...

网络架构容灾

不同部门和团队使用云产品时,一般会使用多个VPC把业务隔离,不同的VPC承载不同部门或团队的业务。但不同团队和部门间在特定场景下也需要互相访问双方的服务,这时就需要实现不同VPC间的互通。实现不同VPC之间的互通在阿里云上有两个主要...

围绕混沌工程的平台实践

可能发生什么样的新问题?有哪些问题是正在解决中的?这些问题可以帮助您在设计演练流程时选择和系统业务有关的更优场景。为了帮助您选择合适的演练场景,AHAS Chaos在功能设计上做了以下两点:丰富的演练场景。首先在全面性上AHAS Chaos...

2023年

无 缺陷修复 修复智能诊断功能统计表大小时可能会出现数字溢出的问题,现已将统计表大小的列由integer数据类型修改为bigint数据类型。修复分区表UPDATE分布键列时出现 tuple already updated by self 错误信息的问题。修复Master节点不回收...

ack-node-repairer

当节点出现故障时,自愈系统自动对故障所在节点触发相应的修复操作。当故障被修复后,NPD修改故障状态,达到故障检测以及修复的闭环。运维人员也可以自定义需要采取修复操作的故障以及具体的修复操作。NPD是Kubernetes节点诊断的工具,...

补数据

什么补数据选择业务时间昨天和今天,也会出现等待时间的情况?为什么补数据选择补0点~1点生成了多个实例?为什么进行大量补数据操作时,会出现等待资源情况(实例显示黄色,实例状态为等待资源)?为什么补数据报错调起的节点运行时间不...

步骤五:应用容灾

故障恢复 本机出现故障后在云上拉起本地业务,待本地环境恢复后再将其恢复到本地。具体步骤如下:在 主站点管理 页签,单击+添加。在 添加计算平台 页面,填写计算平台 名称,选择 类型,填写 IP地址、用户名 和 密码。单击 创建。在连续...

跨可用区容灾

警告 故障切换操作适用于被保护服务器已经出现严重故障的情形,进行该操作停掉实时复制流程。您需要重新启动复制,并完成一次全量复制才能对被保护服务器继续进行容灾保护。按如下步骤进行故障切换:在 受保护服务器 页签,在要启动故障...

跨地域容灾

警告 故障切换操作适用于被保护服务器已经出现严重故障的情形,进行该操作停掉实时复制流程。您需要重新启动复制,并完成一次全量复制才能对被保护服务器继续进行容灾保护。按如下步骤进行故障切换:在 受保护服务器 页签,在要启动故障...

跨地域容灾

警告 故障切换操作适用于被保护服务器已经出现严重故障的情形,进行该操作停掉实时复制流程。您需要重新启动复制,并完成一次全量复制才能对被保护服务器继续进行容灾保护。故障切换步骤如下:在左侧导航栏,选择 连续复制型容灾>云上容...

跨可用区容灾

警告 故障切换操作适用于被保护服务器已经出现严重故障的情形,进行该操作停掉实时复制流程。您需要重新启动复制,并完成一次全量复制才能对被保护服务器继续进行容灾保护。故障切换步骤如下:在左侧导航栏,选择 连续复制型容灾>云上容...

响应云盒维修事件

流程说明 运行中的ECS实例出现故障风险时,向您发送ECS故障 事件(Reboot事件)通知,收到ECS故障事件通知后,您可以响应故障事件并按照建议进行处理,例如:将现有业务迁移到冗余资源保证业务正常运行,将出现故障风险的ECS实例作为备机...

Quick BI的新交叉表中设置查询条件后查询数据慢,查看...

分页实现 1W条在前端分页导致分页与合并同类单元格等功能不可用。后端分页,单击下一页会重新触发取数查询,合并同类单元格只是一种展示。结果有差异,合并同类格场景下有差异,保证数据展示的正确性。解决方案 如果您没有使用到特殊...

SDK相关FAQ

什么会出现内存泄漏?setSDKAuthSDKInfo的密钥如何获取?什么情况下会返回600005页面非法修改?当使用移动卡请求一键登录不成功,可能出现的报错日志及解决方法有哪些?若出现权限相关问题,该怎样做?检查App的权限是否可以正常申请。...

节点诊断

节点文件系统只读状态 节点出现文件系统只读,通常是因为磁盘故障导致节点无法写入数据,可能造成业务异常。请尝试在节点上使用fsck命令修复文件系统,然后重启节点。节点硬件时间 检查节点硬件时钟与系统时间是否一致,时间相差超过2...

常见问题

产品常见问题 EMAS崩溃保护机制导致SDK无法初始化且功能不可用 阿里百川账号如何在阿里云平台使用 覆盖patch需要重启App生效吗 热修复支持多进程吗 后台上传补丁的时候出现,找不到补丁的情况 补丁发错了怎么办,是否有相应办法补救 针对同...

I-V曲线诊断

被遮挡的组件会出现热点效应(HotSpot),成为整个阵列的负载,从而在局部产生高温,导致组件烧毁损坏,进而产生严重安全隐患。会导致阵列的不均匀老化。组件老化过快,会影响整个阵列的性能和寿命。光伏阵列电阻老化 太阳能电池片存在着...

如何解决MSE Nacos实例域名无法解析的问题

问题现象 当程序连接MSE Nacos出现实例域名无法解析时,可能有如下几种报错。UnknownHostException No route to host Unable to resolve host 问题原因 应用节点所配置的DNS服务器或NameServer不正确,导致无法解析MSE域名。容器未使用宿...

移植问题

本文介绍编译3.x和2.3.0版本的C Link SDK时,可能遇到的问题和解决方法。背景信息 如果您尚未接入物联网平台,推荐使用最新版本的SDK。更多信息,请参见 概述。在Linux系统编译SDK后,运行Demo时,为何出现如core dump等错误?SDK提供的HAL...

故障演练常见问题

欢迎您反馈在使用故障演练过程中遇到的问题,目前提供以下常见问题供您参考。单个演练活动成功状态怎么判断?因为一个活动可能有很多目标机器,当所有机器执行完毕之后,如果有机器没有执行成功,那么这个演练活动就被系统判断为失败。...

故障排查

如果您在使用 ACK Serverless集群 时出现故障,可根据以下故障分类匹配故障场景和解决方案,帮助您快速排查问题,提升运维效率。分类 相关文档 集群资源和集群组件异常问题排查 集群检查项及修复方案(包括升级集群、迁移集群、安装组件、...

自动/手动主备切换

注意事项 不论是自动切换还是手动切换,当只读节点未开启热备时,主备切换过程中可能会出现20~30秒左右的闪断,因此切换前请务必确保应用具备重连机制;当只读节点开启了热备功能时,主备切换将在5~10秒内完成。关于如何开启只读节点的热备...

DDH生命周期

是 故障 稳定状态 DDH出现故障。您可以 提交工单 检查并处理问题。是 已过期 稳定状态 包年包月DDH到期时出现的状态。对DDH续费后,DDH的状态变为 运行中。续费详情,请参见 手动续费DDH。是 已释放 稳定状态 包年包月DDH过期后自动释放...

异地应用双活切流

选择 故障单元,代表此时,该单元当前出现故障,无法承接流量,MSHA自动将该单元的流量置0,将另一个单元置为100。b.单击 下一步,进入 容灾切换预览,在预览页,可以看到单元前后比例的对比,和 当前切流服务,如果和您预期不符,请返回...

数据服务

数据服务不支持ECS自建的数据库,配置内网地址时,会出现网络不通的情况。是否必须开通API网关?API网关提供了API托管服务,如果您的API计划对外开放调用,则必须先开通API网关服务。如何配置数据源?数据源需要在 工作空间管理>数据源管理...

DescribeCrossAccounts-查询跨账号信息

200 Message string 返回信息描述,成功一般返回 successful,错误时返回相应错误信息。successful PageNumber integer 分页页码,从 1 开始,默认值为 1。1 PageSize integer 分页大小,最小值为 1,最大值为 99,默认值为 10。10 ...

一键诊断

A:RDS MySQL的计算公式如下:线程使用率=活跃线程数/最大线程数 连接数使用率=当前连接数/实例规格最大连接数 最大线程数=thread_pool_size*(thread_pool_oversubscribe+1)Q:为什么会出现线程使用率超过100%的情况?A:按照线程使用率的...

设计方案

容错 容错是指在分布式系统中,系统出现故障时,通过设计和实现可靠的机制和策略,使系统能够自动检测、排除或者纠正错误,保证系统能够正常运行,从而提高系统的可靠性和稳定性。容量 容量是在一定时间内,系统能够处理的最大工作量或数据...

DescribeHanaDatabases-查询符合条件的SAP HANA数据库

200 Message string 返回信息描述,成功一般返回 successful,错误时返回相应错误信息。successful PageNumber integer 分页页码。从 1 开始,默认值为 1。1 PageSize integer 分页大小。最小值为 1,最大值为 99,默认值为 10。10 ...

DescribeContainerCluster-查询容器集群

200 Message string 返回信息描述,成功一般返回 successful,错误时返回相应错误信息。successful PageSize integer 分页大小。最小值为 1,最大值为 99,默认值为 10。100 PageNumber integer 分页页码,从 1 开始,默认值为 1。1 ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
负载均衡 商标服务 Web应用防火墙 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用