通过可观测性能力进行故障处理最佳实践

具体使用时可将这些指标大致分为以下三类:一级指标:建议将没有歧义的、可衡量业务正常运行的指标作为一级指标,这些指标出现异常则一定是业务链路出现问题一般可用做监控报警项。例如,消息收发TPS超过规格限制可触发实例流控,您可以...

子设备认证与连接

} 步骤8:反初始化子设备 删除子设备前,将子设备和网关中断连接,否则会出现内存异常。void demo_sub_device_deinit(void*subdev_table,int32_t num){ int i=0;for(i=0;i;i+){ aiot_device_delete(&subdev_table[i]);} free(subdev_table)...

通过物理专线实现本地IDC与云上VPC互通

申请LOA后,物理专线实例的 状态 为 LOA申请中,阿里云审核人员一般会在2个工作日内对您的LOA申请进行审核。审核通过后,物理专线实例的 状态 为 LOA已批准,此时您可以在控制台下载LOA文件。说明 非中国境内接入点,阿里云审核人员会在3个...

节点异常问题排查

常见排查方法 节点故障诊断 当节点出现故障时,您可以使用容器服务ACK提供的故障诊断功能,一键诊断节点异常。登录 容器服务管理控制台。在控制台左侧导航栏,单击 集群。在 集群列表 页面,单击目标集群名称或者目标集群右侧 操作 列下的 ...

节点异常问题排查

常见排查方法 节点故障诊断 当节点出现故障时,您可以使用容器服务ACK提供的故障诊断功能,一键诊断节点异常。登录 容器服务管理控制台。在控制台左侧导航栏,单击 集群。在 集群列表 页面,单击目标集群名称或者目标集群右侧 操作 列下的 ...

mysqlclient 连接 OceanBase 数据库

如果没有安装 python3-devel 包,则编译 MySQL C API 时会出现找不到 Python.h 的错误。打开命令提示符或 PowerShell 终端,运行以下命令,安装必要的 Python 库。检查是否安装 python3-devel。运行以下命令来检查是否已安装 python3-devel...

副本集实例连接说明

重要 不建议在生产环境的应用程序通过该地址连接实例,当主节点出现故障时,发生主备切换,主节点地址发生变化,您需要连接新的主节点确保读写操作不受影响。Secondary:从节点,连接从节点地址仅能执行数据库的读操作。Readonly:只读...

EMR Kafka磁盘故障运维

业务场景 Kafka将日志数据存储到磁盘中,当磁盘出现故障时,导致磁盘IO能力下降、集群吞吐下降、消息读写延时或日志目录offline等问题。这些情况有可能影响到线上业务平稳运行、数据丢失、Kafka集群容错能力下降,单块盘故障甚至有可能...

如何排查Java场景下故障注入不生效的问题

在对Java进程注入故障时,可能会出现故障注入失败的情况。为解决此类问题,在创建或编辑演练时,您可以在故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,...

常见问题概览

下载备份文件 性能、空间与内存 热点问题 其他常见问题 如何排查MongoDB实例负载过高的问题 MongoDB实例内存使用率高问题 MongoDB实例的CPU使用率高问题 MongoDB实例IOPS使用率高问题 MongoDB实例空间使用率高问题什么高可用系统触发...

自动故障剔除

自动故障剔除功能自动监控 RPC 调用的情况,当某个节点出现故障时,可对故障节点进行权重降级,并在节点恢复健康时进行权重恢复。目前支持 Bolt 协议。配置方式 将自动故障剔除的参数配置到 SOFABoot 中的 application.properties 即可。...

回切至本地物理机

如果扩充的是包含系统分区的磁盘,那么扩充的这部分空间会被ECS自动填充给系统分区,这样在恢复到本地的物理机时可能会出现分区越界的问题。如果系统分区相对源端机器被扩容,将会收缩相应的空间,确保和源端机器保持一致。反向注册。确认...

连接保持

当Proxy在新旧主节点中进行切换时,需要保留这个状态,否则会出现字符集乱码问题。所以连接保持的核心在于保证连接切换前后的会话状态一致。说明 当Proxy将连接从旧主节点切换到新主节点的过程中,会存在短暂的新老数据库同时不可写不可读...

MSE注册配置中心高可用最佳实践

多可用区实例将物理服务器部署在不同的可用区,当可用区A出现故障时,流量在短时间内切换到另一个可用区B。整个过程您无需感知,应用代码无需变更。您只需配置多个节点部署,MSE自动部署到多个可用区。图 1.MSE三节点同城双活架构图 图 2...

割接与上线

割接上线前的准备 应用的割接上线是整个应用上云迁移实施的最关键环节,这一环节出问题,可能造成重大故障。针对割接上线的重要性,我们建议在实施应用割接前,制定详细的割接前检查清单,这个清单的严谨程度很大程度上决定了割接成功率...

网络架构容灾

不同部门和团队使用云产品时,一般会使用多个VPC把业务隔离,不同的VPC承载不同部门或团队的业务。但不同团队和部门间在特定场景下也需要互相访问双方的服务,这时就需要实现不同VPC间的互通。实现不同VPC之间的互通在阿里云上有两个主要...

围绕混沌工程的平台实践

本文主要介绍AHAS Chaos是如何围绕混沌工程来打造故障演练服务,您可以了解到混沌工程的基本知识和AHAS Chaos的优势。混沌工程和故障演练 首先您需要了解混沌工程和故障演练的关系。以下是混沌工程官方定义:混沌工程是在分布式系统上进行...

集成iOS SDK时的常见问题

编译代码时报x86或i386错误 问题现象:编译代码时可能会出现以下错误:可能原因:使用模拟器调试和运行。解决方案:请使用真实设备调试和运行。编译代码时报bitcode错误 问题现象:编译代码时可能会出现以下错误:可能原因:SDK暂不支持...

自动/手动主备切换

注意事项 不论是自动切换还是手动切换,切换过程中,都可能会出现30秒左右的闪断,因此切换前请务必确保应用具备重连机制。自动主备切换 PolarDB 采用双活(Active-Active)的高可用集群架构。当系统发生故障时,可读写的主节点和只读节点...

时序引擎版本说明

修复并发更新Schema时会出现大量版本冲突的问题。修复Lindorm ML时序预测在预测条件为大于或小于某时间点时,拉取数据不足的问题。修复Lindorm ML时序异常检测ostl-ttest算法和ostl-esd在数据量较大时会报错的问题。优化Lindorm ML时序异常...

云盒计算资源配置最佳实践

反之,如果选择最大实例规格为ecs.g6.26xlarge的SKU,由于该规格族的vCPU和内存配比1:4,则会出现内存浪费的情况。根据业务需求选择SKU时,可能会需要多种不同配比的ECS实例,此时可以选择多种规格族混合的SKU,以减少资源浪费。例如:您...

2023年

无 缺陷修复 修复智能诊断功能统计表大小时可能会出现数字溢出的问题,现已将统计表大小的列由integer数据类型修改为bigint数据类型。修复分区表UPDATE分布键列时出现 tuple already updated by self 错误信息的问题。修复Master节点不回收...

PolarDB MySQL版5.7版本发布日志

修复对分区表执行修改分区的DDL语句后,新的Insert请求会出现autoinc duplicate key的问题。5.7.1.0.31 类别 说明 发布时间 新增功能和性能优化 提升低并发场景下Thread Pool处理建连请求的速度。2024-01-31 问题修复 修复使用逻辑预读功能...

ack-node-repairer

当节点出现故障时,自愈系统自动对故障所在节点触发相应的修复操作。当故障被修复后,NPD修改故障状态,达到故障检测以及修复的闭环。运维人员也可以自定义需要采取修复操作的故障以及具体的修复操作。NPD是Kubernetes节点诊断的工具,...

如何解决MSE Nacos实例连接失败问题

问题现象 当程序连接MSE Nacos出现连接失败问题时,可能会出现如下几种报错。Client not connected,currentstatus:STARTING Client not connected,currentstatus:UNHEALTHY no available server,currentServerAddr:xxxxx Connection ...

什么页面出现滚动条?

问题描述 为什么页面出现滚动条?解决方案 一般是因为父级容器设置了滚动条,导致子级容器宽或高超出了父级容器的宽或高,可通过将父级容器的宽或高设置为100%解决。

开发和测试

申请LOA后,物理专线实例的 状态 为 LOA申请中,阿里云审核人员一般会在2个工作日内对您的LOA申请进行审核。审核通过后,物理专线实例的 状态 为 LOA已批准,此时您可以在控制台下载LOA文件。说明 非中国境内接入点,阿里云审核人员会在3个...

Link Visual SDK更新记录

ilop 优化高倍数下点播获取当前进度精度 修复反复快速start/stop可能产生的播放无法退出的问题 优化iOS APP未配置background audio情况下进入后台后使用对讲直播伴随模式会出现恢复时音频播放不出声的问题 修复复用点播播放器从云存切换到...

强大容灾能力

申请LOA后,物理专线实例的 状态 为 LOA申请中,阿里云审核人员一般会在2个工作日内对您的LOA申请进行审核。审核通过后,物理专线实例的 状态 为 LOA已批准,此时您可以在控制台下载LOA文件。说明 非中国境内接入点,阿里云审核人员会在3个...

最强容灾能力

申请LOA后,物理专线实例的 状态 为 LOA申请中,阿里云审核人员一般会在2个工作日内对您的LOA申请进行审核。审核通过后,物理专线实例的 状态 为 LOA已批准,此时您可以在控制台下载LOA文件。说明 非中国境内接入点,阿里云审核人员会在3个...

大带宽负载均衡能力

申请LOA后,物理专线实例的 状态 为 LOA申请中,阿里云审核人员一般会在2个工作日内对您的LOA申请进行审核。审核通过后,物理专线实例的 状态 为 LOA已批准,此时您可以在控制台下载LOA文件。说明 非中国境内接入点,阿里云审核人员会在3个...

补数据

什么补数据选择业务时间昨天和今天,也会出现等待时间的情况?为什么补数据选择补0点~1点生成了多个实例?为什么进行大量补数据操作时,会出现等待资源情况(实例显示黄色,实例状态为等待资源)?为什么补数据报错调起的节点运行时间不...

Quick BI自助取数任务报错“Connect to[IP地址]failed...

问题原因 此问题一般出现在独立部署客户环境,问题原因是自助取数所部署的机器在连接用户取数对应的数据源时不能连通,原因可能为:1.自助取数机器IP不通数据源。2.自助取数机器IP不在数据源的白名单中。解决方案 联系阿里技术工程师检查...

步骤五:应用容灾

故障恢复 本机出现故障后在云上拉起本地业务,待本地环境恢复后再将其恢复到本地。具体步骤如下:在 主站点管理 页签,单击+添加。在 添加计算平台 页面,填写计算平台 名称,选择 类型,填写 IP地址、用户名 和 密码。单击 创建。在连续...

通过CloudShell管理集群出现超时问题

在用户使用CloudShell管理集群时,可能会出现如下超时错误。Unable to connect to the server:dial tcp XX.XX.XX.XX:6443:i/o timeout 问题原因 容器服务与CloudShell集成,在CloudShell环境中安装kubectl工具并配置kubeconfig文件。...

标准版-双副本

当主节点出现故障,自研的HA系统自动进行主从切换,保证业务平稳运行。数据可靠 默认开启数据持久化功能,数据全部落盘。支持数据备份功能,用户可以针对备份集回滚实例或者克隆实例,有效地解决数据误操作等问题。同时,在支持容灾的...

部署和使用跨可用区实例

同时,您可以通过控制台的切流操作,将出现故障的可用区隔离,这时系统自动在剩余的可用区中补充计算资源,满足业务对资源的需求。本文介绍如何部署和使用(切流和恢复)跨可用区实例。应用场景 跨可用区部署支持单可用区、跨2个可用区、...

标准架构

当主节点出现故障,自研的HA系统自动进行主从切换,保证业务平稳运行。数据可靠 默认开启数据持久化功能,数据全部落盘。支持数据备份功能,用户可以针对备份集回滚实例或者克隆实例,有效地解决数据误操作等问题。同时,在支持容灾的...

跨可用区容灾

当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...

使用MaxCompute客户端无法连接到...connect timed out

Accessing project 'xxxx' failed:connect timed out 问题原因 一般是由于Endpoint填写错误,需要确定客户端是否在阿里云内网的环境下,如果不在配置了内网的MaxCompute Endpoint地址,就会出现连接超时连不上的问题。比如MaxCompute项目在...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 负载均衡 应用高可用服务 高速通道 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用