自助诊断GPU节点问题

ACK集群提供节点级别的GPU诊断功能,供您进行部分GPU相关问题故障排查。如果您在ACK Pro版集群中使用GPU节点时遇到问题,可以启用GPU节点自助诊断,采集GPU诊断的基础指标进行问题排查。本文介绍如何使用节点诊断功能,自助排查GPU节点...

THP reclaim功能

THP reclaim还伴随内存回收而触发:内存出现OOM时,会触发THP reclaim的全零页面回收功能。当memory cgroup触发memory后台异步回收时,会触发THP reclaim的全零页面回收功能。关于memory后台异步回收的更多信息,请参见 Memcg后台异步...

MQTT连接相关问题

发布QoS1数据时,偶尔会出现MQTT_PUSH_TO_LIST_ERROR(-42),如何解决?需要等待ACK的packet都会存放起来,等待ACK。存放量有上限,当需要等待的packet太多到达上限时,就会触发 MQTT_PUSH_TO_LIST_ERROR(-42)error。出现错误可能是因为当前...

PolarDB MySQL版5.6版本发布日志

修复RO节点的物理机出现故障时,RW节点在特殊情况下未将其复制关系中断,而引发的RW节点刷脏受阻的问题。修复在RW节点执行Degrade操作后,Standby节点丢失物理复制重连机制的问题。修复一键升级RDS MySQL至PolarDB MySQL版场景下,...

消费重试

系统异常时处理中的消息状态如何恢复:帮助您了解当系统出现异常(宕机故障)等场景时,处理中的消息状态如何恢复,是否会出现状态不一致。消费重试策略 消费重试策略指消费者在消费某条消息失败后,消息重试的间隔时间和最大重试次数。...

概述

基于阿里巴巴的历史经验,有一半以上的重大故障皆为变更触发,因此,变更过程的风险防御显得尤为重要,直接关乎业务的稳定性。变更系统是指承载任何对线上生产环境变更操作的系统或工具。例如拥有控制台的白屏化系统/工具、压测/演练平台...

创建报警

当规则被触发时,系统以您指定的报警方式向报警联系人分组发送报警信息,以提醒您采取必要的问题解决措施。前提条件 说明 目前公有云已不支持使用旧版报警功能,您可以使用新版告警管理功能创建告警规则。更多信息,请参见以下链接。应用...

节点弹性大盘

随着集群规模扩大和频繁自动伸缩弹性,仅凭人工手动方式很难快速定位及发现问题,也很难追溯历史,基本不可能发现在长时间线上统计才能发现的异常。本文介绍如何通过节点弹性大盘上展示的Pod、Node详情及变化图表,快速排查定位问题。前提...

高性能版实例

SQL崩溃时,主要会出现Coredump或Out of Memory等情况,使 AnalyticDB PostgreSQL版 进入恢复模式。恢复模式中,系统会对残留的锁和内存执行一些清理操作,并通过回放WAL文件来保证数据的完整性。恢复期间,实例会暂时无法服务,完成恢复后...

创建报警

当规则被触发时,系统以您指定的报警方式向报警联系人分组发送报警信息,以提醒您采取必要的问题解决措施。前提条件 创建联系人:仅可将联系人分组设为报警的通知对象。背景信息 默认报警条件:为避免您在短时间内收到大量报警信息,系统...

自动服务

触发任务:不同的领卡渠道触发的关怀礼包不同,允许建立不同的触发任务,不允许不同触发任务中出现选择相同的入会渠道触发机制。4.2 升级关怀 买家到达了升级的标准后,升级后,我们将于短信提示买家在本店的会员等级已经升级,可以享受...

常见问题

本章节汇总了使用ARMS告警管理监控的常见问题。本页目录 ARMS Prometheus监控新旧版本告警规则有何不同?指定了新的通知策略,仍然收到了旧的告警通知?为什么配置了告警规则的通知策略,告警还是发给我了?为什么通知策略中出现了标签为_...

常见问题

本文汇总了DeltaLake使用时的常见问题。为什么建表失败?流式写入Delta时产生了很多的小文件怎么办?Optimize执行时间很长是什么原因?为什么Optimize失败了?应该如何处理?执行了Optimize,为什么还有很多小文件?执行了Vacuum,为什么...

配置HTTP触发器并使用HTTP触发

前提条件 创建服务 步骤一:创建触发器 说明 HTTP触发器与其他类型的触发器不同,当您创建HTTP类型的函数后,系统默认为该函数创建一个HTTP触发器,而对于其他类型的触发器,需根据触发源手动创建对应的触发器。登录 函数计算控制台,在...

故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...

邮件发送相关问题

邮件发送相关问题。邮件推送支持哪几种发信方式?邮件推送支持三种发信方式:通过邮件推送控制台发送邮件。目前支持发送批量邮件,暂不支持触发邮件。具体操作方法,请参见 通过控制台发送邮件。通过 API 接口发送邮件。具体操作方法,请...

SQL错误码(ODPS-01CCCCX)

触发条件:当批量添加同一分区时,会出现此错误。MaxCompute仅会执行接收到的第一个添加分区命令,并忽略后续请求。处理方法:避免同时对同一分区执行操作。ODPS-0110061:Failed to run ddltask-Your project is not allowed to install ...

请求处理程序(Handler)

什么是请求处理程序 FC 函数的请求处理程序,是函数代码中处理请求的方法。当您的 FC 函数被调用时,函数计算 运行您提供的Handler方法处理请求。您可以通过 函数计算控制台 的 函数入口 配置Handler。对Go语言的 FC 函数而言,您的请求...

什么阈值报警规则触发延迟?

本文为您介绍监控数据满足报警条件并触发报警,但触发时间晚于预期时间的原因。首先您需要明确以下两个概念:监控指标的Period 表示监控指标数据点的间隔时间及聚合时间,例如:大多数监控指标的Period为60秒,表示每60秒产生一个监控指标...

自动性能扩展

影响 对于RDS MySQL高可用云盘版实例,在变更配置生效期间,可能会出现实例切换,请确保应用具有重连机制。实例切换的影响请参见 实例切换的影响。为保障更出色的性能和稳定性,如果实例的小版本非最新,在变更配置时,系统会将实例的小...

自动性能扩展

影响 对于 RDS MySQL 高可用系列云盘版和 PolarDB MySQL版 的集群版实例,在变更配置生效期间,可能会出现一次约30秒的闪断,请确保应用具有重连机制。对于 PolarDB MySQL版 的集群版实例,只能对整个集群进行规格升降级,无法对集群中的...

自动创建Topic

业务冲突:自动创建Topic,容易触发不同业务名称冲突,如果触发会导致不同业务数据混合,很难发现问题。发现之后,恢复难度过大,且容易有不可逆转的损失。延迟问题:自动创建Topic触发时,相对已有Topic,需要至少成倍的时间,会造成业务...

常见问题

本文列举了DDoS基础防护产品相关的常见问题。我的ECS服务器被20 Mbps的流量攻击了,DDoS基础防护怎么不防护?DDoS基础防护是公共的DDoS防护服务,不对很小的流量攻击(小于100 MB)进行防护。如果云服务带宽低于系统可设置的最低清洗阈值,...

配置自动调优

外部系统故障或访问变慢时,导致作业并发度增大,加重外部系统的压力,导致外部系统雪崩。常见的外部系统问题如下:数据总线DataHub分区不足或消息队列RocketMQ吞吐量不足。Sink性能问题。云数据库RDS死锁。智能调优和定时调优都支持基础...

使用gig流控插件

当节点服务质量出现问题一般体现为查询延迟飙升或错误率上升)时,插件能够通过PID算法实时收集分析服务节点指标,快速做出反应,屏蔽异常节点,实现故障后的秒级切流。当新节点上线加入集群时,为避免业务流量直接输入到服务能力未达标...

弹性扩缩集群资源

如果集群负载过高且索引没有副本,同时在弹性扩缩过程中存在大量的写入或查询等情况,可能在弹性扩缩过程中业务会出现偶发的访问超时现象。建议在弹性扩缩操作前,在客户端访问机制中配置重试机制,以减小对业务的影响。确认业务的资源瓶颈...

工作流常见问题

本文介绍了在使用工作流中出现的常见问题以及解决的对应方法。如何上传文件?您可以通过媒体处理控制台或OSS官方提供的图形化管理工具进行文件上传工作,支持分片上传、断点续传、批量上传。详细信息参见 控制台上传、OSS图形化管理工具...

为HTTP触发器配置JWT认证鉴权

常见问题什么自定义域名开启JWT鉴权之后,访问域名提示:invalid or expired jwt?该提示说明JWT鉴权失败,可能原因如下。您的Token签名、格式等非法,导致校验出错。您的Token已过期,导致校验出错。您的Token中的kid与您在自定义域名...

HTTP触发器概述

出现客户端499错误后函数实例重启,您可以通过配置健康检查避免实例重启,具体原因及操作请参见 为什么函数出现客户端499错误后函数实例重启?如果客户端调用出现超时情况,您可以将耗时的逻辑放在新的函数中,使用函数的异步调用功能...

什么要升级到MongoDB的新版本

简要描述:在分片集群实例中,若未及时清理孤立文档,可能导致在迁移数据时出现数据不一致的问题。推荐版本:4.4及以上版本。推荐理由:当一个Chunk成功迁移到新的分片后,源分片中的该Chunk延期删除。孤立文档通常是因为迁移过程中断...

同步日志

初始化 一般在执行的时候出现异常,导致同步未执行。出现该状态时,可以重新触发同步任务。属于罕见异常。日志详情 管理员可以查看每条同步数据的状态和详情,并进行检索。若同步请求失败,可以查看失败原因。原因订正后,您可以通过两种...

Tablestore触发器

使用Tablestore触发器时,总是报客户端取消的报错,一般是由于客户端调用函数时设置的超时时间小于函数执行时间。建议您将客户端超时时间调大,具体请参见 客户端断开连接,报错Invocation canceled by client怎么办?如果Tablestore数据...

Tablestore触发器

使用Tablestore触发器时,总是报客户端取消的报错,一般是由于客户端调用函数时设置的超时时间小于函数执行时间。建议您将客户端超时时间调大,具体请参见 客户端断开连接,报错Invocation canceled by client怎么办?如果Tablestore数据...

自动SQL限流

当数据库存在突发流量导致SQL并发量急剧上升、部分SQL占用大量数据库资源、或者大量未创建索引的SQL被调用等问题影响正常业务时,需要限制问题SQL的并发度,保障大部分的业务正常运转。数据库自治服务DAS支持自动SQL限流,自动提取SQL...

HTTP触发器概述

出现客户端499错误后函数实例重启,您可以通过配置健康检查避免实例重启,具体原因及操作请参见 为什么函数出现客户端499错误后函数实例重启?如果客户端调用出现超时情况,您可以将耗时的逻辑放在新的函数中,使用函数的异步调用功能...

请求处理程序(Handler)

如果使用API调用,但配置的测试参数不符合HTTP触发器请求格式规范时,会出现报错。例如,在控制台上调用函数,配置请求参数为"Hello,FC!单击 测试函数,收到的响应如下所示。The request did not come from an HTTP Trigger,event:...

流水线的运行

流水线的启动运行 可以把一条流水线设置为代码提交后自动触发、定时触发或手动触发。即使设置为前两种方式之一,也仍然可以手动触发。手动触发的方法是点击右上角的“运行流水线”按钮。阶段的启动运行:设置为自动触发时 各阶段之间,可以...

2024年

修复数据处理场景中存储引擎处理特定数据时会触发 negative bitmapset member not allowed 报错信息,导致执行引擎异常崩溃的问题。修复数据处理过程中系统在尝试读取数据文件的特定块时发生错误,触发 beam could not read block in file ...

自动SQL限流

当数据库存在突发流量导致SQL并发量急剧上升、部分SQL占用大量数据库资源、或者大量未创建索引的SQL被调用等问题影响正常业务时,需要限制问题SQL的并发度,保障大部分的业务正常运转。数据库自治服务DAS支持自动SQL限流,自动提取SQL...

计费概述

申请协助服务 阿里云提供工作日内09:00~18:00的证书申请协助服务,帮助您快速签发SSL证书,包括排查证书审核出现问题、加快CA中心证书签发速度等服务。部署服务 阿里云提供工作日内09:00~18:00的证书部署服务,帮助您解决部署问题,快速...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
负载均衡 Web应用防火墙 商标服务 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用