优化资源利用率 资源利用率提升本质就是用最少的资源最大化满足算力需求,同时需综合考虑业务布局、容灾和稳定性、机器故障率、预留缓冲空间等因素,这些因素交织在一起共同资源使用效率。概括起来需要被关注到的内容包括:明确资源利用率...
SDK获取消息的方式为批量拉取,常见内网环境下都会有很高的吞吐量,例如:1个单线程单分区的低规格机器(4C8GB)可以达到几万TPS,如果是多个分区可以达到几十万TPS。所以这一阶段一般不会成为消息堆积的瓶颈。阶段二:提交消费线程,SDK...
在进行数据库日常维护或处理数据库故障时,查看数据库相关的性能指标是必不可少的步骤。RDS MySQL的性能趋势提供了丰富的性能监控指标,多种监控视图,以及强大的诊断能力,能够及时发现数据库的异常并提供相应的治理方案。前提条件 实例为...
常见原因:内存使用率比较高。您可以采取如下解决方案。把OSS上的文件拆分为一个一个的小文件,然后再进行导入。进行内存的升配。如何升配,请参见 社区兼容版集群变配和水平扩缩容。如何处理导入数据报错:too many parts?ClickHouse每次...
故障诊断 ACS提供一键故障诊断能力,包括Pod、Service、Ingress的诊断。更多信息,请参见 使用集群诊断。安全中心 审计 ACS提供API Server的审计日志功能,可以帮助集群管理人员记录或追溯不同用户的日常操作。更多信息,请参见 使用集群...
带宽使用率持续过高,将影响实例的网络连通性或网络吞吐,例如实例无法远程连接、网速过慢等。内存使用率过高:一般来说,当内存使用率≥80%时,定义为内存使用率过高。内存使用率过高,可能会出现系统卡顿、内部服务响应速度变慢等问题。I...
降低了端到端网络延时,提升了网络IO吞吐能力,并有效规避和弱化了网络故障、网络黑洞等传统网络异常给上层应用带来的性能损失。高性能集合通信库ACCL。PAI灵骏 支持高性能集合通信库ACCL(Alibaba Collective Communication Library),...
容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。基于专家经验和AI智能诊断两种诊断模式,节点诊断可以深入定位问题根因。节点诊断包括诊断检查项和诊断根因。诊断检查项:包括Node检查、...
高可用管理平台 HAS 定位于 IT 技术...故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的演练和恢复计划,保证用户能够有计划地测量和观测应用高可用能力。
NLP自然语言处理 常见问题 调用异常自助排查(错误码汇总)服务协议 NLP自学习平台 常见问题 实体抽取项目常见问题 故障排除 私有化部署 企业智能搜索 错误码对照表 常见问题
集群资源 监控 项说明 监控项 单位 说明 CPU使用率%监控如下信息:存储节点CPU最大使用率 存储节点CPU使用率 计算节点CPU最大使用率 计算节点CPU使用率 说明 预留模式C32规格变配为弹性模式后,CPU平均使用率会增大,详情请参见 常见问题。...
在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个...后续步骤 停止演练 常见问题 故障演练常见问题
因此,总的消息发布吞吐率为每秒10000,总的消息接收吞吐率达到每秒100万。控制台中的场景配置如下图:控制台中的施压配置如下图:更多关于配置压测场景的详细信息,请参见 创建MQTT压测场景。步骤三:发起压测 完成场景配置和施压配置后,...
常见的故障自动诊断场景 RT突增 下游业务导致的本应用的RT突增,您可以联系下游业务的负责人进行排查。应用变更导致的RT突增,您可以查看此次变更的具体变更进行排查。应用的某个服务导致RT突增,可以排查以下情况:服务是否在此时有发生...
本文列出了虚拟机常见的故障演练场景。JvmCodeCache满 制造JVM CodeCache区域满的故障,CodeCache区域满会直接导致JIT编译关闭,从而引起业务系统性能下降。一般用于验证业务系统在高并发且系统性能下降的情况下,是否能够通过限流、快速扩...
概述 方案介绍 异地容灾是指应用服务部署在不同地域时,当其中一地出现故障时,全局流量管理(简称GTM)可以将出现故障地域的用户访问流量,调度至异地灾备中心,保障用户访问连续不间断。本文将以两地三中心灾备架构为读者讲解异地灾备的...
数据服务中提供光伏智能运维的IV曲线诊断算法,结合环境光强度、环境温度等影响因素,对组串式光伏发电阵列的电流-电压曲线(I-V曲线)进行分析,检测系统可能出现的故障,进而提高设备的运行效率,保障电站高效运行。本文介绍光伏智能运维...
常见的故障类型都可以映射到这个故障模型中,模拟故障的演练系统及方案也可以基于该模型进行设计。在设计演练方案的过程中,可以考虑在模型中每个环节进行故障注入,验证故障应急方案。不同演练类型和目标 根据演练过程对线上业务的影响,...
概述 方案介绍 同城容灾指应用服务部署是多机房、单地域时,当其中一机房出现故障时,全局流量管理(简称GTM)可实现业务7*24小时稳定运行,即使单机房故障也不影响业务的可持续性,保障用户访问连续不间断。本文将以同城双活的灾备架构为...
概述 方案介绍 大部分企业的应用服务都会使用多个运营商的IP地址,因此可能会存在跨网延迟、丢包、故障不可用等问题,而全局流量管理产品方案可以根据用户请求源地址的运营商,解析就近的应用服务器IP地址,实现就近接入、访问加速、故障...
控制台访问集群异常问题排查 组件异常问题排查 ACK Serverless集群 故障排查 常见问题索引 集群类型 相关文档 托管版与专有版容器集群ACK 常见问题 ACK Serverless集群 常见问题 分布式云容器平台ACK One 常见问题 容器服务ACK发行版 常见...
模块问题 计费常见问题 数据库常见问题 流量统计常见问题 网站管理常见问题 管理控制台常见问题 网站耗资源(客户程序故障)常见问题 更多常见问题,请参见 常见问题和故障排除汇总。反馈与建议 在使用阿里云云虚拟主机时,如果有任何疑问...
目前支持全场景和接口两个维度,以及响应时长、成功率和吞吐量3个指标。多个条件之间为且(&)的关系。您可以单击 添加配置 新增判断条件。使用性能基线 在压测报告中,您可以通过 性能基线对比 功能,对比本次压测指标与基线指标,判断...
为了保证您的站点能够安全、...关于网站耗资源的原因以及排查方法,更多信息,请参见 网站耗资源(客户程序故障)常见问题。增强版共享虚拟主机和独享虚拟主机可以更好地应对耗资源问题,避免站点被关停。更多信息,请参见 云虚拟主机官网。
有计划、受管控的变更操作降低故障发生率、业务连续性异常。规范变更准备及变更方案,提高变更成功率与可靠性。变更有记录,所有变更可回溯。核心功能 针对变更操作的审批管控以及所有变更记录 基础配置:支持自定义配置变更系统、变更类型...
保护组初始化完成后,您就可以启动保护组复制。启动复制就是将生产站点所有数据复制到容灾站点,此时会在容灾站点自动...后续步骤 步骤七:故障切换 常见问题 ECS容灾云盘异步复制型启动复制时,控制台提示容灾站点实例规格异常,如何处理?
保护组初始化完成后,您就可以启动保护组复制。启动复制就是将生产站点所有数据复制到容灾站点,此时会在容灾站点自动...后续步骤 步骤七:故障切换 常见问题 ECS容灾云盘异步复制型启动复制时,控制台提示容灾站点实例规格异常,如何处理?
执行过程中,需要观察请求成功率、响应时间、业务吞吐量,如果发现指标有明显的拐点,比如成功率或吞吐量大幅下降、响应时间大幅上升,就代表系统已经遇到性能瓶颈,可以根据系统资源监控和应用监控,定位具体的瓶颈点,做对应的弹性扩容。...
百分之 索引缓冲区命中率 InnoDB Buffer命中率 百分之 InnoDB缓冲区命中率 Query Cache命中率 百分之 查询缓存命中率 Table Cache命中率 百分之 表缓存命中率 Thread Cache命中率 百分之 线程缓存命中率 锁 等待次数 次 锁等待次数 等待...
相对于传统应用程序,开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本,但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息,帮助您深刻洞察程序行为,及时发现并快速定位问题。本文主要描述...
JVM相关 指标名称 重要级别 指标描述 指标说明 mcac_jvm_memory_used Critical 已经使用的JVM堆内存大小 该指标越高,可能导致内存不足,触发频繁的垃圾回收,降低应用的吞吐率。mcac_jvm_gc_time Critical 应用程序用于GC的时间 该指标过...
JVM相关 指标名称 重要级别 指标描述 指标说明 mcac_jvm_memory_used Critical 已经使用的JVM堆内存大小 该指标越高,可能导致内存不足,触发频繁的垃圾回收,降低应用的吞吐率。mcac_jvm_gc_time Critical 应用程序用于GC的时间 该指标过...
Lindorm宽表引擎支持千万级高并发吞吐,支持百PB级存储,吞吐性能是开源HBase(Apache HBase)的3~7倍,P99时延为开源HBase(Apache HBase)的1/10,平均故障恢复时间相比开源HBase(Apache HBase)提升10倍,支持冷热分离,压缩率比开源...
高级监控 PolarDB CPU利用率/内存利用率 展示所选择节点的CPU使用率/内存利用率。TPS/QPS 展示所选择节点的每秒事务数/每秒请求数。会话连接 展示所选择节点的当前总会话数和活跃会话数。流量吞吐 展示所选择节点平均每秒发送给所有客户端...
AnalyticDB MySQL版 集群内部对多种数据进行了采集,服务于监控告警系统,确保对故障问题可追溯和可排查。时序数据采集 进程时序数据 计算资源包括:CPU使用率。存储资源包括:IO吞吐、IOUtil、IOPS、存储空间使用量、存储空间使用率。服务...
会话管理 性能趋势 锁分析 慢SQL 空间分析 常见问题 Q:一键诊断中,如何计算会话的线程使用率、连接数使用率和最大线程数?A:RDS MySQL的计算公式如下:线程使用率=活跃线程数/最大线程数 连接数使用率=当前连接数/实例规格最大连接数 ...
如果该业务系统是负责图形图像处理,更加看重单位时间内的吞吐率,不那么在意长尾耗时,那应该优先关注大部分请求的耗时变化,比如P90或P50所在区间的分布变化。缓存命中率 缓存可以有效提升高频重复请求的响应速度,比如订单中心可以将...
您在使用虚拟号时,如果遇到疑问后可以参考以下常见问题及处理建议。虚拟号码是什么,做什么用的?虚拟号码是真实号组的代称,主要作用是故障灾备和接通率提升。虚拟号格式为05710000XXXX。更多信息,请参见 什么是虚拟号码。如何开通使用 ...
本文介绍微服务引擎MSE在使用过程中常见问题的故障分析和排查流程。微服务注册配置中心问题排查 在浏览器中输入 XXX:8848/nacos,访问MSE的Nacos注册中心时返回404错误。具体操作,请参见 通过“XXX:8848/nacos”访问MSE的Nacos注册中心时...
服务性能详情:调用拓扑中的应用都可以单独进行下钻分析,可以从吞吐量、错误率、响应时间等指标出发,对应用性能进行详细分析。问题分析与快速定位示意图 应用性能优化 在调用关系拓扑中,可以对各个应用的调用次数以及耗时情况进行分析,...