资源使用优化

优化资源利用 资源利用提升本质就是用最少的资源最大化满足算力需求,同时需综合考虑业务布局、容灾和稳定性、机器故障率、预留缓冲空间等因素,这些因素交织在一起共同资源使用效率。概括起来需要被关注到的内容包括:明确资源利用...

消息堆积和延迟问题

SDK获取消息的方式为批量拉取,常见内网环境下都会有很高的吞吐量,例如:1个单线程单分区的低规格机器(4C8GB)可以达到几万TPS,如果是多个分区可以达到几十万TPS。所以这一阶段一般不会成为消息堆积的瓶颈。阶段二:提交消费线程,SDK...

性能趋势

在进行数据库日常维护或处理数据库故障时,查看数据库相关的性能指标是必不可少的步骤。RDS MySQL的性能趋势提供了丰富的性能监控指标,多种监控视图,以及强大的诊断能力,能够及时发现数据库的异常并提供相应的治理方案。前提条件 实例为...

常见问题

常见原因:内存使用比较高。您可以采取如下解决方案。把OSS上的文件拆分为一个一个的小文件,然后再进行导入。进行内存的升配。如何升配,请参见 社区兼容版集群变配和水平扩缩容。如何处理导入数据报错:too many parts?ClickHouse每次...

产品简介

故障诊断 ACS提供一键故障诊断能力,包括Pod、Service、Ingress的诊断。更多信息,请参见 使用集群诊断。安全中心 审计 ACS提供API Server的审计日志功能,可以帮助集群管理人员记录或追溯不同用户的日常操作。更多信息,请参见 使用集群...

Linux实例负载高问题排查和异常处理

带宽使用持续过高,将影响实例的网络连通性或网络吞吐,例如实例无法远程连接、网速过慢等。内存使用过高:一般来说,当内存使用≥80%时,定义为内存使用过高。内存使用过高,可能会出现系统卡顿、内部服务响应速度变慢等问题。I...

PAI灵骏智算服务概述

降低了端到端网络延时,提升了网络IO吞吐能力,并有效规避和弱化了网络故障、网络黑洞等传统网络异常给上层应用带来的性能损失。高性能集合通信库ACCL。PAI灵骏 支持高性能集合通信库ACCL(Alibaba Collective Communication Library),...

节点诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。基于专家经验和AI智能诊断两种诊断模式,节点诊断可以深入定位问题根因。节点诊断包括诊断检查项和诊断根因。诊断检查项:包括Node检查、...

功能特性

高可用管理平台 HAS 定位于 IT 技术...故障演练平台支持触发 CPU 利用升高、内存利用升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的演练和恢复计划,保证用户能够有计划地测量和观测应用高可用能力。

服务支持

NLP自然语言处理 常见问题 调用异常自助排查(错误码汇总)服务协议 NLP自学习平台 常见问题 实体抽取项目常见问题 故障排除 私有化部署 企业智能搜索 错误码对照表 常见问题

查看监控信息

集群资源 监控 项说明 监控项 单位 说明 CPU使用%监控如下信息:存储节点CPU最大使用 存储节点CPU使用 计算节点CPU最大使用 计算节点CPU使用 说明 预留模式C32规格变配为弹性模式后,CPU平均使用会增大,详情请参见 常见问题。...

执行演练

在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个...后续步骤 停止演练 常见问题 故障演练常见问题

如何发起MQTT亿级连接和千万消息吞吐性能测试

因此,总的消息发布吞吐率为每秒10000,总的消息接收吞吐率达到每秒100万。控制台中的场景配置如下图:控制台中的施压配置如下图:更多关于配置压测场景的详细信息,请参见 创建MQTT压测场景。步骤三:发起压测 完成场景配置和施压配置后,...

应用故障自动诊断

常见故障自动诊断场景 RT突增 下游业务导致的本应用的RT突增,您可以联系下游业务的负责人进行排查。应用变更导致的RT突增,您可以查看此次变更的具体变更进行排查。应用的某个服务导致RT突增,可以排查以下情况:服务是否在此时有发生...

虚拟机场景

本文列出了虚拟机常见故障演练场景。JvmCodeCache满 制造JVM CodeCache区域满的故障,CodeCache区域满会直接导致JIT编译关闭,从而引起业务系统性能下降。一般用于验证业务系统在高并发且系统性能下降的情况下,是否能够通过限流、快速扩...

GTM如何实现异地容灾

概述 方案介绍 异地容灾是指应用服务部署在不同地域时,当其中一地出现故障时,全局流量管理(简称GTM)可以将出现故障地域的用户访问流量,调度至异地灾备中心,保障用户访问连续不间断。本文将以两地三中心灾备架构为读者讲解异地灾备的...

I-V曲线诊断

数据服务中提供光伏智能运维的IV曲线诊断算法,结合环境光强度、环境温度等影响因素,对组串式光伏发电阵列的电流-电压曲线(I-V曲线)进行分析,检测系统可能出现的故障,进而提高设备的运行效率,保障电站高效运行。本文介绍光伏智能运维...

故障演练

常见故障类型都可以映射到这个故障模型中,模拟故障的演练系统及方案也可以基于该模型进行设计。在设计演练方案的过程中,可以考虑在模型中每个环节进行故障注入,验证故障应急方案。不同演练类型和目标 根据演练过程对线上业务的影响,...

GTM如何实现同城容灾

概述 方案介绍 同城容灾指应用服务部署是多机房、单地域时,当其中一机房出现故障时,全局流量管理(简称GTM)可实现业务7*24小时稳定运行,即使单机房故障也不影响业务的可持续性,保障用户访问连续不间断。本文将以同城双活的灾备架构为...

GTM实现跨网访问加速与故障切换

概述 方案介绍 大部分企业的应用服务都会使用多个运营商的IP地址,因此可能会存在跨网延迟、丢包、故障不可用等问题,而全局流量管理产品方案可以根据用户请求源地址的运营商,解析就近的应用服务器IP地址,实现就近接入、访问加速、故障...

故障排查与常见问题

控制台访问集群异常问题排查 组件异常问题排查 ACK Serverless集群 故障排查 常见问题索引 集群类型 相关文档 托管版与专有版容器集群ACK 常见问题 ACK Serverless集群 常见问题 分布式云容器平台ACK One 常见问题 容器服务ACK发行版 常见...

新手指引

模块问题 计费常见问题 数据库常见问题 流量统计常见问题 网站管理常见问题 管理控制台常见问题 网站耗资源(客户程序故障常见问题 更多常见问题,请参见 常见问题和故障排除汇总。反馈与建议 在使用阿里云云虚拟主机时,如果有任何疑问...

性能基线配置

目前支持全场景和接口两个维度,以及响应时长、成功吞吐量3个指标。多个条件之间为且(&)的关系。您可以单击 添加配置 新增判断条件。使用性能基线 在压测报告中,您可以通过 性能基线对比 功能,对比本次压测指标与基线指标,判断...

耗资源用户处理流程

为了保证您的站点能够安全、...关于网站耗资源的原因以及排查方法,更多信息,请参见 网站耗资源(客户程序故障常见问题。增强版共享虚拟主机和独享虚拟主机可以更好地应对耗资源问题,避免站点被关停。更多信息,请参见 云虚拟主机官网。

变更管理简介

有计划、受管控的变更操作降低故障发生、业务连续性异常。规范变更准备及变更方案,提高变更成功与可靠性。变更有记录,所有变更可回溯。核心功能 针对变更操作的审批管控以及所有变更记录 基础配置:支持自定义配置变更系统、变更类型...

步骤六:启动复制

保护组初始化完成后,您就可以启动保护组复制。启动复制就是将生产站点所有数据复制到容灾站点,此时会在容灾站点自动...后续步骤 步骤七:故障切换 常见问题 ECS容灾云盘异步复制型启动复制时,控制台提示容灾站点实例规格异常,如何处理?

步骤六:启动复制

保护组初始化完成后,您就可以启动保护组复制。启动复制就是将生产站点所有数据复制到容灾站点,此时会在容灾站点自动...后续步骤 步骤七:故障切换 常见问题 ECS容灾云盘异步复制型启动复制时,控制台提示容灾站点实例规格异常,如何处理?

性能测试

执行过程中,需要观察请求成功、响应时间、业务吞吐量,如果发现指标有明显的拐点,比如成功吞吐量大幅下降、响应时间大幅上升,就代表系统已经遇到性能瓶颈,可以根据系统资源监控和应用监控,定位具体的瓶颈点,做对应的弹性扩容。...

测试指标

百分之 索引缓冲区命中 InnoDB Buffer命中 百分之 InnoDB缓冲区命中 Query Cache命中 百分之 查询缓存命中 Table Cache命中 百分之 表缓存命中 Thread Cache命中 百分之 线程缓存命中 锁 等待次数 次 锁等待次数 等待...

监控、诊断和故障排除

相对于传统应用程序,开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本,但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息,帮助您深刻洞察程序行为,及时发现并快速定位问题。本文主要描述...

如何使用Prometheus监控Cassandra

JVM相关 指标名称 重要级别 指标描述 指标说明 mcac_jvm_memory_used Critical 已经使用的JVM堆内存大小 该指标越高,可能导致内存不足,触发频繁的垃圾回收,降低应用的吞吐率。mcac_jvm_gc_time Critical 应用程序用于GC的时间 该指标过...

如何使用Prometheus监控Cassandra

JVM相关 指标名称 重要级别 指标描述 指标说明 mcac_jvm_memory_used Critical 已经使用的JVM堆内存大小 该指标越高,可能导致内存不足,触发频繁的垃圾回收,降低应用的吞吐率。mcac_jvm_gc_time Critical 应用程序用于GC的时间 该指标过...

免费体验Lindorm宽表性能&价格力

Lindorm宽表引擎支持千万级高并发吞吐,支持百PB级存储,吞吐性能是开源HBase(Apache HBase)的3~7倍,P99时延为开源HBase(Apache HBase)的1/10,平均故障恢复时间相比开源HBase(Apache HBase)提升10倍,支持冷热分离,压缩比开源...

查看性能监控指标

高级监控 PolarDB CPU利用/内存利用 展示所选择节点的CPU使用/内存利用。TPS/QPS 展示所选择节点的每秒事务数/每秒请求数。会话连接 展示所选择节点的当前总会话数和活跃会话数。流量吞吐 展示所选择节点平均每秒发送给所有客户端...

数据采集

AnalyticDB MySQL版 集群内部对多种数据进行了采集,服务于监控告警系统,确保对故障问题可追溯和可排查。时序数据采集 进程时序数据 计算资源包括:CPU使用。存储资源包括:IO吞吐、IOUtil、IOPS、存储空间使用量、存储空间使用。服务...

一键诊断

会话管理 性能趋势 锁分析 慢SQL 空间分析 常见问题 Q:一键诊断中,如何计算会话的线程使用、连接数使用和最大线程数?A:RDS MySQL的计算公式如下:线程使用=活跃线程数/最大线程数 连接数使用=当前连接数/实例规格最大连接数 ...

性能监控指标

如果该业务系统是负责图形图像处理,更加看重单位时间内的吞吐率,不那么在意长尾耗时,那应该优先关注大部分请求的耗时变化,比如P90或P50所在区间的分布变化。缓存命中率 缓存可以有效提升高频重复请求的响应速度,比如订单中心可以将...

虚拟号FAQ

您在使用虚拟号时,如果遇到疑问后可以参考以下常见问题及处理建议。虚拟号码是什么,做什么用的?虚拟号码是真实号组的代称,主要作用是故障灾备和接通提升。虚拟号格式为05710000XXXX。更多信息,请参见 什么是虚拟号码。如何开通使用 ...

故障排查

本文介绍微服务引擎MSE在使用过程中常见问题的故障分析和排查流程。微服务注册配置中心问题排查 在浏览器中输入 XXX:8848/nacos,访问MSE的Nacos注册中心时返回404错误。具体操作,请参见 通过“XXX:8848/nacos”访问MSE的Nacos注册中心时...

应用场景

服务性能详情:调用拓扑中的应用都可以单独进行下钻分析,可以从吞吐量、错误、响应时间等指标出发,对应用性能进行详细分析。问题分析与快速定位示意图 应用性能优化 在调用关系拓扑中,可以对各个应用的调用次数以及耗时情况进行分析,...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
短信服务 云消息队列 Kafka 版 商标服务 负载均衡 弹性公网IP 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用