集群高可用架构推荐配置

启用部署集 部署集是控制ECS实例分布的策略,该策略将ECS实例分散部署在不同的物理服务器上,避免由于一台物理机失效导致多台ECS实例宕机。通过为节点池指定部署集,能够保证节点池扩容出的ECS实例不会分布于同一物理机上,并通过亲和性...

无法ping通ECS实例公网IP的排查方法

无法ping通目标ECS实例公网IP可能有以下原因:可能原因 排查方案 ECS实例未处于 运行中 状态 检查ECS实例状态 ECS实例的安全组错误 检查ECS实例安全组规则 ECS实例防火墙配置错误 检查ECS实例防火墙配置 ECS实例CPU使用或带宽使用过高 ...

附录:SOFAStack 产品目录

透明读写分离 通过使用数据访问代理的只读实例或 MySQL 备机实现读写分离,帮助应用解决事务、只读实例或者备机失效、指定主备访问等细节问题。对应用无侵入,在数据访问代理控制台即可完成读写分离相关操作。数据存储平滑扩容 当出现数据...

CPU使用

本文介绍CPU使用的相关概念以及常见CPU使用高的原因。CPU相关概念 概念 说明 CPU使用 CPU使用指的是CPU执行工作的时间比例,包含了所有符合条件的活动的时钟周期,比如停滞等待IO而导致较高的使用,CPU使用被分为内核时间和...

Tair选型指南

3 选择容灾方案 云原生内存数据库Tair 实例若因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制保障数据的一致性和业务可用性。云原生内存数据库Tair 提供多种灾备方案供您选择,可满足不同的业务场景。4 预估内存规格 提前...

云数据库Redis版产品选型必读

选择容灾方案 当云数据库Redis实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。云数据库Redis提供多种灾备方案供您选择,可满足不同的业务场景。选择大版本 推荐使用更新的大版本...

光模块故障

本文介绍光模块发生故障原因和处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块不兼容或损坏。智能接入网关设备支持的光模块型号请参见 光模块型号。说明 目前仅SAG-1000设备支持光模块插入。解决方案 通用多...

RDS PostgreSQL CPU利用高问题

本文介绍如何定位CPU利用高的原因以及如何解决这些问题。查看CPU利用 对于RDS PostgreSQL实例来说,CPU利用持续高于80%,通常表明系统处于高负载的情况,并且很可能存在较严重的性能问题。在 监控与报警 页面的 标准监控 中,查看CPU...

设备和交换机之间的链路故障

本文介绍SAG-1000设备发生设备和交换机之间链路故障原因和处理方法。问题现象 设备和交换机接口之间ping不通。设备的Web端口配置页,端口前的状态灯为红色。动态路由OSPF接入时,Web端口配置页,端口前的状态灯为红色。设备的Web状态查询...

MongoDB实例IOPS使用高问题

本文介绍查看MongoDB实例IOPS使用的方法,以及导致IOPS使用高的原因和优化策略。背景信息 ⼀般云数据库厂商为了避免宿主机出现I/O争抢,会使⽤CGroup(Control Groups)等技术进⾏实例间的I/O隔离和IOPS(Input/Output Operations Per ...

MongoDB实例的CPU使用高问题

关于审计⽇志的使⽤⽅法和语法参考:开通日志审计功能 CPU使用高的常见原因和优化策略 CPU使用高的常见原因及对应的优化策略如下:扫描⾏数过多 MongoDB为多线程应⽤,如果存在单个查询扫描⾏数过多,该查询所在线程的CPU占⽤时间会变...

服务条款

阿里云将消除您非人为操作所出现的故障,但因您原因和/或不可抗力以及非阿里云控制范围之内的事项除外。3.2.9.您理解并认可,阿里云在必要时可能会将您的云服务器(ECS)进行机房迁移。阿里云进行上述操作前将提前7个自然日通知您,由于...

故障协同处理(基于钉钉)

2.故障应急场景群:事件升级故障后,群内推出 故障处理中 消息卡片,如果满足自动生成故障场景群的需求(下文详细介绍创建故障场景群逻辑),故障场景群内同时推出 故障处理中 消息卡片。本群故障消息卡片包含按钮:签到、签到记录、应急...

监控指标常见问题

内存使用高的原因及解决方法?为什么只有一个任务,Hologres实例CPU使用就达到100%?写入慢如何解决?CPU使用长期达到100%如何解决?正在运行Query时长较长如何解决?失败Query如何排查?Worker CPU负载不均如何解决?连接数过多时...

一键诊断

相关文档 通过一键诊断了解数据库性能情况的全貌后,您可以使用如下功能对数据库进行全面细致的诊断,准确定位故障原因,并解决故障。会话管理 性能趋势 锁分析 慢SQL 空间分析 常见问题 Q:一键诊断中,如何计算会话的线程使用、连接数...

监控、诊断和故障排除

对于有效请求低于100%的情况,您需要根据自己的使用情况进行分析,可以通过请求分布统计或者请求状态详情确定错误请求的具体类型、原因,并排除故障。对于某些业务场景,出现有效请求低于100%是符合预期的。例如,用户需要先检查访问的...

调优集群性能

CPU平均使用增高的常见原因如下:查询 查询导致的CPU使用增高,可能是由于Bad SQL,例如SQL中包含了复杂的计算逻辑、处理大量的数据,或者JOIN没有JOIN条件,从而产生了笛卡尔积等。您可以通过 一键诊断 功能来定位存在问题的查询:Bad...

如果引号内的字段值有换行该值失效

问题描述 Quick BI中计算字段的表达式用in函数,如果引号内的字段值有换行该值失效。比如如下计算字段,表达式刚好到"主营业务收入"时换行,导致该计算字段中值“主营业务收入”失效。问题原因 换行的时候会自动加上换行符' ',导致对应的...

自治服务(CloudDBA)

您可以通过该功能排查Redis数据库的故障和性能降低的原因。开启自动扩容 当内存平均使用达到阈值后会自动升级Redis实例的规格,帮助您快速弹性适配业务高峰,避免内存溢出的风险,有效保障线上业务稳定性。基于预测自动弹性伸缩 以实例...

变更管理简介

有计划、受管控的变更操作降低故障发生、业务连续性异常。规范变更准备及变更方案,提高变更成功与可靠性。变更有记录,所有变更可回溯。核心功能 针对变更操作的审批管控以及所有变更记录 基础配置:支持自定义配置变更系统、变更类型...

CDN加速导致OSS配置的CORS失效

问题原因 CDN加速导致OSS配置的CORS失效原因如下:CDN加速是通过将文件缓存在节点上,由节点直接返回给用户以达到加速效果,在文件已缓存且未过期期间,即使在源站对该文件进行了变更,用户访问到的依旧是之前缓存在节点的内容,而非更新...

Quick BI电子表格中单元格...再重新打开发现居中对齐失效

设置单元格居中对齐,并保存发布:重新打开电子表格,发现居中对齐失效:问题原因 电子表格中对齐方式有三个地方可以配置,分别是【菜单栏】、【工具栏】、【数据面板】。当对某个【数据集区块】设置对齐方式时,会优先生效【数据面板】的...

采集客户端数据的高可用方案

但是在一些相对极端的场景下,单集群可能由于一些预期外原因存在故障停服风险。针对该单集群故障风险,日志服务提供两种异地多活的客户端数据采集方案。方案比较 对比项 方案1:双写 方案2:数据加工复制+写入切换 部署复杂度 低 需要额外...

RDS MySQL慢SQL问题

缓存失效 原因及现象 缓存可以很好地承担大量查询,但是并不能保证缓存命中100%,如果缓存失效,也会有大量的查询路由到数据库端,导致性能下降。您可以在控制台的 监控与报警 页面,单击 标准监控 页签,在 引擎监控 内可以查看实例的...

监控报警概述

故障预警 云电脑的故障信息、故障原因及故障时间等信息。使用场景 在日常业务运行的过程中,监控大盘帮助您及时了解账号下全部云电脑资源的全局情况,实时监控提供更详细的数据指标和故障预警信息,帮助您了解终端用户使用云电脑的情况,...

无法连接Windows实例

故障原因 可能是网卡驱动未开启或网卡配置有问题。解决方法 使用管理终端 登录实例,检查网卡驱动,如果存在异常,则重新安装。步骤三:检查重置实例密码后是否未重启实例 确认是否存在故障现象,如果存在,则参考本步骤解决问题,如果不...

什么是消息演练

随着应用规模的扩大,系统变得越来越复杂,不可避免地会走向分布式化。各种中间组件会相继被引入系统,其中分布式消息服务更是系统中必不可少的一...需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

故障基础数据管理

为保障故障发现故障场景监控覆盖率建议维持在95%以上。服务组&值班表管理 将故障应急的相关人员群体,通过前置到故障场景的干系人做绑定配置,同时支持服务组和值班表,实现故障启动后自动快速通知负责人上线处理的效果。在设计相应的...

应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断

查看运行分析

该指标协助您进行作业诊断,排查作业Task级别的故障原因。个 TM自JVM启动以来已加载的类总数(TM ClassLoader)TM自JVM启动以来已加载的类总数。JM所在的JVM创建后加载类的总数或卸载类的总数过大,会导致占用过大内存空间,从而影响作业...

故障管理

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

服务协议

订单一旦失效,您和阿里云就订单所载明的产品及/或服务内容及价格内容所达成的一切合意或行为均失效。2.3.1.3.若您计划在所订购的产品及/或服务的服务期届满后继续使用该服务的,请至少在服务期满前的7天内支付续费款项,以使服务得以继续...

云数据库OceanBase集群CPU使用过高的解决方法

问题原因 导致CPU使用高的常见原因包括:业务产生了大查询或热点数据。集群的资源规划比实际偏小、业务产生了意外热点场景。解决方案 请执行以下操作,排查CPU使用高的原因并进行相应的处理:登录 OceanBase 管理控制台,在集群列表中...

功能特性

此外,在数据库实例发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。智能压测 搜索分析 查询并导出SQL语句对应的日志信息。搜索 SQL洞察 SQL洞察聚类分析,用作深度异常的排查。SQL洞察 安全审计 内置了...

数据管理服务协议

阿里云将及时就您非人为操作所出现的故障提供支持,但因您的人为原因和/或不可抗力、以及其他非阿里云控制范围内的事项除外。3.2.8.您理解并认可,阿里云在必要时可能会将您的数据管理所在的底层物理设备进行机房迁移。阿里云进行上述操作...

监控指标说明

该指标协助您进行作业诊断,排查作业Task级别的故障原因。次数 TM GC Time 每次TM GC时间。长时间GC会导致占用过大内存空间,从而影响作业性能。该指标协助您进行作业诊断,排查作业级别的故障原因。毫秒(ms)TM ClassLoader/...

设计方案

故障恢复 定位故障原因后,按照应急预案快速恢复业务,并在事后进行复盘总结。预案执行:在故障响应的过程中,需要按照事先制定的应急预案进行执行。应急预案包括了应急响应流程、各个岗位的职责、处理流程等。预案执行能够保证故障恢复和...

什么是设备诊断

服务架构 服务优势 丰富的数据诊断指标 提供网络连接成功、设备离线原因、云对接次数等丰富的数据诊断指标检测设备,帮助您全方位、多角度分析定位问题。自动拟合智能基线 无需手动配置设备指标异常的阈值,基于设备运行数据,通过机器...

移动推送失败错误码说明

问题描述 移动推送失败错误码说明 解决方案 发送失败高,发送失败主要原因:apns token缺失,报错码:Unregistered,BadDeviceToken,请参见:APNs错误码说明。Unregistered:token 失效。BadDeviceToken:设备token无效、格式错误或不...

性能监控最佳实践

提高故障排查效率:当系统或应用出现故障时,传统的性能监控方案通常需要IT运维人员手动分析监控数据来确定故障原因,这样会浪费大量的时间和精力。而一体化性能监控能够对多种关联的监控数据进行自动分析和处理,帮助IT运维人员快速定位...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 短信服务 商标服务 负载均衡 弹性公网IP 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用