性能监控最佳实践

这些工具可以根据监控数据自动化地进行故障排除、性能优化等操作,提高系统的稳定性和性能。建设一体化性能监控平台需要根据监控需求选择合适的监控工具,进行配置和整合,实现数据可视化和自动化运维,以提高系统的稳定性和性能。从 0 到 ...

监控服务概览

OpenAPI访问监控数据 OSS服务的相关监控指标数据可以通过云监控提供的OpenAPI访问,使用方法请参见:云监控SDK参考 访问监控数据 监控、诊断和故障排除 监控诊断和故障排除 通过详细介绍以下各个方面的内容帮助您更好地了解OSS服务的运行...

应用场景

Node.js 提供的精确到虚拟机级别的深度监控,能够如实的反应应用运行状态,通过配置报警规则,用户可以在发现系统出现故障(内存泄露或者 CPU 热点等)趋势时,通过诊断接口迅速定位故障点。Node.js 性能平台特别适合业务发展迅速、应用...

设备显示离线

如果是静态路由接入,尝试通过交换机,能否 ping 通设备的每个接口IP,如果其中有无法 ping 通的接口,请参见 设备和交换机之间的链路故障排除接口互联问题。如果是单机设备,观察设备机身的状态指示灯,确认右侧第二个和第三个灯是否为...

自动/手动主备切换

系统发生故障时,PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换,指定一个只读节点为新的主节点。注意事项 不论是自动切换还是手动切换,切换过程中,都可能会出现30秒左右的闪断,因此切换前请务必确保应用具备重连机制。...

自动/手动主备切换

系统发生故障时,PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换,指定一个只读节点为新的主节点。注意事项 不论是自动切换还是手动切换,切换过程中,都可能会出现30秒左右的闪断,因此切换前请务必确保应用具备重连机制。...

无法连接到同一个云连接网内的本地客户端

如果是静态路由接入,尝试通过交换机,能否 ping 通设备的每个接口IP,如果其中有无法 ping 通的接口,请参见 设备和交换机之间的链路故障排除接口互联问题。如果是单机设备,观察设备机身的状态指示灯,确认右侧第2和第3个灯是否为黄色...

强弱依赖治理概述

强弱依赖治理的应用 强弱依赖治理主要可以被应用到以下场景:系统改造验收:对于分布式系统,至少在运行态中,不会因为依赖的系统后台出现故障,引起当前应用出现系统级可用性的故障,例如进程挂掉、频繁FullGC、负载飙高等,何时何地都应...

什么是故障演练

故障演练是一款遵循混沌工程实验原理并融合了阿里巴巴内部实践的产品,提供丰富故障场景,能够帮助分布式系统提升容错性和可恢复性。流程 故障演练建立了一套标准的演练流程,包含准备阶段、执行阶段、检查阶段和恢复阶段。通过四阶段的...

ping不通云服务ECS(SAG-1000)

如果是静态路由接入,尝试通过交换机,能否ping通设备的每个接口IP,如果其中有无法ping通的接口,请参见 设备和交换机之间的链路故障排除接口互联问题。如果是单机设备,观察设备机身的状态指示灯,确认右侧第2和第3个灯是否有红色的。...

使用Redis搭建视频直播间信息系统

背景信息 视频直播间作为直播系统对外的表现形式,是整个系统的核心之一。除了视频直播窗口外,直播间的在线用户、礼物、评论、点赞、排行榜等数据信息时效性高,互动性强,对系统时延有着非常高的要求,非常适合使用Redis缓存服务来处理。...

查看实例的系统日志和屏幕截图

系统通过串口打印输出的日志会包含两种类型的信息,一类是系统启动开机时的日志内容,另一类是系统内核故障或异常时的日志内容。更多详情,请参见《云栖社区》博客 操作系统有异常?诊断日志来帮忙。使用限制 使用该功能时您需要注意如下...

查看和运行SMC客户端

具体操作,请参见 故障排除。说明 如果您需要停止客户端迁移或修改客户端配置,可参考以下操作步骤退出SMC客户端。Linux Linux版本客户端默认在后台运行,可执行以下命令退出后台进程:./go2aliyun_client-abort Windows Windows版本客户端...

自动/手动主备切换

系统发生故障时,PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换,指定一个只读节点为新的主节点。注意事项 不论是自动切换还是手动切换,当只读节点未开启热备时,主备切换过程中可能会出现20~30秒左右的闪断,因此切换前请...

PTS压测快速入门

演练阶段:在演练排查阶段,您需要对系统进行故障演练,进而发现并验证系统问题,锻炼系统及相关人员的应急能力,阿里云提供了 故障演练 平台帮助您演练预案。更多信息,请参见 什么是故障演练。容灾阶段:在容灾防护阶段,您需要构建系统...

创建操作系统迁移任务

导入迁移源信息后,SMC控制台会自动生成迁移源记录,您需要在控制台为迁移源创建操作系统迁移任务,并完成操作系统的迁移。说明 关于操作系统迁移的更多信息,请参见 操作系统迁移(Linux)和 操作系统迁移(Windows)。前提条件 已导入...

管理集群

主机故障处理策略 设置主机故障系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

管理集群

主机故障处理策略 设置主机故障系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

支持计划

配置指导以及故障排除 配置指导以及故障排除 配置指导以及故障排除 专属技术服务经理 不支持 不支持 专属技术服务经理(TAM)健康检查 可免费使用智能顾问Advisor 可免费使用智能顾问Advisor 可免费使用智能顾问Advisor。专属技术服务经理...

故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...

设计方案

容错 容错是指在分布式系统中,系统出现故障时,通过设计和实现可靠的机制和策略,使系统能够自动检测、排除或者纠正错误,保证系统能够正常运行,从而提高系统的可靠性和稳定性。容量 容量是在一定时间内,系统能够处理的最大工作量或数据...

系统故障排查

概述 本文主要介绍使用阿里云服务器ECS时的系统故障排查,包含CPU、磁盘I/O、内存、硬盘、带宽资源占用异常的问题排查与定位。详细信息 说明 阿里云提醒您:如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,...

EDAS直播公告

直播主题 直播介绍 直播时间 系统概述云原生应用下的流量管理能力 对运维工程师,流量管理是否只需要管好入口分发?对于开发者,流量管理是否只需要管好路由调度?今天来听听EDAS同学的分享,我们将千家客户在云原生微服务场景下的体系化的...

诊断网页加载过慢的问题

针对这类问题,ARMS前端监控的慢会话追踪功能提供页面静态资源加载的性能瀑布图,可深入定位页面资源加载情况,全方位地诊断故障根源,从而快速排除故障。问题描述 网页加载较慢是经常出现且前端非常关注的问题之一。定位、排查解决这类...

GTM如何实现同城容灾

概述 方案介绍 同城容灾指应用服务部署是多机房、单地域时,当其中一机房出现故障时,全局流量管理(简称GTM)可实现业务7*24小时稳定运行,即使单机房故障也不影响业务的可持续性,保障用户访问连续不间断。本文将以同城双活的灾备架构为...

DescribeExcludeSystemPath-查询防勒索系统排除目录

查询防勒索系统排除目录。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,可以在RAM权限策略语句的 Action 元素中...

增量迁移源服务器

常见错误及修复方案,请参见 故障排除 和 常见问题。相关操作 在增量迁移的过程中,您可以执行下列操作:暂停增量迁移任务。具体操作步骤如下:说明 仅当增量迁移任务状态为 同步中 或 等待中 时,您才可以暂停该任务。在 迁移任务 页面,...

演练场景说明

故障演练场景是演练任务的核心。AHAS提供基础资源类场景和Kubernetes类场景,帮助分布式系统提升容错性和可恢复性。每一个执行阶段的演练场景都对应一个恢复阶段的演练任务。恢复阶段的演练任务目的是清除故障演练的影响,使应用或服务恢复...

同城容灾架构概述

基本原理 同城容灾是在相隔较远的两地(同城)建立两套功能相同的IT系统,当一处系统因意外(火灾、地震等)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作。对于中大型企业来说,如果希望业务系统具备同城容...

关键技术竞争力

基于混沌工程的红蓝攻防能力 TRaaS 基于混沌工程、建立演练机制,提供故障注入、演练编排体系能力,支持在不同环境、不同阶段,主动对业务系统进行故障注入,从而在主动观测单应用健壮性的同时,验证整个体系的故障发现能力、应急响应能力...

Linux系统的ECS实例运行卡顿,在/var/log/messages...

本文介绍Linux系统的ECS实例运行卡顿,在/var/log/messages 日志中出现类似“INFO:task jbd2/vda1-8:366 blocked for more than 120 seconds”错误的问题原因和解决方案。问题现象 Linux系统的ECS实例出现运行卡顿、系统响应变慢、某些进程...

标准版-双副本

阿里云自研 故障探测切换系统(HA)阿里云Redis服务封装HA切换系统,实时探测主节点的异常情况,可以有效解决磁盘IO故障,CPU故障等问题导致的服务异常,及时进行主从切换,从而保证服务高可用。主从复制机制 阿里云针对Redis主从复制机制...

导入迁移源概述

迁移源概指待迁移IDC服务器、虚拟机、其他云平台的云主机或其他类型的服务器。本文主要介绍迁移场景及其导入迁移源的方式对比。...常见问题及修复方案的更多信息,请参见 SMC FAQ 和 故障排除。SMC提供多种技术支持渠道,请参见 联系我们。

故障排除

CC API在调用时可能会遇到一些错误,遇到错误时以错误码为依据进行故障排除,本文为您介绍 常见错误码的解决方案。云产品运行时错误码 云产品API运行时返回的错误码。以下两个错误码为云产品运行时错误,如想获取云产品详细错误信息,需...

功能发布记录

本文介绍视频直播Live的产品功能和对应的文档动态。2024-02 功能名称 变更类型 功能描述 相关文档 实时监控 升级 新增推流过程质量监控接口,通过接口可以获取到主播到CDN节点的接收音视频帧率、音视频时间戳、接受头次数、音视频码率、...

标准架构

阿里云自研 故障探测切换系统(HA)阿里云 Tair 服务封装HA切换系统,实时探测主节点的异常情况,可以有效解决磁盘IO故障,CPU故障等问题导致的服务异常,及时进行主从切换,从而保证服务高可用。主从复制机制 阿里云针对 Tair 主从复制...

通用性能

系统指标 指标详细 维度 能力 说明 系统部署 Agent自动注册 按规模可选择Agent集群式入网,高可用执行分钟级故障切换 系统性能 自动化峰值调用性能:100/分钟 自动化任务下发 并发调用性能:100台设备并行配置 系统稳定 系统动态扩容能力:...

通过SMC客户端导入迁移源

常见问题及修复方案的更多信息,请参见 SMC FAQ 和 故障排除。使用sudo权限:sudo./go2aliyun_client-abort sudo./go2aliyun_client 使用root权限:./go2aliyun_client-abort./go2aliyun_client 后续步骤 导入迁移源后,您需要创建并启动...

ECS系统事件概述

系统事件由阿里云定义,用于记录和通知云资源的信息,例如运维任务执行情况、资源是否出现异常、资源状态变化等。说明 阿里云有众多产品支持系统事件,例如ECS、RDS、SLB等。本文仅说明云服务器ECS支持的系统事件,如需了解其他产品的系统...

存储资源

磁盘性能下降,读写速度变慢,任务执行时间增加,系统的实时性降低,当磁盘IO负载过大无法承受时,可能导致磁盘故障系统崩溃或数据丢失。常见的容错策略如下:数据缓存:将数据暂时存储在内存中,减少对磁盘IO的频繁访问。可以利用内存...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
文件存储 CPFS 云消息队列 RocketMQ 版 云安全中心 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用