监控报警最佳实践

非本地盘机型的ECS云盘存在总带宽上限,如果读加写的流量超过ECS云盘带宽,也会出现限流导致业务受损。在使用过程中,您需要密切关注磁盘和网络使用情况,防止超出底层机器的网络或磁盘限制。集群存储详情 集群存储详情主要监控实例的存储...

自动SQL限流

除了上述的问题,在现实生活中可能还会出现各种特殊情况,比如值班人员联系不上、工作人员身边没有电脑、信息太多分析难度大、压力大紧张操作失误等。因此需要尽可能的把异常发现、异常SQL定位、SQL限流、跟踪/回滚的整体流程自动化处理。...

如何解决Alibaba Cloud Linux 2中polkit内存泄露问题...

问题现象 符合以下版本的Alibaba Cloud Linux 2操作系统,可能会出现polkit内存泄露,使用的内存可能会超过14 GiB。aliyun_2_1903_x64_20G_alibase_20211216.vhd之前的镜像版本。4.19.91-25.1.al7.x86_64之前的内核版本。问题原因 polkit...

SQL Console新交互模式下变更表数据和结构(公测中)

备份:在变更前对数据进行备份,便于出现问题时将数据回滚到变更前的状态。更多信息,请参见 SQL备份与回滚。单击 直接执行 或 后台异步执行。查看执行结果。在执行结果区域,单击,查看任务详情,包含执行的脚本、日志、获取备份和任务...

管理限流降级规则

Serverless 应用引擎 SAE(Serverless App Engine)集成 微服务引擎 MSE(Microservices Engine)的限流降级能力,以流量为切入点,从流量控制、熔断降级、系统负载保护等多个维度来保障业务的稳定性,提供专业稳定的流量防护手段、秒级的...

自动或手动主备切换

RDS在发生异常触发高可用切换时,应用端长连接可能无法感知到连接状态变化,如果没有设置socket超时时间,应用程序会一直等待数据库返回结果,通常会等到几百秒后才会断连,期间数据库的部分连接无法正常工作,SQL会出现大量执行异常。...

Alibaba Cloud Linux常见问题

已知性能问题 开启内核选项CONFIG_PARAVIRT_SPINLOCK可能导致性能问题 内核特性透明大页THP开关置为always可能导致系统稳定或性能下降 NFS v4.0版本中委托(Delegation)功能可能存在问题 NFS v4.1/4.2版本中存在缺陷可能导致应用程序...

推荐的挂载方式

使用其他方式挂载NAS文件系统可能出现稳定性风险,NAS团队无法预估该风险且由于该风险引起的一切损失和后果均由您自行承担。容器服务存储插件说明 阿里云容器服务Kubernetes版基于Kubernetes容器存储接口(CSI),深度融合阿里云存储服务,...

Mesh 网关

提高稳定性:集中式网关形态下,网关出现问题,所有业务都会受到影响。去中心化后,网关的问题,不会影响去中心化的应用。但凡事具有两面性,随着在 TOP 30 的网关应用中落地铺开,去中心化网关的缺点也逐步显现:研发效能低:接入难:需要...

应用防护规则适用场景

如果您的业务符合以下场景,建议结合集群流控来保障服务稳定性:单机流量不均:由于负载不均衡等原因导致每台机器的流量不均,此时使用单机流控可能会出现没有达到请求总量,某些机器就开始限流的情况。集群小流量流控:某些高可用防护场景...

管理主备切换

其他引擎切换主备实例请参见:SQL Server主备切换 PostgreSQL自动或手动主备切换 MariaDB主备切换 影响 主备实例切换过程中会出现约30~120秒的服务不可用,请确保您的应用程序具有自动重连机制。如果您的应用程序使用的是较早版本的Druid...

混沌工程缓存实战系列-Redis

Redis是一个开源高性能的Key-Value存储系统,虽然Redis本身具备了非常高的可用性,但是在实际应用中也随着系统业务的复杂性以及不合理的使用,而导致很多的问题。本文将讲述如何通过混沌工程来暴露可能存在的使用风险,提升缓存问题的...

Alibaba Cloud Linux 2系统的ECS...出现系统宕机如何处理...

问题描述 在符合如下条件的Alibaba Cloud Linux 2实例中,系统运行时出现系统宕机问题。镜像:Alibaba Cloud Linux 2.1903 LTS 64位 内核:kernel-4.19.91-23.al7及之前的内核版本 系统宕机,且出现如下调用栈信息:[598398.653602]BUG:...

Alibaba Cloud Linux 2系统的ECS...出现系统宕机如何处理...

问题描述 在符合如下条件的Alibaba Cloud Linux 2实例中,系统运行时出现系统宕机问题。镜像:Alibaba Cloud Linux 2.1903 LTS 64位 内核:kernel-4.19.91-23.al7及之前的内核版本 系统宕机,且出现如下调用栈信息:[598398.653602]BUG:...

流量防护

Serverless 应用引擎 SAE(Serverless App Engine)集成 微服务引擎 MSE(Microservices Engine)的流量防护能力,以流量为切入点,从接口流控、并发隔离、熔断规则等多个维度来保障业务的稳定性,提供专业稳定的流量防护手段、秒级的流量...

iOS播放器SDK

解决列表播放切换视频会出现噪音问题。2020-11-17 日期 版本 修改内容 2020-11-17 5.2.2 优化不同帧率的视频播放的兼容性。解决倍速播放暂停(stop)后再次播放时,视频丢帧问题。优化播放MP4文件的兼容性。优化列表播放。优化音量和静音...

节点诊断

节点系统出现AUFS mount hung问题,请收集节点日志并 提交工单 处理。关于收集节点日志操作,请参见 一键采集节点的诊断日志。节点内核BufferIOError情况 检查节点内核是否出现BufferIOError。节点内核出现BufferIOError情况,请收集节点...

创建服务器迁移任务

选择中转实例规格:系统会选择该实例规格创建中转实例。若该实例规格库存不足,则迁移任务创建失败。不选择中转实例规格:系统默认会按照顺序选择实例规格来创建中转实例。重要 中转实例名称为No_Delete_SMC_Transition_Instance。为避免...

Pod诊断

节点系统出现AUFS mount hung问题,请收集节点日志并 提交工单 处理。关于收集节点日志操作,请参见 一键采集节点的诊断日志。节点内核BufferIOError情况 检查节点内核是否出现BufferIOError。节点内核出现BufferIOError情况,请收集节点...

CDN回源时网站出现5xx报错的排查方法

因此如果访问过程中出现问题,可能涉及到多级网络链路的问题。当CDN回源源站异常失败时就会出现5xx的错误,主要包括 502 Bad Gateway、503 Service Temporarily Unavailable、504 Gateway Time-out。问题原因 通过阿里云CDN访问出现5xx错误...

性能优化与诊断简介

自动SQL优化 可以进行自动SQL诊断优化和索引创建,在数据库实例出现慢SQL问题时,及时进行诊断和优化,帮助数据库系统运行在最佳状态。自动SQL限流 可以设置触发条件,当相关条件满足时自动触发SQL限流来控制数据库请求访问量和SQL并发量...

其他常见问题

profiles-active 启动参数出现问题导致服务无法启动 现象 profiles-active 启动参数出现问题导致服务无法启动。客户在发布部署页面配置了 2 个环境参数:Ddbmode=coredev 和-Dspring.profiles.active=dev 在实际部署时多出 1 个参数-...

各源环境迁移至阿里云

SMC支持多种Windows以及Linux操作系统版本,您可以将自建IDC机房、本地虚拟机或者其他云厂商等环境中的源服务器迁移至阿里云。本文介绍迁移源服务器前的准备工作,以及如何使用SMC迁移源服务器至阿里云。背景信息 SMC支持多种迁移源环境,...

流量防护规则适用场景

稳定场景 在生产环境中您可能遇到过以下不稳定的情况:大促时瞬间洪峰流量使得系统超出最大负载、Load飙高、系统崩溃导致用户无法下单。“黑马”热点商品击穿缓存、数据库被打垮、挤占正常流量。调用端被不稳定第三方服务拖垮、线程池被...

作业调试

否则可能会出现心跳超时等问题影响集群稳定性。此时,您需要增大心跳间隔和心跳超时时间。如果您需要同时运行更多的任务,则需要增加Session集群的资源配置。操作步骤 步骤一:创建Session集群 进入Session集群管理页面。登录 实时计算控制...

访问CDN加速域名返回5XX错误的常见问题

因此如果访问过程中出现问题就可能涉及到多级网络链路的问题。当CDN回源源站异常失败时就会出现5XX的错误,主要的5XX错误如下:502 Bad Gateway 503 Service Temporarily Unavailable 504 Gateway Time-out 很多情况下是因为一些细节被忽略...

概览

应用场景 在不同业务场景下,云资源实例的监控指标的数值水位、周期变化、方差波动等统计特点呈现不同状态,例如:您的流量日间大、夜间小,导致ECS实例或CDN域名的网关流量、消息队列任务堆积等监控指标出现日夜波峰和波谷;...

监控、诊断和故障排除

所以当出现E2E延时突然升高的情况下,如果服务器延时并没有很大的变化,那么可以判定是网络的不稳定因素造成的性能问题,排除OSS系统内部故障。最大延时,包括E2E最大延时和服务器最大延时 成功请求操作分类 流量 流量指标从用户或者具体的...

资源组设计最佳实践

该公司只按业务系统维度进行了资源分组,没有区分部署环境,并按照资源组范围进行授权,这样可能导致使用开发环境资源的RAM用户具备了使用生产环境资源的权限,给生产环境的业务系统带来了一定的安全和稳定性风险。命名规范原则:资源组...

PolarDB MySQL版5.6版本发布日志

修复在打开 session_track_temporary_tables 系统变量的情况下,在存储过程中创建或删除临时表导致集群不可用的问题。2021-03-19 5.6.1.0.25 类别 说明 发布时间 新增功能和性能优化 优化库表级恢复功能,提升数据恢复速度。2021-02-05 ...

配置自动调优

参数 说明 调优策略 平稳策略:通过应用该策略,系统会寻找适合整个运行周期的固定资源或定时计划,并根据整个周期作业的运行情况来调整作业资源,从而减少启停行为对作业的影响。这样做可以使作业的运行趋于稳定,减少不必要的变动和波动...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口...相关文档 为避免在出现问题后被动诊断错误原因,您还可以使用ARMS的告警功能针对一个接口或全部接口创建告警,即可在出现问题时向运维团队发送通知。如何创建告警,请参见 应用监控告警规则。

Nginx Ingress Controller使用建议

这种情况下,可能会出现以下问题:TLS请求会在WAF或透明WAF上进行截断,因此集群内通过Secret配置的证书将不会被暴露在公网出口上。在集群内通过CLB IP或Service ClusterIP访问443端口可能不会经过WAF或透明WAF,导致证书返回错误。在开启...

Nginx Ingress Controller使用建议

这种情况下,可能会出现以下问题:TLS请求会在WAF或透明WAF上进行截断,因此集群内通过Secret配置的证书将不会被暴露在公网出口上。在集群内通过CLB IP或Service ClusterIP访问443端口可能不会经过WAF或透明WAF,导致证书返回错误。在开启...

云蜜罐概述

出现问题时安全运维人员只能做事后修补,而实际上攻击者早已渗透到内网并潜伏。企业需要一种技术手段,主动对抗攻击行为,采取有利于防守方的技术措施,对攻击者形成震慑,保护数据安全。蜜罐是一个攻击诱骗系统,通过使用蜜罐模拟一个或多...

版本选型

MSE微服务治理分为专业版、企业版。...指定时间过后,系统会重新恢复对该资源的调用。服务治理可观测 支持查询近五分钟内的实时QPS、RT、CPU、Load等监控数据,支持QPS、RT等TOP排行,同时支持自定义时间的历史数据查询。

使用实例时镜像相关问题

在使用ECS实例过程中,可能遇到一些与镜像有关的问题或咨询,比如实例启动慢、系统负载高、如何编译内核等。本文介绍在使用ECS实例过程中遇到的镜像相关问题及解决方案。Windows镜像问题 如何手动更新Windows实例的virtio驱动?Windows ...

资源稳定性最佳实践

这里为您列举一个因云资源配置不当导致系统故障的案例,具体如下:某企业的一个核心系统使用基础版RDS数据库(基础版RDS数据库实例适用于测试环境),日常由于业务波动较小,未出现问题。在企业大促期间,由于业务量上涨了2~3倍,数据实时...

调优集群性能

如下图所示,某个大表分布不均,存储节点0上的Shard_0和Shard_1中数据量较大,而在存储节点1上的Shard_2和Shard_3中数据量较小,那么当您查询这个大表时,较大概率会出现存储节点0需要处理的数据多,存储节点1上需要处理的数据少的情况,...

ECS系统事件概述

设置事件通知后,系统会推送消息到您设置的通知方式。通过云监控配置报警规则,推送事件通知,请参见 设置事件通知。通过钉钉机器人推送事件通知,请参见 通过钉钉机器人发送事件通知。修改系统事件相关设置 根据需要修改系统事件相关设置...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
阿里邮箱 短信服务 负载均衡 弹性公网IP 人工智能平台 PAI 金融分布式架构
新人特惠 爆款特惠 最新活动 免费试用