告警规则指标说明

可以根据该指标判断节点机网络是否异常。JVM实例数 无 是 当前实时运行的Java虚拟机实例数量,常用于服务宕机告警配置。节点机发送的字节数 无 不是 节点机通过网络连接发送的数据量,其中包括应用程序发送的数据、系统消息和错误信息等。...

网络诊断

容器服务平台提供网络诊断功能,帮助您诊断网络常见问题,例如Pod之间不通、集群到公网访问不通、公网到LoadBalancer不通。本文介绍网络诊断的基本原理、使用方式、以及如何针对常见网络不通的场景定位网络问题和使用网络诊断。重要 使用...

什么是全球加速

全球加速 GA(Global Accelerator)是一款覆盖全球的网络加速服务,依托阿里云优质BGP带宽和全球传输网络,实现全球网络就近接入,可以减少延迟、抖动、丢包等网络问题对服务质量的影响,为全球用户提供高可用和高性能的网络加速服务。...

实时分析链路数据

面对这类问题,可以通过调用链分析先筛选出异常或超时请求,然后再根据宿主机IP或容器IP进行聚合分析,可以快速判断是否存在单机故障。如果异常请求集中在单台机器,可以尝试替换机器进行快速恢复,或者排查该机器的各项系统参数:例如磁盘...

同城容灾演练产品概述

预期评判:结合业务侧核心指标预期值和实际值的差距,判断演练是否符合预期。常见的名词解释 名词 说明 可用区 可用区(Availability Zone,简称AZ)是指在同一地域内,电力和网络互相独立的物理区域。同一可用区内实例之间的网络延时更小...

Windows实例网络访问丢包延时高的排查方法

若某一跳路由的网络之后延迟明显陡增,则通常判断该节点存在网络异常。如前文链路测试结果示例图所示,从第5跳路由的网络之后的后续节点延迟明显陡增,则推断是第5跳路由的网络节点出现了网络异常。注:高延迟并不一定完全意味着相应节点...

数据安全

当其中一个加速地域出现故障时,可以将访问请求切换至其他距离用户时延较低、位置较近的加速地域进入全球加速网络中,实现加速地域间的故障容灾。如何配置CNAME解析,请参见 配置CNAME。全球加速联动DNS实现加速地域高可用容灾,请参见 ...

混沌工程缓存实战系列-Redis

GET 最终配置成如下完整演练流程:重要 在演练前需要确保业务系统处于正常状态,所以在故障注入前需要判断下应用是否可用。执行演练。具体操作,请参见 执行演练。配置完毕之后,可以发起自动演练、自动探测,最终得出结论(故障演练支持...

源为PolarDB-X的功能规范和约束说明

在出现故障(如网络中断、机房批量设备故障或互联网数据中心IDC故障),且DTS任务存在延迟的情况下,此时如更新至目标库的最后一条数据的时间与故障发生时的时间之差小于RPO(如5分钟),则可以业务优先恢复为准则切流。切流后可能有5分钟...

Ping健康检查

连续失败次数 在执行Ping监控时,如果连续多次监控出现异常,系统才将应用服务判断为异常,防止因为一些网络瞬间抖动等其他原因影响监控准确率。连续失败次数可选值为:1次、2次、3次。1次,即健康检查监控到一次报警,就将应用服务判断为...

设计方案

容灾演练 容灾演练是通过模拟实例、机房或地域级故障判断系统服务的逃逸能力,验证系统的容灾能力以及面对灾难时的应对能力。容灾演练可以帮助企业更好的验证RPO、RTO指标,及时发现和解决相关问题,提高系统的可用性和可靠性。红蓝攻防 ...

ECS系统事件汇总

Canceled:因系统维护实例重新部署已取消 阿里云检测到ECS实例的底层宿主机存在潜在的软硬件故障风险,该风险会导致ECS实例重新部署,且该风险还未直接成为故障,在系统维护计划执行时间前24~48小时发送该系统事件。重要 使用了本地SSD盘...

源为PolarDB-X的功能规范和约束说明

在出现故障(如网络中断、机房批量设备故障或互联网数据中心IDC故障),且DTS任务存在延迟的情况下,此时如更新至目标库的最后一条数据的时间与故障发生时的时间之差小于RPO(如5分钟),则可以业务优先恢复为准则切流。切流后可能有5分钟...

发现和排查实例问题

合理使用监控相关的功能可以帮助您及时发现和排查实例问题,在故障发生前处理掉潜在风险,避免影响业务。诊断实例的健康状态 实例健康诊断功能可以全方位诊断实例的操作系统配置、网络状态、磁盘状态等。诊断报告中针对异常诊断项目的影响...

数据库代理常见问题

数据库代理地址:可根据用户的SQL请求,自动判断读请求或写请求,并分发到主实例或只读实例,实现读写分离,减轻主实例的压力。开通数据库代理后,实例原来的地址和只读实例的地址是否会被收回?不会收回。数据库代理的内网网络类型是否和...

网络架构容灾

网络是数字世界的基础设施,没有网络的联通,所有信息都无法交互,因此网络架构的设计在应用系统中至关重要,特别是针对网络架构的高可用及容灾能力的设计,是业务在异常发生时,实现快速恢复、降低业务损失的关键。云上网络规划设计 为...

基础设施安全

可用区间故障隔离 可用区是指在同一地域内,电力和网络互相独立的物理区域。在同一地域内,可用区与可用区之间内网互通。各可用区之间可以实现故障隔离,即如果一个可用区出现故障,不会影响其他可用区的正常运行。每个地域完全独立,不同...

产品高可用

例如当网络攻击或配置错误等情况导致负载均衡实例不可用时,由于未出现可用区级故障,不会触发负载均衡实例的可用区切换。此时,您可以创建多个CLB实例,通过云解析DNS对访问进行调度,或通过全球负载均衡解决方案实现跨地域容灾备份。最佳...

连接公网概述

您可以通过ECS实例固定公网IP、弹性公网IP、NAT网关、负载均衡使专有网络中的云资源可以访问公网(Internet)或被公网访问。概述 专有网络是您自定义的云上私有网络。专有网络中的云资源默认无法访问公网,也无法被公网访问。您可以通过...

TCP健康检查

连续失败次数 在执行TCP健康检查时,如果连续多次探测出现异常,系统才将应用服务判断为异常,防止因为网络瞬间抖动等因素影响监控准确率。连续失败次数可选值为:1次、2次、3次。1次,即健康检查监控到一次报警,就将应用服务判断为异常。...

监控和分析

监测控制 通过运用云上的多种监测控制手段,以此来感知不同级别的威胁,进行分析判断,采取相应的措施,并可针对自身的业务量身定制监控和检测控制。针对监测控制,有以下最佳实践:网络管理:创建隔离分层的网络,有助于对相似的网络组件...

诊断网页加载过慢的问题

由于页面的加载耗时受地域、网络情况、浏览器或者运营商等因素影响,排查问题时无法复现A在访问页面时的具体情况。监控信息缺少,无法深入排查 大部分前端监控会通过PerformanceTiming对象来获取完整的页面加载耗时信息,这将缺失页面静态...

云资源视图

操作步骤 登录 AHAS控制台,在左侧导航栏选择 故障演练>架构感知。在 基础视图 区域,单击 云资源视图 的 查看视图,进入详情页,默认进入缩略图模式。缩略图模式下只支持查看各可用区的各个云产品的个数,具体详情需要选择 默认 或其他...

HTTP(S)健康检查

运营商节点 武汉市联通、大连市联通、南京市联通、天津市联通、青岛市电信、长沙市电信、西安市电信、郑州市电信、深圳市移动、大连市移动、南京市移动 重要 如果地址池的地址均为阿里云地址,且使用黑洞策略进行故障测试,监控节点请选择...

功能概述

访问策略 访问策略包括DNS智能解析、默认地址池/备用地址池、生效地址池切换策略等相关信息,一个GTM实例可以创建多个访问策略,可为不同网络或区域来源的访问用户设置不同的解析响应地址池,并最终实现用户就近访问接入和故障自动切换的...

名词解释

基本概念 名词 说明 全局流量管理(global traffic manager)通过DNS,实现用户访问应用服务就近接入、高并发负载均摊,同时根据健康检查进行流量切换,实现应用服务的故障容灾。CNAME接入域名 购买了全局流量管理,系统生产实例时,会自动...

应用视图

应用视图页面是通过采集主机进程与网络数据,来展示主机部署应用的拓扑架构。您可以通过筛选进程类型,查看进程的拓扑图和详细信息。本文介绍如何在应用视图中查看进程。操作步骤 登录 AHAS控制台,在左侧导航栏选择 故障演练>架构感知。在...

数据库代理常见问题

数据库代理地址:可根据用户的SQL请求,自动判断读请求或写请求,并分发到主实例或只读实例,实现读写分离,减轻主实例的压力。开通数据库代理后,实例原来的地址是否会被收回?不会收回。数据库代理是什么架构,有故障切换机制吗?数据库...

节点诊断

检查项评估:根据采集到的数据,判断关键指标是否正常。例如,节点诊断检查项包括Docker进程状态、ECS状态等。不同的诊断类型对应不同的检查项,并将针对检查结果提供对应的检查项列表和每个检查项的含义。根因分析:根据采集的数据和检查...

监控与日志

您可以通过VPN网关的系统事件和监控指标信息来判断系统是否按照预期运行,同时您也可以对系统事件和监控指标设置报警规则,以便在系统运行异常时,您可以收到报警通知,及时处理问题。系统事件监控 阿里云云监控服务的事件监控功能自动汇集...

常见网络问题

本文介绍 云备份 备份客户端的常见网络问题。背景信息 在非阿里云VPC的各类线下环境中安装备份客户端时,可能遇到各种未知且复杂的网络环境。例如防火墙会阻拦域名或端口的连接导致备份失败,防火墙会限制网络传输速度导致部分请求超时,...

日志字段详情

upstream_service_time long 上游服务处理请求的耗时(毫秒),包括网关访问上游服务的网络耗时和上游服务自身处理耗时两部分。upstream_transport_failure_reason string 上游链接失败的原因。user_agent string HTTP Header中的UserAgent...

Kubernetes监控视图

查看Kubernetes风险 登录 AHAS控制台,从左侧导航栏选择 故障演练>架构感知。在 场景视图 区域,单击 Kubernetes监控视图 的 查看视图。进入详情页。默认的拓扑图将显示当前环境中所有的容器组信息。单击页面右上角的 Kubernetes监控视图,...

监控指标说明

注意事项 Source端的指标表现并不是判断问题根源的充分条件,只反映了Source当前的工作状况,您仍然需要其他辅助指标或工具来判断问题的根源。常见问题的指标表现如下。场景 详情 作业中某些算子存在反压 判断反压最直接的方式是使用Flink ...

部署高可用及共享存储Web服务

健康检查 建议开启健康检查,以检查服务器的运行状况,从而判断服务器的业务可用性。方案验证 验证ECS高可用 您可以通过停机一台ECS模拟故障进而验证服务的可用性。操作如下:登录ECS控制台,选择 概览,在资源列表选择一台ECS实例(假设为...

查看运行分析

字节(Byte)每秒远端读取网络缓冲区的数据的字节数(numBuffersIn Remote PerSecond)每秒远端读取网络缓冲区的数据的字节数。字节(Byte)每秒输出字节总数。(numBytesOut PerSecond)可查看上游吞吐输出情况,协助您观察作业流量表现。...

通用服务条款

阿里云对此予以监督、通过阿里绿网功能向您提示不合规或疑似不合规内容,并郑重提示您谨慎判断数据内容的合法性。6.8.您须依照《互联网信息服务管理办法》、《互联网电子公告服务管理规定》等法律法规的规定保留自己网站的访问日志记录,...

诊断项与诊断结果说明

实例健康诊断功能是一种自助诊断方式,可以对实例的计算服务状态、存储服务状态、网络服务状态、实例配置管理和实例操作系统内相关配置进行全方位的诊断,帮助您了解实例的健康情况,及时发现并解决常见的问题。本文介绍轻量应用服务器支持...

诊断项与诊断结果说明

实例健康诊断功能是一种自助诊断方式,可以对实例的系统状态、网络状态、磁盘状态等进行全方位的诊断,帮助您了解实例健康情况,及时发现并解决常见的问题。本文介绍该功能支持的诊断项,并提供了详细的诊断范围及建议操作供您参考。诊断项...

健康检查最佳实践

由于网络抖动以及相关组件服务的可用性无法完全确定,这类异常无法成为当前应用是否需要重启的判断依据。因此,为了减少因下游链路的抖动造成预期外的实例重启,必须区分Liveness与Readiness。如果不方便单独实现一个接口来检查应用自身的...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
共享流量包 负载均衡 高速通道 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用