使用云监控功能监控网站环境(部署于ECS实例)

设置合理的监控可以让您实时了解系统业务的运行情况,并能帮助您提前发现问题,避免可能会出现业务故障。同时,告警机制能让您在故障发生后第一时间发现问题,缩短故障处理时间,以便尽快恢复业务。前提条件 在开始设置云监控前,您需要...

集群巡检项及解决方案

CoreDNS版本过低 异常影响:集群内CoreDNS组件版本过低,导致业务出现DNS解析问题。最新版的CoreDNS提供了更好的稳定性配置和新的功能。解决方案:为避免业务出现DNS解析问题,您需要尽快升级CoreDNS。具体操作,请参见 CoreDNS手动升级...

应用场景

如果现有计算资源突然出现故障导致业务受到影响,很难及时进行故障修复或者替换。您可以利用弹性伸缩的高可用优势,开启健康检查模式。阿里云自动检查实例的健康状态,当发现存在实例不健康时,自动增加实例替换不健康的实例,确保...

如何排查Java场景下故障注入不生效的问题

在对Java进程注入故障时,可能会出现故障注入失败的情况。为解决此类问题,在创建或编辑演练时,您可以在故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,...

搭建高可用架构

恢复数据 如果您已经按照前文的步骤搭建了高可用架构实例,您的业务一般是可以稳定运行的,即使出现问题也能快速恢复到可用状态。如果是单机故障,RDS除了基础系列之外的实例都可以在短时间内进行 主备切换 快速恢复您的业务。如果是可用区...

修改带宽策略

业务会出现计划中的流量高峰,例如限时秒杀场景,需要灵活地变更带宽。业务中临时出现较多的大Key读写,需要快速消除带宽限制避免影响业务,同时为处理大Key问题预留时间。主机内网基础带宽详情 主机规格 规格族 CPU(核)内存(GB)内网...

补数据

什么补数据选择业务时间昨天和今天,也会出现等待时间的情况?为什么补数据选择补0点~1点生成了多个实例?为什么进行大量补数据操作时,会出现等待资源情况(实例显示黄色,实例状态为等待资源)?为什么补数据报错调起的节点运行时间不...

接入说明

相关api:查询全部行业包(ListIndustryPackages)订阅行业包(InstallPackage)取消订阅行业包(UninstallPackage)步骤4 为机器人配置商家域知识 系统内置行业包无法覆盖商家全部业务问题,也可能会出现商家对场景的理解和系统内置行业包...

基本概念

设备 一般指IP数通类网络通信设备,比如交换机、路由器、防火墙等,根据业务场景也可以涵盖无线网络AP/AC的管理和运维。电路(链路)根据管理域链路包括单端链路和双端链路,业务类型包括自有业务或者对接外部的如专线等。安全域 设备等...

主备实例切换

背景信息 备实例切换为主实例的过程可能导致业务出现秒级闪断,建议在业务低谷期操作。切换完成后,原主实例将变为备实例,原主实例工作台展示的信息将切换为备实例的工作台信息。操作步骤 登录 OceanBase 管理控制台。在左侧导航栏中,...

概述

TRaaS 技术风险防控平台,是以蚂蚁内部 SRE 长期实践方法论和内部工具沉淀为依托,形成的解决用户上云和分布式改造过程中,可观测、故障应急、容灾、混沌工程、资金安全、压测等运维问题的平台产品。高可用管理平台 高可用管理平台(High ...

设置DDoS全局防护策略

正常(推荐)拦截在历史正常业务流量中不存在,但在全网恶意攻击中出现概率高的已知恶意攻击,对网站正常业务影响低。适合请求量平稳、业务属性及用户来源不会有大幅变化的业务防护场景。严格 对恶意攻击进行严格防御,可能存在部分误拦截...

数据资产定级

局部性质:数据直接或间接用于某些业务线的运营、报告等,如果出现问题会业务线造成一定的影响或造成工作效率降低。标记为A3。一般性质:数据主要用于日常数据分析,出现问题带来的影响极小。标记为A4。未知性质:无法明确数据的应用场景...

实例状态与影响

重启中 Rebooting 重启实例 实例会出现秒级的连接闪断,请在业务低峰期执行该操作并确保应用具备重连机制。大版本升级中,可正常访问 MajorVersionUpgrading 升级大版本 在申请资源、升级备库或同步数据阶段,对Redis的服务无影响。在实例...

数据资产定级

局部性质:数据直接或间接用于某些业务线的运营、报告等,如果出现问题会业务线造成一定的影响或造成工作效率降低。标记为A3。一般性质:数据主要用于日常数据分析,出现问题带来的影响极小。标记为A4。未知性质:无法明确数据的应用场景...

数据资产等级定义

局部性质:数据直接或间接用于某些业务线的运营、报告等,如果出现问题会业务线造成一定的影响或造成工作效率降低。标记为A3。一般性质:数据主要用于日常数据分析,出现问题带来的影响极小。标记为A4。未知性质:无法明确数据的应用场景...

变更配置

警告 根据变更项不同,切换过程中可能会出现业务闪断或实例重启,而且与数据库、账号、网络等相关的大部分操作都无法执行,请选择在 可维护时间段 内执行变配操作。变更项 说明 业务影响 系列 支持 PostgreSQL基础系列升级高可用系列。...

同城双活

同城双活背景 单个机房在出现不可抗拒的问题(如断电、断等因素)时,导致无法正常提供服务,业务造成潜在的损失。所以在金融级的高可用设计上,为了避免用户损失,需要一种可以基于同城或异地的多个不同机房之间的多活机制,在...

EMR Kafka磁盘故障运维

业务场景 Kafka将日志数据存储到磁盘中,当磁盘出现故障时,导致磁盘IO能力下降、集群吞吐下降、消息读写延时或日志目录offline等问题。这些情况有可能影响到线上业务平稳运行、数据丢失、Kafka集群容错能力下降,单块盘故障甚至有可能...

外呼机器人常见问题解决方式

3)检查当前业务是否有绑定外呼号码(一般控制台内发起外呼时会进行校验业务下号码,但代码上传过程中会出现此状况);到号码管理中查看号码绑定情况。4)检查当前业务并发是否为0,业务并发为0时任务也无法正常发起;4、业务管理中,新建...

Spark

Spark访问外部数据源时,为什么会出现网络连接失败问题?Spark SQL应用使用SHOW TABLES或SHOW DATABASE命令查询库表时,为什么显示的库表与实际库表不符?Spark应用为什么提示错误日志oss object 403?如何定位Spark应用运行速度变慢的原因...

什么是云拨测

实时告警与通知:云拨测提供实时告警功能,当业务出现异常时,主动发送告警通知,快速响应并处理问题。数据可视化:通过直观的数据展示和报表,您可以轻松了解网络状况、性能以及故障分析。应用场景 网络性能监控:云拨测可以帮助企业和...

Multi-Master基础架构

通常情况下,数据库实例中只有Main Master在工作,Standby Master节点作为高可用备份,当Main Master节点出现故障时,Standby Master才切换成Main Master进行工作。随着业务的发展,例如实时数仓和HTAP场景需求的增加,Single-Master的...

步骤五:应用容灾

故障恢复 本机出现故障后在云上拉起本地业务,待本地环境恢复后再将其恢复到本地。具体步骤如下:在 主站点管理 页签,单击+添加。在 添加计算平台 页面,填写计算平台 名称,选择 类型,填写 IP地址、用户名 和 密码。单击 创建。在连续...

部署和使用跨可用区实例

同时,您可以通过控制台的切流操作,将出现故障的可用区隔离,这时系统自动在剩余的可用区中补充计算资源,满足业务对资源的需求。本文介绍如何部署和使用(切流和恢复)跨可用区实例。应用场景 跨可用区部署支持单可用区、跨2个可用区、...

移动性能监控简介

应用场景 网络性能问题定位 通过网络链路数据监控,及时发现网络问题,定位故障链路问题节点,辅助用户进行网络诊断。页面性能问题定位 通过对页面加载时长指标进行监控,发现慢加载页面,从而定位问题页面,帮助技术人员进行问题排查。...

错误编码:HSF-0002

客户端或服务端偶然会出现Java GC问题:检查服务端和客户端Java GC日志,耗时很长的Java GC会导致超时,建议您优化业务代码的Java GC问题。客户端负荷高:使用增加客户端机器等方法,减轻客户端的负荷。适用于 企业级分布式应用服务EDAS

故障演练

有损演练是指直接在线上真实业务环境注入异常进行演练,演练模拟的真实有效性高,为了平衡业务影响一般会选择最核心场景、在业务最低峰期做演练,而且演练频次相对较小,例如为了验证多活容灾能力的机房断演练,一般是一个月一次的演练...

什么是边缘NAT网关

避免出现在单EIP场景下,EIP故障导致的全业务中断。搭建提供公网服务的DNAT网关 您可以创建边缘NAT网关,并为其绑定EIP,然后配置边缘NAT网关的DNAT功能。配置成功后,VPC内的ENS实例可以通过端口映射面向公网提供服务。端口映射:边缘NAT...

容灾演练断网方式说明

容灾演练提供三种断方式:可用区断、安全组断和AHAS探针方式断。这三种断方式爆炸半径依次降低,对断范围的控制越来越精细。可用区断 当整个机房的外部网络出现中断后,外部请求无法进入故障机房,机房内业务同样无法访问...

跨可用区容灾

当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...

应用场景

出现这些故障时,如果用户业务部署在单个地区,那么就因为地区故障导致服务不可用,且不可用时间完全依赖故障恢复时间。通过构建灾备库,使用数据同步服务实时增量同步主库数据以确保主库与灾备库数据的完全一致,当业务中心发生地区...

变更发布策略

一般会将新版本的实例规格和数量与旧版本保持一致。当新版本服务验证通过后,将业务流量全部切至新版本。旧版本作为热备。如新版本上线后出现问题,可将流量全部切回至旧版本完成回滚,缩短故障恢复时间。A/B测试:通过用户请求的元信息将...

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...

使用限制

故障切换 对于高可用系列、集群系列实例,当主节点出现故障时,RDS在30秒内切换到备节点(某些主备不一致等特殊场景可能切换时间较长)。切换过程中有30秒左右的连接闪断,需要您设置好程序的自动重连,避免因为切换导致服务不可用。切换...

虚拟机场景

JvmCodeCache满 制造JVM CodeCache区域满的故障,CodeCache区域满直接导致JIT编译关闭,从而引起业务系统性能下降。一般用于验证业务系统在高并发且系统性能下降的情况下,是否能够通过限流、快速扩容等手段保证业务连续性。参数说明如下...

什么是网络智能服务

场景覆盖 支持在公网、混合云、跨域、同域跨VPC等各场景的观测和诊断,全面覆盖用户可能会出现的各种情况和使用场景。访问NIS 通过注册阿里云账号,您可以通过以下方式访问和管理 NIS:NIS控制台:具有交互式操作的Web服务页面,帮助您...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

强弱依赖治理概述

如果商品详情页对下游依赖是强依赖,例如当下游依赖 库存、优惠、物流 出现故障的时候,将导致业务流程无法推进,会出现类似如下的说明,严重影响用户体验。如果商品详情页对下游依赖是弱依赖,例如当下游依赖 评价、店铺 等系统出现故障的...

Windows系统的ECS实例ping外地址提示“一般故障”...

然后重新ping外地址,不再出现一般故障”错误时,表示该问题已解决。检查网卡配置信息 执行 ipconfig/all 或 route print 命令检查IP配置,查看路由配置是否存在问题。如果回显中显示了所有网卡信息,如下图所示,说明路由配置没有问题...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云企业网 云服务器 ECS 负载均衡 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用