使用云监控功能监控网站环境(部署于ECS实例)

设置合理的监控可以让您实时了解系统业务的运行情况,并能帮助您提前发现问题,避免可能会出现业务故障。同时,告警机制能让您在故障发生后第一时间发现问题,缩短故障处理时间,以便尽快恢复业务。前提条件 在开始设置云监控前,您需要...

通过可观测性能力进行故障处理最佳实践

具体使用时可将这些指标大致分为以下三类:一级指标:建议将没有歧义的、可衡量业务正常运行的指标作为一级指标,这些指标出现异常则一定是业务链路出现问题一般可用做监控报警项。例如,消息收发TPS超过规格限制可触发实例流控,您可以...

云盒计算资源配置最佳实践

说明 云盒中的硬件设备出现故障时,业务会迁移到冗余资源上来确保业务连续性,同时阿里云会向您发送云盒维修事件通知,您需要授权同意阿里云上门更换并维修硬件设备。关于如何授权维修以及维修相关流程,请参见 响应云盒维修事件 和 云盒...

补数据

什么补数据选择业务时间昨天和今天,也会出现等待时间的情况?为什么补数据选择补0点~1点生成了多个实例?为什么进行大量补数据操作时,会出现等待资源情况(实例显示黄色,实例状态为等待资源)?为什么补数据报错调起的节点运行时间不...

Dataphin中周期任务在运行时为何会出现等待资源问题

问题描述 夜间周期性任务出现高并发时,运行过程中有些任务会出现等待资源问题,原本只需要几十秒的任务,有时需要20多分钟,为什么会出现这种情况?是否有改善的方案?问题原因 任务会出现等待资源问题是由于mesos资源分配不足导致的。...

数据资产定级

局部性质:数据直接或间接用于某些业务线的运营、报告等,如果出现问题会业务线造成一定的影响或造成工作效率降低。标记为A3。一般性质:数据主要用于日常数据分析,出现问题带来的影响极小。标记为A4。未知性质:无法明确数据的应用场景...

数据资产定级

局部性质:数据直接或间接用于某些业务线的运营、报告等,如果出现问题会业务线造成一定的影响或造成工作效率降低。标记为A3。一般性质:数据主要用于日常数据分析,出现问题带来的影响极小。标记为A4。未知性质:无法明确数据的应用场景...

数据资产等级定义

局部性质:数据直接或间接用于某些业务线的运营、报告等,如果出现问题会业务线造成一定的影响或造成工作效率降低。标记为A3。一般性质:数据主要用于日常数据分析,出现问题带来的影响极小。标记为A4。未知性质:无法明确数据的应用场景...

执行补数据并查看补数据实例(旧版)

例如,业务日期为 1月11日~1月13日,并行数为2组,则生成两个补数据实例(其中一个补数据实例包含两个业务日期,这两个业务日期对应的任务串行执行),两个补数据实例并行执行。补数据告警 设置此次补数据操作是否触发告警。是:满足...

使用限制

故障切换 对于高可用系列、集群系列实例,当主节点出现故障时,RDS在30秒内切换到备节点(某些主备不一致等特殊场景可能切换时间较长)。切换过程中有30秒左右的连接闪断,需要您设置好程序的自动重连,避免因为切换导致服务不可用。切换...

EMR Kafka磁盘故障运维

业务场景 Kafka将日志数据存储到磁盘中,当磁盘出现故障时,导致磁盘IO能力下降、集群吞吐下降、消息读写延时或日志目录offline等问题。这些情况有可能影响到线上业务平稳运行、数据丢失、Kafka集群容错能力下降,单块盘故障甚至有可能...

标准版-双副本

当主节点出现故障,自研的HA系统自动进行主从切换,保证业务平稳运行。数据可靠 默认开启数据持久化功能,数据全部落盘。支持数据备份功能,用户可以针对备份集回滚实例或者克隆实例,有效地解决数据误操作等问题。同时,在支持容灾的...

标准架构

当主节点出现故障,自研的HA系统自动进行主从切换,保证业务平稳运行。数据可靠 默认开启数据持久化功能,数据全部落盘。支持数据备份功能,用户可以针对备份集回滚实例或者克隆实例,有效地解决数据误操作等问题。同时,在支持容灾的...

基本概念

在实际业务中,可能存在某个Worker因为OOM等原因出现Failover的情况,那么该Worker对应的Shard将在Worker Failover之后自动挂载在其他Worker上,系统保证每个Worker新分配的Shard均匀。如下示例,实例一共有4个Worker,2个Table ...

什么选择节省计划

节省计划适用于共振、平稳、混部业务,本文介绍为什么选择节省计划,以及与其它几种付费模式的对比。节省计划的优势 用云灵活:节省计划搭配按量付费实例使用,可以抵扣多种不同类型云资源的费用,应对业务的多变需求,同时能大大...

修改带宽策略

业务会出现计划中的流量高峰,例如限时秒杀场景,需要灵活地变更带宽。业务中临时出现较多的大Key读写,需要快速消除带宽限制避免影响业务,同时为处理大Key问题预留时间。主机内网基础带宽详情 主机规格 规格族 CPU(核)内存(GB)内网...

什么同一个分区被多个消费线程消费了?

问题现象 消费客户端使用“StickyAssignor”分配模式消费消息时,发现同一个分区被多个消费线程消费,出现数据错乱的情况。可能原因 您的客户端低于2.3版本。2.3版本以前的客户端有可能将同一个分区分配给多个消费线程进行消费。更多信息,...

开通冷存储

警告 开通过程中需要滚动重启实例,可能导致部分业务的读写请求出现延迟波动或连接中断的现象,建议您在业务低峰期操作。详细说明,请参见 实例运维常见问题。登录 Lindorm管理控制台。在页面左上角,选择实例所属的地域。在 实例列表 页...

通过手动迁移shard均匀分布热点数据的解决方案

Elasticsearch通过哈希映射将文档均匀地路由到分片中,同时shard均匀地分散在各个数据节点中,这样可能会出现某些节点存储的热点数据较多,导致这些节点的负载较高的情况。针对这种情况,可采用重启集群或手动迁移shard的方式,重新分配...

节省计划适配客户业务最佳实践

场景一:平稳型业务 场景说明:业务常年处于一个相对平稳的趋势,虽然可能释放和创建实例,但是较长时间内的使用量是相对稳定的。平稳型业务特点如下:总体业务负载量比较稳定,无明显的波峰波谷,同时所有业务线使用都比较稳定。平稳型...

资源规划

最常见的情况,客户可以使用成本中心(costcenter)、业务单元(businessunit)或者项目组(project)将成本与业务部门进行关联。在分账账单中,费用报告可以以任何标签维度归纳账单。因此,客户也可以轻松地将成本与技术/安全性维度作为分...

强弱依赖治理概述

如果商品详情页对下游依赖是强依赖,例如当下游依赖 库存、优惠、物流 出现故障的时候,将导致业务流程无法推进,会出现类似如下的说明,严重影响用户体验。如果商品详情页对下游依赖是弱依赖,例如当下游依赖 评价、店铺 等系统出现故障的...

应用场景

出现这些故障时,如果用户业务部署在单个地区,那么就因为地区故障导致服务不可用,且不可用时间完全依赖故障恢复时间。通过构建灾备库,使用数据同步服务实时增量同步主库数据以确保主库与灾备库数据的完全一致,当业务中心发生地区...

容灾演练断网方式说明

在实例进行主备切换时,业务可能会出现长连接闪断的情况,以此验证业务是否具备失效重连机制。使用场景 部分业务或大规模业务实例不可用。Redis、RDS云服务高可用实例部分不可用。使用限制 安全组断网只针对新建立的网络连接进行阻断,并不...

虚拟机场景

JvmCodeCache满 制造JVM CodeCache区域满的故障,CodeCache区域满直接导致JIT编译关闭,从而引起业务系统性能下降。一般用于验证业务系统在高并发且系统性能下降的情况下,是否能够通过限流、快速扩容等手段保证业务连续性。参数说明如下...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

迁移有潜在故障风险的DDH

如果一台DDH有潜在故障风险,其物理机处于可用状态,但随时可能出现故障,导致DDH中的ECS实例出现问题。您可以自主迁移有潜在故障风险的DDH到其他物理机,避免相关业务因DDH故障受到影响。前提条件 请先将DDH上的ECS实例全部停机,否则迁移...

常见问题概览

服务器的流量未达到清洗阈值,为何安全总览中会出现清洗流量?DDoS高防服务是否支持接入采用NTLM协议认证的网站?DDoS高防热点问题 配置类 不同的阿里云账号如何共享使用DDoS高防 DDoS高防WebSocket配置 DDoS高防健康检查的主动探测IP 业务...

管理集群

资源分配策略 专属集群资源调度的默认分配策略:均衡分配:最大化追求更稳定的系统表现,优先从未分配资源或已分配资源较少的主机中分配资源。紧凑分配:最大化追求更充分的资源利用率,优先从创建时间较早且已分配资源较多的主机中分配...

管理集群

资源分配策略 专属集群资源调度的默认分配策略:均衡分配:最大化追求更稳定的系统表现,优先从未分配资源或已分配资源较少的主机中分配资源。紧凑分配:最大化追求更充分的资源利用率,优先从创建时间较早且已分配资源较多的主机中分配...

业务连续性

这样即使某个 ENS 实例出现故障,ELB 仍然可以将流量分配到其他 ENS 实例上,保障业务持续可用。跨地域主备容灾 应用的主备切换 为了避免地域级别的故障造成业务中断,在某个边缘节点上部署应用之外,还应该在其他边缘节点或公共云地域部署...

创建DDH

如果本地SSDDDH出现故障,您可以 提交工单 申请人工迁移,但迁移后本地盘数据丢失。本地SSD i2 宿主机名称 输入宿主机名称。长度为2~128个字符,必须以大小写字母或中文开头,可包含数字、半角句号(.)、下划线(_)、半角冒号(:...

创建专有宿主机

如果本地SSDDDH出现故障,您可以 提交工单 申请人工迁移,但迁移后本地盘数据丢失。本地SSD i2 宿主机名称 输入宿主机名称。长度为2~128个字符,必须以大小写字母或中文开头,可包含数字、半角句号(.)、下划线(_)、半角冒号(:...

读多写少型业务场景多活实践

本文通过一个电商业务导购链路案例,介绍典型的读多写少型业务场景,如何基于多活容灾解决方案(AHAS-MSHA)帮助业务实现多活容灾架构。背景信息 本文示例应用包含以下模块:frontend:入口Web应用,负责和用户交互。cartservice:购物车...

流水单据型业务场景多活实践

本文通过一个电商业务下单链路案例,介绍典型的流水单据型业务场景,如何基于多活容灾解决方案(AHAS-MSHA)帮助业务实现多活容灾架构。背景信息 本文示例应用包含以下模块:frontend:入口Web应用。负责和用户交互。cartservice:购物车...

应用场景

传统负载均衡CLB(Classic Load Balancer)的应用场景为高访问量的业务,提高应用程序的可用性和可靠性。应用于高访问量的业务 如果您的应用访问量很高,您可以通过配置监听规则将流量分发到不同的云服务器ECS(Elastic Compute Service...

通过调用链路和日志分析定位业务异常问题

当应用出现业务异常问题时,应用指标统计图会出现明显波动,您可据此粗略地分析异常问题;通过完整的调用链路和业务日志分析,可以精准定位业务异常问题。关联业务日志与TraceId 登录 ARMS控制台,在左侧导航栏选择 应用监控>应用列表。在 ...

自动SQL限流

SQL限流是限制数据库上执行SQL的并发度,通过限制问题SQL的并发度后,保障数据库正常响应业务请求,保障大部分的业务正常运转,即通过小部分业务受损,保障大部分业务正常运行。背景信息 随着技术的发展,尤其是云数据库的普及,数据库系统...

内网访问安全常见问题

本文梳理了 SASE 内网访问安全的常见问题,如果您的业务中遇到相关问题可以参考解决。访问一个域名网站,如何配置内网DNS才能正常访问?如果您的业务组网中接入了PrivateZone,则 SASE 自动同步PrivateZone的解析数据,您无需在 SASE ...

实例运维常见问题

本文汇总了Lindorm实例在扩缩容、升降配、实例重启、版本升级等实例运维场景中的常见问题,包括但不限于操作耗时、业务影响及费用说明,帮助您快速了解运维操作中的相关细节和注意事项。问题导览 扩容、升配、服务开通 实例扩容节点需要...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
商标服务 Web应用防火墙 云服务器 ECS 云数据库 Redis 版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用