通过可观测性能力进行故障处理最佳实践

具体使用时可将这些指标大致分为以下三类:一级指标:建议将没有歧义的、可衡量业务正常运行的指标作为一级指标,这些指标出现异常则一定是业务链路出现问题一般可用做监控报警项。例如,消息收发TPS超过规格限制可触发实例流控,您可以...

Linux系统的ECS实例运行卡顿,在/var/log/messages...

系统内核问题:当系统内核存在漏洞或者其他问题时,可能会出现hung task故障系统资源紧张:ECS实例中应用或进程占用系统资源使用率(如CPU、内存等)过高时,可能会出现hung task故障。解决方案 出现hung task的原因比较复杂,您可以参考...

如何对JSON类型进行高效分析

业务系统的生产数据一般会经过中间ETL任务按需处理后再导入到数据仓库。在处理JSON数据时,为了提高查询性能,数仓往往在ETL任务中预先解析JSON数据且按需计算出对应值,然后作为表的单独一列插入到表中,即将JSON数据一些属性按需处理后...

集群巡检项及解决方案

CoreDNS版本过低 异常影响:集群内CoreDNS组件版本过低,导致业务出现DNS解析问题。最新版的CoreDNS提供了更好的稳定性配置和新的功能。解决方案:为避免业务出现DNS解析问题,您需要尽快升级CoreDNS。具体操作,请参见 CoreDNS手动升级...

ack-node-repairer

当节点出现故障时,自愈系统会自动对故障所在节点触发相应的修复操作。当故障被修复后,NPD会修改故障状态,达到故障检测以及修复的闭环。运维人员也可以自定义需要采取修复操作的故障以及具体的修复操作。NPD是Kubernetes节点诊断的工具,...

云盒计算资源配置最佳实践

说明 云盒中的硬件设备出现故障时,业务会迁移到冗余资源上来确保业务连续性,同时阿里云向您发送云盒维修事件通知,您需要授权同意阿里云上门更换并维修硬件设备。关于如何授权维修以及维修相关流程,请参见 响应云盒维修事件 和 云盒...

确定需求

您需要了解真实的业务需求是什么,以及确定整个业务系统能解决什么问题业务调研 充分的业务调研和需求分析是数据仓库建设的基石,直接决定数据仓库能否建设成功。在数仓建设项目启动前,您需要请相关的业务人员介绍具体的业务,以便明确...

应用场景

无明显的业务量波动 某通信公司的业务支撑系统需要全天运作,业务量一段时间内无明显波动。如果现有计算资源突然出现故障导致业务受到影响,很难及时进行故障修复或者替换。您可以利用弹性伸缩的高可用优势,开启健康检查模式。阿里云...

接入说明

相关api:查询全部行业包(ListIndustryPackages)订阅行业包(InstallPackage)取消订阅行业包(UninstallPackage)步骤4 为机器人配置商家域知识 系统内置行业包无法覆盖商家全部业务问题,也可能会出现商家对场景的理解和系统内置行业包...

概述

资金安全监控 资金安全监控平台是一个通过旁路方式,对业务流程中资金流向进行实时分析和实时告警、从技术上保障资金安全的实时核对平台,旨在保障资金在流经业务系统时,不会出现资金流失的问题。全链路压测 全链路压测(Loadcenter)为...

名词解释

另一方面是在⼀个数据中心发⽣故障或灾难的情况下,其他数据中心可以正常运行并对关键业务或全部业务实现接管,实现用户的故障无感知。两地三中心 即生产数据中心、同城灾备中心、异地灾备中心建设方案。这种模式下,两个城市的三个数据...

资源伸缩和系统扩展

无明显的业务量波动 某通信公司的业务支撑系统需要全天运作,业务量一段时间内无明显波动。如果现有计算资源突然出现故障导致业务受到影响,很难及时进行故障修复或者替换。此时可以利用弹性伸缩的高可用优势,开启健康检查模式。阿里...

Tair助力雪球行情业务上云,实现数据库降本增效

业务挑战 行情业务系统很容易出现高并发查询情况,这对支撑系统的后台数据库带来极大挑战。为了给投资者带来更为顺畅稳定的行情查询服务,雪球决定加速行情业务系统上云进程,并决定引入 云原生内存数据库Tair。解决方案 引入Tair内存数据...

分支门店

客户痛点 业务运维效率低 不同门店的建设阶段导致操作系统、浏览器、通用办公软件等版本存在差异,新业务系统上线或变更时容易出现兼容性问题,影响业务效率 全国提升门店连锁率的背景下,需要快速提升业务扩张的效率和门店的标准化 门店...

补数据

什么补数据选择业务时间昨天和今天,也会出现等待时间的情况?为什么补数据选择补0点~1点生成了多个实例?为什么进行大量补数据操作时,会出现等待资源情况(实例显示黄色,实例状态为等待资源)?为什么补数据报错调起的节点运行时间不...

标准版-双副本

当主节点出现故障,自研的HA系统会自动进行主从切换,保证业务平稳运行。数据可靠 默认开启数据持久化功能,数据全部落盘。支持数据备份功能,用户可以针对备份集回滚实例或者克隆实例,有效地解决数据误操作等问题。同时,在支持容灾的...

使用云监控功能监控网站环境(部署于ECS实例)

设置合理的监控可以让您实时了解系统业务的运行情况,并能帮助您提前发现问题,避免可能会出现业务故障。同时,告警机制能让您在故障发生后第一时间发现问题,缩短故障处理时间,以便尽快恢复业务。前提条件 在开始设置云监控前,您需要...

标准架构

当主节点出现故障,自研的HA系统会自动进行主从切换,保证业务平稳运行。数据可靠 默认开启数据持久化功能,数据全部落盘。支持数据备份功能,用户可以针对备份集回滚实例或者克隆实例,有效地解决数据误操作等问题。同时,在支持容灾的...

分析业务过程

您可以参考业务规划设计文档和业务运行(开发、设计、变更等)相关文档,从以下几方面分析数据仓库涉及的源系统业务管理系统:每个业务会生成哪些数据,存在于什么数据库中。对业务过程进行分解,了解过程中的每一个环节产生哪些数据,...

分析业务过程

您可以参考业务规划设计文档以及业务运行(开发、设计、变更等)相关文档,全面分析数据仓库涉及的源系统业务管理系统:每个业务会生成哪些数据,存在于什么数据库中。对业务过程进行分解,了解过程中的每一个环节产生哪些数据,数据的...

分析业务过程

您可以参考业务规划设计文档以及业务运行(开发、设计、变更等)相关文档,全面分析数据仓库涉及的源系统业务管理系统:每个业务会生成哪些数据,存在于什么数据库中。对业务过程进行分解,了解过程中的每一个环节产生哪些数据,数据的...

搭建高可用架构

恢复数据 如果您已经按照前文的步骤搭建了高可用架构实例,您的业务一般是可以稳定运行的,即使出现问题也能快速恢复到可用状态。如果是单机故障,RDS除了基础系列之外的实例都可以在短时间内进行 主备切换 快速恢复您的业务。如果是可用区...

基于Kubernetes容器集群的容灾架构与方案

备份与恢复(Backup-Restore)如上图所示,在备份与恢复模式下,系统运行时会备份应用和数据,故障或灾难发生时,系统会将备份的应用和数据在另一地点进行恢复,并切换业务流量。由于数据无法实时备份,在恢复数据时会有一定的数据丢失,...

虚拟机场景

JvmCodeCache满 制造JVM CodeCache区域满的故障,CodeCache区域满直接导致JIT编译关闭,从而引起业务系统性能下降。一般用于验证业务系统在高并发且系统性能下降的情况下,是否能够通过限流、快速扩容等手段保证业务连续性。参数说明如下...

应用场景

出现这些故障时,如果用户业务部署在单个地区,那么就因为地区故障导致服务不可用,且不可用时间完全依赖故障恢复时间。通过构建灾备库,使用数据同步服务实时增量同步主库数据以确保主库与灾备库数据的完全一致,当业务中心发生地区...

节点诊断

节点文件系统只读状态 节点出现文件系统只读,通常是因为磁盘故障导致节点无法写入数据,可能造成业务异常。请尝试在节点上使用fsck命令修复文件系统,然后重启节点。节点硬件时间 检查节点硬件时钟与系统时间是否一致,时间相差超过2...

部署和使用跨可用区实例

同时,您可以通过控制台的切流操作,将出现故障的可用区隔离,这时系统会自动在剩余的可用区中补充计算资源,满足业务对资源的需求。本文介绍如何部署和使用(切流和恢复)跨可用区实例。应用场景 跨可用区部署支持单可用区、跨2个可用区、...

数据资产定级

局部性质:数据直接或间接用于某些业务线的运营、报告等,如果出现问题会业务线造成一定的影响或造成工作效率降低。标记为A3。一般性质:数据主要用于日常数据分析,出现问题带来的影响极小。标记为A4。未知性质:无法明确数据的应用场景...

数据资产定级

局部性质:数据直接或间接用于某些业务线的运营、报告等,如果出现问题会业务线造成一定的影响或造成工作效率降低。标记为A3。一般性质:数据主要用于日常数据分析,出现问题带来的影响极小。标记为A4。未知性质:无法明确数据的应用场景...

集群变更概述

同时,您还可以通过控制台的切流操作,将出现故障的可用区隔离,此时系统会自动在剩余的可用区中补充计算资源,满足业务对资源的需求。更多内容请参见 部署和使用跨可用区实例。迁移可用区节点 在升配集群的过程中,您可能遇到可用区规格...

使用限制

故障切换 对于高可用系列、集群系列实例,当主节点出现故障时,RDS在30秒内切换到备节点(某些主备不一致等特殊场景可能切换时间较长)。切换过程中有30秒左右的连接闪断,需要您设置好程序的自动重连,避免因为切换导致服务不可用。切换...

响应云盒维修事件

流程说明 运行中的ECS实例出现故障风险时,向您发送ECS故障 事件(Reboot事件)通知,收到ECS故障事件通知后,您可以响应故障事件并按照建议进行处理,例如:将现有业务迁移到冗余资源保证业务正常运行,将出现故障风险的ECS实例作为备机...

Tair选型指南

当主节点发生故障系统会自动在30秒内切换至从节点,保障业务平稳运行。对Redis协议兼容性要求较高的业务。将 Tair 作为持久化数据存储使用的业务。单个 Tair 性能压力可控的场景。命令相对简单,排序和计算之类的命令较少的场景。集群...

围绕混沌工程的平台实践

基于监控指标的自动恢复,如果指标触发了恢复规则,系统会自动执行演练恢复操作。基于演练时长的自动恢复。更多信息 关于AHAS Chaos的更多信息,请参见 Chaos Engineering的历史、原则以及实践 和 混沌工程实践经验:如何让系统在生产环境...

通用数据开发

数据开发的流程如下所示:数据产生:业务系统每天产生大量结构化的数据,存储在业务系统所对应的数据库中,包括MySQL、Oracle和RDS等类型。数据收集与存储:您需要同步不同业务系统的数据至MaxCompute中,方可通过MaxCompute的海量数据...

入门概述

文件系统常用操作 如果您想…您可以参考…创建文件系统 创建文件系统 添加挂载点 管理挂载点 创建权限组和规则 管理权限组 挂载文件系统 ECS实例挂载文件系统 容器挂载文件系统 跨网络或账户访问文件系统 本地数据中心访问文件系统 迁移...

安全管家服务

4.8安全护航 在企业进行大促活动、新品发布、重大新闻发布、IPO等重大活动期间,以及重大会议期间,企业或政府机构对外业务系统往往成为竞争对手、黑客的重点攻击目标,在这些特殊时期如果出现严重的信息安全事件,将给企业、政府机构...

云数据库Redis版产品选型必读

当主节点发生故障系统会自动在30秒内切换至从节点,保障业务平稳运行。对Redis协议兼容性要求较高的业务。将 Redis 作为持久化数据存储使用的业务。单个 Redis 性能压力可控的场景。命令相对简单,排序和计算之类的命令较少的场景。集群...

应用场景

强大的业务支撑能力 将企业级公共能力进行抽象,形成各大能力中心,并沉淀到业务中台,以更强大的复用技术提升业务敏捷性,支持业务快速、高效、低成本创新。快速迭代创新能力 实践大中台战略,基于能力中心与分布式金融核心套件,支持产品...

策略配置

多样性规则 功能介绍 一些业务场景下,可能会出现同质性物品集中推荐的情况,例如:系统识别到用户对水果感兴趣,增加水果的推荐量,导致屏幕中呈现了多个水果商品;例如:系统识别到用户对短视频类型的物品更感兴趣,因此提高短视频物品的...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
负载均衡 物联网无线连接服务 云服务器 ECS 商标服务 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用