通过可观测性能力进行故障处理最佳实践

具体使用时可将这些指标大致分为以下三类:一级指标:建议将没有歧义的、可衡量业务正常运行的指标作为一级指标,这些指标出现异常则一定是业务链路出现问题一般可用做监控报警项。例如,消息收发TPS超过规格限制可触发实例流控,您可以...

什么是基线包?

问题:什么是基线包?关于混淆配置文档的疑问。...但是基线包和补丁包都是使用printmapping,没有改成applymapping,会出现什么情况 回答:混淆不一致,可能会造成找不到方法或者类,如果没有方法和类的修改,应该是没有关系的。

CoAP连接相关问题

如果发送到云端的数据不是JSON会出现什么错误?目前除了支持JSON格式外,也可以支持CBOR格式。设备与云端通信,需要使用指定格式,否则可能会出现无法解析的问题。调用IOT_CoAP_Init方法时,coap_malloc返回NULL,是什么原因引起的?请查看...

云盒计算资源配置最佳实践

说明 云盒中的硬件设备出现故障时,业务会迁移到冗余资源上来确保业务连续性,同时阿里云向您发送云盒维修事件通知,您需要授权同意阿里云上门更换并维修硬件设备。关于如何授权维修以及维修相关流程,请参见 响应云盒维修事件 和 云盒...

应用场景

如果现有计算资源突然出现故障导致业务受到影响,很难及时进行故障修复或者替换。您可以利用弹性伸缩的高可用优势,开启健康检查模式。阿里云自动检查实例的健康状态,当发现存在实例不健康时,自动增加实例替换不健康的实例,确保...

补数据

什么补数据选择业务时间昨天和今天,也会出现等待时间的情况?为什么补数据选择补0点~1点生成了个实例?为什么进行大量补数据操作时,会出现等待资源情况(实例显示黄色,实例状态为等待资源)?为什么补数据报错调起的节点运行时间不...

应用场景

出现这些故障时,如果用户业务部署在单个地区,那么就因为地区故障导致服务不可用,且不可用时间完全依赖故障恢复时间。通过构建灾备库,使用数据同步服务实时增量同步主库数据以确保主库与灾备库数据的完全一致,当业务中心发生地区...

使用说明

背景信息 设备基于物联网平台的消息通信能力开展业务,由于不同设备业务的复杂性,以及业务需要定期变更升级,导致设备的业务程序容易出现故障,导致设备不可用。如果设备的业务程序与远程登录程序在同一进程,导致设备不可使用远程登录...

响应云盒维修事件

流程说明 运行中的ECS实例出现故障风险时,向您发送ECS故障 事件(Reboot事件)通知,收到ECS故障事件通知后,您可以响应故障事件并按照建议进行处理,例如:将现有业务迁移到冗余资源保证业务正常运行,将出现故障风险的ECS实例作为备机...

集群变更概述

同时,您还可以通过控制台的切流操作,将出现故障的可用区隔离,此时系统自动在剩余的可用区中补充计算资源,满足业务对资源的需求。更内容请参见 部署和使用跨可用区实例。迁移可用区节点 在升配集群的过程中,您可能遇到可用区规格...

PTS压测快速入门

阿里云提供的业务高可用架构体系,为企业提供营销活动、成本控制(压测、容量规划、流量控制)、应急(开关)、容灾逃逸(架构感知、故障演练、异地活)的解决方案。其中PTS压测作为容量规划阶段重要的环节,可模拟海量用户的真实业务...

什么端低代码开发平台魔笔

什么端低代码开发平台魔笔 端低代码开发平台魔笔是面向全端(Web、H5、全平台小程序、App)场景,模型驱动的低代码开发平台(Low Code Development Platform),提供一站式的应用全生命周期管理,包括可视化开发、发布、运维;...

移植问题

本文介绍编译3.x和2.3.0版本的C Link SDK时,可能遇到的问题和解决方法。背景信息 如果您尚未接入物联网平台,推荐使用最新版本的SDK。更信息,请参见 概述。在Linux系统编译SDK后,运行Demo时,为何出现如core dump等错误?SDK提供的HAL...

开源ChaosBlade与商业化AHAS CHAOS故障演练对比

ChaosBlade是一款简单易用且功能...并加入钉钉群(群号:23196438)联系我们,开发人员根据您不同的企业系统架构、业务特征来提供演练场景、演练方案、企业落地实施等演练的咨询服务,帮助您更快更好地落地故障演练,保障企业业务的连续性。

主备切换有什么影响?

主备切换的影响 主备切换过程中,会出现1次闪断现象,持续时间约30秒。如果您的业务通过Primary节点的地址连接,那么由于节点角色发生变化,可能会对业务的读写操作造成影响,例如无法写入数据。业务部署建议 请提前为业务设计重连机制和...

常见问题

本文汇总了使用活容灾时的常见问题。MSHA基础常见问题 什么是...同城活单元格流量切零后,企业版RocketMQ的ons.log中为什么会出现日志brokerName=msha_mock_queueBrokerName?异地活如何查看MSHA-agent是否从HTTP流量中提取出了路由标?

概述

异地容灾 如果业务部署在个地域,可以通过在个地域创建主备实例,实现跨地域的数据库高可用,当一个地域出现故障时,只需要将业务手动切换到备实例即可。说明 主备实例切换耗时约 5 分钟,切换过程中,可能会出现链接闪断。建议在业务...

概述

TRaaS 技术风险防控平台,是以蚂蚁内部 SRE 长期实践方法论和内部工具沉淀为依托,形成的解决用户上云和分布式改造过程中,可观测、故障应急、容灾、混沌工程、资金安全、压测等运维问题平台产品。高可用管理平台 高可用管理平台(High ...

示例项目简介

全渠道业务中台一般会由用户中心、客户中心、商品中心、交易中心、支付中心、库存中心、促销中心等数个共享能力中心构成。因此,BizWorks团队从商品中心和用户中心里面截取少部分模型和能力作为示例项目,帮助您快速了解如何使用BizWorks...

内网访问安全常见问题

本文梳理了 SASE 内网访问安全的常见问题,如果您的业务中遇到相关问题可以参考解决。访问一个域名网站,如何配置内网DNS才能正常访问?如果您的业务组网中接入了PrivateZone,则 SASE 自动同步PrivateZone的解析数据,您无需在 SASE ...

如何制定科学有效的需求流程规范

1.需求流程的常见问题 问题1:反馈需求的渠道太,难以集中管理 如果团队没有使用协作平台一般会采用多人在线编辑的文档,在IM聊天工具中进行协同编辑。这种方法在短期的协作中是非常高效的,但是随着业务的发展,客户的增多,这种协同...

共享订阅

在下图中,业务服务端A、B使用相同的订阅组,物联网平台会把设备相关消息随机推送给A或者B。说明 阿里云物联网平台服务订阅已经集成共享订阅的能力,可以通过AMQP将消息发送给业务服务端。更信息,请参见 什么是服务端订阅。服务端任务...

应用场景

传统型负载均衡CLB(Classic Load Balancer)的应用场景为高访问量的业务,提高应用程序的可用性和可靠性。应用于高访问量的业务 如果您的应用访问量很高,您可以通过配置监听规则将流量分发到不同的云服务器ECS(Elastic Compute Service...

故障演练

有损演练是指直接在线上真实业务环境注入异常进行演练,演练模拟的真实有效性高,为了平衡业务影响一般会选择最核心场景、在业务最低峰期做演练,而且演练频次相对较小,例如为了验证活容灾能力的机房断网演练,一般是一个月一次的演练...

强弱依赖治理概述

如果商品详情页对下游依赖是强依赖,例如当下游依赖 库存、优惠、物流 出现故障的时候,将导致业务流程无法推进,会出现类似如下的说明,严重影响用户体验。如果商品详情页对下游依赖是弱依赖,例如当下游依赖 评价、店铺 等系统出现故障的...

实例运维常见问题

本文汇总了Lindorm实例在扩缩容、升降配、实例重启、版本升级等实例运维场景中的常见问题,包括但不限于操作耗时、业务影响及费用说明,帮助您快速了解运维操作中的相关细节和注意事项。问题导览 扩容、升配、服务开通 实例扩容节点需要...

外呼机器人常见问题解决方式

3)检查当前业务是否有绑定外呼号码(一般控制台内发起外呼时会进行校验业务下号码,但代码上传过程中会出现此状况);到号码管理中查看号码绑定情况。4)检查当前业务并发是否为0,业务并发为0时任务也无法正常发起;4、业务管理中,新建...

步骤五:应用容灾

故障恢复 本机出现故障后在云上拉起本地业务,待本地环境恢复后再将其恢复到本地。具体步骤如下:在 主站点管理 页签,单击+添加。在 添加计算平台 页面,填写计算平台 名称,选择 类型,填写 IP地址、用户名 和 密码。单击 创建。在连续...

2022-01-27

数据模型存储管控通知 平台将会对数据模型功能进行...支持人行版数据冷备能力 一体机运行阶段,可能会出现各种异常情况,导致一体机无法正常运行,这时就需要有冷备的高可靠方案,将一体机数据迅速迁移到另一台冷备机,实现业务的迅速恢复。

变更配置

警告 根据变更项不同,切换过程中可能会出现业务闪断或实例重启,而且与数据库、账号、网络等相关的大部分操作都无法执行,请选择在 可维护时间段 内执行变配操作。变更项 说明 业务影响 系列 支持 PostgreSQL基础系列升级高可用系列。...

自动SQL限流

SQL限流是限制数据库上执行SQL的并发度,通过限制问题SQL的并发度后,保障数据库正常响应业务请求,保障大部分的业务正常运转,即通过小部分业务受损,保障大部分业务正常运行。背景信息 随着技术的发展,尤其是云数据库的普及,数据库系统...

企迈云商

突发情况平台接入大量客户,出现请求洪峰,导致数据库压力激增,甚至承受不住。解决方案 企迈使用阿里云DAS数据库自治服务,支持多种数据库类型、多个数据库实例的批量管理,提供 巡检评分、监控大盘 等能力,能够快速定位到异常实例。...

容灾演练断网方式说明

在实例进行主备切换时,业务可能会出现长连接闪断的情况,以此验证业务是否具备失效重连机制。使用场景 部分业务或大规模业务实例不可用。Redis、RDS云服务高可用实例部分不可用。使用限制 安全组断网只针对新建立的网络连接进行阻断,并不...

实例的节点故障处理机制

当使用Connection String URI进行连接时,如果某个节点出现故障,不会因为节点的切换而影响应用的读写操作,详情请参见 副本集实例连接说明。分片集群实例 图 2.分片集群架构 分片集群实例的Shard节点和ConfigServer节点均采用三节点副本集...

跨可用区容灾

当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...

实例概述

物联网平台提供公共实例和企业版...设备接入物联网平台实例时的常见问题,请参见:设备接入物联网平台相关问题 设备认证相关问题 Link SDK相关问题 MQTT连接相关问题 设备与物联网平台通信常见问题,请参见:物模型相关问题 消息通信相关问题

Linux实例存在OOM问题的处理方法

概述 本文主要介绍当您的Linux实例存在OOM问题的处理方法。...包年包月实例升级配置 按量付费实例升级配置 您的业务程序存在缺陷 您可以根据业务应用日志中出现问题优化您的业务代码。继续观察,确认OOM问题不再出现。适用于 云服务器ECS

故障复盘

故障复盘规范 故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

问题汇总

等待资源 为什么会出现等待资源?为什么任务一直在等待gateway调度资源?为什么数据集成任务一直显示wait?为什么会空跑 什么是空跑?为什么会空跑?场景一:周月实例空跑周期 场景二:实时生成的过期实例 场景三:设置成功实例 场景四:...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
商标服务 云数据库 Redis 版 云服务器 ECS Web应用防火墙 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用