室内分布系统发生故障怎么办-室内分布系统发生故障怎么办文档介绍内容-阿里云

附录：SOFAStack 产品目录

SOFAStack 源于自蚂蚁内部沉淀十多年的金融级分布式中间件技术体系，吸收了支付宝自创立以来在关键金融交易系统锤炼出来的架构实践。SOFAStack 所有的产品技术均经过蚂蚁集团自身严苛的金融场景验证，为金融交易技术保证风险安全的同时，...

基本概念

针对金融级场景下大规模分布式系统的特点，提供了丰富的发布策略以满足不同的场景，帮助传统架构平滑过渡，适应金融技术风险保障需求，实现大规模金融级运维场景下的容器服务落地。ALB 负载均衡（Ant Financial Load Balancer，ALB）是将...

监控、诊断和故障排除

另外，通过日志的时间戳，不仅可以迅速查找和定位日志范围，还能够了解在请求发生时间点范围内，客户端应用、网络或者服务系统发生的其他事件，有利于问题的分析和调查。RequestID OSS服务会为接收的每个请求分配唯一的服务器请求ID，即...

测试指标

一般扩展能力非常好的应用系统，扩展指标应是线性或接近线性的，现在很多大规模的分布式系统的扩展能力非常好。标准理想的扩展能力是资源增加几倍，性能就提升几倍。扩展能力至少在70%以上。可靠性指标双机热备对于将双机热备作为可靠性...

什么是消息演练

随着应用规模的扩大，系统变得越来越复杂，不可避免地会走向分布式化。各种中间组件会相继被引入系统，其中分布式消息服务更是系统中必不可少的一环。这些消息服务之前并没有在系统中实际经历过真实流量考验，其中某些隐患或缺陷很难被发现...

前言

稳定性：无论在何种环境都无法避免单个组件故障的发生。稳定性的目标就是要尽量降低单个组件故障对业务带来的整体影响。该支柱侧重于如何让业务系统利用现代云平台的基础设施达到高可用，做到面向失败设计，具备一定容灾性的能力。同时把控...

应用容灾

当灾难发生时，多活系统可以分钟级内实现业务流量切换，用户甚至感受不到灾难发生。“同城多活架构”和“异地多活架构”（代号“单元化”）都是典型的应用多活实现技术。应用多活的优势分钟级RTO：恢复时间快，阿里内部生产级别恢复时间...

什么是应用高可用服务AHAS

故障演练故障演练是一款遵循混沌工程实验原理并融合了阿里巴巴内部实践的产品，提供丰富故障场景实现，能够帮助分布式系统提升容错性和可恢复性。流程故障演练建立了一套标准的演练流程，包含准备阶段、执行阶段、检查阶段和恢复阶段。...

自动或手动主备切换

当主实例发生故障或不可用时（例如操作系统错误、硬件故障等），系统会自动触发主备切换，主实例和备实例将进行互换，切换后实例地址保持不变，应用程序会自动连接到新的主实例（原备实例），从而保障业务的连续性和高可用性。此外，您还...

ECS系统事件概述

说明非预期运维事件一般指的是因底层宿主机发生了无法预测的故障，或者ECS实例的操作系统发生了内核错误等问题，导致ECS实例突然出现宕机或重启。因宿主机故障导致ECS实例宕机或重启事件（SystemFailure.Reboot）属于偶发现象，无法避免。...

主备方案介绍

灾备方案说明单可用区高可用方案主备节点部署在同一可用区中的不同机器上，当任一节点发生故障时，由高可用HA（High Availability）系统监控主备节点的健康状态并自动执行故障切换，避免单点故障引起的服务中断。同城容灾方案主备节点...

解决方案与客户案例

为了防止灾难性的故障如火灾、洪水、地震、区域电力中断或者人为破坏等对信息系统造成不可挽回的破坏，需要构建容灾系统来保障信息系统的可用性和安全性。2007年，国务院信息化办公室联合银行、电力、民航、铁路、证券等八大重点行业，制定...

混沌工程缓存实战系列-Redis

Redis是一个开源高性能的Key-Value存储系统，虽然Redis本身具备了非常高的可用性，但是在实际应用中也会随着系统业务的复杂性以及不合理的使用，而导致很多的问题。本文将讲述如何通过混沌工程来暴露可能存在的使用风险，提升缓存问题的...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题，可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题，更直观地了解调用链分析的用法与价值。背景...

混合云应用双活容灾最佳实践

说明演练前，基于MSHA流量监控或其他监控产品，确定业务稳态的监控指标（如日常情况RT≤200ms，错误率），以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。步骤二：应用故障注入这里使用阿里云故障演练产品，对...

可用性与可靠性

主备多副本与云盘三副本 AnalyticDB PostgreSQL版是基于MPP架构的分布式数据库，对于所有的分布式系统来说，在通过分布式来增强性能的同时，也带来了节点故障率增高的问题，通常分布式系统会通过多副本的方式来保证系统在某些节点异常情况...

什么是多活容灾

容灾系统评价指标容灾系统主要为了在灾难发生时业务不发生中断，那么当灾难发生时，用户最关心的是什么呢？以下是国际通用的容灾系统的评审标准Share 78，可以作为广大用户衡量和选择容灾解决方案的指标。以下是备份/恢复的范围：灾难恢复...

同城容灾演练产品概述

当企业的业务迁移部署在阿里云上，可使用阿里云的云解析DNS（Alibaba Cloud DNS）、负载均衡SLB（Server Load Balancer）、关系型数据库RDS（Relational Database Service）等产品，搭建同地域多可用区容灾系统架构，实现同城容灾。...

日志管理

如果发生故障，您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志在浏览器中，输入 https://<块网关IP地址>访问本地块网关控制台。输入用户名和密码，单击确认。单击关于，进入关于系统页面。找到日志信息区域，...

概述

任务调度 TS（Task Scheduler）提供分布式任务调度框架，实现任务的分布式处理，并能规范化、自动化、可视化和集中化对金融企业不同业务系统的任务进行统一的调度和全方位监控运维管理，达到所有任务有序、高效运行的目的，极大降低开发和...

EDAS直播公告

企业级分布式应用服务EDAS 3.0重磅发布安利的企业微服务架构转型之路云途时代数字化转型实践 EDAS 3.0核心功能演示 2020-05-15 微服务治理实践之金丝雀发布应用的有些故障是因为发布直接或间接引起的，因此提升发布的质量，减少错误的...

安全注意事项

安装、操作、维护过程中，为避免发生划伤、磕碰、触电等安全事故的发生，请佩戴如下图所示专用防护设备和绝缘工具。安装注意事项边缘一体机应在符合安装环境要求的环境下使用，否则可能造成设备故障，由此引发的设备功能异常或部件损坏...

日志说明

sys.baggage 系统透传的 baggage 数据 bus.baggage 业务透传的 baggage 数据 server.send.time RPC 请求转发耗时（预留字段，暂未启用）req.size 请求数据大小 resp.size 响应数据大小 phase.time 各阶段耗时明细 special.time 特殊时间点...

日志管理

如果发生故障，您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志在浏览器中，输入 https://<文件网关IP地址>访问本地文件网关控制台。输入用户名和密码，单击确认。单击关于，进入关于系统页面。找到日志信息区域...

SOFAMesh 服务网格总体经济影响报告

故障复盘资源消耗节省对于监管要求极高的金融企业，在故障出现后要进行全面复盘，以确保系统未来的可用性，避免类似事故发生。但复盘也消耗大量开发运维人员的时间，对工作效率产生影响。组件能力提升解耦后的微服务的公共组件、业务组件...

事件驱动架构

什么是事件驱动架构事件驱动架构是一种松耦合、分布式的驱动架构，收集到某应用产生的事件后实时对事件采取必要的处理后路由至下游系统，无需等待系统响应。使用事件总线EventBridge 可以构建各种简单或复杂的事件驱动架构，以标准化的...

App端性能体验功能说明

目前记录用户崩溃前十步内的页面浏览跳转行为，作为排查崩溃发生时的用户场景还原设备分布在一定时间范围内，按照机型维度对错误次数的排行 系统分布 在一定时间范围内，按照系统维度对错误次数的排行运营商分布在一定时间范围内，按照...

基于TairString实现高性能分布式锁

分布式锁是大型应用中最常见的功能之一，基于Redis实现分布式锁的方式有很多。本文先介绍并分析常见的分布式锁实现方式，之后结合阿里巴巴集团在使用云原生内存数据库Tair 和分布式锁方面的业务经验，介绍使用 Tair 实现高性能分布式锁的...

事件中心

最近两周事件热力图展示近两周内满足过滤条件的事件发生次数按小时统计的热力分布。颜色越深，说明该小时内发生的事件数量越多。不同来源事件占比展示不同来源事件的数量占比。不同来源事件数量走势展示不同来源事件在选定时段内的走势...

多可用区部署和更换主可用区

相比单可用区集群，多可用区集群具备更高的容灾能力，可以抵御机房级别的故障。本文将为您介绍如何实施多可用区部署以及如何更换主可用区。前提条件可用区数量为两个及以上的地域。目标可用区拥有足够计算资源。多可用区架构使用多可用区...

多可用区部署和更换主可用区

相比单可用区集群，多可用区集群具备更高的容灾能力，可以抵御机房级别的故障。本文将为您介绍如何实施多可用区部署以及如何更换主可用区。前提条件可用区数量为两个及以上的地域。目标可用区拥有足够计算资源。多可用区架构使用多可用区...

功能概览

跨地域容灾容灾系统部署在阿里云的两个地域中，当生产站点发生故障（例如海啸、地震）时，业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域，提供容灾即服务，RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障，有效避免...

产品架构

服务熔断服务熔断主要目的是当某个服务故障或者异常时，如果该服务触发熔断，可以防止其他调用方一直等待所导致的超时或者故障，从而防止雪崩。产品架构如下：Provider App：指服务提供端发布服务，并向注册中心注册。Consumer App：指...

AI助手使用说明

当发生故障或异常时，通过AI助手底层的告警系统可以自动和PAI进行交互，上报故障信息，并根据故障触发阶段和并行策略选择规避故障方法，对故障机自动进行隔离，并从Checkpoint快速恢复任务。AI助手提供的具体功能如下：异常采集和上报：...

跨地域容灾

容灾系统部署在阿里云的两个地域中，当生产站点发生故障（例如海啸、地震）时，业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域，提供容灾即服务，RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障，有效避免了地域性...

基于ack-lingjun-aiast组件实现集群自动化运维

组件介绍安装灵骏AI助手开启PAI的作业监控和恢复功能后，当发生故障或异常时，灵骏AI助手的告警系统可以自动和PAI进行交互，并上报故障信息，并根据故障触发阶段和并行策略选择规避故障的方法，自动隔离故障节点，并通过checkpoint快速...

跨地域容灾

容灾系统部署在阿里云的两个地域中，当生产站点发生故障（例如海啸、地震）时，业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域，提供容灾即服务，RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障，有效避免了地域性...

开源ChaosBlade与商业化AHAS CHAOS故障演练对比

商业化AHAS CHAOS故障演练是阿里巴巴内部广泛使用的演练平台云上版本，具有灵活的流程编排、丰富的故障场景等特点，可以帮助企业提升分布式系统的容错能力，保障在企业上云或往云原生系统迁移过程中业务的连续性。AHAS CHAOS故障演练在...

应用场景

当其中一部分ECS实例发生故障后，CLB 会自动屏蔽故障的ECS实例，将请求分发给正常运行的ECS实例，保证应用系统仍能正常工作。同城容灾（多可用区容灾）为了提供更加稳定可靠的 CLB 服务，CLB 已在各地域部署了多可用区以实现同地域容灾。当...

什么是全局事务服务GTS

全局事务服务GTS（Global Transaction Service）用于实现分布式...在单机数据库下很容易维持事务的ACID（Atomicity、Consistency、Isolation和Durability）特性，但在分布式系统中并不容易，GTS可以保证分布式系统中分布式事务的ACID特性。

室内分布系统发生故障怎么办

新品推荐