附录:SOFAStack 产品目录

FMT 是一种无侵入的分布式事务解决方案,该模式解决了分布式事务的易用性问题,最大的特点是易于使用、快速接入以及对业务代码无侵入。Saga 模式:Saga 是一种补偿协议,在 Saga 模式下,分布式事务内有多个参与者,每一个参与者都是一个冲...

故障演练

当服务规模大于一定量(如10000台)时,小概率的硬件故障每天都会发生。这时如果需要人的干预,系统就无法可靠的伸缩。为此每一层的系统都会面向失败做设计,对下游组件零信任,确保在故障发生时可以快速的发现和处理。但这些措施在故障...

设计方案

故障恢复 定位故障原因后,按照应急预案快速恢复业务,并在事后进行复盘总结。预案执行:在故障响应的过程中,需要按照事先制定的应急预案进行执行。应急预案包括了应急响应流程、各个岗位的职责、处理流程等。预案执行能够保证故障恢复和...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

创建和管理服务器组

警告 关闭健康检查,NLB 不再检查端服务器,一旦某台端服务器发生故障,则无法实现访问流量自动切换至其它正常的端服务器。若延长健康检查的间隔时间,端服务器出现故障时,NLB 发现故障后端服务器的时间也会变长。移除端...

性能监控最佳实践

提高故障排查效率:当系统或应用出现故障时,传统的性能监控方案通常需要IT运维人员手动分析监控数据来确定故障原因,这样会浪费大量的时间和精力。而一体化性能监控能够对多种关联的监控数据进行自动分析和处理,帮助IT运维人员快速定位...

混合云应用双活容灾最佳实践

故障注入成功,打开电商首页或进行下单,有概率出现访问异常,则符合预期。步骤三:切流恢复 在北京单元的商品应用故障的情况下,可以通过MSHA切流功能,将云上入口流量切0,快速恢复业务。预期效果:100%流量切换到杭州单元,业务完全...

DDH常见问题

阿里云为您提供DDH故障迁移服务,开启服务,DDH因故障停机时,会自动迁移至健康的DDH。更多信息,请参见 修改DDH故障迁移配置。购买DDH时怎么选择云盘和公网带宽?创建DDH的时候不需要选择云盘和公网带宽,在DDH上创建ECS实例的时候才...

消费重试

消费者出现异常,云消息队列 RocketMQ 版 会根据消费重试策略重新投递该消息进行故障恢复。本文介绍消费重试的应用场景、原理机制、版本兼容性和使用建议。应用场景 云消息队列 RocketMQ 版 的消费重试主要解决的是业务处理逻辑失败导致的...

模型配置

在复购预测中,需要先完成模型配置,当且仅当模型执行成功,可基于模型进行复购预测。模型训练成功,您可以查看训练中前10个最重要的特征,并通过模型验证了解该模型的准确率、召回率预期。前提条件 算法模型需要依赖行为数据集作为...

常见问题

PolarDB 每个节点都有一个故障切换(Failover)优先级,决定了故障切换时被选举为主节点的概率高低。当多个节点的优先级相同时,则有相同的概率被选举为主节点,详情请参见 自动/手动主备切换。备份与恢复 Q:PolarDB 采用什么备份方式?A...

通过CADT实现NLB可用区级容灾演练

云速搭CADT(Cloud Architect Design Tools)容灾管理服务提供规划、部署、演练高可用业务的能力,在业务上线前及业务上线定期进行容灾演练,验证系统是否能够抵御资源故障或者可用区故障,保障系统健壮性。本文为您介绍如何通过CADT实现...

通过CADT实现ALB可用区级容灾演练

云速搭CADT(Cloud Architect Design Tools)容灾管理服务提供规划、部署、演练高可用业务的能力,在业务上线前及业务上线定期进行容灾演练,验证系统是否能够抵御资源故障或者可用区故障,保障系统健壮性。本文为您介绍如何通过CADT实现...

变更管理

旨在对关键系统和服务进行操作的同时最大限度的减少服务中断的风险。变更管理的重要性 变更管理作为在项目/组织在运行过程中重要一环,一直以流程笨重、繁琐著称。很多使用者对其产生抵触心理,认为其过于僵化。但事实并非如此,如果将变更...

数据探索函数

不由趋势或周期性影响而产生的变化,由各种各样的其他原因所导致。decompose_col:double类型。输入的要进行时序分解的列。other_col:string类型。输入的其他列。示例一:加法模型 SELECT X11_DECOMPOSE('{"model":"additive","period":"3...

测试指标

Maxtsiz 字节 任一用户进程的文本段的最大大小 nflocks 个 文件锁的最大数量 maxtsiz_64bit 字节 任一用户进程的文本段的最大大小 msgmni 个 系统级System V IPC消息队列(ID)所允许的最大数量 msgtql 个 系统中任意时间的最大System V IPC...

常见问题

PolarDB 每个节点都有一个故障切换(Failover)优先级,决定了故障切换时被选举为主节点的概率高低。当多个节点的优先级相同时,则有相同的概率被选举为主节点,详情请参见 自动/手动主备切换。备份与恢复 Q:PolarDB 采用什么备份方式?A...

存储资源

缓存穿透 大量的请求查询或访问不存在的数据,导致缓存无法命中,每次都需要访问端数据源,从而增加了端数据库的负载和响应时间。可能会造成系统性能下降,数据库压力增加等问题。常见的容错策略如下:布隆过滤器:使用布隆过滤器对...

K8s应用运维管理最佳实践

如果发布不符合预期应及时回滚,使应用恢复到稳定状态,处理好异常再进行下一次发布。请勿在不符合预期时仍继续发布,将导致无法回滚到上一个稳定状态。回滚应用,请参见 使用控制台回滚应用(K8s)。应用排障 此处介绍常见的应用排障...

远程连接FAQ

以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低频率原因排查,从而帮助您快速找到问题的原因。如果解决完某个可能原因仍未解决问题,请继续排查其他可能原因。可能原因 处理措施 服务器状态异常 只有状态为 运行中 的轻...

基于TairString实现高性能分布式锁

在云Redis版中使用 WAIT 命令提高分布式锁一致性的示例如下:SET resource_1 random_value NX EX 5 WAIT 1 5000 使用以上代码,客户端在加锁会等待数据成功同步到replica才继续进行其它操作,最大等待时间为5000毫秒。执行 WAIT 命令...

常见报错及解决方案

Q:谐云组件故障排查思路 A:elasticsearch《故障排查思路》mysql《故障排查思路》redis《故障排查思路》harbor《故障排查思路》通用排查《中间件通用故障排查思路》ingress《故障排查思路》rocketmq《故障排查思路》kafka《故障排查思路》...

节点异常问题排查

本文目录 类别 内容 诊断流程 诊断流程 常见排查方法 节点故障诊断 检查节点的详情 检查节点的状态 检查节点的事件 检查节点的诊断日志 检查节点的关键组件 检查节点的监控 检查节点的安全组 常见问题及解决方案 节点关键组件异常处理 ...

节点异常问题排查

本文目录 类别 内容 诊断流程 诊断流程 常见排查方法 节点故障诊断 检查节点的详情 检查节点的状态 检查节点的事件 检查节点的诊断日志 检查节点的关键组件 检查节点的监控 检查节点的安全组 常见问题及解决方案 节点关键组件异常处理 ...

Pod异常问题排查

Pod访问数据库概率性网络断联 诊断流程 查看Pod是否处于异常状态,具体操作,请参见 检查Pod的状态。如果Pod状态异常,可通过查看Pod的事件、Pod的日志、Pod的配置等信息确定异常原因。具体操作,请参见 常见排查方法。关于Pod异常状态及...

功能概述

数据库发生故障,无法在发生故障时定位到原因,可以通过智能压测功能,在克隆库上复现故障场景,定位故障原因。功能架构 智能压测的功能架构如下图所示:源数据库:将要进行大促、将要业务变更或者已经发生故障,需要进行流量捕获的数据...

功能特性

此外,在数据库实例发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。智能压测 搜索分析 查询并导出SQL语句对应的日志信息。搜索 SQL洞察 SQL洞察聚类分析,用作深度异常的排查。SQL洞察 安全审计 内置了...

流量回放和压测

数据库发生故障,无法在发生故障时定位到原因,可以通过智能压测功能,在克隆库上复现故障场景,定位故障原因。注意事项 为减少网络延迟对压测的影响,压测客户端和目标实例需要在同一个地域。说明 建议将压测客户端和目标实例放入同一个...

智能压测

数据库发生故障,无法在发生故障时定位到原因,可以通过智能压测功能,在克隆库上复现故障场景,定位故障原因。注意事项 为减少网络延迟对压测的影响,压测客户端和目标实例需要在同一个地域。说明 建议将压测客户端和目标实例放入同一个...

如何解决MSE Nacos实例域名无法解析的问题?

如果使用的是ACK,请 提工单 联系ACK技术支持协助排查CoreDNS故障原因。方案二:使用ping命令 使用 ping${mse.nacos.host} 指令尝试解析。如果提示 unknown host,则无法解析域名。如果提示 PING${mse.nacos.host}(xxx.xx.xx.xx)56(84)...

监控指标说明

该指标协助您进行作业诊断,排查作业Task级别的故障原因。次数 TM GC Time 每次TM GC时间。长时间GC会导致占用过大内存空间,从而影响作业性能。该指标协助您进行作业诊断,排查作业级别的故障原因。毫秒(ms)TM ClassLoader/...

高斯分布拟合

功能说明 高斯拟合分布组件支持对给定数据点进行高斯分布拟合,利用KS检验数据是否服从高斯分布,输出拟合概率分布,以及KS检验结果、高斯分布均值、标准差。计算逻辑原理 高斯分布:若随机变量 服从一个位置参数、尺度参数为 的概率...

卡方分布拟合

功能说明 卡方分布拟合组件支持对给定数据点进行卡方分布拟合,利用KS检验数据是否服从卡方分布,输出拟合概率分布,以及KS检验结果、卡方分布自由度。计算逻辑原理 卡方分布:卡方分布是统计推断中应用最广泛的概率分布之一。其定义为...

电子表格支持函数说明

BINOM.DIST.RANGE-BINOM.INV-BINOMDIST 给定样本总量的成功率,在每次检验均恢复初始样本集的条件下,计算在指定检验次数中取得指定成功次数(或最大成功次数)的概率。CHIDIST 计算右尾卡方分布(通常用于假设检验)。CHIINV 计算右尾卡...

一键诊断

相关文档 通过一键诊断了解数据库性能情况的全貌,您可以使用如下功能对数据库进行全面细致的诊断,准确定位故障原因,并解决故障。会话管理 性能趋势 锁分析 慢SQL 空间分析 常见问题 Q:一键诊断中,如何计算会话的线程使用率、连接数...

应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断

泊松分布拟合

功能说明 泊松分布拟合组件支持对给定数据点进行泊松分布拟合,利用KS检验数据是否服从泊松分布,输出拟合概率分布,以及KS检验结果、泊松分布的期望(方差)。计算逻辑原理 泊松分布:泊松分布的概率密度函数为 泊松分布的参数是 单位...

什么是用户体验监控

完整再现用户操作过程,从页面打开速度(测速)、请求服务调用(API)和故障分析(JS错误、网络错误等)稳定性(JS错误、崩溃、ANR 等)方面监测前端应用性能表现情况,并支持日志数据查询,帮助您快速跟踪定位故障原因,提升用户体验。...

云盘三副本技术

重要 如果ECS实例由于病毒感染、人为误删除或黑客入侵等软故障原因造成数据丢失,需要您采用备份或者快照等技术手段来解决。任何技术都不可能解决全部问题,因地制宜地选择合适的数据保护措施,才能为您的业务数据筑起一道坚实的防线。更多...

故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者...故障复盘与改进措施 故障复盘信息同步,在故障结束,对故障原因责任人等进行定位与定责。对故障进行复盘,需针对此次故障件进行针对性的改进,避免后续再次发生此类故障。
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 短信服务 号码认证服务 负载均衡 弹性公网IP 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用