监控服务概览

OpenAPI访问监控数据 OSS服务的相关监控指标数据可以通过云监控提供的OpenAPI访问,使用方法请参见:云监控SDK参考 访问监控数据 监控、诊断和故障排除 监控诊断和故障排除 通过详细介绍以下各个方面的内容帮助您更好地了解OSS服务的运行...

支持计划

配置指导以及故障排除 配置指导以及故障排除 配置指导以及故障排除 专属技术服务经理 不支持 不支持 专属技术服务经理(TAM)健康检查 可免费使用智能顾问Advisor 可免费使用智能顾问Advisor 可免费使用智能顾问Advisor。专属技术服务经理...

监控、诊断和故障排除

故障排除:提供常见的问题场景和故障排除方法。服务监控 监视总体运行状况 可用性和有效请求率 可用性和有效请求率是有关系统稳定性和用户是否正确使用系统的最重要指标,指标小于100%说明某些请求失败。可能因为一些系统优化因素出现暂时...

增量迁移源服务器

常见错误及修复方案,请参见 故障排除 和 常见问题。相关操作 在增量迁移的过程中,您可以执行下列操作:暂停增量迁移任务。具体操作步骤如下:说明 仅当增量迁移任务状态为 同步中 或 等待中 时,您才可以暂停该任务。在 迁移任务 页面,...

业务连续性

该系统的主服务是部署在瑞士的 ENS 节点,主服务采用了多实例加负载均衡的架构,以规避 ENS 实例单点故障引起的业务中断。备服务部署在就近的德国 ENS 节点(备服务也可以选择就近的公有云地域中),备服务同样采用了多实例加负载均衡的...

设计方案

在突袭演练中,红蓝双方是纯对抗的关系,因此对红蓝双方提出了更高的要求,蓝军不仅需要了解目标系统的薄弱,更需要了解目标系统的业务,红军不仅仅需要修复故障,还需要快速的发现故障和有效的应急协同。相比较计划演练,突袭演练涉及到...

服务支持

NLP自然语言处理 常见问题 调用异常自助排查(错误码汇总)服务协议 NLP自学习平台 常见问题 实体抽取项目常见问题 故障排除 私有化部署 企业智能搜索 错误码对照表 常见问题

什么是云工作流(CloudFlow)

方便您快速识别故障位置,并快速排除故障问题。支持长时间运行流程 云工作流 可以跟踪整个流程,持续长时间执行确保流程执行完成。有些流程可能要执行几个小时、几天、甚至几个月。例如运维相关的Pipeline和邮件推广流程。流程状态管理 云...

使用OpenAPI诊断工具进行故障排查

阿里云OpenAPI平台提供使用诊断工具。本文介绍如何使用OpenAPI诊断工具进行故障排查。您可以登录 OpenAPI使用诊断,输入完整的RequestID或SDK报错信息,然后...如果诊断工具仍未能解决您的问题,您可以参考 故障排除、常见问题 获取解决方案。

快速体验ADP

预估产品在部署后的可靠性,及早发现并排除交付隐患 利用1台或多台服务器,一键搭建稳定可靠的Kubernetes集群,并部署运行自己的业务应用 通过本地运维控制台,对部署完成的产品进行可视化的监控、配置告警通知、故障分析诊断等运维管理 2....

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

ModifyBackupPolicy-修改防勒索策略

500 ServerError ServerError 服务故障,请稍后重试!访问 错误中心 查看更多错误码。变更历史 变更时间 变更内容概要 操作 2023-03-23 OpenAPI 错误码发生变更 看变更集 变更项 变更内容 错误码 OpenAPI 错误码发生变更。删除错误码:400 ...

可观测性的设计原则

通过在系统中实现分布式跟踪,可以快速定位问题并进行有效的故障排除。链路跟踪可以通过在系统中添加跟踪标识符来实现。当请求进入系统时,标识符将被添加到请求中,并在整个系统中传递。每个组件都可以将标识符添加到它们的日志中,以便在...

远程登录

但设备在业务故障导致无法在控制台开启远程登录进行设备运维,设备可以定时主动请求最新的隧道登录信息,将隧道功能运行在独立进程中,保证当业务故障时隧道仍在运行,可以远程登录运维。步骤3:处理隧道信息 处理隧道信息回调函数,创建...

故障基础数据管理

在定义故障等级的时候,需要从功能等级、业务体量、业务特性、量化影响4个维度进行设计,一个简要的通用故障等级定义参考模板如下:业务量级 功能分类 影响面 P1 P2 P3 P4 大体量 核心功能 成功率下跌30%及以上 P1 成功率下跌20%~30%P2 ...

自动故障剔除

自动故障剔除功能会自动监控 RPC...com.alipay.sofa.rpc.aft.regulation.effective false 全局开关:如果应用打开了这个开关,则会开启整个单点故障自动剔除功能,否则该功能不启用。说明 每个参数都有默认值,您可以根据需要自行修改参数值。...

流水单据型业务场景多活实践

在 读多写少型业务场景多活实践 中,已经将导购链路进行了异地多读改造,而该业务后续在一次大促期间,遭遇了一次订单应用大面积故障,导致大促期间下单业务长时间无法使用,于是下单业务的容灾建设也提上了议程。下单业务是典型的流水单据...

产品优势

大规模并发,安全高效 云化高可靠集群架构,避免单点故障。多协议支持,广泛设备接入,大容量高并发,支持百万级设备资源接入。访问控制,网络链路、存储安全,保障用户数据安全可靠接入、存储和分发。按需使用,弹性扩容 网络、计算、存储...

产品优势

简单易用 服务开箱即用:支持即开即用的方式,购买之后即可使用,方便业务快速部署。...高可用 每个实例均有主从双节点:避免单点故障引起的服务中断。硬件故障自动检测与恢复:自动侦测硬件故障并在数秒内切换,恢复服务。

读多写少型业务场景多活实践

导购链路对商品应用是强依赖,强依赖故障将导致业务不可用,因此故障的爆炸半径应该控制在单元内。创建故障演练。创建杭州单元商品中心故障的演练,具体操作,请参见 创建演练。故障注入。在多活容灾的 监控大盘 页面 异地双活 区域,查看...

强弱依赖治理概述

故障根源定位:后台系统的故障,往往通过上一级的业务故障表现出来。故障处理讲究的是争分夺秒,良好的强弱依赖,对于系统自动化诊断有非常大的助力作用。依赖容量评估:正常调用链路下的系统容量需要评估。例如当某个弱依赖挂掉时,需要...

故障演练

重要 故障演练会通过将被演练的资源关闭,使资源处于人工构造的故障状态,请确保您已将演练资源进行冗余配置,否则会导致业务中断.故障演练过程中控制台的资源状态显示存在一定的时延,但不影响底层资源状态切换的时效性。使用限制 每个...

导入迁移源概述

迁移源概指待迁移IDC服务器、虚拟机、其他云平台的云主机或其他类型的服务器。本文主要介绍迁移场景及其导入迁移源的方式对比。...常见问题及修复方案的更多信息,请参见 SMC FAQ 和 故障排除。SMC提供多种技术支持渠道,请参见 联系我们。

使用云监控功能监控网站环境(部署于ECS实例)

设置合理的监控可以让您实时了解系统业务的运行情况,并能帮助您提前发现问题,避免可能会出现的业务故障。同时,告警机制能让您在故障发生后第一时间发现问题,缩短故障处理时间,以便尽快恢复业务。前提条件 在开始设置云监控前,您需要...

概述

分区剪枝机制支持以下两种剪枝方式:排除约束 快速剪枝 排除约束 参数 constraint_exclusion 用于控制排除约束,取值范围:on、off 或partition,默认为partition。如果参数 constraint_exclusion 为partition或on,则表示启用排除约束;...

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生、故障发现、业务响应、恢复执行、故障恢复几个时间 故障原因分析:建议先一句话总结,再进行...

查询密钥和凭据的使用记录

KMS支持和操作审计、日志服务集成,记录密钥和凭据使用过程中的各种事件,用于故障排除、安全监控等。本文介绍如何查询密钥以及凭据的使用记录。背景信息 通常我们将密钥和凭据的事件分为两部分,一部分是管控类操作,例如密钥的创建、删除...

新手指引

模块问题 计费常见问题 数据库常见问题 流量统计常见问题 网站管理常见问题 管理控制台常见问题 网站耗资源(客户程序故障)常见问题 更多常见问题,请参见 常见问题和故障排除汇总。反馈与建议 在使用阿里云云虚拟主机时,如果有任何疑问...

控制台用户和程序用户分离

当身份同时被控制台和程序使用时,如果人员离职回收身份,会造成程序访问失败,进而造成业务故障。风险等级 中风险。最佳实践 应用程序用户和人员用户分离,避免混用。具体如下:应用程序用户:仅启用OpenAPI调用访问方式。且不同的应用...

同城多活常见问题

因为这样会涉及业务重启恢复,如果每次容灾演练都需要全部业务配合进行机器重启及顺序控制,这样是用户无法接受的。数据库是两个机房各一个主备,还是主机房一主一备,备机房一备的部署形态?一主一备。若新增备节点,成本可控下可多备节点...

什么是功能开关

背景信息 通常业务代码中包含许多的配置项,这些配置项用于控制各种各样的业务逻辑,例如一个bool类型的变量控制某个功能是否开启,一个list控制访问白名单或黑名单,一个String控制提示信息。开发者通常希望可以动态、实时地去查看和修改...

标准架构

标准架构单副本类型的适用场景:纯缓存类业务场景 单副本架构不能提供数据可靠性,如果发生节点故障,您需要重新对业务进行预热,因此,在对数据可靠性要求较高的敏感性业务中,建议选用双副本架构。对Redis协议兼容性要求较高的业务 标准...

EMR Kafka磁盘故障运维

原Broker数据恢复方式 方案描述 当磁盘故障时,如果磁盘IO性能已经明显下降,则需要快速隔离故障磁盘避免因单点故障影响集群性能。磁盘隔离之后,对应kafka日志目录处于offline状态。此时,如果分区存在ISR副本或者允许分区数据丢失,可以...

创建压测场景

淘宝网需要压测两个业务,要求两个业务同时进行,这两个业务即为两个业务会话:业务A:浏览产品A。业务B:购买产品B。业务B中包含四个请求,要求四个请求按照先后顺序发起,这4个请求即为4个API:请求1:登录。请求2:浏览产品B。请求3:...

包年包月新手引导

云防火墙 不仅可以防护从互联网到业务的访问流量,同时还能控制业务到互联网的主动外联访问,对业务业务间的访问进行控制。本文介绍 云防火墙 的最佳防护策略以及使用流程。最佳防护策略 功能模块 子类 默认状态 是否要调整 防火墙开关 ...

产品优势

自学习用户业务流量和特征 动态生成正常业务基线 快速发现流量和特征异常 自动介入分析攻击特征 自动生成多维度组合策略 动态执行或撤销防护策略指令 稳定、高可用 DDoS高防采用高可用网络防护集群,避免单点故障和冗余,且处理性能支持...

NVMe协议介绍

实际业务使用过程中单点故障是常态,确保故障情况下业务连续性是高可用系统的核心能力,在云上存储和网络具备极高的可用性。而计算节点则经常受断电、宕机、硬件故障等影响,所以业务通常搭建主备模式解决计算的高可用问题。例如数据库场景...

主备方案介绍

灾备方案 说明 单可用区高可用方案 主备节点部署在同一可用区中的不同机器上,当任一节点发生故障时,由高可用HA(High Availability)系统监控主备节点的健康状态并自动执行故障切换,避免单点故障引起的服务中断。同城容灾方案 主备节点...

解决方案与客户案例

支持多活能力的主要服务类型是单元化服务,但是当业务系统比较复杂时,可能难以实现所有业务模块均按某一个维度划分,或者某些业务服务必须要单部署以避免分布式部署的一致性问题,此时可由中心化服务和普通服务提供相应能力支持。...

通过异步复制功能实现容灾恢复

步骤二:故障切换 故障切换功能可以开启从盘的读写权限,建议您根据业务的实际情况,提前在从盘所属的地域和可用区下临时创建ECS实例,当主盘发生故障时,将开启读写权限的从盘挂载到临时创建的ECS实例上继续运行业务,直到主盘故障修复...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
物联网无线连接服务 云数据库 Redis 版 云服务器 ECS 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用