高可用和容灾设计

具体请参见各引擎的迁移可用区文档:RDS MySQL迁移可用区 RDS PostgreSQL迁移可用区 RDS SQL Server迁移可用区 当备实例出现故障不可用时,主实例进行实时备份,主实例备份临近完成时产生全局锁(FTWRL),导致主实例只读,一般不会...

故障注入

您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。配置故障注入规则 登录 SOFAStack 控制台。在左侧菜单栏选择 中间件>微服务平台>服务网格>服务治理,然后单击 故障注入 页签。单击 添加注入 ...

MSE Ingress支持的Annotation

服务:作用为服务的Annotation,其作用范围为当前Ingress上出现的Service,该作用影响其他Ingress上出现的相同Service。Annotation前缀 MSE Ingress支持所有Nginx Ingress的Annotation,例如 nginx.ingress.kubernetes.io/xxx 的作用与...

MSE Ingress支持的Annotation

服务:作用为服务的Annotation,其作用范围为当前Ingress上出现的Service,该作用影响其他Ingress上出现的相同Service。Annotation前缀 MSE Ingress支持所有Nginx Ingress的Annotation,例如 nginx.ingress.kubernetes.io/xxx 的作用与...

远程连接FAQ

检查是否为海外服务器 中国内地访问其他国家和地区地域下的轻量应用服务器,可能会出现较大延迟和丢包,造成无法访问服务器的问题。该问题受国际运营商的影响,无法在服务器中修复。更多信息,请参见 远程连接非中国内地服务器时,提示连接...

摘除离群实例

Ribbon负载均衡刷新默认间隔是30秒,如果配置的恢复检测单位时间小于30秒,会出现恢复不及时的问题。为了保护应用A的服务性能和可用性,可以为应用A配置离群实例摘除。配置后,即可监控B、C、D应用的实例状态并进行动态调整(摘除或添加)...

金融云推荐架构(专有网络)

当一个机房出现故障时,不会引起服务中断。这里主要的思路是:通过SLB接入,ECS使用低配多台并分别放在不同的可用区,使用RDS服务而不要自己搭建数据库。Q:堡垒机或跳板机是否是必须的?A:不是必须的。但强烈建议使用堡垒机的方式进行...

MSE Ingress支持的Annotation

服务:作用为服务的Annotation,其作用范围为当前Ingress上出现的Service,该作用影响其他Ingress上出现的相同Service。Annotation前缀 MSE Ingress支持所有Nginx Ingress的Annotation,例如 nginx.ingress.kubernetes.io/xxx 的作用与...

主机健康诊断

如果 ping 不通,说明无法连通外一般是默认路由没有设置,或者设置了多条默认路由,使用命令 ip route 可查看路由表,带有 default 字样的为默认路由。ping 外网域名,例如www.baidu.com。可以 ping 通,说明DNS配置正确。如果 ping ...

故障注入

您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。功能简介 故障注入流程如下所示:在微服务中,其实现方式为:管控台 MS 拼接故障注入规则,将其发送到 DRM。MOSN 和 RPC 客户端订阅 DRM 的 Key...

围绕混沌工程的平台实践

本文主要介绍AHAS Chaos是如何围绕混沌工程来打造故障演练服务,您可以了解到混沌工程的基本知识和AHAS Chaos的优势。混沌工程和故障演练 首先您需要了解混沌工程和故障演练的关系。以下是混沌工程官方定义:混沌工程是在分布式系统上进行...

组合类型

圆括号之外的空格被忽略,但是在圆括号之内空格被当成值的一部分,并且根据数据类型的输入转换规则可能有意义,也可能没有意义。例如,在 '(42)' 中,如果类型是整数则空格被忽略,而如果是文本则空格不会被忽略。如前所示,在...

什么是弹性高性能计算E-HPC

弹性高性能计算将计算能力积聚,用并行计算方式解决更大规模的科学、工程和商业问题,在科研机构、石油勘探、金融市场、气象预报、生物制药、基因测序、图像处理等行业均有广泛的应用。产品架构 弹性高性能计算的产品架构如下图所示。弹性...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现问题。本文介绍如何在ACK集群中使用集群诊断功能。前提条件 已创建Kubernetes托管版集群。具体...

节点诊断

节点文件系统只读状态 节点出现文件系统只读,通常是因为磁盘故障导致节点无法写入数据,可能造成业务异常。请尝试在节点上使用fsck命令修复文件系统,然后重启节点。节点硬件时间 检查节点硬件时钟与系统时间是否一致,时间相差超过2...

常见问题概览

无集团上云商品标签的客户,在购买集团内部按量付费商品时为什么会出现如下错误提示?登录数据库 如何正确的填写登录DMS的数据库账号与密码?在DMS登录数据库失败,提示“access denied”,如何处理?SSL证书过期该怎么处理?在DMS录入阿里...

Pod诊断

节点文件系统只读状态 节点出现文件系统只读,通常是因为磁盘故障导致节点无法写入数据,可能造成业务异常。请尝试在节点上使用fsck命令修复文件系统,然后重启节点。节点硬件时间 检查节点硬件时钟与系统时间是否一致,时间相差超过2...

跨地域容灾

警告 故障切换操作适用于被保护服务器已经出现严重故障的情形,进行该操作停掉实时复制流程。您需要重新启动复制,并完成一次全量复制才能对被保护服务器继续进行容灾保护。故障切换步骤如下:登录 混合云容灾管理控制台。单击 切换到...

什么是应用高可用服务AHAS

应用高可用服务(Application High Availability Service)是一款专注于提高应用高可用能力的SaaS产品,主要包含多活容灾、故障演练和流量防护三个独立的功能模块。其中流量防护已迁移至微服务治理服务MSE。多活容灾 多活容灾MSHA(Multi-...

ECS系统事件概述

说明 非预期运维事件一般指的是因底层宿主机发生了无法预测的故障,或者ECS实例的操作系统发生了内核错误等问题,导致ECS实例突然出现宕机或重启。因宿主机故障导致ECS实例宕机或重启事件(SystemFailure.Reboot)属于偶发现象,无法避免。...

ECS实例使用的Windows系统激活失败如何解决?

查看IP安全策略,请参见 服务器ping外提示一般故障处理方法 中 查看是否设置了IP安全策略 章节。查看是否有其他安全软件对kms.cloud.aliyuncs.com的1688 TCP端口的访问做了拦截。执行 route print 命令查看服务器内部的路由是否正常,...

如何配置跨域数据

当您在DataV中使用API数据源时,可能遇到跨域的问题。本文为您介绍跨域问题的产生背景,并提供几种常见的解决跨域问题的方法。背景信息 用户A想创建一个可视化应用,用于向客户展示数据。当 数据源类型 选择 API 时,可能出现以下两种...

监控、诊断和故障排除

相对于传统应用程序,开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本,但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息,帮助您深刻洞察程序行为,及时发现并快速定位问题。本文主要描述...

高性能版实例

SQL崩溃时,主要会出现Coredump或Out of Memory等情况,使 AnalyticDB PostgreSQL版 进入恢复模式。恢复模式中,系统会对残留的锁和内存执行一些清理操作,并通过回放WAL文件来保证数据的完整性。恢复期间,实例会暂时无法服务,完成恢复后...

接入无侵入服务观测

Kubernetes数据面监控基于日志服务与龙蜥社区合作共建的无侵入监控能力,您可以直观地分析整个Kubernetes的数据流向与瓶颈问题,轻松应对复杂的云原生环境。前提条件 已创建全栈可观测实例。具体操作,请参见 创建实例。如果是控制台方式接...

跨可用区容灾

当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...

解析设置类常见问题总结

答:如果MX记录只有一条,那么设置MX记录的优先级是没有意义的,只有当您的域名解析记录中存在多条 MX 记录的时候,邮件发送方的服务器优先把邮件投递到 MX 优先级数字最小的服务器,当此服务器出现故障无法接收邮件的时候,发送方的...

网络架构容灾

不同部门和团队使用云产品时,一般会使用多个VPC把业务隔离,不同的VPC承载不同部门或团队的业务。但不同团队和部门间在特定场景下也需要互相访问双方的服务,这时就需要实现不同VPC间的互通。实现不同VPC之间的互通在阿里云上有两个主要...

基本概念

更多请查看 什么是事件 故障 在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题故障比事件优先级更高,事件在处理过程中出现影响扩大或恶化时...

主备方案介绍

通常需要进行主备集群切换的场景如下:机房出现断电等故障。无法正常连接主集群,请求全部报错。由于软件Bug导致全集群宕机。由于慢盘或者坏盘造成的集群访问超时。故障自动容错原理:单机宕机和集群宕机测试结果如下。以下是单机宕机...

常见问题-FAQ

网故障恢复时间=故障发现时间+全网生效时间。说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台、以及在不同的测试时间,全网生效测试结果发生变化。重要 标准版最快可在4分钟左右准确发现故障并切换...

FAQs

网故障恢复时间=故障发现时间+全网生效时间。说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台、以及在不同的测试时间,全网生效测试结果发生变化。重要 故障发现时间:GTM可保障故障发现时间,目前...

设计方案

容错 容错是指在分布式系统中,系统出现故障时,通过设计和实现可靠的机制和策略,使系统能够自动检测、排除或者纠正错误,保证系统能够正常运行,从而提高系统的可靠性和稳定性。容量 容量是在一定时间内,系统能够处理的最大工作量或数据...

网络不通畅导致网站无法正常访问

问题原因 如果从您本地到网站所在服务器中间的网络不通畅,导致访问网站较慢或者无法访问。解决方案 您可以通过 tracert 命令进行路由测试,检测网站访问路径上哪些节点上的网络存在问题。说明 Tracert(跟踪路由)是路由跟踪实用程序,...

可观测性的设计原则

每个组件都可以将标识符添加到它们的日志中,以便在出现问题时进行故障排除。分布式跟踪可以使用开源工具Jaeger、Zipkin、skywalking或CAT等,阿里云上有ARMS服务来实现。日志记录 系统需要记录关键事件和故障,以帮助诊断问题和解决故障。...

补数据

什么补数据选择业务时间昨天和今天,也会出现等待时间的情况?为什么补数据选择补0点~1点生成了多个实例?为什么进行大量补数据操作时,会出现等待资源情况(实例显示黄色,实例状态为等待资源)?为什么补数据报错调起的节点运行时间不...

网络资源

网络资源是指用于节点之间通信和数据传输的硬件和软件资源,除了包括广域、局域、交换机、路由器,还包括常用到的专有网络、虚拟交换机、负载均衡、弹性公网、VPN、DNS、CDN等资源。在分布式系统中,网络资源的主要作用是支持节点之间...

服务发布策略

蓝绿部署通过使用额外的实例资源来解决服务发布期间的不可用问题,当服务新版本出现故障时,也可以快速将流量切回旧版本。如下图所示,某服务旧版本为v1,对新版本v2进行冗余部署。版本升级时,将现有流量全部切换为新版本v2。当新版本v2...

标准版-双副本

当主节点出现故障,自研的HA系统自动进行主从切换,保证业务平稳运行。数据可靠 默认开启数据持久化功能,数据全部落盘。支持数据备份功能,用户可以针对备份集回滚实例或者克隆实例,有效地解决数据误操作等问题。同时,在支持容灾的...

混沌工程缓存实战系列-Redis

因为服务端出现故障更加真实,所以可以从服务端层面去制造故障,但对于问题定位和排查的要求更高。注入故障,观察指标的变化。缓存监控指标 目前支持的可监控的缓存指标如下:指标 说明 缓存QPS QPS是最通用也是最易观察的指标。缓存命中...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云企业网 共享流量包 负载均衡 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用