基本概念

更多请查看 什么是事件 故障 在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题故障比事件优先级更高,事件在处理过程中出现影响扩大或恶化时...

ARMS告警精细管理最佳实践

背景知识 在告警管理中有一个非常重要的指标Mean Time To Contain(MTTC),MTTC描述了从检测到故障事件到控制和解决该事件所需的平均时间。它是一个关键指标,因为它衡量了一个组织对事件的响应能力和效率。较短的MTTC意味着组织能够快速...

补数据

什么补数据选择业务时间昨天和今天,也会出现等待时间的情况?为什么补数据选择补0点~1点生成了多个实例?为什么进行大量补数据操作时,会出现等待资源情况(实例显示黄色,实例状态为等待资源)?为什么补数据报错调起的节点运行时间不...

服务发布策略

蓝绿部署通过使用额外的实例资源来解决服务发布期间的不可用问题,当服务新版本出现故障时,也可以快速将流量切回旧版本。如下图所示,某服务旧版本为v1,对新版本v2进行冗余部署。版本升级时,将现有流量全部切换为新版本v2。当新版本v2...

实例FAQ

什么会重开机失败?使用弹性伸缩功能时,伸缩组内ECS实例开启了释放保护,为什么仍然被自动释放了?如何测试实例的网络收发包能力?ECS实例之间如何迁移数据?ECS实例如何恢复误删除的数据?ECS实例一直处于停止中,如何处理?如何跨账号...

常见报错及解决方案

Q:谐云组件故障排查思路 A:elasticsearch《故障排查思路》mysql《故障排查思路》redis《故障排查思路》harbor《故障排查思路》通用排查《中间件通用故障排查思路》ingress《故障排查思路》rocketmq《故障排查思路》kafka《故障排查思路》...

专线接入常见问题

阿里云侧线路出现故障时您可以通过提交工单的方式联系阿里云售后支持人员解决故障问题。速率不符合预期怎么办?对于路由器接口的规格在1Gbps以下的情况,可以使用iperf等工具测试带宽。如果无法超过10Mbps,则有可能是专线某一侧的端口协商...

关键缺陷通知

本文将为您介绍Hologres各版本相关缺陷的修复记录,包括问题描述、影响程度等。您可以通过报错或问题描述,检查您当前的业务中是否产生了相关问题,提前进行问题规避。建议加入实时数仓Hologres交流群联系对应技术支持协助您将产品升级到...

读写访问文件类问题

问题现象 文件存储NAS为多客户端提供了统一名字空间的文件共享读写能力,但在多进程或多客户端并发写同一个文件的场景中(典型的例如并发写同一个日志文件),各进程分别维护了独立的文件描述符及写入位置等上下文信息,而NFS协议本身并...

混沌工程缓存实战系列-Redis

因为服务端出现故障更加真实,所以可以从服务端层面去制造故障,但对于问题定位和排查的要求更高。注入故障,观察指标的变化。缓存监控指标 目前支持的可监控的缓存指标如下:指标 说明 缓存QPS QPS是最通用也是最易观察的指标。缓存命中...

错误反馈

本文汇总了使用内容检测API时常见的错误提示问题。为什么调用API时提示:You have not opened Yundun Content Moderation Service?为什么本地测试正常,但是发布到ECS时报错:SDK.ServerUnreachable:Speicified endpoint or uri is not ...

Operator

新风险及解决方案 在上述应对策略下,会出现新的风险,蚂蚁也提出了对应的解决方案,说明如下:风险:Sidecar 与应用“共享”分配到的内存资源,导致在异常情况(比如内存泄露)下,Sidecar 跟应用抢内存资源。解决方案:通过扩展 Pod Spec...

云盘存储卷FAQ

问题原因 所有的PV中都存在 nodeaffinity 属性,当PV中 nodeaffinity 属性和Pod的 nodeaffinity 属性不一致时,就会出现上述报错,调度器因属性冲突无法调度。解决方案 修改PV或者Pod的属性,使二者属性保持一致。启动挂载了云盘的Pod时...

常见问题

警告 创建单节点地址后,当此节点故障时,该地址可能会出现最多1小时不可用的情况,请勿用于生产环境。Q:一个集群内最多允许创建多少个单节点地址?A:如果您的集群内有3个节点,则只允许为其中1个只读节点创建单节点地址;若集群内有4个...

概述

注意事项 当只读节点未开启热备时,主备切换过程中可能会出现20~30秒左右的闪断,因此切换前请务必确保应用具备重连机制;当只读节点开启了热备功能时,主备切换将在3~10秒内完成。热备节点规格需要与主节点规格保持一致。热备切换功能中的...

数据面质量

专项测试 除了上述功能测试之外,蚂蚁团队还引入了如下专项测试:兼容性测试 性能测试 故障注入测试 兼容性测试 MOSN 兼容性验证图 发现的问题:通过兼容性测试,发现问题主要集中在 接入/未接入MOSN 这个场景中。例如,在线下验证过程中,...

Windows系统异常重启以及蓝屏的处理方法

问题描述 在Windows系统下,有时遇到蓝屏(BSOD,Blue Screen of Death)情况。Windows操作系统在遇到异常的情况下,为了防止数据丢失,系统自动崩溃蓝屏,如果有配置内存转储文件(crash dump)的收集,系统自动生成蓝屏dump到指定的...

热线接入环境要求

如果在多声卡下,默认的麦克风/耳机选择错误,会出现通话异常。扬声器设置默认。麦克风设置默认。通话质量检测 客户听不清坐席声音 现象:通话过程中,客户反馈听不清坐席声音,听坐席声音太小或者声音过于嘈杂。听不清:有两种理解,杂音...

组复制简介

如果此时备节点已经被切换成新主节点,就会出现主节点数据少于备节点,主备节点数据不一致的情况。全局 事务强一致性 组复制具备集群的节点间的数据全局强一致读和全局强一致写能力,并且可根据业务需要修改group_replication_consistency...

Windows实例中数据恢复

在处理磁盘相关问题时,您可能碰到操作系统中数据盘分区丢失的情况。本文介绍了Windows系统下常见的数据盘分区丢失的问题以及对应的处理方法,同时提供了使用云盘的常见误区以及最佳实践,避免可能的数据丢失风险。前提条件 已注册阿里云...

什么是实时日志

CDN访问错误 该数据可以帮助您在应用访问出现异常时,快速定位到CDN服务问题的源头,例如:部分URI问题、源站出现故障、部分节点不可用、部分省份网络问题、部分运营商网络问题等。CDN热门资源 该数据可以帮助您更好地了解热门资源情况,...

常见问题

警告 创建单节点地址后,当此节点故障时,该地址可能会出现最多1小时不可用的情况,请勿用于生产环境。Q:一个集群内最多允许创建多少个单节点地址?A:如果您的集群内有3个节点,则只允许为其中1个只读节点创建单节点地址;若集群内有4个...

常见问题

警告 创建单节点地址后,当此节点故障时,该地址可能会出现最多1小时不可用的情况,请勿用于生产环境。Q:一个集群内最多允许创建多少个单节点地址?A:如果您的集群内有3个节点,则只允许为其中1个只读节点创建单节点地址;若集群内有4个...

消息堆积和延迟问题

本文主要介绍 云消息队列 RocketMQ 版 TCP协议的Java客户端使用过程中,经常会出现的消息堆积和消息延迟的问题。通过了解 云消息队列 RocketMQ 版 客户端的消费原理和消息堆积的主要原因,帮助您可以在业务部署前更好的规划资源和配置,或...

常见问题

本文汇总了 SOFARegistry 使用过程中的一些常见问题及对应的解决方案。RPC 服务端发布之后,为什么在微服务控制台无法找到该服务。问题原因 应用服务器的 IP 地址,不在发布部署参数 rpc_enabled_ip_range 范围内。例如:应用服务器的 IP ...

进入Linux系统的单用户模式

在某些特殊场景下(例如排查Linux实例启动故障、修复系统异常、维护硬盘分区或root用户被锁定,需要修改密码),您可以通过Linux系统的系统引导器...说明 您也可以通过卸载系统盘功能来排查启动故障问题,具体操作,请参见 卸载或挂载系统盘。

ECS容灾常见问题

ECS容灾中云盘异步复制和连续复制型容灾的常见问题。ECS容灾云盘异步复制型,支持哪些实例规格?云盘有限制?IP地址有限制吗?在可用地域、可用区、云盘规格、ECS网卡、配置额度均存在限制。支持绝大多数实例规格。仅支持ESSD云盘(不含...

常见问题

这种是大模型的幻觉问题,当你输入的问题大模型没有知识回答的时候就可能出现。如果在base model上训练后更严重,就是没有训练好,训练效果与训练数据质量、多样性、数据等都有关系。5.我们现在是训练垂直领域的模型,知识都是安全领域的...

ECS容灾常见问题

ECS容灾中云盘异步复制和连续复制型容灾的常见问题。ECS容灾云盘异步复制型,支持哪些实例规格?云盘有限制?IP地址有限制吗?在可用地域、可用区、云盘规格、ECS网卡、配置额度均存在限制。支持绝大多数实例规格。仅支持ESSD云盘(不含...

EDAS直播公告

2020-02-12 微服务治理实践之离群实例摘除 微服务架构中,由于服务集群中的某些实例出现故障,但仅仅因此而进行服务降级,对应用的伤害过大。是否可以通过自动地对故障实例进行短暂隔离,待实例恢复后再继续处理业务请求,以便保障服务的高...

什么是多活容灾

容灾演练一般会经历下面四个阶段的演进:阶段一,可控的暴露问题 围绕“基础设施”和“业务系统”提前梳理出影响可用率的风险因子,确定风险因子具体影响大小、是否可自愈、是否为跌零因子,此阶段需要通过生产小规模的生产实验来探索和...

应用容灾

当某机房出现故障,可以做到机房级的快速切换。更精细化的场景,如果是某中心内某应用的故障,还需要做到应用级的切换。为了实现机房间的流量调度,同城应用多活架构下,建立多个服务部署的逻辑区,这个逻辑区称之为“单元格(Cell)”。每...

无法远程连接Windows实例的排查方法

异常三:终端服务器角色配置 在使用远程桌面访问Windows实例时,可能会出现如下提示。这种情况一般是由于在服务器上安装配置了 终端服务器,但是没有配置有效的访问授权导致的,可参考以下三种解决方案处理:Windows服务器远程桌面提示...

应用故障自动诊断

如果发现问题,则在应用总览页面上方闪现一个红色盾牌图标,单击该图标即可弹出故障诊断报告,故障报告上的故障定界和根因分析可以帮助您更好地发现和解决问题。常见的故障自动诊断场景 RT突增 下游业务导致的本应用的RT突增,您可以联系...

K8s应用运维管理最佳实践

在Java类型应用中,如果出现故障Pod实例,可以借助Arthas诊断,排查Pod故障点。相关文档,请参见 Arthas诊断。如果应用无法正常启动,可以将启动命令修改为 sleep,再通过 kubectl exec 手动启动进程,观察输出并分析原因。相关文档,请...

Windows系统ECS实例激活失败

问题分析 出现这个报错一般都是由于服务器到KMS之间的网络存在问题,导致服务器无法跟KMS进行通讯。网络存在问题可能是由于Windows系统的ECS实例中系统防火墙、IP安全策略,或其它网络安全管理软件阻断了服务器与ECS激活服务器之间的通信...

诊断项与诊断结果说明

实例所在宿主机告警 实例所在的物理设备出现故障告警。检查该实例所在的底层物理机是否有故障。如果底层物理机存在故障,则可能影响实例的运行状态或性能。您可以尝试通过重启实例进行恢复。网络服务健康诊断 网络服务健康诊断项具体如下...

ECS实例使用的Windows系统激活失败如何解决?

问题原因 出现这个报错一般都是由于服务器到KMS之间的网络存在问题,导致服务器无法跟KMS进行通讯。网络存在问题可能是由于Windows系统的ECS实例中系统防火墙、IP安全策略或者其他网络安全管理软件阻断了服务器与ECS激活服务器之间的通信...

语雀

在绝大部分情况下,解析您输入的内容都很快,然而依然存在某些无法预料到的场景触发解析器的故障而导致死循环的出现。甚至语雀不太敢升级Markdown解析库和相关插件以免引入更多的问题。但是随着函数计算的引入,语雀将这个消耗CPU的转换...

语雀

在绝大部分情况下,解析您输入的内容都很快,然而依然存在某些无法预料到的场景触发解析器的故障而导致死循环的出现。甚至语雀不太敢升级Markdown解析库和相关插件以免引入更多的问题。但是随着函数计算的引入,语雀将这个消耗CPU的转换...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
商标服务 Web应用防火墙 负载均衡 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用