混沌工程缓存实战系列-Redis

借助混沌工程可以了解到问题发生时对系统、业务的影响面是否符合预期。梳理演练场景 对于示例应用,可以按照以下思路来梳理演练场景:明确缓存监控的指标。分析影响这些指标可能的因素、故障场景、参数等。因为客户端层面的影响面可控,...

AIOps 解决方案专家服务内容说明

根据智能AI算法和阿里多年积累的AIOps经验,在故障发生后,提供自动化解决方案。在方案设计中我们提供包括时序预测和根因分析、历史数据预测的3大类算法场景的设计,更多具体算法详见《10.1算法列表》《智能故障发现设计方案》3 定制化业务...

SOFAMesh 服务网格总体经济影响报告

故障复盘资源消耗节省 对于监管要求极高的金融企业,在故障出现后要进行全面复盘,以确保系统未来的可用性,避免类似事故发生。但复盘也消耗大量开发运维人员的时间,对工作效率产生影响。组件能力提升 解耦后的微服务的公共组件、业务组件...

网络资源

容灾:建立容灾和高可用的系统架构,将系统部署在多个地理位置或数据中心,并使用负载均衡和故障切换技术,以确保即使发生网络分区,系统仍然可以继续提供服务。网络闪断故障 指网络连接在短时间内频繁中断和恢复,造成网络连接不稳定的...

配置健康检查

如果某条物理专线上连续8个ping报文都 无响应或者ping报文从其他路径被返回,则说明该物理专线链路故障。健康检查探测到物理专线链路故障后并不会向您发送通知,推荐您为物理专线配置报警规则,物理专线触发报警规则后,系统会向您发送报警...

监控与日志

自助问题排查 自助问题排查 功能可以帮助您自助排查VPN网关实例状态、访问异常等问题,帮助您了解VPN网关实例的运行状态,及时发现并解决问题。阿里云健康状态监控 建议实时了解云资源的健康状态,方便在有任何异常的情况下,您能及时采取...

SanityCheck:算力健康检测

功能介绍 在执行DLC任务时,可能会遇到以下问题:在任务花费一定时间加载模型Checkpoint或其他初始化操作后,由于申请的资源存在故障,无法顺利开始训练,需要调查定位故障问题并重新提交任务。该过程中会导致GPU资源的浪费。在任务运行...

功能特性

网络规划与部署 帮助用户在上云阶段更好地规划网络组网和资源部署选型。功能集 功能 功能描述 ...使用路径分析 云防火墙路径分析 路径分析支持对云防火墙节点进行连通性排查,基于输入的路径信息在云防火墙日志中排查拦截记录。使用路径分析

虚拟机场景

本文列出了虚拟机常见的故障演练场景。JvmCodeCache满 制造JVM CodeCache区域满的故障,CodeCache区域满会直接导致JIT编译关闭,从而引起业务系统性能下降。一般用于验证业务系统在高并发且系统性能下降的情况下,是否能够通过限流、快速扩...

核心文件监控

为实现对/etc/sysctl.conf文件路径的监控,您需要配置两条规则:规则1:处置方式为告警,进程路径为*(表示匹配所有进程),文件路径为/etc/sysctl.conf,文件操作选择所有操作。规则2:处置方式为放行,进程路径为/usr/lib/systemd/...

产品优势

操作过程难以记录和追溯,一旦发生其他问题,用户难以审计,无法明确责任边界。降低运维成本。运维过程复杂,运维成本高。服务管理 从服务交付开始,对使用服务的用户的每个触点进行统一管理和跟进,保障用户体验。如果涉及多用户的服务...

ModifyClientUserDefineRule-修改客户端自定义规则

变更历史 变更时间 变更内容概要 操作 2024-03-13 OpenAPI 错误码发生变更、OpenAPI 入参发生变更 看变更集 变更项 变更内容 错误码 OpenAPI 错误码发生变更。删除错误码:400 删除错误码:500 入参 OpenAPI 入参发生变更。新增入参:...

附录:SOFAStack 产品目录

传统实现方式是在系统代码里指定任务的执行顺序,当业务发生变化时需要修改代码才可以正常工作,可维护性很差。使用 SOFAStack 任务调度中的任务编排功能,可以轻松完成任务之间的依赖调整,大大提高了可维护性,并可以直观地看到任务的...

初始化SDK

设置资源包引入路径 通过pod方式的最少依赖方式集成短视频SDK时,如果需要引入资源包AliyunVideoSDKPro.bundle,且考虑到包大小问题,不想在工程中引入,那么可以通过以下方法,实现在APP运行时自动下载资源包,下载完成后引入到短视频SDK...

ADP底座/本地运维控制台

V1.4.6 Bug Fix 修复某些场景下垂直扩缩容运维操作报错的问题 修复Redis水平扩容运维操作无效的问题 修复Redis sentinel模式下不支持垂直扩容的问题 修复运维操作执行结果被后续运维操作回滚的问题 修复Grafana循环登录需要清理浏览器缓存...

集成iOS端短视频SDK

设置资源包引入路径 通过pod方式的最少依赖方式集成短视频SDK时,如果需要引入资源包AliyunVideoSDKPro.bundle,且考虑到包大小问题,不想在工程中引入,那么可以通过以下方法,实现在APP运行时自动下载资源包,下载完成后引入到短视频SDK...

挂载命令参数设置类问题

本文介绍挂载文件系统时,挂载命令参数的常见问题。noresvport挂载参数 为什么要使用noresvport参数挂载NAS?如何检查并修改noresvport挂载参数问题?什么情况会引发网络切换或者后端服务的HA倒换?为什么需要重新挂载?还有没有其他的方案...

创建用户群组

用户分群指将用户按照行为特征划分为不同的群组,帮助您更好地分析不同群组的人群属性、行为特点及用户在关键路径转化中的差异,帮助运营人员更好地发掘产品问题的背后原因,从而进行有效的改进及优化。下面介绍如何创建用户群组。前置条件...

GetClientUserDefineRule-获取客户端用户自定义规则

200*返回参数 名称 类型 描述 示例值 object RequestId string 本次调用请求的 ID,是由阿里云为该请求生成的唯一标识符,可用于排查和定位问题。0B48AB3C-84FC-424D-A01D-B9270EF4*UserDefineRuleDetail object 规则详情。Type integer ...

查看血缘关系

Flink作业的血缘关系可以进行作业的数据溯源和追踪、帮助您更好地管理和优化作业的数据流、快速定位问题和评估影响面。本文为您介绍如何通过作业角度和元数据角度查看血缘关系。背景信息 在数据的来源和变更历史无法追踪的情况下,数据的...

AI助手使用说明

安装AI助手并开启PAI的作业监控和恢复功能后,当训练任务发生故障或异常时,能自动上报故障信息、隔离问题节点,无需人工干预即可快速恢复任务。本文为您介绍AI助手的具体配置方法。前提条件 已创建带有ACK灵骏托管版的集群。具体操作,请...

DeviceLinkDown

DeviceLinkDown事件提示您线下机构侧动态路由邻居发生故障或者静态接入链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 DeviceLinkDown CRITICAL linkdown Device Link State Change 可能原因 用户侧交换机设备故障。用户侧交换...

实时分析链路数据

如果大量请求突然集中在一台或少量机器,很可能是流量不均导致的热点问题,然后再结合问题发生点的变更事件,快速定位造成故障的错误变更,及时回滚。在 调用链分析 页面设置按IP聚合,如下图所示,可以发现大部分流量集中在opentelemetry-...

应用场景

以此,降低产品使用过程中故障发生概率,提高故障恢复效率,进而实现产品高可用性的有效提升。机房级容灾 同城双活 同一个城市,建设两个机房环境,两地距离 50 km 以内,万兆光纤专线互连,业务应用层面可以两个机房同时提供业务服务,当...

故障排查

本文介绍微服务引擎MSE在使用过程中常见问题故障分析和排查流程。微服务注册配置中心问题排查 在浏览器中输入 XXX:8848/nacos,访问MSE的Nacos注册中心时返回404错误。具体操作,请参见 通过“XXX:8848/nacos”访问MSE的Nacos注册中心时...

支持计划FAQ

服务支持计划服务范围包含:关于阿里云服务与产品功能、容量、架构的咨询 使用、配置阿里云产品的最佳实践 阿里云的产品相关的技术问题故障诊断 阿里云API 和阿里云SDK问题故障诊断 与阿里云资源相关的操作或系统问题的技术支持 与阿里...

ECS整机恢复

当ECS整机发生系统故障或者错误操作时,您可以通过备份点的克隆和恢复功能,实现ECS整机回退和创建新的ECS整机。本文介绍整机恢复的相关操作。前提条件 已创建ECS整机备份。具体操作,请参见 备份ECS整机。重要 当源ECS存在时,支持直接...

集成Windows SDK时的常见问题

通过阅读本文,您可以了解集成Windows SDK时常见的问题及解决方法。编译代码时报x64编译报错 问题现象:编译代码时可能会出现以下错误:可能原因:使用64位编译。解决方案:SDK目前只支持32位,请切换编译选项。头文件或静态库路径设置错误...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时,您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点,进行原盘恢复或者创建新盘操作来实现数据恢复。前提条件 已创建ECS整机备份。具体操作,请参见 备份ECS整机。背景信息 云盘恢复...

集成Windows SDK时的常见问题

通过阅读本文,您可以了解集成Windows SDK时常见的问题及解决方法。编译代码时报x64编译报错 问题现象:编译代码时可能会出现以下错误:可能原因:使用64位编译。解决方案:SDK目前只支持32位,请切换编译选项。头文件或静态库路径设置错误...

0024-00000504

问题描述 创建元数据转换任务请求时,命中前缀参数含有OSS-HDFS的特殊路径问题原因 您发起了创建元数据转换任务请求,命中前缀参数含有OSS-HDFS的特殊路径。命中前缀不支持设置为..d、.dl、.dls、.dlsd、.dlsda、.dlsdat、.dlsdata其中...

基本概念

更多请查看 什么是事件 故障 在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题故障比事件优先级更高,事件在处理过程中出现影响扩大或恶化时...

故障排查

本文介绍阿里云容器服务ACK集群在使用过程中常见问题故障分析和排查流程。ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes...

如何管理故障

故障发生条件 当事件重要程度上升、整体影响面恶化、持续长时间未解决,综合评估已达到故障时(P1-P4),处理人可手动将事件升级为故障。当报警来源的指标持续恶化,触发故障产生规则,系统自动产生故障。故障过程 故障过程用于记录管理...

混合云解决方案

如果MASTER 宕机,发生故障转移,此时SLAVE如果要提供服务,日志读取器会等待镜像日志先同步,再做发布,但如果MASTER发生硬件故障,此时SLAVE需要打开一个跟踪标记1448,在镜像故障的情况下可以继续分发数据。说明 1448标记用于在事务...

支持计划

阿里云支持计划服务范围 2.1阿里云支持计划服务范围 阿里云支持计划服务范围包含:阿里云产品的最佳实践 阿里云产品相关的技术问题故障处置 阿里云API 和阿里云SDK问题故障处置 与阿里云资源相关的操作或系统问题的技术支持 与阿里云的...

诊断决策树

对于已知的明确故障,可以根据诊断现象,编排诊断决策树,进而故障发生时执行,完成故障定位。对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树 登录高可用管理控制台。在左侧导航栏上,单击 ...

ECS系统事件概述

说明 非预期运维事件一般指的是因底层宿主机发生了无法预测的故障,或者ECS实例的操作系统发生了内核错误等问题,导致ECS实例突然出现宕机或重启。因宿主机故障导致ECS实例宕机或重启事件(SystemFailure.Reboot)属于偶发现象,无法避免。...

故障演练

但这些措施在故障发生时的有效性、故障恢复工具的真实容灾能力、处理问题人员的熟练度,沟通机制、容灾措施对上层的影响等问题,平时并没有太多的机会验证,往往都是在真实故障中暴露。故障演练就是这个背景下诞生的,沉淀通用的故障场景,...

故障处理流程

当智能接入网关设备发生网络故障后,您可以先观察现象、收集信息,然后对现象和信息进行分析诊断,尝试修复问题。本文为您介绍智能接入网关设备故障处理流程。SAG-100WM故障处理流程说明 通过SAG-100WM访问阿里云,发现故障,请参见以下...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 云数据库 OceanBase 版 应用高可用服务 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用