故障发现

对于完成监控覆盖的核心业务场景,在异常上报时,通过工具自动检测或值班人员人工判断,及时识别风险或故障,以风险预警和故障通告的形式快速调度应急负责人上线处理,避免业务受损或降低业务受损程度。之所以设立7*24监控值班,是因为报警...

DAS Auto Scaling弹性能力

其中,算法将根据数据库实例过去一段时间内的磁盘使用值结合时序序列预测算法,预测出未来一段时间内的磁盘使用量,若短时间内磁盘使用量将超过用户实例的磁盘规格,则进行自动扩容。每次磁盘扩容将最少扩大5 GB,最多扩大原实例规格的15%...

节点诊断

节点文件系统只读状态 节点出现文件系统只读,通常是因为磁盘故障,会导致节点无法写入数据,可能造成业务异常。请尝试在节点上使用fsck命令修复文件系统,然后重启节点。节点硬件时间 检查节点硬件时钟与系统时间是否一致,时间相差超过2...

工作原理

日志被广泛地应用在系统监控和故障定位中,传统的日志分析手段以分析日志风险等级和匹配关键字为主,例如监控Error级别日志的内容和数量、监控含有Failed、Unsuccessfully等关键词的日志。但是在分布式环境和微服务架构下,以传统的人工...

如何管理应用级别的资源和任务优先级

对于业务规模较大的应用而言,调度的稳定性和核心任务的时效性是至关重要的。本文介绍如何管理应用级别的资源和任务优先级。背景信息 一些第三方的资源管理系统(例如Mesos和Yarn),能够实现CPU和内存级别的资源管控,而您使用自己的...

什么是AI分布式训练通信优化库AIACC-ACSpeed

集合算法层 在集合算法层,ACSpeed通过集合通信编译技术,针对不同的机型构建自适应拓扑算法,实现NCCL Runtime充分兼容的无感集合通信拓扑优化。网络层 在网络层,ACSpeed通过对阿里云的VPC、RDMA或者eRDMA网络基础设施进行适配优化,实现...

工作原理

背景信息 服务运行过程中会产生各种各样的时序数据,通过监控这些时序数据是否存在异常(例如监控KPI指标异常突变),及时获知服务运行是否异常,异常时可以及时进行故障定位与恢复。时序数据往往是由多个维度的时序数据聚合而成的。下探...

节点异常问题排查

本文目录 类别 内容 诊断流程 诊断流程 常见排查方法 节点故障诊断 检查节点的详情 检查节点的状态 检查节点的事件 检查节点的诊断日志 检查节点的关键组件 检查节点的监控 检查节点的安全组 常见问题及解决方案 节点关键组件异常处理 ...

节点异常问题排查

本文目录 类别 内容 诊断流程 诊断流程 常见排查方法 节点故障诊断 检查节点的详情 检查节点的状态 检查节点的事件 检查节点的诊断日志 检查节点的关键组件 检查节点的监控 检查节点的安全组 常见问题及解决方案 节点关键组件异常处理 ...

故障排查

Service无法正常工作 在排除网络插件自身的问题外,最可能的是 label 配置有问题,您可以通过查看 endpoints 进行故障排查。具体操作,请参见 检查Service。如何升级集群?升级集群的Kubernetes版本,具体操作,请参见 手动升级ACK集群。从...

工作原理

故障、变更都会引起对应指标形态的变化,前一种规则条件下的异常可能在下一时刻是正常状态。配置难:时序数据形态各异。有突刺变化、折点变化、周期变化等诸多形态,阈值范围也各有不同。对于复杂形态下的异常,规则往往难以配置。效果差:...

任务常见问题

磁盘已满,需要清理ECS或者容器上的磁盘空间。任务失败,报错“ClassNotFoundException”说明执行任务的Worker上没有该类,请确保Java任务配置的Processor类名必须是类的全路径,并非简写。如果配置的jobProcessor类名正确,即为Worker上...

数据智能概述

功能简介 算法实例 通过配置算法实例,来分析光伏电站运维数据或设备运行数据,使您能及时监测和掌控光伏电站或设备的运行状态和故障情况。算法模板 物联网平台提供算法模板供您使用,您可以查看算法模板的详情信息,如:算法详细介绍、...

智能负载均衡

智能负载均衡通过多节点智能接入技术,使业务防护支持多节点、多线路自动调度容灾,保障业务高可用和加速的访问体验。什么是智能负载均衡 智能负载均衡表示为WAF实例配备至少三个不同地域的防护节点,以实现异地多节点自动容灾,同时通过...

如何使用Prometheus监控Windows

磁盘指标 磁盘是计算机外部存储设备的总称,常见的磁盘有 传统硬盘HDD、混合硬盘HHD 和 固态硬盘SSD,您可以关注以下主要指标。指标名称 指标级别 指标来源 指标说明 剩余磁盘空间(%)Critical WMI(PercentFreeSpace)操作系统需要保持...

如何使用Prometheus监控Windows

磁盘指标 磁盘是计算机外部存储设备的总称,常见的磁盘有 传统硬盘HDD、混合硬盘HHD 和 固态硬盘SSD,您可以关注以下主要指标。指标名称 指标级别 指标来源 指标说明 剩余磁盘空间(%)Critical WMI(PercentFreeSpace)操作系统需要保持...

集群监控告警说明

down 数量大于集群可允许故障数量 EtcdLeaderCheck 检查 leader EtcdBackendFsync etcd io 监测,后端提交延时 EtcdWalFsync etcd io 监测,文件同步到磁盘延时 EtcdDbSize 检测数据库大小 EtcdGrpc Grpc 调用速率 CoreDNS 相关 告警名称 ...

智能负载均衡

通过多节点智能接入技术,助力您业务的应用防护接入支持多节点、多线路自动调度容灾,保证业务“高可用”和“加速”的访问体验。适用场景 智能负载均衡能力帮助您实现网络与业务自动容灾的高可靠性并提供低时延、访问“加速”的业务体验,...

产品功能

分布式架构,单节点故障业务不受影响 云数据库Memcache版采用分布式集群架构,每个节点均由双机热备架构组成,具备自动容灾及故障迁移能力。多种规格可适配不同的业务压力,数据库性能支持无限扩展。支持数据持久化及备份恢复策略,有效的...

云原生AI套件概述

异构计算集群概述 开启集群GPU监控 共享GPU调度概述 AI任务调度 多种调度策略支持:针对AI分布式训练等典型批量任务类型,ACK调度器扩展Kubernetes原生调度框架,支持实现多种典型批量调度策略,包括Gang Scheduling(Coscheduling)、FIFO...

阿里云CDN的五大竞争力

基于内容调度,提高访问命中率:在大文件下载和视频点播这两个应用场景上经常使用302调度这种基于内容的调度技术,302调度是一种中心调度方案,用户在请求某一个资源的时候,在完成域名DNS解析之后,用户请求将会先访问到中心调度系统上,...

如何管理应用级别的资源和任务优先级

对于业务规模较大的应用而言,调度的稳定性和核心任务的时效性是至关重要的。本文介绍如何管理应用级别的资源和任务优先级。背景信息 一些第三方的资源管理系统(例如Mesos和Yarn),能够实现CPU和内存级别的资源管控,而您使用自己的...

如何管理应用级别的资源和任务优先级

对于业务规模较大的应用而言,调度的稳定性和核心任务的时效性是至关重要的。本文介绍如何管理应用级别的资源和任务优先级。背景信息 一些第三方的资源管理系统(例如Mesos和Yarn),能够实现CPU和内存级别的资源管控,而您使用自己的...

常见问题

则查看性能监控页面的内存及磁盘使用率,如果任务结束前的内存或磁盘使用率接近100%或者快速攀升(由于性能监控存在时间间隔,因此即便任务因资源耗尽失败也可能在性能监控中无法达到100%),则建议增加计算资源重试任务 如果上述步骤依然...

实时存储引擎

本文介绍 云原生数据仓库AnalyticDB MySQL版 的实时存储引擎。背景 云原生数据仓库AnalyticDB MySQL版 作为一款实时...同时在新版本的实时存储引擎中,Page写盘没有采用传统的LZ4、Zstd等压缩算法,使得在CPU密集的场景下,性能有大幅的提升。

概览

(ECS)所有磁盘读取BPS(ECS)所有磁盘写入BPS(ECS)所有磁盘每秒读取次数(ECS)所有磁盘每秒写入次数 边界以外 连接数过高、连接数波动较大或连接数持续峰值 系统负载过高、TCP连接池不足、应用程序或者服务出现异常,某些应用程序或者服务在...

计算资源

计算资源的主要作用是执行各种计算任务,包括数据处理、算法运算、业务逻辑执行等。计算资源的性能和容量直接影响到系统的计算能力和响应速度,影响到服务质量。以下详细介绍5个计算资源风险点和应对的容错策略。资源分配不均 指因任务分配...

调优集群性能

以下原因可能导致Hash表占用较多内存:Build表本身较大:云原生数据仓库 AnalyticDB MySQL 版 会根据统计信息评估Join操作两边的表的大小,以较小的表作为Build表,但不排除Build表仍然较大。统计信息过期或者统计信息评估不准 当Join操作...

设计方案

容错 容错是指在分布式系统中,系统出现故障时,通过设计和实现可靠的机制和策略,使系统能够自动检测、排除或者纠正错误,保证系统能够正常运行,从而提高系统的可靠性和稳定性。容量 容量是在一定时间内,系统能够处理的最大工作量或数据...

任务常见问题

磁盘已满,需要清理ECS或者容器上的磁盘空间。任务失败,报错“ClassNotFoundException”说明执行任务的Worker上没有该类,请确保Java任务配置的Processor类名必须是类的全路径,并非简写。如果配置的jobProcessor类名正确,即为Worker上...

任务常见问题

磁盘已满,需要清理ECS或者容器上的磁盘空间。任务失败,报错“ClassNotFoundException”说明执行任务的Worker上没有该类,请确保Java任务配置的Processor类名必须是类的全路径,并非简写。如果配置的jobProcessor类名正确,即为Worker上...

资源使用优化

云原生资源调度通过应用负载合理调度资源 为了实现精准、实时的实例伸缩和放置,必须把应用负载的特征作为资源调度依据,使用弹性调度策略,云平台负责管理应用所需的弹性计算资源。调度平台可以识别应用特征,在应用负载快速上升时,及时...

存储多可用区部署的推荐配置

通过存储多可用区部署优化,可以帮您最大限度地减少应用发布中断,确保关键业务系统和应用在各种故障情况下能持续运行。本文介绍存储在多可用区部署时的推荐配置。背景信息 Kubernetes强大的容器编排能力,使得用户在Kubernetes上构建大...

功能特性

新增服务 重启服务 当配置项修改后,需要重启对应的服务使配置生效,或当某个服务出现故障或异常时,重启服务可以尝试修复服务的问题,并恢复其正常运行状态。重启服务 管理配置项 支持通过控制台的方式修改、添加或查看集群中服务的配置项...

故障演练常见问题

例如:对 10 台 ECS 注入 CPU 满载和磁盘填充两种故障,则故障注入次数为 10(ECS数)×2(故障场景数)=20次,那么故障规则下发次数即为 20 次。挂载 JavaAgent 是否计费?仅针对故障规则下发次数进行计费,挂载 JavaAgent 为故障注入的...

产品架构

高可用管理平台 HAS 在蚂蚁 SOFA 中间件以及 Café 应用发布平台的基础上,为用户应用及蚂蚁应用提供日常巡检、风险管理、应急预案、故障演练等技术风险管理能力,满足用户应用巡检、故障处置、应急管理、故障演练等多种应用运维场景。...

Windows实例中数据恢复

硬件层故障也可能导致磁盘分区信息丢失。底层与磁盘相关的驱动或应用,例如您使用的DiskProbe工具就可以直接修改磁盘的表结构。计算机病毒。如何修复磁盘,请参见微软官方文档 Dskprobe Overview。此外,Windows下有大量免费或商业的数据...

实时算法编排

本文为您介绍如何使用智能制造平台AICS实时算法编排模块。实时算法编排流程 新建画布。算法流程搭建。算法试运行与调试。算法发布与周期运行。参数趋势查看。新建画布 登录 工业大脑智能制造平台AICS。左侧导航栏单击 实时控制优化>实时...

配置临时存储额度

通过配置临时存储额度,能够避免单个Pod过度消耗磁盘空间,影响节点中其他Pod的性能。本文介绍在变更应用时如何配置Pod的临时存储预留量和限制量,确保合理分配和使用集群中的资源。背景信息 在K8s中,临时存储(即Ephemeral Storage)是指...

AIOps 解决方案专家服务内容说明

智能算法列表 类型 算法名称 算法逻辑 异常诊断类算法 One-Class SVM 基于历史批量数据的做算法学习并进行异常诊断 异常诊断类算法 孤立深林 基于历史批量数据的做算法学习并进行异常诊断 异常诊断类算法 Robust Covariance 基于历史批量...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 风险识别 智能开放搜索 OpenSearch 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用