如何使用Prometheus监控Windows

进程指标 进程是操作系统进行资源分配和调度的基本单位,也是操作系统结构的基础,您可以关注以下主要指标。指标名称 指标级别 指标来源 指标说明 进程CPU占用时间 Major WMI(PercentPrivilegedTime/PercentUserTime)该指标可以直观体现...

如何使用Prometheus监控Windows

进程指标 进程是操作系统进行资源分配和调度的基本单位,也是操作系统结构的基础,您可以关注以下主要指标。指标名称 指标级别 指标来源 指标说明 进程CPU占用时间 Major WMI(PercentPrivilegedTime/PercentUserTime)该指标可以直观体现...

使用Prometheus配置报警规则的最佳实践

CPU时间片限流(CPU Throttling)会减少容器内进程获得的CPU时间片,影响容器内进程运行时长,有可能导致容器进程的业务行为变慢。针对这种情况,请评估Pod的CPU的资源Limit是否配置过小。推荐使用CPU Burst性能优化策略,优化CPU限流现象...

节点诊断

请尝试通过命令 systemctl restart chronyd 重启节点Chronyd进程。节点Containerd镜像拉取状态 检查节点Containerd拉取镜像是否正常。请检查节点网络及镜像配置。节点Containerd状态 检查节点Containerd状态。节点Containerd状态异常,请...

使用配置巡检检查集群工作负载

如果未配置的话,Pod有被调度到资源紧张的节点上的风险,可能会出现容器内进程运行缓慢的情况。修改Pod Spec,增加 resources.requests.cpu 字段。示例:cpuLimitsMissing 通过检查Workload的Pod Spec中是否未配置 resources.limits.cpu ...

Pod诊断

Pod的部分容器进程处于D状态,通常为容器进程卡在磁盘IO中,请尝试重启宿主机ECS,如仍无法恢复,请 提交工单 处理。Pod初始化状态 检查Pod是否正常初始化。请检查Pod状态及日志。更多信息,请参见 Pod异常问题排查。Pod申请的GPU资源 检查...

使用配置巡检功能检查注册集群Workload安全隐患

如果未配置的话,Pod有被调度到资源紧张的节点上的风险,可能会出现容器内进程运行缓慢的情况。修改Pod Spec,增加 resources.requests.cpu 字段。示例:cpuLimitsMissing 通过检查Workload的Pod Spec中是否未配置 resources.limits.cpu ...

Pod诊断

Pod 检查项名称 检查项说明 修复方案 Pod容器重启次数统计 统计Pod中容器重启次数。请检查Pod状态及日志。更多信息,请参见 Pod异常问题排查。Pod容器镜像下载阻塞情况 检查Pod同节点是否有其他Pod的容器镜像下载被阻塞。请检查Pod状态及...

Group Identity功能说明

Alibaba Cloud Linux 2(内核版本 4.19.91-24.al7 开始)和Alibaba Cloud Linux 3(内核版本 5.10.46-7.al8 开始)支持Group Identity功能,您可以通过该功能为每一个CPU cgroup设置不同的身份标识,以区分不同CPU cgroup中进程任务的优先...

基本概念

SAE 提供以下应用健康检查方式:通过应用存活探针(Liveness)检查应用实例是否存活,如果检查结果是非存活状态,则 SAE 会执行应用实例重启操作。通过应用业务探针(Readiness)检查应用业务是否就绪、是否准备好处理用户请求,如果未准备...

启用节点自动伸缩

当集群的容量规划无法满足应用Pod调度时,您可以使用 节点自动伸缩 方案实现节点的自动扩缩。节点自动伸缩 适用于扩容规模较小(例如开启弹性的节点池数量少于20,或对应节点池中的节点数量少于100),工作负载批次较为稳定,以单次伸缩为...

K8s任务

重要 通过SchedulerX运行K8s Pod,建议不要运行长周期的Pod(比如Web应用,一旦启动永远不会结束),重启策略需要设置成Never(否则Pod会不断重启)。通过环境变量获取任务参数 SchedulerX系统支持将任务参数预先配置到环境变量中,这样...

创建安全沙箱应用

参数 请求类型 配置说明 存活检查(Liveness):用于检测何时重启容器。就绪检查(Readiness):确定容器是否已经就绪,且可以接受流量。启动探测(Startup Probes):用于检测何时启动容器。说明 仅Kubernetes集群1.18及之后版本支持启动...

常见问题

集群有状态重启包括 RM Restart 和 NM Restart 两部分,ResourceManager(简称RM)负责维护应用级基础信息与状态,NodeManager(简称NM)负责维护运行时的Container信息与状态,它们持续将相关状态同步至外部存储(Zookeeper、LevelDB和...

查看实例任务进度

您可以通过实例任务列表查看实例变更任务信息,包括实例的变更进度(例如实例的创建、重启、配置变更)和数据迁移进度。背景信息 实例任务进度仅显示当前正在进行中的变更进度详情,以及最近一次变更完成的任务详情。如果您需要查看更多...

RPC

原地接入:通过 PaaS 层,Operator 操作直接在现有容器中注入,并原地重启,在容器级别完成升级。升级完成后,该 Pod 就具备了 MOSN 的能力。提高了 CPU 利用率。是一个类似超卖的方案,看上去分配了 CPU 和内存,实际上,基本没增加。MOSN...

2019年

修复任务实现类配置错误的情况下会触发Spring Boot的ServeletWebServer停止的逻辑,导致业务进程在,但是Web服务被shutdown问题。修复系统启动变量 user.dir='/',任务会卡住的问题。客户端 springContext.getBean 报 ...

创建有状态工作负载StatefulSet

参数 请求类型 配置说明 存活检查(Liveness):用于检测何时重启容器。就绪检查(Readiness):确定容器是否已经就绪,且可以接受流量。启动探测(Startup Probes):用于检测何时启动容器。说明 仅Kubernetes集群1.18及之后版本支持启动...

容器网络FAQ

早于2022年10月创建的集群节点可能未默认启用所有IPVS调度算法,您需要手动在所有集群节点上启用IPVS调度算法内核模块(以最小连接数调度算法lc为例,如果选用其他算法,请替换lc关键字),逐台登录每个节点,并运行 lsmod|grep ip_vs_lc ...

ECS环境自动安装探针

如果重启后页面状态显示 目标Java进程未找到,需要确认重启时是否变更了命令和脚本执行目录,导致进程的工作目录发生了变化,可以通过以下命令进行确认:找到对应的Java进程并获取进程PID。ps-ef|grep java 执行以下命令查看进程目录。ls-...

SysOM内核层容器监控

该指标提供了与CPU调度相关的统计数据,包括在当前CPU的调度队列中等待被调度运行的进程的消耗时间,以及当前CPU中运行的时间片长度。sysom_cpu_dist gauge-查看节点的总体调度情况。该指标提供了从进程让出CPU到下一次被调度到CPU上运行...

Persistent Buffer Pool

例如:在重启前,某进程对页上X锁,随后系统宕机了,该X锁就没有进程来释放了。因此,在宕机和重启之后需要把Buffer Pool的所有页遍历一遍,剔除掉不能被复用的页。另外,Buffer Pool的回收依赖于K8s。使用该优化之后,可以使重启前后的...

Persistent Buffer Pool

例如:在重启前,某进程对页上X锁,随后系统宕机了,该X锁就没有进程来释放了。因此,在宕机和重启之后需要把Buffer Pool的所有页遍历一遍,剔除掉不能被复用的页。另外,Buffer Pool的回收依赖于K8s。使用该优化之后,可以使重启前后的...

共享GPU调度

容器服务 Kubernetes 版 ACK(Container Service for Kubernetes)开源了GPU共享调度之后,您能在阿里云、AWS、Google Compute Engine和自己数据中心的容器集群上通过GPU共享调度框架实现多个容器运行在同一个GPU设备上的目标。ACK开源GPU...

如何结束 AHAS Agent 进程

AHAS 为应用高可用探针(即 AHAS Agent)提供进程自动拉起功能,即定时检查 AHAS Agent 进程是否存在,如不存在,自动拉起该进程。这一功能保证了进程可用性,避免进程因异常挂掉或机器重启等原因,需要手动拉起的情况。所以,您在服务器...

GPU调度概述

本文介绍调度GPU资源的不同方法,包括使用Kubernetes默认GPU调度、提升GPU资源使用率的共享GPU调度、以及加速任务执行的GPU拓扑感知调度。普通GPU调度 申请Kubernetes GPU集群后,通过运行TensorFlow的GPU实验环境,关于如何使用Kubernetes...

kube-scheduler

kube-scheduler是一个控制面组件,负责结合节点资源使用情况和Pod的调度要求将Pod调度到集群的合适节点上。组件介绍 基于Pod申明的Request和节点的Allocatable属性,kube-scheduler可以为调度队列中每个Pod确定其可放置的节点,并保证节点...

调度应用至指定节点

通过设置节点标签和nodeSelector策略,您可以将应用调度到指定节点上。前提条件 已 创建Kubernetes托管版集群 或 创建Kubernetes专有版集群。已 创建无状态工作负载Deployment 或 创建有状态工作负载StatefulSet。步骤一:设置节点标签 ...

Dataphin的调度任务到了设置的调度时间状态还是等待中

问题描述 Dataphin的调度任务到了设置的调度时间状态还是等待中。问题原因 上游任务全部运行成功之后,实例就会进入等待状态。等待中分为等待调度时间和等待调度资源:任务到达了定时调度时间,但是由于调度资源不足,所以处于等待调度资源...

调度失败的Pod调度到ECI

在ACK集群中创建的Pod默认会调度到真实节点(即ECS节点)上,当ECS节点的计算资源不足时,Pod会调度失败。基于该场景,您可以在ACK集群中部署virtual-kubelet-autoscaler插件,该插件会自动将因为资源不足而调度失败的Pod二次调度到虚拟...

调度应用至指定节点池

您可以给节点池设置标签(labels),使得应用Pod调度到对应标签节点池下的节点上。前提条件 已 创建Kubernetes托管版集群 或 创建Kubernetes专有版集群。已 创建无状态工作负载Deployment 或 创建有状态工作负载StatefulSet。操作步骤 给...

集群任务限流

任务调度提供了两种限流类型:静态限流 静态限流通过代码配置限流规则,并可通过任务调度控制台动态调整限流速率。优势是在页面没有配置限流的情况下,也可以通过限流规则的初始值进行限速,但需要您手动指定限流器。框架提供了默认的限流...

共享GPU调度概述

关于如何安装和使用共享GPU调度,请参考:安装共享GPU调度组件 运行共享GPU调度示例 除此以外,还有一些进阶能力,您可以根据业务需求选择:通过共享GPU调度实现多卡共享 通过共享GPU调度实现算力分配 配置共享GPU调度节点选卡策略 配置...

使用负载热点打散重调度

ack-koordinator组件提供负载热点打散重调度能力,可以感知集群内节点负载的变化,自动地优化超过负载水位安全阈值的节点,防止出现负载极端不均衡的情况。本文介绍如何使用负载热点打散重调度及其高级配置参数。使用限制 仅支持ACK Pro版...

数据归档至Lindorm

周期调度 配置项 说明 调度周期 选择调度任务的周期:小时:按设定的小时执行任务调度,需要配置定时调度。日:按每日一次的频率执行任务调度,需要配置每日调度的具体时间。周:以周为周期,每个指定天执行一次任务调度,需要配置指定时间...

数据归档至Lindorm

周期调度 配置项 说明 调度周期 选择调度任务的周期:小时:按设定的小时执行任务调度,需要配置定时调度。日:按每日一次的频率执行任务调度,需要配置每日调度的具体时间。周:以周为周期,每个指定天执行一次任务调度,需要配置指定时间...

通过DMS管理作业

云原生多模数据库 Lindorm 计算引擎支持通过数据管理DMS的任务编排功能来调度Lindorm Spark任务,并查看Lindorm Spark任务发布记录和日志,满足用户在数据生产、交互式分析、机器学习和图计算等场景中的计算需求。本文介绍通过DMS管理...

管理探针

否则系统会定时检查AHAS进程是否存在,如进程不存在,系统会自动重启进程。每次您的主机重启时,AHAS探针进程也会自动重启。您可以通过控制台卸载AHAS探针,或者执行卸载AHAS探针脚本。通过控制台卸载AHAS探针:登录 AHAS控制台,然后在...

工作流调度简介

双向集成调度 调度名称 标准执行模式工作流调用方式 快速执行模式工作流调用方式 定时调度 异步调用 同步调用 SLS调度 异步调用 同步调用 MNS调度 异步调用 同步调用 Kafka调度 异步调用 同步调用 RocketMQ调度 异步调用 同步调用 RabbitMQ...

WAL日志并行回放

Hold List:并行执行框架中,每个子进程调度执行回放子任务所使用的链表。原理介绍 概述 一条WAL日志可能修改多个数据块Block,因此可以使用如下定义来表示WAL日志的回放过程:假设第 i 条WAL日志LSN为 LSN i ​,其修改了 m 个数据块,则...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
批量计算 音视频通信 视觉计算服务(停止维护) 威胁情报服务 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用