使用Gang scheduling

功能介绍 Gang scheduling策略可在并发系统中将多个相关联的进程调度到不同处理器上同时运行。最主要的原则是保证所有相关联的进程能够同时启动,防止部分进程的异常,避免整个关联进程组的阻塞。例如,当您提交一个包含多个任务的批量Job...

使用Gang scheduling

功能介绍 Gang scheduling策略可在并发系统中将多个相关联的进程调度到不同处理器上同时运行。最主要的原则是保证所有相关联的进程能够同时启动,防止部分进程的异常,避免整个关联进程组的阻塞。例如,当您提交一个包含多个任务的批量Job...

故障止损恢复

故障初因定位 集成企业内部可利用的所有稳定性相关数据(变更事件,...通用垂直专项快恢能力:通过集成包括DB侧慢SQL限流、变更极速回滚、多活容灾切流快恢等通用的快恢能力,结合监控、日志等数据自动定位的故障原因进行对应的快恢方式推荐。

WAL日志并行回放

Hold List:并行执行框架中,每个子进程调度执行回放子任务所使用的链表。原理介绍 概述 一条WAL日志可能修改多个数据块Block,因此可以使用如下定义来表示WAL日志的回放过程:假设第 i 条WAL日志LSN为 LSN i ​,其修改了 m 个数据块,则...

什么是故障

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

如何管理故障

可对故障根因进行原因检查并结构化录入,检查点包括:故障原因、最近活动、注入方式、恢复方式等;关联故障期间的故障变更,新增故障改进措施等操作。故障状态 处理中:处理中仍未恢复的故障;已恢复:故障对处理中的故障做 恢复 操作后是...

故障管理

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

Linux实例系统总体负载的查询及分析

nice:通过nice改变了进程调度优先级的进程,在用户模式下消耗的CPU时间比例。system:系统模式下消耗的CPU时间比例。iowait:CPU等待磁盘I/O导致空闲状态消耗的时间比例。steal:利用Xen等操作系统虚拟化技术,等待其它虚拟CPU计算占用的...

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生、故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

常见问题

Node.js 性能平台是如何进程故障诊断的 参见 用户指南-故障诊断。异常日志和性能日志有什么区别 异常日志是由应用写入的日志;性能日志是由运行时在设置了 ENABLE_NODE_LOG=YES(默认不写)后写入到 NODE_LOG_DIR 所指定的目录(默认/tmp)...

EMR Kafka磁盘故障运维

当出现磁盘故障时,需要根据故障原因、故障影响程度、业务需求(是否接受数据丢失、是否允许服务较长时间不可用)、集群状态等综合考虑恢复采取的策略。如果业务优先保证服务可用,但允许丢失部分数据,则应考虑在可能会丢失数据的情况下,...

Pod异常问题排查

解决方案 查看Pod的事件,根据事件描述,定位Pod不能被调度到节点的原因。主要原因有以下几类:资源依赖 创建Pod时,需要依赖于集群中ConfigMap、PVC等资源。例如,Pod添加存储卷声明前,存储卷声明需要先与存储卷绑定。资源不足 在集群...

Pod异常问题排查

解决方案 查看Pod的事件,根据事件描述,定位Pod不能被调度到节点的原因。主要原因有以下几类:资源依赖 创建Pod时,需要依赖于集群中ConfigMap、PVC等资源。例如,Pod添加存储卷声明前,存储卷声明需要先与存储卷绑定。资源不足 在集群...

如何使用Prometheus监控Windows

进程指标 进程是操作系统进行资源分配和调度的基本单位,也是操作系统结构的基础,您可以关注以下主要指标。指标名称 指标级别 指标来源 指标说明 进程CPU占用时间 Major WMI(PercentPrivilegedTime/PercentUserTime)该指标可以直观体现...

如何使用Prometheus监控Windows

进程指标 进程是操作系统进行资源分配和调度的基本单位,也是操作系统结构的基础,您可以关注以下主要指标。指标名称 指标级别 指标来源 指标说明 进程CPU占用时间 Major WMI(PercentPrivilegedTime/PercentUserTime)该指标可以直观体现...

计算资源

任务重复执行 由于各种原因导致计算任务被多次执行的情况,如重复操作、消息重复、调度重复等原因。常见的容错策略如下:去重:可以使用唯一标识符来标识任务,检查任务是否已经在系统中存在。如果任务已经存在,则不再重复执行,而是直接...

故障排查

排查故障的经典步骤与常见原因 如何通过查看日志排查故障?ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes集群网络异常的...

云盘存储卷FAQ

问题原因 所有的PV中都存在 nodeaffinity 属性,当PV中 nodeaffinity 属性和Pod的 nodeaffinity 属性不一致时,就会出现上述报错,调度器因属性冲突无法调度。解决方案 修改PV或者Pod的属性,使二者属性保持一致。启动挂载了云盘的Pod时...

节点异常问题排查

journalctl-u docker Containerd异常处理-RuntimeOffline 问题原因 通常是Containerd配置异常、进程负载异常、节点负载异常等原因导致。Containerd状态为 inactive。节点状态中 RuntimeOffline 为 True。若集群配置了集群节点异常报警,则...

节点异常问题排查

journalctl-u docker Containerd异常处理-RuntimeOffline 问题原因 通常是Containerd配置异常、进程负载异常、节点负载异常等原因导致。Containerd状态为 inactive。节点状态中 RuntimeOffline 为 True。若集群配置了集群节点异常报警,则...

Pod诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查...

Pod诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查...

Pod诊断

容器服务平台构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查、...

节点诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。基于专家经验和AI智能诊断两种诊断模式,节点诊断可以深入定位问题根因。节点诊断包括诊断检查项和诊断根因。诊断检查项:包括Node检查、...

资源使用优化

容器化改造,提升资源利用率 容器技术通过隔离运行在主机上不同进程,实现进程之间、进程和宿主操作系统相互隔离、互不影响,它有自己的一套文件系统资源和从属进程。容器服务没有管理程序的额外开销,与底层共享操作系统,性能更加优良,...

添加负载均衡CLB

重要 禁止从负载均衡控制台直接修改CLB实例的监听配置(含监听+证书),可能导致负载均衡控制台修改的配置回退,引发应用入口相关的故障。为容器服务K8s集群或自建K8s集群中的应用绑定CLB有以下区别:自建K8s集群:为应用绑定CLB都需新购...

使用ECI弹性调度

在1.22.15及1.24.6版本集群中,Pod调度失败原因与PodStatus中的信息对应关系为:取值不为 eci、eci_only:requesttypemustbeeci,eci_onlyorecs。取值为 eci_only 且集群中不存在Virtualnode:doesn'tfitecitype:eci_only。创建并拷贝以下...

为何Pod中仍存在已恢复故障的“僵尸进程”?

在容器中,故障演练进程的父进程是PID=1的进程,容器中的一号进程不具有进程资源回收的能力,所以导致故障演练进程被终止之后,资源没有得到回收,从而成为僵尸进程。解决方案 通过手动共享PID Namespace解决该问题。在Pod的YAML文件中增加...

智能解析调度不准问题

调度不准原因 当请求非默认线路下解析记录时:如果请求的解析记录类型为A,且对应线路下设置的解析记录中有AAAA记录但没有A记录,则返回的解析记录为空,不会造成解析调度不准确的情况。如果请求的解析记录类型为AAAA,且对应线路下设置的...

如何排查Java场景下故障注入不生效的问题

在对Java进程注入故障时,可能会出现故障注入失败的情况。为解决此类问题,在创建或编辑演练时,您可以在故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,...

ECS实例的服务进程自动关闭,如何排查?

问题原因 服务进程关闭一般有如下几种原因:系统原因。程序本身异常退出。系统中毒。操作步骤 您可以参考以下操作步骤排查问题。检查以下可能导致服务进程关闭的系统原因。ECS的云盘空间被占满。解决方法请参见 解决Linux实例磁盘空间满...

故障协同处理(基于钉钉)

2.故障应急场景群:事件升级故障后,群内推出 故障处理中 消息卡片,如果满足自动生成故障场景群的需求(下文详细介绍创建故障场景群逻辑),故障场景群内同时推出 故障处理中 消息卡片。本群故障消息卡片包含按钮:签到、签到记录、应急...

调度参数

本文为您介绍调度参数的相关问题。调度参数典型场景 调度参数往前取一个小时,如何处理跨天参数替换的问题 如何处理表的分区格式年月日时分秒间带空格情况:pt=yyyy-mm-dd hh24:mi:ss 节点定时时间为每天20:00,节点内参数取值为定时时间...

设置Pod故障处理策略

配置说明 在虚拟节点上创建ECI Pod时,可能会因为库存不足等原因导致Pod创建失败,默认情况下,系统会自动进行重调度,尝试重新创建Pod。您可以通过添加 k8s.aliyun.com/eci-fail-strategy 的Annotation来修改Pod故障处理策略,设置Pod创建...

应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断

Shared Server

支持配置Shared Server调试日志,方便排查后端进程调度相关的任何问题。参数说明 Shared Server的典型配置参数说明如下:参数 说明 polar_enable_shm_aset 是否开启全局共享内存。默认关闭,重启生效。取值如下:on:开启全局共享内存。off...

Dataphin中补数据实例处于等待调度状态

问题原因 补数据时间选择的是T-1,调度时间设置的是12点,15点,18点。指定补数据时间点是16点,所以12点和15点的补数据实例可以执行。18点的补数据在18点之后才可以执行。解决方案 18点之后执行T-1的补数据任务。适用于 Dataphin

故障演练

故障演练就是这个背景下诞生的,沉淀通用的故障场景,以可控成本在线上故障重放,以持续性的演练和回归方式的运营来暴露问题,不断验证和推动系统、工具、流程、人员能力的提升,从而提前发现并修复可避免的重大问题,或通过验证故障发现...

设计方案

故障恢复 定位故障原因后,按照应急预案快速恢复业务,并在事后进行复盘总结。预案执行:在故障响应的过程中,需要按照事先制定的应急预案进行执行。应急预案包括了应急响应流程、各个岗位的职责、处理流程等。预案执行能够保证故障恢复和...

管理拓扑任务

您可以查看以下内容:请求 ID:用于故障排查。触发状态:包括执行成功、执行失败等。触发原因:包括手动触发、定时触发、事件触发、拓扑触发。结束时间:任务执行的结束时间。耗时:请求执行时长,单位为秒。客户端:订阅节点的 IP 地址。...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 音视频通信 威胁情报服务 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用