WAL日志并行回放

Hold List:并行执行框架中,每个子进程调度执行回放子任务所使用的链表。原理介绍 概述 一条WAL日志可能修改多个数据块Block,因此可以使用如下定义来表示WAL日志的回放过程:假设第 i 条WAL日志LSN为 LSN i ​,其修改了 m 个数据块,则...

构建调度器插件

您需要先构建自定义调度器插件后,才可以在E-HPC控制台创建带有插件的集群。本文以LSF插件为例,为您介绍构建调度器插件的具体操作。操作步骤 在本地机器上创建插件目录结构。调度器插件目录结构的更多信息,请参见 调度器插件组成。mkdir/...

配置共享GPU调度cGPU算力调度策略

调度 区域,选中 调度组件(批量任务调度、GPU共享、GPU拓扑感知、NPU调度),然后单击右侧的 高级配置。在 参数配置 页面,修改 policy 字段,然后单击 确定。policy 取值说明如下。关于时间片及调度策略的更多信息,请参见 cGPU服务算...

查询流量调度策略的信息

调用ListCenInterRegionTrafficQosPolicies接口查询流量调度策略的信息。接口说明 在调用 ListCenInterRegionTrafficQosPolicies 接口过程中:TransitRouterId 或 TrafficQosPolicyId 参数至少输入一个。如果您未输入流量调度策略 ID(即未...

常见问题

如何排查调度失败的任务?如何手动重启失败的DAG?如何在DAG中使用集群模板?如何确定更新的DAG已生效?如何管理Airflow的配置项?如何为新增用户添加权限?如何修改时区配置?如何排查调度失败的任务?您可以按照以下步骤排查:在Airflow...

创建实时元表规则

业务日期/执行日期:若调度类型选择 定时调度(定时调度不支持执行日期)、数据更新触发调度、固定任务触发调度,支持配置日期,可选择 普通日历 或 自定义日历,如何自定义日历,请参见 新建公共日历。若选择 普通日历,则条件可选 月份、...

使用调度器自定义参数

通过修改Kube Scheduler的自定义参数,您可以根据需要自定义调度器的行为,使得Pod的调度更符合您的期望。本文介绍如何使用调度器自定义参数。前提条件 已创建v1.20及以上版本的 ACK集群Pro版、ACK Edge集群Pro版 以及 ACK灵骏集群。具体...

创建指标质量规则

业务日期/执行日期:若调度类型选择 定时调度(定时调度不支持执行日期)、数据更新触发调度、固定任务触发调度,支持配置日期,可选择 普通日历 或 自定义日历,如何自定义日历,请参见 新建公共日历。若选择 普通日历,则条件可选 月份、...

进程监控

您还可以添加进程监控,查看其进程数,并为这些进程设置报警规则,及时关注进程数的变化,确保其正常运行。前提条件 请确保您已为阿里云主机(ECS实例)和非阿里云主机安装云监控插件。具体操作,请参见 安装云监控插件。背景信息 云监控每...

背景信息以及准备工作

本文档主要介绍了循环调度DLA Presto任务的背景信息和准备工作。背景信息 DLA作为无服务化的大数据分析服务,通过标准的SQL语句直接对存储在阿里云对象存储服务(Object Storage Service,简称 OSS)、表格存储(Table Store)中的数据进行...

调度至Arm虚拟节点

如果您的集群中既有Arm虚拟节点,又有非Arm虚拟节点(例如x86虚拟节点),为了确保只兼容Arm架构的工作负载调度到Arm虚拟节点,或多架构镜像优先调度到Arm虚拟节点,您可以基于Kubernetes原生调度配置来实现。前提条件 集群:已创建 ACK ...

调度至Arm虚拟节点

如果您的集群中既有Arm虚拟节点,又有非Arm虚拟节点(例如x86虚拟节点),为了确保只兼容Arm架构的工作负载调度到Arm虚拟节点,或多架构镜像优先调度到Arm虚拟节点,您可以基于Kubernetes原生调度配置来实现。前提条件 集群:已创建ACK集群...

数据质量规则配置流程

本文为您介绍数据质量监控规则的配置流程及生效逻辑,以及...重要 如果您已经将进行了关联调度的配置,在删除质量规则时,需要先取消关联调度,再删除质量规则。如果您先删除了质量规则再取消关联调度,可能会导致已删除的质量规则仍然生效。

指定ECS和ECI的资源分配

通过配置调度策略,您可以在不同工作负载场景下实现对弹性资源的不同需求。相关概念 污点:ACK集群中的Virtual Node默认都会打上污点 virtual-kubelet.io/provider=alibabacloud:NoSchedule,以避免您在不知情的情况下使用ECI弹性资源。...

创建数据表质量规则

业务日期/执行日期:若调度类型选择 定时调度(定时调度不支持执行日期)、数据更新触发调度、固定任务触发调度,支持配置日期,可选择 普通日历 或 自定义日历,如何自定义日历,请参见 新建公共日历。若选择 普通日历,则条件可选 月份、...

SwitchSchedulerRule-切换调度规则

接口说明 本接口用于修改单个流量调度规则的当前生效资源,例如,将业务流量切换到 DDoS 高防实例进行清洗、回切到联动资源。调用本接口前,您必须已经调用 CreateSchedulerRule 创建了流量调度规则。QPS 限制 本接口的单用户 QPS 限制为 ...

应用白名单

可信程度:云安全中心判断该进程的可信任程度,分为0%(恶意进程)、60%(可疑进程)、100%(可信进程)。说明 建议您对可信程度为0%的恶意进程进行重点排查和处理。操作:对该进程可执行的操作。您可结合服务器上业务的部署情况确定是否要...

运行中实例发生重启怎么办?

查看相应时间点的 应用事件。是否存在Liveness失败。三次Liveness失败会引起实例重启。如果存在Liveness失败,排查如下信息。查看基础监控,确认是否因CPU、Load过高而引起。结合自身业务日志,...如果实例的1号进程退出,容器会自动重启

使用异常

尤其是在调试阶段,消费端不可避免会多次重启,一旦多个消费进程同时存在(进程未退出),那么相当于进入集群的消费模式,多个消费实例会共同分担消费消息。消费端以为没有收到的消息,其实是被另一个消费端接收了。您可以到消息队列控制台...

如何处理系统内存使用率过高问题?

警告 终止操作系统关键进程可能导致系统重启,请谨慎操作。想要终止某个进程时,输入小写字母 k。输入要终止的进程PID。默认为输出结果的第一个PID,如下图所示,假如想要终止PID为561的进程,输入561后按 Enter 键。操作成功后,界面会...

历史数据清理

重启调度 说明 关闭工单后,若需要重启调度只能重新提工单。修改工单责任人 工单责任人默认是工单提交者。定时调度的暂停、重启,只有工单责任人有权限执行,每次调度执行的邮件通知,也只会发给责任人。定时任务生成后,系统将会按照设置...

使用Gang scheduling

功能介绍 Gang scheduling策略可在并发系统中将多个相关联的进程调度到不同处理器上同时运行。最主要的原则是保证所有相关联的进程能够同时启动,防止部分进程的异常,避免整个关联进程组的阻塞。例如,当您提交一个包含多个任务的批量Job...

使用Gang scheduling

功能介绍 Gang scheduling策略可在并发系统中将多个相关联的进程调度到不同处理器上同时运行。最主要的原则是保证所有相关联的进程能够同时启动,防止部分进程的异常,避免整个关联进程组的阻塞。例如,当您提交一个包含多个任务的批量Job...

Resource Manager

过多使用动态内存,可能会导致内存使用量超过操作系统限制,触发内核内存限制机制,造成集群进程异常退出,集群重启,引发集群不可用的问题。进程私有内存MemoryContext管理的内存可以分为以下两部分:工作计算区域内存:业务运行所需的...

Resource Manager

过多使用动态内存,可能会导致内存使用量超过操作系统限制,触发内核内存限制机制,造成集群进程异常退出,集群重启,引发集群不可用的问题。进程私有内存MemoryContext管理的内存可以分为以下两部分:工作计算区域内存:业务运行所需的...

通过Docker安装并使用cGPU服务

cGPU服务会从Slice 1开始调度,但如果没有使用某个容器,或者容器内没有进程打开GPU设备,则跳过调度,切换到下一个时间片。示例如下:只创建一个容器Docker 1,获得Slice 1时间片,在Docker 1中运行2个TensorFlow进程,此时Docker 1最大...

更改共享GPU调度显存最小分配单位

若集群创建时间早于2021年10月20日,需要 提交工单 让售后同学重启调度器,配置才能生效。更改显存单位 未安装ack-ai-installer 登录 容器服务管理控制台,在左侧导航栏选择 集群。在 集群列表 页面,单击目标集群名称,然后在左侧导航栏,...

OSS存储卷FAQ

问题原因:升级集群重启kubelet时,由于容器网络会重启,导致OSSFS进程重启,主机与容器目录映射失效。解决方法:需要重启容器,或重建Pod。您可以通过配置健康检查实现容器或Pod的自动重启。关于使用OSS存储的更多信息,请参见 OSS存储卷...

使用DMS进行数据归档

调度周期配置表 配置项 说明 调度周期 选择调度任务的周期:小时:按设定的小时执行任务调度,需要配置定时调度。日:按每日一次的频率执行任务调度,需要配置每日调度的具体时间。周:以周为周期,每个指定天执行一次任务调度,需要配置...

主机健康诊断

僵尸进程检测 出现僵尸进程 如下命令可以查看当前系统存在的僵尸进程:ps-A-ostat,ppid,pid,cmd|grep-v color|grep-e '^[Zz]' 僵尸进程无法终止,也无法自行退出,只能通过恢复其依赖的资源或重启系统来解决。如果选择重启系统来解决僵尸...

持久缓存池(Warm Buffer Pool)

背景信息 PolarDB MySQL版 支持持久缓存池功能,在主节点主动重启或者异常崩溃后重启的过程中,缓存池(Buffer Pool)中的数据依然存在,从而大幅度加快重启速度,并保持重启后性能无衰减。前提条件 PolarDB 集群版本需为 PolarDB MySQL版 ...

AI负载调度

本文介绍弹性资源调度、AI任务调度、异构资源调度和任务队列调度,帮助用户提升集群的资源利用率和作业运行效率。弹性调度 ACK为不同弹性资源提供了混合调度的能力。功能 描述 参考文档 弹性调度 阿里云提供了不同种类的弹性资源,如ECS和...

DBGateway常见问题

在部署DBGateway的服务器上执行以下命令:/opt/dbgateway/bin/dbgateway-manager-d restart DBGateway进程不存在时:此时无法在DAS控制台界面上操作,仅支持使用命令重启。在部署DBGateway的服务器上执行以下命令:/opt/dbgateway/bin/...

周期任务补数据

暂停调度任务对应实例 配置暂停调度的任务生成的补数据实例的运行状态:暂停运行(可能会阻断补数据进程):即暂停调度的任务生成的补数据实例均暂停运行,会阻断下游实例正常运行。说明 适用于当前任务及其下游任务均不需要运行的场景。...

部署和配置Terway网络插件

场景三:本地数据中心容器网络为Host网络 由于本地数据中心内的容器网络使用的是Host网络,所以只需保证云上Terway网络插件的守护进程集不被调度到云下即可。云上Terway网络插件默认只调度到拥有节点标签为 alibabacloud....

健康检查及自动恢复

一旦检测到节点异常(往往是内存超限、进程异常退出等异常场景)将会进入自动恢复过程,master会通过检查每个work节点资源限制情况来动态调度恢复的目标,可能出现2种调度场景:1)在原work节点重启 2)跨work节点重启。注:由于这种健康...

任务常见问题

如果持续报错且每次报错的workerAddr都是同一台机器,说明服务端和客户端长连接断开,需要将该Worker节点重启或者升级SchedulerX客户端版本至最新版本。升级至最新版本后,断开的长连接可自动恢复。任务失败,报错“used space beyond 90.0...

资源包(专业版)

背景信息 SchedulerX针对 任务调度CU 推出了一种预付费资源包模式,帮助您以更优惠的价格享受同等的任务调度CU数量,从而减少费用支出。资源包类型与定价 SchedulerX目前只提供一种类型的资源包,即任务调度CU资源包,用于抵扣SchedulerX...

配置eci-profile

eci-profile可以实现以下三个功能:ECI Scheduler 在混合使用ECI和普通节点的场景下,一般可以通过配置Pod Label、配置Namespace Label和配置ECI弹性调度等方式将Pod调度到ECI,但这些方式均需要对存量资源做一定的修改,无法做到零侵入。...

任务管理

本文介绍如何在任务管理页面对调度任务进行一系列操作。创建调度任务 重要 创建任务前,请确保您已经创建了任务分组。更多信息,请参见 应用管理。登录 分布式任务调度平台。在顶部菜单栏选择地域。在左侧导航栏,选择 任务管理。在 任务...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
威胁情报服务 批量计算 音视频通信 视觉计算服务(停止维护) 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用