RunServiceSchedule-执行设备服务调度

调用RunServiceSchedule根据客户ID&IP基本信息,为终端设备最优调度空闲资源(实例设备/容器POD),并完成虚拟设备环境的初始化。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以...

单实例快速恢复

当出现1分钟容器响应超时(可能是内存溢出、硬件故障、软件Bug等原因导致),Resource Manager会自动拉起新的计算节点,并迁移数据分片(Shard)职责到新的节点上(例如Worker Node3响应超时,Resource Manager拉起Worker Node4取代Worker ...

管理简单任务和集群任务

您可以查看如下内容:请求 ID:用于故障排查。触发状态:包括触发成功、触发失败、漏触发。触发原因:包括手动触发、定时触发、事件触发、拓扑触发。开始时间:任务执行的开始时间。结束时间:任务执行的结束时间。耗时:请求执行时长,...

调度概述

功能 描述 参考文档 负载感知调度调度过程中,通过参考节点负载的历史统计,将Pod优先调度到负载较低的节点,实现节点负载均衡的目标,避免出现因单个节点负载过高而导致的应用程序或节点故障。使用负载感知调度 使用负载热点打散重调度...

DescribeServcieSchedule-查询终端客户调度信息

调用DescribeServcieSchedule查询Uuid正在占用的(调度中)实例设备或容器实时状态。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是...

故障排查

排查故障的经典步骤与常见原因 如何通过查看日志排查故障?ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes集群网络异常的...

GTM如何实现异地容灾

概述 方案介绍 异地容灾是指应用服务部署在不同地域时,当其中一地出现故障时,全局流量管理(简称GTM)可以将出现故障地域的用户访问流量,调度至异地灾备中心,保障用户访问连续不间断。本文将以两地三中心灾备架构为读者讲解异地灾备的...

集群高可用架构推荐配置

节点池高可用配置 您可以基于节点的弹性伸缩、部署集、多AZ,结合K8s调度的拓扑分布约束,确保服务在不同的故障域(failure-domain)资源充足且有所隔离,从而当某一故障域出现问题时,服务仍然可以保持运行,减少单点故障的风险,提高系统...

如何在SchedulerX 2.0平台上托管ElasticJob任务

分布式任务调度SchedulerX 2.0兼容开源ElasticJob任务接口,您无需修改代码,即可将ElasticJob任务在SchedulerX 2.0平台上进行托管。本文介绍如何在SchedulerX 2.0平台上托管ElasticJob任务。背景信息 ElasticJob基于Quartz开发并且依赖...

Dataphin补数据任务空跑调度了是什么原因

问题描述 Dataphin补数据任务空跑调度了是什么原因?问题原因 按当前的调度配置,补20220930(月末)的数据空跑了是正常的。补数据选择的是业务日期,而调度周期配置的是调度日期,如果补数据时选择的业务日期是20220930,那么对应的调度...

使用负载感知调度

ACK集群Pro版 调度器的负载感知调度功能会根据节点的实际负载情况,将Pod优先调度到负载较低的节点,以实现节点负载均衡,降低节点故障风险。前提条件 已安装ack-koordinator组件,且版本为1.1.1-ack.1及以上。具体操作,请参见 ack-...

使用负载热点打散重调度

可观测性策略 您可以通过Event观测重调度的迁移过程,并在详细信息中查看迁移的具体原因和当前状态。样例如下。kubectl get event|grep stress-demo-588f9646cf-7*55s Normal Evicting podmigrationjob/3bf8f623-4d10-4fc5-ab4e-2bead3c4*...

步骤二:编写SQL分析语句

使用${bizDate} 的原因:对于当前调度任务,根据当前调度时间${bizDate} 和 current_timestamp()都可正常调度产出数据。对于回刷周期任务,需要根据历史的调度时间点${bizDate} 产出数据。此时,如果使用 current_timestamp()仍然是按照...

查看节点详情

信息模块 具体信息 基本信息 节点服务器 IP 节点的创建时间 调度状态:可调度状态 不可调度状态 机器详情:单击详情链接跳转至工作空间资源管理页面,可查看 ECS 详情。注释:系统注释信息 系统定义的节点标签,可用于节点分组。Pod 列表 ...

ACK集群概述

共享GPU:支持在云平台和自己的数据中心的集群中通过GPU共享调度框架实现多个容器运行在同一个GPU设备。更多信息,请参见 共享GPU调度概述。云原生AI:提供了云原生AI能力,支持编排、管理数据计算类任务。更多信息,请参见 云原生AI套件...

服务端发布记录

本文介绍分布式任务调度SchedulerX产品发布的功能变更,包括新增功能、功能优化、重要问题修复等,帮助您了解SchedulerX的发布动态。发布记录 2024-03-27 功能名称 变更类型 功能描述 相关文档 日志服务 优化 支持一次性任务执行完成、任务...

GTM实现跨网访问加速与故障切换

概述 方案介绍 大部分企业的应用服务都会使用多个运营商的IP地址,因此可能会存在跨网延迟、丢包、故障不可用等问题,而全局流量管理产品方案可以根据用户请求源地址的运营商,解析就近的应用服务器IP地址,实现就近接入、访问加速、故障...

添加属性设置任务

如果您需要同时设置多个设备的属性值,可以使用物联网平台的设备批量属性设置任务。本文介绍该任务的创建方法、运行中Topic及其数据格式的说明,查看状态的具体操作。前提条件 设备所属产品下已添加物模型属性,且多个设备中包含相同属性...

添加服务调用任务

如果您需要同时调用多个设备的异步服务,可使用物联网平台的设备批量服务调用任务。本文介绍该任务的创建方法、运行中Topic及其数据格式的说明,查看状态的具体操作。前提条件 设备所属产品下已添加物模型服务(异步调用),且多个设备中...

添加消息批量下发任务

如果您需要同时向多个设备发送自定义Topic消息,可使用物联网平台的消息批量下发任务。本文介绍该任务的创建方法、运行中Topic及其数据格式的说明,查看状态的具体操作。前提条件 已在物联网平台为设备添加具有 订阅 或 订阅和发布 权限的...

DCDN节点运维下线说明

问题场景 阿里云DCDN产品在全球拥有3200+节点,覆盖70多个国家和地区,为了确保这数量庞大的DCDN节点能够正常运行,以及提供更好的加速服务,阿里云DCDN的工程师团队需要不定期对部分DCDN节点进行运维操作,例如:硬件设备升级、软件版本...

2022年

修复任务指定机器都掉线时,开启故障机器自动转移功能无效的问题。任务管理 2022-03-15 变更类型 功能描述 相关文档 新增 概览页功能更新:增加每分钟触发汇总图表。增加汇总数据链接跳转。增加在线Worker列表展示。无 专业版和基础版进行...

Pod诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查...

Pod诊断

容器服务平台构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查、...

产品架构

日常巡检、业务监控、故障诊断发现风险事件,并将其上报至风险管理中心,由风险管理中心进行统一调度,如触发故障诊断、应急预案等。运行总览集中展示整个平台的运行状态、风险情况。部署架构 HAS 部署时,需要依赖以下底层服务:数据库 ...

存储多可用区部署的推荐配置

通过存储多可用区部署优化,可以帮您最大限度地减少应用发布中断,确保关键业务系统和应用在各种故障情况下能持续运行。本文介绍存储在多可用区部署时的推荐配置。背景信息 Kubernetes强大的容器编排能力,使得用户在Kubernetes上构建大...

阿里云CDN的五大竞争力

基于内容调度,提高访问命中率:在大文件下载和视频点播这两个应用场景上经常使用302调度这种基于内容的调度技术,302调度是一种中心调度方案,用户在请求某一个资源的时候,在完成域名DNS解析之后,用户请求将会先访问到中心调度系统上,...

智能监控概述

智能监控功能支持您...通过报警信息页面查看 您也可以通过报警信息页面查看智能监控模块产生的所有报警信息,并通过报警详情查看报警的完整触发流程,包括触发该报警的监控规则、报警触发条件、您收到报警的原因等。详情请参见:报警信息。

如何排查Java场景下故障注入不生效的问题

为解决此类问题,在创建或编辑演练时,您可以在故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,您需要先确认该演练的故障执行步骤是否已开启Debug模式。若...

什么是SCDN

多级调度:支持多级的调度策略,节点故障不会造成用户服务不可用。多系统联动:和阿里云其他产品形成多系统联动,与安全防御系统、刷新系统、内容管理系统等协调工作,达到各模块的最优性能。流量预测:数据化实时调度,支持节点级别流量...

提交节点报错:当前节点依赖的父节点输出名不存在

非周期性调度生产数据的表包括:从本地上传到DataWorks的表 维表 非DataWorks调度产出的表 手动任务产出的表 当有节点SELECT非周期性调度生成数据的表时,就会出现上述报错。解决方案 您需要手动删除包含非周期性生成数据的表相关的依赖...

等待资源

问题现象 调度将任务下发到对应执行引擎上,此过程可能会出现以下等待资源问题:等待调度资源组。数据集成任务等待数据集成资源。计算任务等待引擎计算资源。产生原因 资源组下可用资源是有限的,如果有任务长时间执行未释放资源必定会阻塞...

AI负载调度

本文介绍弹性资源调度、AI任务调度、异构资源调度和任务队列调度,帮助用户提升集群的资源利用率和作业运行效率。弹性调度 ACK为不同弹性资源提供了混合调度的能力。功能 描述 参考文档 弹性调度 阿里云提供了不同种类的弹性资源,如ECS和...

重启设备

网络故障时,重启设备可消除部分软件故障。背景信息 重启设备一般有两种方法:通过关闭或打开设备电源进行重启。通过智能接入网关控制台,远程重启设备。关闭或打开设备电源 警告 您通过关闭或打开设备电源进行重启时,请注意保存设备的...

调度负载至FPGA节点

在使用Kubernetes集群实现FPGA计算时,为了有效利用FPGA设备,可根据需要将应用调度到具有FPGA设备的节点上。本文介绍根据FPGA节点标签进行节点调度。前提条件 您已成功创建一个拥有FPGA节点的Kubernetes集群。具体操作,请参见 创建FPGA...

故障演练常见问题

故障不生效的原因较多,可能是参数配置不正确或无对应的请求命中,但故障规则已成功下发,故需要计费。刚刚购买的资源包为什么会被扣减次数?因为购买前已产生欠费,购买资源包后会先扣减所欠的次数。子账号的消费是否独立计费?不是,与主...

多云场景全局容灾

预实现效果 中国内地的用户流量调度到线下IDC 中国香港用户的访问流量调度到阿里云中国香港 境外访问流量调度到华为云新加坡 IDC故障场景下,流量调度至阿里云 华为云故障场景下,流量调度至阿里云 阿里云故障场景下,流量调度至华为云 ...

YARN调度

Heartbeat Driven):是面向节点的局部调度(当调度器收到每个节点心跳时触发,为当前节点选择可调度的应用),受限于心跳间隔时间与接近随机调度,可能有较大比例的节点调度因资源不足、调度需求不满足等原因未命中,调度效率较差。...

依赖关系

配置调度依赖前您需先了解以下内容 什么是调度依赖 为什么要设置调度依赖 DataWorks上如何设置调度依赖?哪些场景不支持设置调度依赖?不需要依赖的表如何删除?调度依赖配置常见问题 提交节点报错:当前节点依赖的父节点输出名不存在 提交...

ack-kube-queue

若任务下属的Pod由于拓扑调度约束、亲和性约束、资源碎片等原因长时间无法调度,ack-kube-queue将进行任务回收,让任务进入队列重新调度,避免任务无效占用Quota,提升Quota利用效率。2023年05月16日 此次升级不会对业务造成影响。2023年04...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 物联网无线连接服务 物联网平台 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用