功能概览

当节点出现故障时,通过智能调度,实现秒级容灾切换,保障网络的稳定性。IPv6支持 支持IPv4和IPv6双栈。丰富的报表日志 阿里云注册用户,接入系统后可查看历史域名访问日志报表;可查询域名、子域名的请求量信息以及排名信息。用户隐私保护...

故障发现

对于完成监控覆盖的核心业务场景,在异常上报时,通过工具自动检测或值班人员人工判断,及时识别风险或故障,以风险预警和故障通告的形式快速调度应急负责人上线处理,避免业务受损或降低业务受损程度。之所以设立7*24监控值班,是因为报警...

添加安全加速规则

安全加速适用于业务联动使用DDoS高防(非中国内地)保险版或无忧版实例和安全加速线路,实现以下效果:中国电信和联通以及非移动运营商流量调度到安全加速线路对应的IP上;中国移动和海外流量调度到DDoS高防(非中国内地)对应的IP上。前提...

云产品联动

例如,在CDN和高防联动且回源到OSS的场景,由于CDN回源支持修改 回源HOST,而DDoS高防不支持,导致发生攻击自动切换到DDoS高防后,DDoS高防回源到OSS的正常流量无法被识别,出现业务故障。关于验证流量调度规则的操作,请参见 本地验证转发...

ack-ai-installer

ack-ai-installer是增强ACK Pro版集群和 ACK Edge集群Pro版 调度能力的Device Plugin(设备插件)的组件集合,支持结合ACK Scheduler(ACK基于Kubernetes Scheduling Framework扩展机制,针对不同任务负载、不同弹性资源的统一调度系统)...

故障取消

cancelReason Long Body 否 取消原因 取消原因 problemNotifyType Long Body 否 PROBLEM_NOTIFY PROBLEM_NOTIFY 通告类型 PROBLEM_NOTIFY:故障通告 PROBLEM_UPDATE:故障更新 PROBLEM_UPGRADE:故障升级 PROBLEM_DEGRADE:故障降级 ...

Dataphin周期任务已修改为空跑任务,为什么还会正常...

问题描述 周期任务从正常调度修改为空跑任务并发布后,周期实例第二天仍按照正常调度来运行,这是什么原因呢?问题原因 首先明确概念:正常调度指按照配置的调度周期和起调时间,并正常执行。空跑调度指按照调度周期的时间配置调度,但都是...

任务实例状态异常

产生原因 工作空间可能没有开启调度。解决措施 按照下图所示,在 工作空间配置 页面,检查工作空间是否开启调度。说明 如有需要请协调主账号开启工作空间调度。有周期任务,有其他周期实例,但是这个任务没有产生周期实例 问题现象 有周期...

专业版公测(2022年01月26日)

您不需要修改一行代码,只需要增加一个Log4j或Logback的配置,即可将每次任务调度的框架日志和业务日志进行收集,同时SchedulerX 2.0的专业版提供了日志检索功能,可以通过任务调度平台快速定位任务失败的原因。​​更多信息,请参见 如何...

产品简介

移动调度中心(Mobile Dispatch Center,MDC)是基于客户端用户业务属性进行用户分组的精细化移动调度服务产品,能快速有效帮助客户达成业务分组灰度测试、A/B 测试、故障调优等目标。产品优势 移动调度中心的产品优势如下:用户级精准调度...

FTP Check节点

如果文件存在,则启动调度下游任务,不存在,则按照配置的间隔时间重复检测,直到满足检测的停止条件时停止检测。该节点通常作为DataWorks调度系统与其他调度系统之间传递信号使用。本文为您介绍使用FTP Check节点的流程和注意事项。前提...

常见问题

运维管理 容器应用服务常见问题 经典应用服务常见问题 中间件 SOFABoot 常见问题 微服务常见问题 微服务故障排查之 DRM 微服务故障排查之限流 微服务故障排查之 RPC 服务网格-故障排查 消息队列常见问题 任务调度常见问题 分布式链路跟踪...

功能特性

本文介绍任务调度的功能特性。分布式任务调度框架 提供多种任务类型满足不同场景需求,进行可靠的自动化任务调度。简单任务 最基本的任务类型,适用于业务逻辑简单的场景。单个简单任务对应一个 handler,支持任务分片及分步:当需要并发...

历史数据清理

暂停调度 说明 如果需要关闭调度,请前往历史数据清理工单详情页,单击右上角的 关闭工单,再填入关闭工单的具体原因,单击 确定 即可。重启调度 说明 关闭工单后,若需要重启调度只能重新提工单。修改工单责任人 工单责任人默认是工单提交...

专业版公测(2022年01月26日)

您不需要修改一行代码,只需要增加一个Log4j或Logback的配置,即可将每次任务调度的框架日志和业务日志进行收集,同时SchedulerX 2.0的专业版提供了日志检索功能,可以通过任务调度平台快速定位任务失败的原因。​​更多信息,请参见 如何...

MySQL节点

您可以通过创建MySQL节点,直接使用SQL语句对目标MySQL数据源进行数据开发。本文为您介绍如何创建并使用MySQL节点。...可能原因2:测试连通性使用的调度资源组,但任务执行时选错资源组,您可通过 带参运行 切换任务执行使用的调度资源组。

补数据

产生原因 小时分钟任务需要选择具体的调度时间区间才可以正常生成补数据实例并执行。为什么有节点选择了补数据,但是没有生成补数据实例?问题现象 某节点选择了补数据,但是没有生成补数据实例。产生原因 不在生效日期范围内的节点不生成...

Dataphin的调度任务到了设置的调度时间状态还是等待中

解决方案 如果需要优先运行当前实例,可以调整任务优先级后执行强制重跑操作,优先运行当前实例 新版本中(v3.2及以上版本)将“等待中”状态拆分为了“等待调度时间”和“等待调度资源”,可以更直观区分等待原因 V3.5版本开始,支持查看...

同城多活架构实践

需具备对故障AZ的RPC、MQ、任务调度流量切零能力。如果业务RT敏感,需具备可用区内流量封闭的能力以避免跨可用区的网络传输带来的RT增长。统一管控难度大。需对接支持众多的云产品和开源框架。切零规则、流量可用区内封闭规则、环境隔离...

模块开通

多活容灾MSHA(Multi-Site High Availability),是在阿⾥巴巴电商业务环境演进出来的多活容灾架构解决⽅案,可以将业务恢复和故障恢复解耦,有灵活的规则调度、跨域跨云管控、数据保护等能力,保障故障场景下的业务快速恢复,助⼒企业的容...

GPU调度概述

共享GPU调度 阿里云容器服务Kubernetes版ACK(Container Service for Kubernetes)开源了GPU共享调度之后,您能在阿里云、AWS、GCE和自己数据中心的容器集群上通过GPU共享调度框架实现多个容器运行在同一个GPU设备上的目标。ACK开源GPU共享...

共享GPU调度概述

视频介绍 背景介绍 阿里云 容器服务 Kubernetes 版 ACK(Container Service for Kubernetes)开源了GPU共享调度之后,您能在阿里云、AWS、GCE和自己数据中心的容器集群上通过GPU共享调度框架实现多个容器运行在同一个GPU设备上的目标。...

共享GPU调度

容器服务 Kubernetes 版 ACK(Container Service for Kubernetes)开源了GPU共享调度之后,您能在阿里云、AWS、Google Compute Engine和自己数据中心的容器集群上通过GPU共享调度框架实现多个容器运行在同一个GPU设备上的目标。ACK开源GPU...

数据开发

资源属性 配置:任务由调度资源组调起运行,所以这里配置调度资源组为 公共调度资源组。调度依赖 配置:单击 同周期 页签中 依赖的上游节点 后的 使用工作空间根节点,其他参数保持默认。配置调度依赖的目的是为了保障上游表产出完成才会...

产品功能

通过SchedulerX可以管理定时调度任务、查询任务执行记录和运行日志。本文介绍SchedulerX调度、执行和运维三个方面的功能。定时调度 Crontab 支持Unix Crontab表达式,不支持秒级别调度。更多信息,请参见 Cron。Fixed rate Crontab必须被60...

DMS调度Spark

使用常规的Spark开发编辑器或命令行等工具进行Spark作业开发时,仅支持单次调度Spark作业,且作业间无依赖关系和执行顺序。为解决以上痛点,您可以通过 数据管理DMS 的任务编排功能,周期性、有顺序地调度Spark作业。本文介绍如何使用DMS...

什么是应用高可用服务AHAS

多活容灾 多活容灾MSHA(Multi-Site High Availability),是在阿⾥巴巴电商业务环境演进出来的多活容灾架构解决⽅案,可以将业务恢复和故障恢复解耦,有基于灵活的规则调度、跨域跨云管控、数据保护等能力,保障故障场景下的业务快速恢复...

任务触发与执行问题

任务执行超时 问题现象 出现 TIMEOUT 错误。问题原因 客户端处理超时。解决方法 查看超时时间是否...任务调度触发失败 检查 home/admin/logs/scheduler 目录下的 common-error.log 错误日志,如果原因是线程被占满,可以扩大线程池的数量。

Dataphin计算任务正常调度和补数据结果不一致

问题原因 日志中的两次执行计划不一样,有些源表没有读取数据,一因为执行任务的时候该源表的分区数据为空。解决方案 查看没有读的源表分区数据产出时间,调整计算任务调度时间在源表分区数据产出后,或者调整源表分区数据产出时间在计算...

管理MySQL集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

其他常见问题

任务调度客户端不在线 问题现象 任务调度控制台显示客户端不在线。问题原因 客户端和服务端之间的 TCP 长连接建立失败。解决方案 控制台显示客户端在线,就表示客户端和服务端成功建立了 TCP 长连接。建立 TCP 连接需要有两个因素:客户端...

使用Gang scheduling

原因:当集群中同时存在多个PodGroup调度时,由于调度器存在BackOff队列,可能存在一个PodGroup的所有Pod的调度没有完全聚合在一起的情况。此时已经预占资源的Pod可能会影响后续PodGroup的Pod调度,因此在后续PodGroup的Pod调度时,会拒绝...

使用Gang scheduling

原因:当集群中同时存在多个PodGroup调度时,由于调度器存在BackOff队列,可能存在一个PodGroup的所有Pod的调度没有完全聚合在一起的情况。此时已经预占资源的Pod可能会影响后续PodGroup的Pod调度,因此在后续PodGroup的Pod调度时,会拒绝...

任务常见问题

如果任务执行时间比较长,上一次没运行完,下一次调度时间到了,则下一次会直接丢弃,不会运行也不会排队。如果设置任务实例并发数为2,上一次没运行完,下一次时间到了仍然可以运行一个实例,最多同时运行两个任务实例。如何设置一次性...

历史功能发布记录(2023年)

全部 自助诊断GPU节点问题 ACK调度器支持IP感知调度和拓扑调度等功能 IP感知调度 当Pod调度到某节点上时,由于可用IP不足无法启动,该节点将被标记为缺少IP状态并被拉黑五分钟。IP感知调度可防止大量Pod由于IP不足而导致的启动失败问题。...

任务运行诊断

任务实际执行时,除了受数据开发(DataStudio)中定义的定时调度时间影响外,还受多方因素影响。例如,上游任务的定时时间、上游任务实际执行完成时间、任务执行资源组所剩资源等。本文为您介绍如何使用运行诊断功能快速定位任务未运行成功...

产品相关问题

任务调度的核心功能是什么?分布式调度:提高系统的可用性、伸缩性,且调度与业务的分离,让研发更专注业务逻辑的开发。多种任务类型:简单任务,集群任务,消息任务,流式任务,满足不同场景需求。丰富的管理功能:包括定时触发、事件触发...

演练场景说明

故障演练场景是演练任务的核心。AHAS提供基础资源类场景和Kubernetes类场景,帮助分布式系统提升容错性和可恢复性。每一个执行阶段的演练场景都对应一个恢复阶段的演练任务。恢复阶段的演练任务目的是清除故障演练的影响,使应用或服务恢复...

什么是故障演练

适用场景 故障演练可适用于以下典型场景:衡量微服务的容错能力 通过模拟调用延迟、服务不可用、机器资源满载等,查看发生故障的节点或实例是否被自动隔离、下线,流量调度是否正确,预案是否有效,同时观察系统整体的QPS或RT是否受影响。...

故障应急协同

故障通告及更新 基于7x24监控值班工作特性,对于业务异常达到故障等级时,以用户定制的(语音、短信、IM)的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组,并持续更新直至故障结束。故障应急协同群 故障发生后,可以...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 物联网无线连接服务 物联网平台 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用