弹性伸缩概述

大型单体应用 适用于无法水平扩展的应用,通常是在Pod出现异常恢复时生效。容器垂直伸缩(VPA)CronHPA ACK开源的组件,主要面向应用资源使用率存在周期性变化的场景。周期性负载业务 适用于Deployment、StatefulSet等,实现了scale接口的...

应用场景

全面消除偶发问题引发的风险 依托于限流、降级、熔断、隔离等能力,可以在出现偶发的流量洪峰和依赖服务出现异常时,有效地限流保护、削峰填谷、隔离故障、降级保护。低成本实现微服务敏捷开发 依托于开发环境隔离能力,可以在不增加物理...

任务运行诊断

场景 描述 是否存在异常任务长时间占用资源未释放,导致任务阻塞 请通过 运行诊断>调度资源 页面,确认是否存在长时间占用资源的任务,通过 查看任务执行日志 定位长时间占用资源的原因。该资源组上执行的任务是否增加 当前使用的资源组所...

开发ODPS MR任务

MaxCompute提供MapReduce编程接口。您可以通过创建ODPS MR类型节点并提交任务调度,使用MapReduce Java API编写MapReduce程序来处理MaxCompute中的...MapReduce常见问题:您可了解MR任务执行过程中的常见问题,便于出现异常时快速排查解决。

开发ODPS MR任务

MaxCompute提供MapReduce编程接口。您可以通过创建ODPS MR类型节点并提交任务调度,使用MapReduce Java API编写MapReduce程序来处理MaxCompute中的...MapReduce常见问题:您可了解MR任务执行过程中的常见问题,便于出现异常时快速排查解决。

功能说明

(5)报警通知组 报警通知组是指当业务出现异常时,用于接收通知消息的联系人组,是读取阿里云的云监控产品中您设置的报警通知组。如果GTM的健康检查发现有IP地址异常、或者地址池不可用等异常状态,则会及时通过报警通知组通知到您的相关...

设置Pod故障处理策略

如果Pod status.reason为空(fail-fast一般不会出现该情况),可以查看Pod status condition,通过ContainerInstanceCreated的status确认调度状态。如果ContainerInstanceCreated为True,则表示ECI调度成功,是Sandbox创建异常。如果...

使用DMS进行数据归档

注意事项 若在数据归档过程中选择了自动清理源库表数据,请注意源库表空间的预留情况,避免由于空间不足导致归档过程中出现异常。支持存储弹性模式和Serverless模式两种实例资源类型的 AnalyticDB PostgreSQL版。推荐您使用资源类型为...

资源伸缩和系统扩展

大型单体应用 适用于无法水平扩展的应用,通常是在Pod出现异常恢复时生效。容器垂直伸缩(VPA)CronHPA ACK开源的组件,主要面向应用资源使用率存在周期性变化的场景。周期性负载业务 适用于Deployment、StatefulSet等,实现了scale接口的...

健康检查及自动恢复

一旦检测到节点异常(往往是内存超限、进程异常退出等异常场景)将会进入自动恢复过程,master会通过检查每个work节点资源限制情况来动态调度恢复的目标,可能出现2种调度场景:1)在原work节点重启 2)跨work节点重启。注:由于这种健康...

网络架构容灾

开启健康检查功能后,当后端某个ECS实例健康检查出现异常时,负载均衡会自动将新的请求分发到其他健康检查正常的ECS实例上,而当该ECS实例恢复正常运行时,负载均衡会将其自动恢复到负载均衡服务中。为了使健康检查功能正常运作,需要开启...

MaxCompute数据离线同步至ClickHouse

取值可以是调度系统参数,如 ds=${bizdate},当任务运行时,会自动替换调度系统参数。其他参数保持默认即可。配置数据去向:ClickHouse侧参数 本实践将数据同步至ClickHouse,数据去向是ClickHouse。配置要点如下。配置项 配置要点 数据源 ...

开发PyODPS 2任务

DataWorks提供PyODPS 2节点类型,您可以在DataWorks上通过PyODPS语法进行PyODPS任务开发,PyODPS集成了MaxCompute的Python SDK。支持您在DataWorks的...PyODPS常见问题:您可了解PyODPS执行过程中的常见问题,便于出现异常时快速排查解决。

调度概述

ACK Scheduler是ACK基于Kubernetes Scheduling Framework扩展机制,针对不同任务负载、不同弹性资源的统一调度系统。ACK Scheduler支持不同弹性资源的混合调度、异构资源的精细化调度、批量计算的任务调度等,提升应用的性能和集群整体资源...

开发PyODPS 2任务

DataWorks提供PyODPS 2节点类型,您可以在DataWorks上通过PyODPS语法进行PyODPS任务开发,PyODPS集成了MaxCompute的Python SDK。支持您在DataWorks的...PyODPS常见问题:您可了解PyODPS执行过程中的常见问题,便于出现异常时快速排查解决。

开发ODPS Spark任务

MaxCompute Spark作业可通过 Local模式、Cluster模式 执行,此外,您也可在DataWorks中运行MaxCompute Spark离线作业(Cluster模式),以便与其它类型执行...Spark常见问题:您可了解Spark执行过程中的常见问题,便于出现异常时快速排查解决。

开发ODPS Spark任务

MaxCompute Spark作业可通过 Local模式、Cluster模式 执行,此外,您也可在DataWorks中运行MaxCompute Spark离线作业(Cluster模式),以便与其它类型执行...Spark常见问题:您可了解Spark执行过程中的常见问题,便于出现异常时快速排查解决。

如何使用“会话追踪方案”排查解析异常

为了获得更好的服务质量,服务节点调度系统(GSLB)可能会频繁地变更上述的线路调度配置,例如CDN系统,可能每几个小时就会调整一次调度配置。如果客户端获取到了错误的调度结果(即解析结果),可能会导致服务质量受损,也就是慢或超时,...

使用Gang scheduling

ACK基于新版的Kube-scheduler框架实现Gang scheduling的能力,解决原生调度器无法支持All-or-Nothing作业调度的问题。本文介绍如何使用Gang scheduling。重要提示 请预留足够资源:使用弹性节点池时请保证弹性节点池的最大资源量以及节点...

共享GPU调度概述

节点选卡策略Binpack和Spread 在共享GPU调度中,如果节点存在多张GPU卡,从节点中挑选GPU卡分配给Pod时,有两种策略可以考虑:Binpack:默认策略,调度系统先分配完节点的一张GPU卡后,再分配节点上另一张GPU卡,避免节点出现GPU资源碎片。...

使用Gang scheduling

ACK基于新版的Kube-scheduler框架实现Gang scheduling的能力,解决原生调度器无法支持All-or-Nothing作业调度的问题。本文介绍如何使用Gang scheduling。重要提示 请预留足够资源:使用弹性节点池时请保证弹性节点池的最大资源量以及节点...

告警规则指标说明

异常接口调用响应时间 毫秒 是 该应用异常调用的响应时间,其中,异常调用指调用中出现异常抛错的调用。可以根据该指标判断调用堆栈抛错对应用调用响应时间的影响大小,从而判断是否存在应用调用异常。指标维度 接口名称,筛选条件如下:遍...

使用Prometheus配置报警规则的最佳实践

DaemonSet副本调度异常 Critical kube_daemonset_status_number_misscheduled{job}>0 DaemonSet的副本调度异常时,触发报警。在操作入口,单击 集群应用工作负载报警规则集,设置 Daemonset副本调度异常 报警规则。更多信息,请参见 容器...

DataWorks按量计费概述

公共调度资源组、公共数据集成资源组、公共数据服务资源组 为共享资源池,高峰期可能出现实例等待无法调起、同步任务线程数分配不足、API调用执行异常及限流 的情况。如果需要保证并发任务运行,请购买 独享调度资源组,独享数据集成资源组...

自定义资源组

自定义资源组在DataWorks调度体系中使用,当前DataWorks调度体系分为一级调度资源和二级运行资源:一级调度资源:进入 运维中心 页面,单击左侧导航栏中的 周期任务运维>周期实例。右键单击相应实例的DAG图,选择 查看更多详情,即可在 ...

文档修订记录

运维中心 运维大屏功能改版,支持展示工作空间的运维稳定性评估、重点关注的运维指标、调度资源使用及周期任务运行概况,以及数据集成同步任务的运行详情,助力您从宏观角度快速了解空间任务的整体概况,及时发现并处理异常任务,提升运维...

配置共享GPU调度节点选卡策略

策略介绍 在共享GPU调度中,如果节点存在多张GPU卡,从节点中挑选GPU卡分配给Pod时,有两种策略可以考虑:Binpack:默认策略,调度系统先分配完节点的一张GPU卡后,再分配节点上另一张GPU卡,避免节点出现GPU资源碎片。Spread:调度系统会...

Java SDK

企业级分布式批处理方案 1.4.2,2022-03-07 变更类型 功能描述 相关文档 新增 分布式任务调度系统SchedulerX 2.0的日志服务,您不需要修改一行代码,只需要增加一个Log4j或Logback的配置,即可在控制台看到每次任务调度(包括分布式任务)...

UpdateFile

由于DataWorks调度系统的规则,cron表达式有以下限制:最短调度间隔时间为5分钟。每天最早调度时间为0点5分。CycleType String 否 NOT_DAY 调度周期的类型,包括NOT_DAY(分钟、小时)和DAY(日、周、月)。该参数与 DataWorks控制台 中,...

运维中心概述

异常告警:基线运维支持配置物理任务和逻辑表字段告警规则,如果被监控的任务或字段异常系统通过电话、短信、钉钉或邮件告警给您。功能概述 当您在Dataphin中完成节点开发,并提交或发布至生产环境后,即可在运维中心对任务进行运维操作...

运维中心概述

异常告警:基线运维支持配置物理任务和逻辑表字段告警规则,如果被监控的任务或字段异常系统通过电话、短信、钉钉或邮件告警给您。功能概述 当您在Dataphin中完成节点开发,并提交或发布至生产环境后,即可在运维中心对任务进行运维操作...

离线同步能力说明

费用说明 数据集成同步任务运行会占用数据集成任务执行资源,DataWorks会根据您使用的资源进行收费,此外,离线同步任务通过调度系统下发至对应资源组运行时,还会产生调度相关费用。详情请参见 资源费用明细:数据集成。说明 调度费用详情...

启用节点自动伸缩

当集群的容量规划无法满足应用Pod调度时,您可以使用 节点自动伸缩 方案实现节点的自动扩缩。节点自动伸缩 适用于扩容规模较小(例如开启弹性的节点池数量少于20,或对应节点池中的节点数量少于100),工作负载批次较为稳定,以单次伸缩为...

功能更新动态(2023年)

支持补数据任务定时调度系统自动定期回刷历史数据。通用补数据实例 资产目录 新增专题广场功能,实现资产分类管理。新增 运营管理员 角色,负责资产专题及专题分组管理。新增资产专题广场,可快捷搜索及查看有权限的资产专题,展示新建...

常见问题

如果在开启自动伸缩后停止管控节点,可能会导致自动伸缩决策失误从而出现一些异常问题。说明 如果管控节点需要关机或者重启,请在计算节点没有作业运行,并且自动伸缩已经释放了空闲节点后再进行操作。此时,建议您先关闭自动伸缩,在管控...

文档更新动态(2023年)

支持补数据任务定时调度系统自动定期回刷历史数据。更新说明 通用补数据实例 新增专题广场功能和数据表列表优化 新增专题广场功能,实现资产分类管理。新增 运营管理员 角色,负责资产专题及专题分组管理。新增资产专题广场,可快捷搜索...

Pod异常问题排查

本文介绍关于Pod异常问题的诊断流程、排查方法、常见问题及解决方案。本文目录 类别 内容 诊断流程 诊断流程 常见排查方法 检查Pod的状态 检查Pod的详情 检查Pod的配置 检查Pod的事件 检查Pod的日志 检查Pod的监控 使用终端进入容器 Pod...

节点伸缩概述

当集群的容量规划无法满足应用Pod调度时,您可以使用ACK提供的节点伸缩功能,自动扩缩节点资源以进行调度容量的补充。ACK目前提供 节点自动伸缩 与 节点即时弹性 两种弹性方案,后者相较于前者有着更快的弹性速度、更高的交付效率和更低的...

采集数据

本教程以MySQL中的用户基本信息(ods_user_info_d...无需单独配置当前节点 定时调度时间,当前节点每日起调时间由业务流程根节点workshop_start的定时调度时间控制,即每日00:15后才会调度。配置调度依赖:确认 依赖的上游节点:确认当前节点 ...

Pod异常问题排查

本文介绍关于Pod异常问题的诊断流程、排查方法、常见问题及解决方案。本文目录 类别 内容 诊断流程 诊断流程 常见排查方法 检查Pod的状态 检查Pod的详情 检查Pod的配置 检查Pod的事件 检查Pod的日志 检查Pod的监控 使用终端进入容器 Pod...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
物联网无线连接服务 负载均衡 Web应用防火墙 云安全中心 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用