监控服务概览

OpenAPI访问监控数据 OSS服务的相关监控指标数据可以通过云监控提供的OpenAPI访问,使用方法请参见:云监控SDK参考 访问监控数据 监控、诊断和故障排除 监控诊断和故障排除 通过详细介绍以下各个方面的内容帮助您更好地了解OSS服务的运行...

PAI-TF概述

PAI-TF的作业都是基于底层的分布式调度系统动态调度至不同机器。当您提交PAI-TF作业时,无需担心是否需要提前申请GPU物理主机,PAI-TF所需要的GPU资源随作业的提交动态分配,随作业的结束动态释放。全局计算调度 当您在使用MaxCompute计算...

故障排除

CC API在调用时可能会遇到一些错误,遇到错误时以错误码为依据进行故障排除,本文为您介绍 常见错误码的解决方案。云产品运行时错误码 云产品API运行时返回的错误码。以下两个错误码为云产品运行时错误,如想获取云产品详细错误信息,需...

常见问题FAQ

4.HDMI无信号 故障示意图如下:故障排除方案如下:1.见下遥控器说明,按电源键,重启魔盒。2.重复插拔HDMI线 3.重启屏幕 屏幕操作指南由屏幕供应商给出。4.屏幕的信号源切换到HDMI输入。屏幕操作指南由屏幕供应商给出。如无法排除故障:...

诊断网页加载过慢的问题

针对这类问题,ARMS前端监控的慢会话追踪功能提供页面静态资源加载的性能瀑布图,可深入定位页面资源加载情况,全方位地诊断故障根源,从而快速排除故障。问题描述 网页加载较慢是经常出现且前端非常关注的问题之一。定位、排查解决这类...

如何管理事件

本文档主要介绍如何管理事件。事件来源 通过流转规则触发的系统事件;...故障动态 故障动态可以直接链接到每个节点处理人,支持查看影响事件详情的升级策略的快照信息。历史事件的信息可以帮助处理人快速链接到关键信息,提升事件处理效率。

运维事件中心的审计事件

ListProblemDetailOperations 查询故障操作动态。ListProblemOperations 查询故障动态。ListProblems 查询故障列表。ListProblemSubtotals 查询故障小计列表。ListProblemTimeLines 查询故障时间线列表。ListRouteRules 查询规则列表。...

故障协同处理(基于钉钉)

(4)故障动态 H5界面:故障动态和PC端故障动态保持一致,PC端和移动端对于故障的关键操作和数据修改统一同步记录。(5)备注详情 H5界面:备注详情可新增备注,记录备注详情内容。5.故障应急场景群:事件升级故障后自动创建故障应急场景群...

API概览

API 描述 CreateProblem 故障升级 GetProblemImprovement 故障复盘改进详情 GetProblemPreview 获取故障通知预览 UpdateProblemImprovement 更新故障复盘改进详情 CancelProblem 取消故障 CreateProblemSubtotal 故障新增备注小计 ...

故障动态

故障动态列表。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/...

历史功能发布记录(2023年)

全部 无 云原生AI套件 GPU调度支持GPU节点动态划分MIG ACK托管集群 安装 云原生AI套件 的调度组件ack-ai-installer后,通过给GPU节点打上特殊标签,可以让GPU节点开启MIG能力以及动态划分。节点按最大支持MIG实例数上报MIG资源,每个Pod的...

Quick BI v4.3版本说明

支持多种调度方式,包括手动调度,周期调度动态参数调度。支持任务发布状态管理和运维管理。移动端 移动端图表展示支持栅格布局,一行可放置多个图表。支持布局缩放来调整单个组件尺寸和位置。支持布局个性化隐藏Tab内的单个图表。可视化...

负载均衡调度算法介绍

动态负载调度:当服务器的连接数和负载情况经常发生变化时,可以通过实时监控连接数并进行动态调整,实现动态的负载均衡。高稳定性要求:对于需要实时响应和高稳定性的应用场景,通过加权最小连接数算法可以降低服务器的负载,提高系统的...

应用场景

接驳优化推荐:动态公交调度、公交线网优化、公交排班优化、地铁运营与检修排班。MaaS出行服务:个性化联程方式出行规划、一码通乘服务、出行核验、用户运营管理。案例说明 场景:某城市希望提升公共交通在城市级大型赛会活动时的服务水平...

数据开发:开发者

本文以使用MaxCompute数据源,在DataWorks上运行MaxCompute作业任务为例,为您介绍开发人员如何使用数据开发(DataStudio)创建一个周期调度任务,帮助您快速了解数据开发(DataStudio)模块的基本使用。前提条件 已完成开发前的环境准备,...

故障详情动态

故障详情动态。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/...

同城多活架构实践

需具备对故障AZ的RPC、MQ、任务调度流量切零能力。如果业务RT敏感,需具备可用区内流量封闭的能力以避免跨可用区的网络传输带来的RT增长。统一管控难度大。需对接支持众多的云产品和开源框架。切零规则、流量可用区内封闭规则、环境隔离...

兼容Spring定时任务

任务运行在集群环境中具备稳定高可靠支持,规避了原生框架存在的重复执行问题,具备故障自动转移能力。在企业内多个团队可共享一套平台使用,通过命名空间和应用分组实现各团队任务配置数据隔离及环境隔离。接入步骤 具体操作,请参见 ...

场景:配置增量数据离线同步任务

同时,过滤条件可以结合调度参数使用,实现过滤条件随任务调度时间的动态变化,进而实现增量数据的同步。该内容将向您介绍如何配置增量数据同步任务。使用说明 部分数据源暂无增量同步方案,例如HBase、OTSStream数据源等。具体数据源是否...

调度概述

功能 描述 参考文档 负载感知调度调度过程中,通过参考节点负载的历史统计,将Pod优先调度到负载较低的节点,实现节点负载均衡的目标,避免出现因单个节点负载过高而导致的应用程序或节点故障。使用负载感知调度 使用负载热点打散重调度...

兼容Spring定时任务

任务运行在集群环境中具备稳定高可靠支持,规避了原生框架存在的重复执行问题,具备故障自动转移能力。在企业内多个团队可共享一套平台使用,通过命名空间和应用分组实现各团队任务配置数据隔离及环境隔离。接入步骤 具体操作,请参见 ...

兼容Spring定时任务

任务运行在集群环境中具备稳定高可靠支持,规避了原生框架存在的重复执行问题,具备故障自动转移能力。在企业内多个团队可共享一套平台使用,通过命名空间和应用分组实现各团队任务配置数据隔离及环境隔离。接入步骤 具体操作,请参见 ...

集群任务限流

动态限流 动态限流通过任务调度控制台调整限流速率,不管是否提供限流器,动态限流都可以正常工作。如果没有指定限流器,任务调度客户端使用默认的 DefaultLimiter 限流器。配置方式有以下两种:全局生效 在配置或编辑任务调度时配置的限流...

使用负载热点打散重调度

ack-koordinator组件提供负载热点打散重调度能力,可以感知集群内节点负载的变化,自动地优化超过负载水位安全阈值的节点,防止出现负载极端不均衡的情况。本文介绍如何使用负载热点打散重调度及其高级配置参数。使用限制 仅支持ACK Pro版...

接入 Android

业务方可以使用 mPaaS 的开关配置动态控制移动调度中心和 IPv6 的开关。开启移动调度中心开关,RPC 使用移动调度中心配置;关闭移动调度中心开关,RPC 不使用移动调度中心配置。开关默认开启。MPRpc.openMGDC(isOpen);关闭 IPv6 开关,RPC ...

使用负载感知调度

ACK集群Pro版 调度器的负载感知调度功能会根据节点的实际负载情况,将Pod优先调度到负载较低的节点,以实现节点负载均衡,降低节点故障风险。前提条件 已安装ack-koordinator组件,且版本为1.1.1-ack.1及以上。具体操作,请参见 ack-...

产品架构

ZooKeeper(Global和Local):服务活动情况汇报给调度服务,动态配置更新。Nginx Proxy:支持私有协议的Nginx代理服务,针对不同文件一致性Hash到不同的Channel服务。Channel服务:记录文件和拥有文件的端点地址信息,为下载提供就近的端点...

演练场景说明

JVM注入动态脚本 向指定的Java方法注入一段动态代码,您可通过代码方式实施任意故障场景,例如篡改方法入参、篡改方法返回值等。K8s类场景 场景名称 特性 Node演练场景 Kubernetes集群中Node资源故障场景,目前包含基础资源中的CPU、网络和...

场景:调度参数在数据集成的典型应用场景

调度参数可以同于数据集成任务配置的各个阶段。本文为您介绍调度参数的典型应用场景。背景信息 DataWorks数据集成结合调度参数使用,可实现以下场景:场景 说明 相关文档 增量数据同步 部分Reader插件可通过调度参数实现每次调度只同步指定...

确认表血缘

确认表血缘 同空间下确认上游表血缘 节点周期写入某张表某个分区的数据,大部分场景都是采用调度参数来动态实现,您可参考 调度参数,了解调度参数的替换原理。若您需要依赖同工作空间某节点,则可检查其调度参数的配置情况。开发环境确认...

网络架构容灾

简称GTM)可以有效解决上面几个问题,它基于阿里云DNS入口调度和分布式云监控,旨在帮助企业实现用户访问应用服务的就近接入、高并发负载均摊、应用服务的健康检查,并能够根据健康检查结果实现故障隔离或流量切换,方便企业灵活快速的构建...

故障排查

Service无法正常工作 在排除网络插件自身的问题外,最可能的是 label 配置有问题,您可以通过查看 endpoints 进行故障排查。具体操作,请参见 检查Service。如何升级集群?升级集群的Kubernetes版本,具体操作,请参见 手动升级ACK集群。从...

任务常见问题

可以通过控制台动态修改超时时间。具体操作,请参见 任务管理。为什么实例停止之后还会执行?问题现象:实例停止之后仍然执行。可能原因:任务实例停止后,SchedulerX会把Kill消息发送到客户端。客户端接收到Kill消息后,会停止下发和停止...

云原生AI套件概述

异构计算集群概述 开启集群GPU监控 共享GPU调度概述 AI任务调度 多种调度策略支持:针对AI分布式训练等典型批量任务类型,ACK调度器扩展Kubernetes原生调度框架,支持实现多种典型批量调度策略,包括Gang Scheduling(Coscheduling)、FIFO...

时间属性配置说明

时间属性用于定义节点在生产环境的周期调度方式。您可通过调度配置的时间属性,配置节点生成周期实例的方式,实例调度周期与执行时间,是否支持重跑,任务执行超过多长时间自动退出等。本文为您介绍如何配置节点的调度时间属性。背景信息 ...

数据开发概述

DataWorks数据开发(DataStudio)模块用于定义周期调度任务的开发及调度属性,与运维中心配合使用,面向各引擎(MaxCompute、Hologres、EMR等)提供可视化开发主界面,支持智能代码开发、多引擎混编工作流、规范化任务发布等能力,帮助您...

Pod诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查...

存储多可用区部署的推荐配置

通过存储多可用区部署优化,可以帮您最大限度地减少应用发布中断,确保关键业务系统和应用在各种故障情况下能持续运行。本文介绍存储在多可用区部署时的推荐配置。背景信息 Kubernetes强大的容器编排能力,使得用户在Kubernetes上构建大...

通过向导模式配置离线同步任务

同时,过滤条件可以结合调度参数使用,实现过滤条件随任务调度时间的动态变化,进而实现增量数据的同步。不同插件增量同步配置与实现方式不同,关于增量数据同步配置详情请参见:场景:配置增量数据离线同步任务。说明 在数据过滤和目标表...

集群高可用架构推荐配置

节点池高可用配置 您可以基于节点的弹性伸缩、部署集、多AZ,结合K8s调度的拓扑分布约束,确保服务在不同的故障域(failure-domain)资源充足且有所隔离,从而当某一故障域出现问题时,服务仍然可以保持运行,减少单点故障的风险,提高系统...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 负载均衡 音视频通信 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用