Windows系统实例的宕机问题排查

定位宕机原因 您可以通过以下方式,定位ECS实例发生宕机的具体原因。方式一:(推荐)通过自助诊断工具定位 登录 ECS管理控制台,左侧导航栏单击 自助问题排查。单击 实例问题排查 页签。选择 实例无法连接或启动异常>实例出现宕机,然后...

列表信息

在架构地图中,可以查看进程、容器、主机的拓扑图,以及系统节点列表。本文介绍各个进程、容器、主机、系统节点等列表的具体参数信息。进程详情 进程详情说明见下表。表 1.进程详情说明 进程详情 说明 状态 CPU 该进程的CPU占有情况。...

集群高可用架构推荐配置

启用部署集 部署集是控制ECS实例分布的策略,该策略将ECS实例分散部署在不同的物理服务器上,避免由于一台物理机失效导致多台ECS实例宕机。通过为节点池指定部署集,能够保证节点池扩容出的ECS实例不会分布于同一物理机上,并通过亲和性...

设置宕机自动迁移

为了降低物理故障对业务的影响,阿里云为您提供专有宿主机DDH宕机自动迁移的功能。本章节介绍在创建DDH后如何开启或者关闭宕机自动迁移。背景信息 宕机自动迁移开启后,当DDH因故障停机时,会自动迁移至健康的DDH。若您未开启宕机自动迁移...

任务触发与执行问题

问题原因 拓扑图没有发布的版本,就直接执行拓扑任务,即无可执行的发布版本。解决方案 编辑拓扑图,发布一个版本。服务端异常 问题现象 整个应用的所有任务均触发失败。控制台提示失败原因:Server exception when invoke with callback....

服务等级说明

服务等级说明 数据总线服务等级协议 本服务等级协议(Service Level Agreement,以下简称“SLA”)规定了阿里云向客户提供的数据总线(简称“数据总线”)的服务可用性等级指标及赔偿方案。1.定义 1.1 服务周期 一个服务周期为一个自然月。...

搭建高可用架构

独占:是 独享 的顶配,也称为独占主机型,完全独占一台物理机的所有资源。设置自动备份 为减少误操作或数据库异常时的不可用时间,建议您设置实例每隔一段时间 自动备份,以便出现问题时及时恢复到最近的数据。跨地域容灾 RDS MySQL...

集群实例工作台

图标,将鼠标悬停在 Unit 卡片上可查看不可迁移的具体原因,包括迁移后的 10 分钟内不能继续迁移、无有效的迁移目标节点、集群或租户是非 online 状态等。相关操作 您还可以在集群实例工作台进行如下操作:单击右上角 新建租户,创建新的...

多NUMA机型的容器内存就近访问加速

ack-koordinator以数据安全的方式将绑核应用远端NUMA上的内存迁移至本地,提高本地访存命中率,为内存密集的工作负载提供更好的访存性能。本文介绍如何使用内存就近访问加速功能,并验证其对密集应用性能的提升。索引 前提条件 内存...

附录:SOFAStack 产品目录

透明读写分离 通过使用数据访问代理的只读实例或 MySQL 备实现读写分离,帮助应用解决事务、只读实例或者备失效、指定主备访问等细节问题。对应用无侵入,在数据访问代理控制台即可完成读写分离相关操作。数据存储平滑扩容 当出现数据...

应用视图

应用视图页面是通过采集主机进程与网络数据,来展示主机部署应用的拓扑架构。您可以通过筛选进程类型,查看进程的拓扑图和详细信息。本文介绍如何在应用视图中查看进程。操作步骤 登录 AHAS控制台,在左侧导航栏选择 故障演练>架构感知。在...

HDFS高可用相关命令(HaAdmin)介绍

单一NameNode主要从两个方面影响HDFS集群的可用性:当发生一个计划之外的事件,例如机器宕机,集群将会处于不可用状态,直到手动重启NameNode。有计划的维护事件,例如软件或硬件升级,也会使得集群存在一个不可用的窗口期。HDFS高可用特性...

EBA设备接入方案介绍

4.对接流程 4.1 设备要求 4.1.1 直连设备 提供通讯协议,且符合物业管理一体支持的物理总线 4.1.2 BAS/协议网关 提供通讯协议,且符合物业管理一体支持的物理总线 BAS或协议网关需要为内部每一个子设备提供一个全局设备ID,供物业管理...

使用专有网络拓扑

专有网络拓扑包括资源拓扑与路由拓扑,为您展示 专有网络 VPC(Virtual Private Cloud)下各类资源之间的关联关系与路由转发路径,并支持查看相关网络实例的基本信息,进行实例诊断,路径分析等操作。资源拓扑 资源拓扑通过拓扑组网,展示...

CPU拓扑感知调度

ACK基于新版的Scheduling framework实现CPU拓扑感知调度,针对CPU敏感的工作负载提供更好的性能。本文介绍如何使用CPU拓扑感知调度。原理介绍 Kubernetes的节点会运行多个Pod,其中部分Pod属于CPU密集工作负载。在这种情况下,Pod之间...

基础版

说明 由于基础版只有一个数据节点,没有备节点作为热备份,因此当该节点意外宕机或者执行变更配置、版本升级等任务时,会出现一段时间的不可用。如果业务对数据库的可用性要求较高,不建议使用基础版,可选择其他系列(如高可用版)。基础...

什么是架构感知

架构分为水平和垂直两个维度:水平架构:进程拓扑、容器拓扑、主机拓扑。垂直架构:进程、容器、主机之间的依赖关系。架构组件是指架构的组成部分,包含进程(应用进程、第三方组件进程、云服务)、容器、主机。架构感知 功能 服务器、存储...

功能发布记录

在生成诊断结果后,使用大模型解释诊断项的产生原因和解决方法。全部 全部 全部 使用ASM网格诊断 增强网格拓扑功能。网格拓扑提供更加强大的可观测性能和易用性改进。网格拓扑可以计算并展示服务或工作负载上生效的熔断或限流配置(ASM需为...

查询网络通信距离(NCD)

使用NCD的原因 存在的问题 在特定物理网络拓扑下,不同GPU节点之间的通信时延和可能产生的跨多跳交换转发引发的哈希不均,都可能导致不同GPU节点之间的通信性能存在较大差异,进而进一步影响模型训练的吞吐差异。解决方法 如上图所示,...

任务拓扑相关问题

问题原因 任务拓扑本身可以通过 CRON 表达式或者事件触发,但可以加入拓扑的任务节点必须符合以下要求:触发方式为事件触发 通信方式为 CALLBACK 任务节点为简单任务、集群任务或其它拓扑任务 解决方案 修改待加入拓扑的任务的触发方式或...

什么是AI分布式训练通信优化库AIACC-ACSpeed

优化方法 相比较传统的ring-allreduce算法,ACSpeed设计的hybrid-allreduce算法实现了单机和多机的分层训练,充分利用单机内部高速带宽同时降低多机之间低速网络的通信量,并且针对阿里云不同机型的网卡和GPU距离的拓扑特点,实现多种不同...

通过EventBridge快速订阅ECS事件

当下游事件接收端出现异常(如宕机、服务不可用、网络抖动等),导致接收端无法正常接收事件时,EventBridge 支持多种方式处理这些异常,包括:重试策略、容错策略、死信队列。您可以在 步骤二:创建ECS事件订阅规则 中,配置重试和死信...

服务条款

影响阿里云与国际互联网或者阿里云与特定网络、服务器及阿里云内部正常通畅的联系,或者导致阿里云云平台产品与服务或者阿里云的其他用户的服务器宕机、死机或者用户基于云平台的产品/应用不可访问等;3.1.6.7.不进行任何破坏或试图破坏...

触发拓扑任务

拓扑任务配置完成后,您可以通过自动触发、手动触发、BETA 触发三种方式触发任务。自动触发 CRON 表达式触发:拓扑任务的调度类型为 CRON 表达式触发时,会根据 CRON 表达式设置的时间周期自动触发任务。事件触发:拓扑任务的调度类型为...

任务节点人工干预

拓扑任务中,您可以通过查看单个任务节点的执行状态以快速发现和定位拓扑中的执行问题。您还可以通过对拓扑进行人工干预以控制拓扑任务的执行。任务节点状态 任务节点的生命周期如下:在拓扑任务中,单个任务节点可能处于以下状态之一:...

UpdateEventStreaming-修改一个事件流

acks=all:服务端主节点写成功且备节点同步成功才返回 Response、性能较差、数据较为安全、主节点和备节点都宕机才会导致数据丢失。1 Form string 否 转换的格式。默认为 CONSTANT。CONSTANT Template string 否 无 无 Key object 否 消息...

基本概念

本文介绍 事件总线EventBridge 使用过程中遇到的常用名词的基本概念和简要描述。CloudEvents 1.0 用标准方式描述事件数据的开源规范,旨在简化事件声明以及跨服务、跨平台的消息投递。以下是CloudEvents 1.0中涉及的术语。更多信息,请参见...

事件分析概述

事件总线EventBridge 支持对发布到事件总线的各种事件进行追踪查询、分析处理和可视化图表展示。本文介绍事件分析的类型、适用场景与优势。背景信息 事件总线EventBridge 的实时事件分析平台依托事件的实时处理引擎,提供数值检索、可视化...

使用负载均衡拓扑

目前仅支持传统负载均衡CLB的资源拓扑。资源拓扑 登录 网络智能服务管理控制台。在左侧导航栏选择 网络拓扑>负载均衡拓扑。在 负载均衡拓扑 页面,选择 负载均衡类型、地域、实例ID,然后单击 生成拓扑。其他操作 操作 说明 设置拓扑展示...

使用双机房 ODP 实例(阿里云版)

说明 前 50 分片的 leader 所在可用区 A 宕机后,OB 会将该 50 分片的 leader 切换至可用区 B 此时,前 50 分片的流量会调拨给 A 可用区内的应用,应用连接当前可用区 A 的 ODP(未产生跨机房),ODP 会连接主可用区在可用区 A 的 ...

通过EventBridge快速订阅ECS事件

当下游事件接收端出现异常(如宕机、服务不可用、网络抖动等),导致接收端无法正常接收事件时,EventBridge 支持多种方式处理这些异常,包括:重试策略、容错策略、死信队列。您可以在 步骤二:创建ECS事件订阅规则 中,配置重试和死信...

路由到事件总线EventBridge

本文介绍将事件路由至 事件总线EventBridge 的前提条件、背景信息、使用说明和操作步骤。...云服务专用事件总线的事件只能路由到自定义总线,自定义总线的事件也只能路由到自定义总线。...在顶部菜单栏,选择地域,然后在 事件总线 页面,单击...

使用阿里云账号登录ASM网格拓扑

ASM自1.16.4.5版本起,网格拓扑支持与阿里云RAM访问控制进行对接。您可以使用主账号或阿里云RAM用户直接登录ASM网格拓扑。本文介绍如何使用阿里云账号登录ASM网格拓扑。前提条件 已创建ASM实例,且版本为1.16.4.5及以上。具体操作,请参见 ...

使用阿里云账号登录ASM网格拓扑

ASM自1.16.4.5版本起,网格拓扑支持与阿里云RAM访问控制进行对接。您可以使用主账号或阿里云RAM用户直接登录ASM网格拓扑。本文介绍如何使用阿里云账号登录ASM网格拓扑。前提条件 已创建ASM实例,且版本为1.16.4.5及以上。具体操作,请参见 ...

基本概念

蓝绿发布 蓝绿发布提供了一种零宕机的部署方式。在老版本运行的基础上,部署新版本进行测试。确认新版本运行正常后,将流量切到新版本,然后同时将老版本升级到新版本。始终有两个版本同时在线,有问题可以快速切换,可以减少发布过程中...

GetEventBus-获取一个事件总线的详细信息

获取一个事件总线的详细信息。接口说明 获取一个事件总线的详细信息。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权...

分片网关

拓扑任务中,您可以添加分片网关并设定相应的分片维度。如此,拓扑任务在执行过程中,即可根据执行上下文获取的分片配置,动态生成需要执行的分片。本文将快速引导您如何在拓扑任务中使用分片网关。操作步骤 创建拓扑子任务。创建两个或...

跨云账号路由事件

云服务专用事件总线的事件只能路由到云服务专用事件总线,同时,自定义事件总线的事件也只能路由到自定义事件总线。步骤一:创建RAM角色 使用接收账号B登录 RAM控制台。在左侧导航栏,选择 身份管理>角色。在 角色 页面,单击 创建角色。在...

网络拓扑概述

网络拓扑图可以清晰地展示网络中资源的连接和关系,可视化网络结构,帮助您快速了解您的云上网络架构,进行网络配置验证、网络问题排查和云网络资源统一运维。背景信息 当前阿里云上网络资源类型丰富,功能形态各异,大量网络资源分散在...

CreateEventStreaming-创建一个事件流

acks=all:服务端主节点写成功且备节点同步成功才返回 Response、性能较差、数据较为安全、主节点和备节点都宕机才会导致数据丢失。1 Form string 否 转换的格式。默认为 CONSTANT。CONSTANT Template string 否 模板样式。The value of${...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云虚拟主机 短信服务 云数据库 Redis 版 运维安全中心(堡垒机) 高速通道 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用