如何收集操作系统宕机后的内核转储信息?

背景信息 阿里云技术支持人员可以通过在转储文件中找到对应的信息,从而分析操作系统宕机的原因,并同步给用户。说明 您也可以通过Windows平台的 WinDbg 工具和Linux平台的 crash 工具来检查操作系统内核的转储文件。Linux实例 远程连接ECS...

Windows系统实例的宕机问题排查

定位宕机原因 您可以通过以下方式,定位ECS实例发生宕机的具体原因。方式一:(推荐)通过自助诊断工具定位 登录 ECS管理控制台,左侧导航栏单击 自助问题排查。单击 实例问题排查 页签。选择 实例无法连接或启动异常>实例出现宕机,然后...

Linux系统实例的宕机问题排查

定位宕机原因 您可以通过以下方式,定位发生宕机的具体原因。方式一:(推荐)通过自助诊断工具定位 登录 ECS管理控制台,左侧导航栏单击 自助问题排查。单击 实例问题排查 页签。选择 实例无法连接或启动异常>实例出现宕机,然后选择出现...

列表信息

在架构地图中,可以查看进程、容器、主机的拓扑图,以及系统节点列表。本文介绍各个进程、容器、主机、系统节点等列表的具体参数信息。进程详情 进程详情说明见下表。表 1.进程详情说明 进程详情 说明 状态 CPU 该进程的CPU占有情况。...

主机选项说明

开启会话备注 登录主机时需要写明登录主机的原因或目的才可登录,便于事后审计。开启历史会话审计 表示允许堡垒对运维会话内容进行审计,关闭后会产生会话记录,但没有具体内容。开启实时会话监控 表示管理员可以对主机进行实时监控,...

ECS实例宕机并报错“Out of memory and no killable ...

如果您的ECS实例出现宕机,并且报错日志中存在 Out of memory and no killable processes 信息,则可以参考本文提供的方案解决问题。问题现象 ECS实例在运行过程中出现宕机,并且有类似于如下所示的调用栈:[28663.625353][pid]uid tgid ...

设置宕机自动迁移

为了降低物理故障对业务的影响,阿里云为您提供专有宿主机DDH宕机自动迁移的功能。本章节介绍在创建DDH后如何开启或者关闭宕机自动迁移。背景信息 宕机自动迁移开启后,当DDH因故障停机时,会自动迁移至健康的DDH。若您未开启宕机自动迁移...

任务拓扑相关问题

问题原因 任务拓扑本身可以通过 CRON 表达式或者事件触发,但可以加入拓扑的任务节点必须符合以下要求:触发方式为事件触发 通信方式为 CALLBACK 任务节点为简单任务、集群任务或其它拓扑任务 解决方案 修改待加入拓扑的任务的触发方式或...

任务触发与执行问题

问题原因 拓扑图没有发布的版本,就直接执行拓扑任务,即无可执行的发布版本。解决方案 编辑拓扑图,发布一个版本。服务端异常 问题现象 整个应用的所有任务均触发失败。控制台提示失败原因:Server exception when invoke with callback....

内核热补丁FAQ

Alibaba Cloud Linux 2系统的ECS实例中断处理释放内存页时由于访问空指针导致系统宕机 Alibaba Cloud Linux 2系统的ECS实例中使用已释放的文件系统inode出现系统宕机如何处理?Alibaba Cloud Linux 2系统的ECS实例OverlayFS的dentry泄露...

主备方案介绍

故障自动容错原理:单机宕机和集群宕机测试结果如下。以下是单机宕机吞吐对比图和单机宕机平均响应对比图。以下是集群宕机吞吐对比图和集群宕机平均响应对比图。主备容灾原理介绍 当云数据库HBase实例因不可预料的原因(例如设备故障、机房...

集群高可用架构推荐配置

启用部署集 部署集是控制ECS实例分布的策略,该策略将ECS实例分散部署在不同的物理服务器上,避免由于一台物理机失效导致多台ECS实例宕机。通过为节点池指定部署集,能够保证节点池扩容出的ECS实例不会分布于同一物理机上,并通过亲和性...

蓝绿发布

蓝绿发布是迭代产品在生产环境安全上线的一种重要手段,提供零宕机部署方式。本文介绍如何通过创建蓝绿发布单发布应用服务。说明 蓝绿发布单在应用服务维度互斥,即不能通过两个发布单同时发布一个应用服务,且与普通发布单互斥。前提条件 ...

DescribeDedicatedHosts-查询专有宿主机详细信息

ddh.g5 LockReason string 否 专有宿主机被锁定的原因。取值范围:financial:因欠费被锁定。security:因安全原因被锁定。financial PageNumber integer 否 响应信息的页码数。默认值:1。1 PageSize integer 否 响应信息的每页行数。最大...

应用视图

应用视图页面是通过采集主机进程与网络数据,来展示主机部署应用的拓扑架构。您可以通过筛选进程类型,查看进程的拓扑图和详细信息。本文介绍如何在应用视图中查看进程。操作步骤 登录 AHAS控制台,在左侧导航栏选择 故障演练>架构感知。在...

更新故障详情

P1 故障等级 relatedServiceId Long Body 否 123 关联服务 progressSummary String Body 否 进展摘要xxxx 进展摘要 preliminaryReason String Body 否 原因是服务宕机 初步原因 mainHandlerId Long Body 否 678 主要处理人 feedback String...

添加堡垒架构备份网关

步骤二:安装备份网关(数据库主机)在数据库所在服务器上安装DBS备份网关,且在安装时,填写代理网关的IP地址(即堡垒机的内网IP地址)。DBS备份网关是安装在数据库主机上的备份软件,其主要功能是在备份时连接、查询数据库,并将备份数据...

HDFS高可用相关命令(HaAdmin)介绍

单一NameNode主要从两个方面影响HDFS集群的可用性:当发生一个计划之外的事件,例如机器宕机,集群将会处于不可用状态,直到手动重启NameNode。有计划的维护事件,例如软件或硬件升级,也会使得集群存在一个不可用的窗口期。HDFS高可用特性...

使用专有网络拓扑

专有网络拓扑包括资源拓扑与路由拓扑,为您展示 专有网络 VPC(Virtual Private Cloud)下各类资源之间的关联关系与路由转发路径,并支持查看相关网络实例的基本信息,进行实例诊断,路径分析等操作。资源拓扑 资源拓扑通过拓扑组网,展示...

什么是架构感知

架构分为水平和垂直两个维度:水平架构:进程拓扑、容器拓扑、主机拓扑。垂直架构:进程、容器、主机之间的依赖关系。架构组件是指架构的组成部分,包含进程(应用进程、第三方组件进程、云服务)、容器、主机。架构感知 功能 服务器、存储...

设备和交换机之间的链路故障

本文介绍SAG-1000设备发生设备和交换之间链路故障的原因和处理方法。问题现象 设备和交换接口之间ping不通。设备的Web端口配置页,端口前的状态灯为红色。动态路由OSPF接入时,Web端口配置页,端口前的状态灯为红色。设备的Web状态查询...

基础版

说明 由于基础版只有一个数据节点,没有备节点作为热备份,因此当该节点意外宕机或者执行变更配置、版本升级等任务时,会出现一段时间的不可用。如果业务对数据库的可用性要求较高,不建议使用基础版,可选择其他系列(如高可用版)。基础...

I-V曲线诊断

导致串联电阻增大的原因有很多,例如:组件内部的金属部件腐蚀、内部连接件热胀冷缩接触不良、电池片老化、机械应力破坏等。串联电阻增大后的老化影响如下:会降低整个光伏阵列的电流输出,降低发电功率,造成损失。会导致热耗散不均,在...

堡垒无法连接ECS排查步骤

问题描述 堡垒机调用ECS失败 可能原因【可能原因一】堡垒机到ECS服务器的网路端口通信失败【可能原因二】堡垒机的相关配置影响【可能原因三】ECS 系统自身的相关策略影响 解决方案【可能原因一】堡垒机到ECS服务器的网路端口通信失败【解决...

什么是AI分布式训练通信优化库AIACC-ACSpeed

优化方法 相比较传统的ring-allreduce算法,ACSpeed设计的hybrid-allreduce算法实现了单机和多机的分层训练,充分利用单机内部高速带宽同时降低多机之间低速网络的通信量,并且针对阿里云不同机型的网卡和GPU距离的拓扑特点,实现多种不同...

查询网络通信距离(NCD)

使用NCD的原因 存在的问题 在特定物理网络拓扑下,不同GPU节点之间的通信时延和可能产生的跨多跳交换转发引发的哈希不均,都可能导致不同GPU节点之间的通信性能存在较大差异,进而进一步影响模型训练的吞吐差异。解决方法 如上图所示,...

触发拓扑任务

拓扑任务配置完成后,您可以通过自动触发、手动触发、BETA 触发三种方式触发任务。自动触发 CRON 表达式触发:拓扑任务的调度类型为 CRON 表达式触发时,会根据 CRON 表达式设置的时间周期自动触发任务。事件触发:拓扑任务的调度类型为...

任务节点人工干预

拓扑任务中,您可以通过查看单个任务节点的执行状态以快速发现和定位拓扑中的执行问题。您还可以通过对拓扑进行人工干预以控制拓扑任务的执行。任务节点状态 任务节点的生命周期如下:在拓扑任务中,单个任务节点可能处于以下状态之一:...

概述

拓扑任务是一种特殊的任务,是通过事件触发的任务集合。拓扑任务中的任务执行流程均起始于开始节点,终止与结束节点,任务的执行流程形成一张有向无环图。拓扑任务本身可以通过 CRON 表达式或者事件触发,但其中的任务节点必须符合以下要求...

什么是边缘智能一体(执行计划版本)

升降级能力 支持一体机识别到现场AI事件超出硬件可处理的拼接时,一体机会根据用户配置的升降次策略进行处理,降低硬件在高压力情况下出现宕机的风险;任务感知 支持在云端对边缘一体机中的任务进行远程开关,同时可通过执行记录对边缘运行...

基础系列

重要 RDS基础系列实例只有一个数据库节点,没有备节点作为热备份,因此当该节点意外宕机或者执行重启实例、变更配置、版本升级等任务时,会出现较长时间的不可用。如果业务对数据库的可用性要求较高,不建议使用基础系列实例,可选择其他...

设备数据订阅指引

即使消费者的客户端宕机,或因消费能力不足堆积了消息,消费端恢复后,设备生成的消息也可以和堆积消息并行发送,使设备优先恢复可用态。使用MNS服务端订阅消息 物联网平台将订阅的消息推送到消息服务(MNS)的队列中,您的服务器MNS客户端...

分片网关

拓扑任务中,您可以添加分片网关并设定相应的分片维度。如此,拓扑任务在执行过程中,即可根据执行上下文获取的分片配置,动态生成需要执行的分片。本文将快速引导您如何在拓扑任务中使用分片网关。操作步骤 创建拓扑子任务。创建两个或...

资源清单

完成资源调研后,需要对所调研的资源进行核对...即可进入资源详情页查看资源的详细信息 拓扑查看 在 控制台->准备->资源清单 中批量勾选需要查看的资源,点击“展示拓扑”,通过“网络部署图”和“网络拓扑图”的形式完成对于资源的拓扑分析。

高可用系列

升级为高可用系列 基础系列实例没有备节点作为热备份,因此当实例意外宕机或者执行变更配置、版本升级等任务时,会出现较长时间的不可用。如果业务对数据库的可用性要求较高,建议使用高可用系列。除了新购实例时选择高可用系列,您也可以...

服务拓扑

服务拓扑图 在服务拓扑图中,您可以获取以下信息:应用服务的名称及版本号 应用服务间的调用关系 服务的请求量(RPS)服务的响应时间(ms)服务的错误率(%)在服务拓扑图中,单击一个节点图标,即可查看该节点的详细信息。节点上下游相关...

什么是服务端订阅

即使消费者的客户端宕机,或因消费能力不足堆积了消息,消费端恢复后,设备生成的消息也可以和堆积消息并行发送,使设备优先恢复实时推送消息状态。使用AMQP服务端订阅,需先在控制台配置AMQP服务端订阅,请参见 配置AMQP服务端订阅。然后...

查看应用拓扑

应用拓扑 页面分别以列表和拓扑图的形式展示当前监控的所有业务系统及其相关的性能指标数据。默认情况下,系统以拓扑图的形式展示。拓扑概述 拓扑是对应用间调用关系和依赖关系的可视化展示。链路拓扑图中,每个图标元素代表一个节点,即...

RemoveThingTopo

调用该接口移除指定网关与子设备的拓扑关系,或指定子设备与其关联网关的拓扑关系。使用说明 如果传入的设备信息是网关设备,则移除该网关与其下所有子设备的拓扑关系。如果传入的设备信息是子设备,则移除该子设备与其关联网关的拓扑关系...

容器资产全景

容器资产全景功能从集群、容器、镜像、应用等资产维度为您提供安全可视化的管控能力和云上容器资产的网络拓扑,帮助您提升管理容器资产安全的效率。使用该功能您可以轻松掌控容器资产的安全状态,并了解容器资产间的网络连接情况。本文介绍...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云虚拟主机 运维安全中心(堡垒机) 云数据库 Redis 版 短信服务 高速通道 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用