如何收集操作系统宕机后的内核转储信息?

背景信息 阿里云技术支持人员可以通过在转储文件中找到对应的信息,从而分析操作系统宕机的原因,并同步给用户。说明 您也可以通过Windows平台的 WinDbg 工具和Linux平台的 crash 工具来检查操作系统内核的转储文件。Linux实例 远程连接ECS...

Windows系统实例的宕机问题排查

定位宕机原因 您可以通过以下方式,定位ECS实例发生宕机的具体原因。方式一:(推荐)通过自助诊断工具定位 登录 ECS管理控制台,左侧导航栏单击 自助问题排查。单击 实例问题排查 页签。选择 实例无法连接或启动异常>实例出现宕机,然后...

创建Redis实例或变更网络类型时找不到已有的交换机

问题原因 创建Redis实例时找不到已有交换机的原因如下:您创建的交换机不属于您选择的可用区或VPC。您没有在当前账号下创建过交换机。解决方案 请根据问题原因,选择具体的解决方案:您需要创建与Redis实例在同一地域下VPC的交换机,详情请...

什么是AI通信加速库Deepnccl

scatter等算法,Hybrid+算法支持单机和多机的分层通信,充分利用单机内部高速带宽的同时降低了机之间的通信量,通信算子编译优化方案相比NCCL原生在性能上提升了50%以上。通信流优化:通常情况下,因网络带宽没有被充分利用,会导致...

使用多机MPP对海量数据分析提速

技术架构 列存索引多机并行执行技术架构如下:列存索引多机并行是由个只读列存节点组成的一个多机执行组,并提供多机并行执行能力。随着用户查询负载的变化,用户可以快速增加或减少只读列存节点的个数,以平衡查询性能和计算成本。多机...

什么是Deepytorch Training(训练加速)

scatter等算法,Hybrid+算法支持单机和多机的分层通信,充分利用单机内部高速带宽的同时降低了机之间的通信量,通信算子编译优化方案相比NCCL原生在性能上提升了50%以上。通信流优化:通常情况下,因网络带宽没有被充分利用,会导致...

什么是AI分布式训练通信优化库AIACC-ACSpeed

优化方法 相比较传统的ring-allreduce算法,ACSpeed设计的hybrid-allreduce算法实现了单机和多机的分层训练,充分利用单机内部高速带宽同时降低机之间低速网络的通信量,并且针对阿里云不同机型的网卡和GPU距离的拓扑特点,实现多种不同...

快速使用专属集群MyBase

背景信息 关于 专属集群MyBase 更信息,详情请参见 什么是云数据库专属集群MyBase。操作步骤 步骤一:创建专属集群 登录 云数据库专属集群控制台。在页面左上角,选择目标地域。在 概览 页面,然后单击 创建集群。在 创建专属集群 面板,...

ECS实例宕机并报错“Out of memory and no killable ...

如果您的ECS实例出现宕机,并且报错日志中存在 Out of memory and no killable processes 信息,则可以参考本文提供的方案解决问题。问题现象 ECS实例在运行过程中出现宕机,并且有类似于如下所示的调用栈:[28663.625353][pid]uid tgid ...

设置宕机自动迁移

为了降低物理故障对业务的影响,阿里云为您提供专有宿主机DDH宕机自动迁移的功能。本章节介绍在创建DDH后如何开启或者关闭宕机自动迁移。背景信息 宕机自动迁移开启后,当DDH因故障停机时,会自动迁移至健康的DDH。若您未开启宕机自动迁移...

更新故障详情

P1 故障等级 relatedServiceId Long Body 否 123 关联服务 progressSummary String Body 否 进展摘要xxxx 进展摘要 preliminaryReason String Body 否 原因是服务宕机 初步原因 mainHandlerId Long Body 否 678 主要处理人 feedback String...

主备方案介绍

故障自动容错原理:单机宕机和集群宕机测试结果如下。以下是单机宕机吞吐对比图和单机宕机平均响应对比图。以下是集群宕机吞吐对比图和集群宕机平均响应对比图。主备容灾原理介绍 当云数据库HBase实例因不可预料的原因(例如设备故障、机房...

Linux系统实例的宕机问题排查

定位宕机原因 您可以通过以下方式,定位发生宕机的具体原因。方式一:(推荐)通过自助诊断工具定位 登录 ECS管理控制台,左侧导航栏单击 自助问题排查。单击 实例问题排查 页签。选择 实例无法连接或启动异常>实例出现宕机,然后选择出现...

清除主机指纹

主机指纹是堡垒对使用SSH协议的Linux主机的唯一标识。堡垒通过主机指纹对主机的访问权限进行安全检查,避免恶意用户通过重定向流量的方式获取未授权主机的访问权限。原主机指纹不适用时,您需要清除主机指纹,否则将无法进行正常运维。...

常见退信内容分析

是由对方邮件服务商的服务器宕机或网络互联质量不佳造成的。另外,系统对此类投递情况会自动尝试转由负责中继的万网海外邮局进行再投递,以提高投递的成功率。您可以稍后重新尝试此邮件的投递。Error in command/Syntax error 无法识别的...

修改主机的服务端口

目前堡垒对于服务器的RDP和SSH协议使用的是默认端口(RDP协议默认使用3389端口,SSH协议默认使用22端口),如果您在主机中自定义了端口,需要在服务端口中做相应修改。本文档介绍如何修改主机的服务端口。前提条件 在您修改服务端口前,...

管理主机

删除主机 如果您不再需要维护某个主机,可以在堡垒机的主机列表中删除该主机。警告 删除该主机后,该主机相关的所有授权会被同时删除。例如某用户已授权该主机,删除主机后,该授权关系会被同时删除。您将无法使用堡垒机登录该主机。登录...

使用实例时镜像相关问题

cd/root/rpmbuild/RPMS/aarch64 rpm-ivh kexec-tools-2.0.15-51.el7.aarch64.rpm 如果再次发生宕机,通过 ls-lh/var/crash 查询dump文件,可以正常生成 vmcore 文件,表示问题已解决。CentOS/RedHat 7.x升级Systemd重启进入救援模式如何...

如何解决实例迁移后的宕机问题?

因Xen环境裁撤项目、ECS过保迁移、经典网络迁移到VPC等涉及虚拟化环境迁移需求,可能会导致一部分实例系统在迁移后出现kernel panic宕机、蓝屏、找不到引导设备(INACCESSIBLE_BOOT_DEVICE)等问题。本文主要为您介绍这些问题的解决方案。...

按用户授权主机

堡垒提供按用户授权主机的功能。当您新建用户之后,您可以为该用户授权主机。授权后该用户即可使用堡垒运维已授权的主机。本文介绍如何为用户授权主机。授权主机 为用户授权主机,具体操作请参见以下步骤:登录堡垒系统。具体操作,...

多机多卡案例

本文为您提供使用TensorFlow实现多机多卡的相关代码下载地址。多机多卡案例代码下载

按用户组授权主机

堡垒提供按用户组授权主机的功能。当您新建用户组之后,您可以为该用户组授权主机。授权后用户组内的用户即可使用堡垒运维已授权的主机。本文介绍如何为用户组授权主机。授权主机 登录堡垒系统。具体操作,请参见 登录系统。在左侧...

步骤3:授权资产及资产账户

授权主机 为用户授权主机,具体操作请参见以下步骤:登录堡垒系统。具体操作,请参见 登录系统。在左侧导航栏,选择 人员管理>用户。在需要授权用户的 操作 列中,单击 授权主机。在 已授权主机 页签下,单击 授权主机。在授权主机面板上...

SAP HANA Scale-Out 部署指南

当您的 ECS 实例所宿的物理机由于底层性能出现异常,或者其他原因导致物理机宕机时,宕机迁移功能通过技术检测确认机器无法恢复之后,会立刻发送短信通知 ECS 实例拥有者。迁移完成后,阿里云会再次发送迁移完成的短信,且 ECS 实例的...

概览

本文指导您在开通V3.2版本...更堡垒机的功能,例如配置用户组、资产组实现批量操作,请参见 用户指南(V3.2版本)。您还可以调用API方式进行相关操作,更信息,请参见 API概览。您还可以通过观看以下视频,快速了解使用堡垒机的基本操作。

客户端连接堡垒相关问题

如需了解配置堡垒机的信息,请参见 配置堡垒机。检查是否使用云防火墙。查看云防火墙开关是否开启对堡垒机实例的保护以及对应安全策略是否有限制拦截,具体操作,请参见 云防火墙和运维安全中心(堡垒机)联合部署访问策略的最佳实践。...

共享账户

新建共享账户 参照以下步骤新建共享账户:登录 云盾堡垒Web管理页。在左侧导航栏选择 资产>共享账户。在 共享账户 页面,单击 新建共享账户。在 新建共享账户 对话框中,输入 账户名称、登录名 和 密码,并选择 协议,完成创建共享账户。...

申请14天免费试用

您可以申请免费试用加密服务集群,快速了解加密服务的功能以及如何使用加密服务。本文介绍如何申请免费试用加密服务。...警告 试用到期后,阿里云会直接释放实例且无法恢复,释放前不会进行站内信、短信、邮件等通知,请您及时关注到期时间。...

添加MySQL主机

若上述专有网络下无当前可用区的虚拟交换,您可以登录 交换控制台 创建虚拟交换,并确保与上述专有网络的地域和可用区保持一致。具体操作,请参见 快速搭建(ROS)若上述专属集群和专有网络均选择系统默认创建,且默认选择 默认创建...

创建堡垒

关于堡垒机的介绍,请参见 什么是堡垒机。操作步骤 登录 云数据库专属集群控制台。在页面左上角,选择目标地域。单击左侧导航栏中的 集群列表。在目标集群右侧的 操作 列,单击 详情。在左侧单击 堡垒机列表。在 堡垒机列表 页面,单击...

访问控制常见问题

配置限制访问CDN资源的用户时,如果遇到疑问请参考以下常见问题及处理建议。...远程鉴权服务器发生故障或宕机时,CDN与鉴权服务器之间的数据交互超时后,按照设置的 鉴权超时之后的动作 参数,选择是否放行鉴权超时的用户请求。

网站耗资源(客户程序故障)常见问题

由于我们是对主机服务器进行实时监控的,出现问题后必须马上采取措施,否则将会导致服务器宕机,所以发出此通知信的同时,已将您的网站暂停,希望您能理解,因此给您带来的不便向您表示深深的歉意,谢谢您的支持与理解。云虚拟主机会因为...

主备双活

宕机测试 单机宕机吞吐对比 单机宕机平均响应对比 集群宕机吞吐对比 集群宕机平均响应对比 使用方法 准备 使用云HBase主备容灾方案参见 主备容灾。在高可用管理页面获取高可用链接地址和高可用实例ID。客户端依赖版本。hbase1.X版本使用...

VMware虚拟机无代理迁移

6.0/6.5/6.7 待迁移虚拟机的硬件版本:11/12/13/14/15 ESXi版本:6.5/6.7 待迁移虚拟机的硬件版本:11/12/13/14/15 SMC VMware Connector 7.0 OVF vCPU:4 vCPU及以上 内存:8 GB及以上 磁盘:40 GB及以上 vCenter版本:7.0 连接器所在的...

内核热补丁FAQ

Alibaba Cloud Linux 2系统的ECS实例中断处理释放内存页时由于访问空指针导致系统宕机 Alibaba Cloud Linux 2系统的ECS实例中使用已释放的文件系统inode出现系统宕机如何处理?Alibaba Cloud Linux 2系统的ECS实例OverlayFS的dentry泄露...

无法连接Windows实例

问题原因 无法连接Windows实例的原因,不同的问题原因均可能导致无法连接Windows实例。此处列举较为常见的问题原因,具体原因以现场排查结果为准。防火墙配置异常。远程访问端口的配置异常。CPU负载过高。安全组公网规则错误。修改管理...

常见问题

否则说明事务云服务已宕机或者网络已中断。分布式事务 SDK 与事务云服务网络连接正常,但是通信失败,是什么原因?TCP 连接正常,说明事务云服务启动正常。分布式事务 SDK 与事务云服务通信返回失败消息,说明 SDK 发送给事务云服务的消息...

Hologres SQL语句的常见问题

解决方法:提交工单排查Hologres实例宕机原因。报错:value too long for type character varying(256)问题原因:字段长度超过了VARCHAR类型的长度限制。解决方法:处理数据或将VARCHAR的长度设置得更长。报错:internal error:Write is ...

计算层高可用

同时对于interactive模式下本身目标在于延迟敏感的分析场景,目前对于计算节点异常宕机的场景,计算引擎会通过查询级别重算,保证查询稳定性。Batch模式 对于类似ETL等数据清洗任务,这类任务计算时间长,计算资源消耗大,如果依然查询级别...

告警规则指标说明

JVM实例数 无 是 当前实时运行的Java虚拟机实例数量,常用于服务宕机告警配置。节点机发送的字节数 无 不是 节点机通过网络连接发送的数据量,其中包括应用程序发送的数据、系统消息和错误信息等。节点机发送的报文数 无 不是 节点机通过...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
运维安全中心(堡垒机) 短信服务 云数据库 Redis 版 云虚拟主机 云安全中心 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用