check_point_dump_interval":900 user_config_file_path String Logtail配置文件的保存路径,默认为进程binary所在目录,文件名为 user_log_config.json。建议Docker/Kubernetes用户参见 iLogtail容器重启数据可靠性探讨 进行配置,避免...
背景信息 海光安全加密虚拟化CSV是一项基于国产海光CPU硬件的云服务器ECS保护技术,CSV实例的运行时状态如内存数据均受到CPU硬件的加密保护,云厂商和外部攻击者均无法监控或定向篡改CSV实例的内部运行状态(如运行的进程、计算中的敏感...
本文介绍如何在eRDMA增强型实例上部署共享内存通信SMC(Shared Memory Communication)和Redis,然后基于SMC测试Redis处理请求的能力。背景信息 共享内存通信SMC是一种兼容socket层、使用共享内存技术实现的高性能内核网络协议栈。根据共享...
本文介绍Linux、Mac、Windows和Android客户端如何通过SSL-VPN远程加密访问专有网络VPC(Virtual Private Cloud)下的资源。背景信息 本文以下图场景为例,介绍Linux、Mac、Windows和Android客户端如何使用SSL-VPN远程加密访问VPC下的资源。...
安装SysAK 环境要求 操作系统:Alibaba Cloud Linux 2/3、Anolis OS 8.4 ANCK、CentOS 7及其他内核版本大于3.10的Linux系统 说明 您可以运行 uname-a 命令查看实例的内核版本。硬件:x86_64 安装部署 操作系统 安装方法 Alibaba Cloud ...
这个问题通常由操作系统物理内存耗尽或应用运行的Java虚拟机进程Crash导致,本文以Linux操作系统为例说明如何解决。操作系统物理内存耗尽,触发操作系统OOM Killer 当操作系统物理内存和交换空间不够用时,操作系统的OOM Killer机制(默认...
正常情况下,Linux实例的 dhclient 进程会定期向DHCP服务器更新租约到期时间,以确保实例IP地址的可用性。以下情况可能引发Linux实例的DHCP服务出现异常,导致实例网络不通:网卡配置文件存在错误 网卡对应的 dhclient 进程未运行 本文主要...
atop是一款用于监控Linux系统资源与进程的工具,能够报告所有进程的活动。其以一定的频率记录系统和进程活动,采集的数据包含CPU、内存、磁盘、网络的资源使用情况和进程运行情况,并能以日志文件的方式保存在磁盘中。对于每个进程,会显示...
Workbench远程连接问题(Linux)通过Workbench远程连接Linux实例时提示连接超时,怎么办?问题现象 通过Workbench工具远程连接Linux实例时提示“登录主机:i-m5e*73a(47.*.*.157:3389)失败,原因:链接超时!错误。问题原因 该问题通常是由...
正常情况下,Linux系统的dhclient进程和Windows系统的DHCP Client服务会定期向DHCP服务器更新租约到期时间,以确保实例IP地址的可用性。由于部分CentOS 7镜像(详见适用范围章节)创建的实例会小概率清理dhclient进程,以及Windows Server...
在 容器服务 Kubernetes 版 中,您可以通过限制容器以特权模式运行、限制应用程序进程以root身份运行以及禁用Service Account令牌自动挂载等方式,防止容器中运行的进程逃离容器的隔离边界并获得对宿主机的访问权限。通过正确配置Pod安全...
本文主要介绍当Linux实例CPU使用率或CPU负载较高时,如何排查分析及常见案例说明。操作场景 在您使用轻量应用服务器实例过程中,可能会遇到实例CPU使用率或CPU负载持续较高的情况,您可以按照以下步骤排查定位具体问题。找到影响CPU使用率...
Linux内核通过内核配置参数 kernel.pid_max 限制进程的数量,当运行的服务的总进程数超出 kernel.pid_max 的值时,再创建新进程时系统会报错 task:Cannot allocate memory。说明 当系统当前已运行的进程数超过最大进程数(kernel.pid_max)...
本文主要介绍当Linux系统ECS实例CPU使用率或CPU负载较高时,如何排查分析及常见案例说明。操作场景 在您使用ECS实例过程中,可能会遇到实例CPU使用率或CPU负载持续较高的情况,您可以按照以下步骤排查定位具体问题。找到影响CPU使用率或CPU...
问题分析 Native的Crash是指在C/C++运行时出错,系统产生了Linux错误信号,导致的进程出错退出。可以通过系统的logcat来分析Crash日志。解决方案 应用在C/C++运行时出错,系统产生了Linux错误信号,导致的进程出错退出。建议开发者使用NDK...
问题描述 Linux系统内对应的网络进程不存在,且网络配置为DHCP,则会在IP地址的租约到期之后,出现无法续租导致网络中断的问题。解决方案 说明 如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,确保数据安全。...
Linux系统 执行 ps aux|grep AliYunDun 命令,查看相关进程是否正常运行。首次安装云安全中心客户端时,如果服务器完成客户端安装后,客户端 保护状态仍然为 关闭,执行以下步骤重新启动客户端。Linux系统:执行如下命令。killall ...
Linux系统支持systemctl systemctl start aliyun.service#Linux系统不支持systemctl/etc/init.d/aliyun-service start Windows:通过服务管理器启动AliyunService服务。说明 如果以上操作还未能启动 云助手Agent,请重新安装云助手。具体...
F7 Nice-(change priority)可减少nice值,用于提高对应进程的优先级 F8 Nice+(change priority)可增加nice值,用于降低对应进程的优先级 F9 Kill a Process 结束指定进程 F10 Quit htop 结束htop 在htop界面,用户可以通过鼠标单击相关进程...
您可以使用 PAI灵骏智算服务 提供的一键诊断功能,检查灵骏节点的网络和硬件状态,基于多种通信库和通信模型进行网络测试。本文为您介绍灵骏的一键诊断功能。自助诊断 网络诊断 网络诊断功能分为 静态配置类检查 和 动态运行类检查,支持...
本文为您介绍Alibaba Cloud Linux 2系统的ECS实例创建大量进程失败的原因及解决方案。问题描述 Alibaba Cloud Linux 2系统的ECS实例中执行系统调用(fork/clone)时,进程创建失败,返回“-1 EAGAIN(Resource temporarily unavailable)”...
本文介绍如何在Linux操作系统上连接并使用iSCSI卷。前提条件 已创建iSCSI卷。具体操作,请参见 创建iSCSI卷。操作步骤 登录本地主机(Linux操作系统)。安装iscsi-initiator-utils。您需要通过iscsi-initiator-utils连接到目标iSCSI卷,...
采用新版本内核的Linux系统通常使用Systemd初始化进程服务,操作如下:#查询您的实例是否使用Systemd初始化进程服务,有返回信息则表示使用的是Systemd strings/sbin/init|grep"/lib/system"#启动云助手客户端 systemctl start aliyun....
容器服务 Kubernetes 版 已全面支持阿里云新一代操作系统Alibaba Cloud Linux 3的节点创建,并结合Alibaba Cloud Linux 3的高内核特性提供了多场景优化。本文介绍Alibaba Cloud Linux 3操作系统的优势和场景,以及如何使用Alibaba Cloud ...
概述 本文主要讲述在Linux中通过PID号找到对应的进程名及所在目录方法。详细信息 阿里云提醒您:如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,确保数据安全。如果您对实例(包括但不限于ECS、RDS)等进行配置...
本文以IMB软件和MPI通信库为例介绍如何测试E-HPC集群的通信性能。背景信息 IMB(Intel MPI Benchmarks)用于评估HPC集群在不同消息粒度下节点间点对点、全局通信的效率。MPI(Message Passing Interface)是支持多编程语言编程的并行计算...
PAI灵骏提供了统一的网络通信距离NCD(Network Communication Distance)查询接口,供您对GPU节点(或网卡)间的通信距离进行查询,以实现更优的任务调度,获得最佳的训练性能。本文为您介绍NCD的基本概念、使用NCD的原因以及如何使用NCD。...
本文为您介绍在Windows和Linux操作系统中,云监控插件进程自动退出的处理方法。重要 云监控仅支持通过管理员账号权限(Linux操作系统使用root用户,Windows操作系统使用Administrator用户)操作云监控插件。使用管理员账号具有一定风险,...
您还可以添加进程监控,查看其进程数,并为这些进程设置报警规则,及时关注进程数的变化,确保其正常运行。前提条件 请确保您已为阿里云主机(ECS实例)和非阿里云主机安装云监控插件。具体操作,请参见 安装云监控插件。背景信息 云监控每...
本文介绍Linux系统的ECS实例的系统、内存或进程出现异常,查看系统日志提示"page allocation failure"错误时的问题原因及解决方案。问题现象 Linux系统的ECS实例的系统、内存或进程出现异常,通过查看系统日志提示"page allocation failure...
Deepnccl是为阿里云神龙异构产品开发的一种用于多GPU互联的AI通信加速库,在AI分布式训练或多卡推理任务中用于提升通信效率。本文主要介绍Deepnccl的架构、优化原理和性能说明。产品简介 Deepnccl基于NCCL(NVIDIA Collective ...
问题原因 在Linux系统的ECS实例中,当某个进程因为某种原因无法继续执行,并且长时间停滞在某个状态下无法响应,就会发生挂起任务(hung task)故障,出现hung task故障可能原因如下:进程卡住(blocked):当某个进程在执行过程中出现死锁...
通信多流优化:通常情况下,因网络带宽没有被充分利用,会导致上层集合通信算法的跨机性能无法达到最优。而采用基于TCP/IP的多流功能,提升分布式训练的并发通信能力,可以实现多机训练性能提升5%~20%。多机CPU-Reduce:该优化继承了单机内...
使用限制 第三方服务器限制 操作系统限制:Alibaba Cloud Linux 2/3 CentOS 6及更高版本 CoreOS、OpenSUSE Debian 8/9/10及更高版本 RedHat 5/6/7及更高版本 SUSE Linux Enterprise Server 11/12/15及更高版本 Ubuntu 12/14/16/18及更高...
运行以下命令,确保Docker守护进程已经启用。sudo systemctl status docker 运行以下命令,创建并运行PyTorch AI容器。AC2提供了丰富的AI场景下的容器镜像,其中就包括针对Intel优化的PyTorch镜像,可以使用该镜像快速创建一个PyTorch运行...
本文介绍在Linux系统的ECS实例内,当断开SSH客户端后,如何保持进程继续运行的解决方案。使用场景 在Linux系统中,在执行一些运行时间比较长的任务时,必须等待执行完毕才能断开SSH连接或关闭客户端软件,否则可能会导致执行中断。本文介绍...
运行以下命令,确保Docker守护进程已经启用。sudo systemctl status docker 运行以下命令,创建并运行PyTorch AI容器。AC2提供了丰富的AI场景下的容器镜像,其中就包括针对AMD优化的PyTorch镜像,可以使用该镜像快速创建一个PyTorch运行...
问题描述 在符合如下条件的Alibaba Cloud Linux 2实例中,系统运行时出现系统宕机问题。镜像:Alibaba Cloud Linux 2.1903 LTS 64位。内核:kernel-4.19.91-23.al7及之前的内核版本。系统宕机,且出现如下调用栈信息。[332.057218]watchdog...
概述 当您无法访问Linux实例中的服务时,可能的问题原因之一是该服务对应的进程未处于运行中。以下列举几个Linux实例中常见的服务以及这些服务未运行时产生的影响。服务名称 描述 默认监听的端口 未运行时的影响 SSH 远程连接 22 无法通过...
接入容器服务K8s版 架构感知和故障演练支持对容器服务K8s版安装探针,安装成功后即可自动侦测包含的ECS主机、容器组、容器、进程和云服务等组件。接入主机 任何Linux主机都可以通过公网地域接入AHAS控制台。后续操作 接入成功后,您可以...