什么是AI分布式训练通信优化库AIACC-ACSpeed

多机CPU-Reduce优化 问题分析 针对PCIe-topo机型,在机器内部通信带宽受限的场景下,相比较原生NCCL,单机内CPU-Reduce的优化效果较明显。因此,基于PCIe-topo机型搭建的多机训练环境下,您可以将单机CPU-Reduce扩展到多机,充分释放单机的...

ECS实例操作系统内部(GuestOS)常见问题与修复方案

检查网络相关进程是否存在 Linux系统对应的网络进程不存在,且网络配置为DHCP,则会在IP地址的租约到期之后,出现无法续租导致网络中断的问题。具体操作,请参见 Linux系统网络进程不存在。检查网卡多队列是否开启 网卡多队列指实例规格...

什么是AI通信加速库Deepnccl

具体说明如下:单机优化 单机内的优化主要针对不同硬件拓扑机型的通信优化,以PCIe互连的机型和NVLink互连的机型为例,具体说明如下:PCIe互连拓扑优化:该机型的多GPU卡之间共享PCIe带宽,通信容易受限于物理带宽。针对PCIe互连拓扑的通信...

什么是Deepytorch Training(训练加速)

导入Deepytorch Training库的示例代码:import deepytorch as dpt 封装训练模型的示例代码:dpt.compile 特性说明 Deepytorch Training在AI训练的通信和计算方面具有显著的加速效果,具体说明如下:通信侧优化特性 单机优化 单机内的优化...

Linux时间和时区说明

本文主要介绍Linux操作系统中时间和时区相关的基本概念与操作,并介绍部分阿里云Linux公共镜像中时钟配置的相关变化。背景信息 Linux操作系统中时间和时区相关的基本概念如下表所述:基本概念 说明 时钟 Linux时钟分为以下两种:硬件时钟...

Linux系统网络进程不存在

问题描述 Linux系统对应的网络进程不存在,且网络配置为DHCP,则会在IP地址的租约到期之后,出现无法续租导致网络中断的问题。解决方案 说明 如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,确保数据安全。...

错误码

E40 套接字路径不存在 Enclave CLI在管理Enclave时会根据Enclave ID生成和Enclave管理进程通信的套接字路径,该错误码表示此套接字路径不存在,可能原因是Enclave管理进程运行异常,请查看报错回溯信息以获取更多细节。E41 Enclave管理进程...

API服务变更

表 5.RTC 3.0 应用通信监测 变更类型 API 描述 新增 DescribeCallList 分页查询时间范围内通信信息。新增 DescribeCall 查询单次通信详情。新增 DescribePubUserListBySubUser 订阅端获取通信中发布端用户列表。新增 ...

API概览

数据服务 API 标题 API概述 通信监测 通信监测 DescribeCallList 分页查询时间范围内通信信息 调用DescribeCallList分页查询时间范围创建的通信信息。DescribeCall 查询单次通信详情 本接口用于查询单次通信详情。例如:您可以查询通讯...

DescribeChannelUserMetrics-查询频道概览中的用户...

BAD_EXP_NUM:单位时间内通信体验异常的用户数量。ALL_NUM Nodes object[]指标趋势图坐标点列表。X string 指标趋势图中 x 轴横坐标。1612418625 Y string 指标趋势图中 y 轴纵坐标。123 Ext object 拓展属性。OverallData object 总览数据...

查询分析程序日志

error not merge 关联分析程序日志 关联分析包括进程内关联与跨进程关联,区别如下:进程内关联:一般比较简单,因为同一个进程前后日志都在一个文件中。在多线程环境中,只需根据线程ID进行过滤即可。跨进程关联:跨进程的请求一般没有...

DescribeChannelUserMetrics

BAD_EXP_NUM:单位时间内通信体验异常的用户数量。Nodes Array of Nodes 指标趋势图坐标点列表。X String 1612418625 指标趋势图中x轴横坐标。Y String 123 指标趋势图中y轴纵坐标。Ext Map 拓展属性。OverallData Object 概览数据。...

无法连接Linux实例的排查方法

登录Linux实例失败并报“login:Module is unknown”错误如何处理 Linux实例系统环境配置 Linux内的系统环境,例如中毒、账户配置、环境变量配置等,如果出现异常,也可能会导致SSH登录失败。根据不同报错信息,可参见如下常见案例进行解决...

虚拟机场景

Java应用内部制造CPU满载 Java应用进程内制造CPU满载,表现为Java应用本身原因导致CPU高负载。参数名称 是否必选 默认值 参数说明 指定CPU满载的个数 否 无 指定CPU满载的个数,默认系统当前全部核数。进程ID 必选其一 无 Java进程的ID。...

内存诊断

共享内存 共享内存允许两个或更多进程访问同一块内存,是进程通信方式之一。tmpfs Linux临时文件系统,是一种基于内存的文件系统,读写的文件内容只存在内存中。hugetlb 基于文件系统的大页内存。内核内存 内核态内存重点关注Sunreclaim及...

并行计划

并行 B-树扫描的结果会以每个工作者进程内的顺序返回。其他扫描类型(例如非 B-树索引的扫描)可能会在未来支持并行扫描。并行连接 正如在非并行计划中那样,驱动表可能被使用嵌套循环、哈希连接或者归并连接到一个或者多个其他表。连接的...

业务进程说明

以下示例进程通信使用的是Linux的消息队列,您也可替换为其它进程通信方式:static void demo_tunnel_switch_recv_handle(void*handle,const aiot_tunnel_switch_recv_data_t*recv,void*userdata){ demo_tunnel_info_t info;...

OperateCommonOverallConfig-设置全局开关

ENABLE-SWITCH-TYPE_50873:WebShell 执行命令 USER-ENABLE-SWITCH-TYPE_51236:Windows 反弹 shell USER-ENABLE-SWITCH-TYPE_50877:Linux 恶意程序通信 USER-ENABLE-SWITCH-TYPE_50884:Linux 可疑蠕虫脚本行为 USER-ENABLE-SWITCH-TYPE_...

DescribeCommonTargetConfig-查询防御开关的配置

USER-ENABLE-SWITCH-TYPE_50870:Linux 反弹 shell USER-ENABLE-SWITCH-TYPE_50873:WebShell 执行命令 USER-ENABLE-SWITCH-TYPE_51236:Windows 反弹 shell USER-ENABLE-SWITCH-TYPE_50877:Linux 恶意程序通信 USER-ENABLE-SWITCH-TYPE_...

使用AIACC-Training MXNet版

使用SyncBatchNorm Perseus的SyncBatchNorm实现基于MXNet官方代码src/operator/contrib/sync_batch_norm-inl.h的计算逻辑,并通过加载libperseus_MXNet.so调用Perseus通信的API,在operator内部实现SyncBatchNorm,且支持单机local模式以及...

常见问题

Linux系统服务进程异常,日志却没有输出异常 问题原因:如果机器的可用内存少于2 GB,服务进程可能因为内存不足出现异常。解决方法:请检查dmesg日志是否存在因内存不足导致进程异常的记录。进程异常后,重启服务时需要执行哪些操作 解决...

Linux实例负载高问题排查和异常处理

使用htop查看系统进程负载情况 htop是Linux系统中的一个互动进程查看器,可以很直观地查看CPU、内存、swap的使用情况及平均负载。远程连接Linux系统的ECS实例。具体操作,请参见 连接方式概述。执行如下命令,安装htop工具。yum ...

基于eRDMA增强型实例部署AI训练集群

在NCCL底层通信链接上,有多种不同的传输方式,例如单机内部多卡P2P通信以及多机上的传统socket通信(如VPC网络)和高性能的InfiniBand(IB)通信,其中eRDMA是一种基于RDMA的传输方式,具有极低的延迟,并且在性能上接近RDMA网络的优势。...

共享内存通信(SMC)使用说明

Alibaba Cloud Linux 3提供的共享内存通信SMC(Shared Memory Communication)是一种兼容socket层、使用共享内存技术实现的高性能内核网络协议栈。根据共享内存技术的不同,SMC又可以细分为基于Internal Shared Memory(ISM)技术的SMC ...

启动方式与环境变量说明

示例代码如下:#启动单机-8进程训练,使用默认的gloo backend perseusrun-np 8-H localhost:8-python train.py-model resnet50 perseusrun-np 8-python train.py-model resnet50#启动双机-每机器8进程的训练,并使用MPI作为通信backend ...

共享内存通信(SMC)使用说明

Alibaba Cloud Linux 3提供的共享内存通信SMC(Shared Memory Communication)是一种兼容socket层、使用共享内存技术实现的高性能内核网络协议栈。根据共享内存技术的不同,SMC又可以细分为基于Internal Shared Memory(ISM)技术的SMC ...

日志类别及字段说明

nginx-ingress-*container_pid 容器内进程ID。0 dir 网络连接方向。取值:in:入方向。out:出方向。in dst_ip 网络连接接收者的IP。dir 为 out 时,表示对端主机。dir 为 in 时,表示本机。192.168.XX.XX dst_port 网络连接接收者的端口。...

日志类别及字段说明

nginx-ingress-*container_pid 容器内进程ID。0 dir 网络连接方向。取值:in:入方向。out:出方向。in dst_ip 网络连接接收者的IP。dir 为 out 时,表示对端主机。dir 为 in 时,表示本机。192.168.XX.XX dst_port 网络连接接收者的端口。...

Pod安全

这样做主要有两个原因:首先,容器运行的进程默认在[Linux]root 用户的上下文中运行。尽管 root 在容器中的操作部分受到Docker分配给容器的 Linux capabilities 的限制,但这些默认权限可能允许攻击者提权或者访问到宿主机的敏感信息,...

客户端进程说明

安装云安全中心客户端后,客户端会在服务器中开启AliYunDun、AliYunDunMonitor等进程,以实现信息采集、威胁检测等能力。您可以通过查看进程状态,判断安全防护能力是否生效。本文提供云安全中心客户端文件和进程的详细说明。进程说明 云...

Linux系统常用内核网络参数介绍与常见问题处理

本文介绍常见的Linux系统内核网络参数及常见问题的解决方案。注意事项 在修改内核参数前,您需要注意以下几点:从实际需求出发,尽量有相关数据的支撑,不建议您随意调整内核参数。了解参数的具体作用,需注意不同类型或版本的环境中,内核...

Linux系统常用内核网络参数介绍与常见问题处理

本文介绍常见的Linux系统内核网络参数及常见问题的解决方案。注意事项 在修改内核参数前,您需要注意以下几点:从实际需求出发,尽量有相关数据的支撑,不建议您随意调整内核参数。了解参数的具体作用,需注意不同类型或版本的环境中,内核...

ePQ支持查看与分析执行计划

原理介绍 ePQ查询的发起进程(QC)与工作进程(Worker)之间采用 libpq 的 Y 协议进行通信:QC将 EXPLAIN ANALYZE 命令下发给Worker。各个Worker进程统计本进程内的资源使用、执行耗时等信息。各个Worker在完成计划分片的执行后,将统计...

共享内存通信(SMC)常见问题

如果您在Alibaba Cloud Linux 3系统中启用了共享内存通信SMC(Shared Memory Communication),且使用过程中遇到无法正常通信、部分端口不可用、对比TCP没有应用性能提升等问题,可以参考本文提供的方案进行排查并解决。启用SMC后应用性能...

ePQ支持查看与分析执行计划

原理介绍 ePQ查询的发起进程(QC)与工作进程(Worker)之间采用 libpq 的 Y 协议进行通信:QC将 EXPLAIN ANALYZE 命令下发给Worker。各个Worker进程统计本进程内的资源使用、执行耗时等信息。各个Worker在完成计划分片的执行后,将统计...

Alibaba Cloud Linux 2镜像发布记录

阿里云定期发布Alibaba Cloud Linux 2镜像的更新版本,以确保用户可以获取到最新的操作系统特性、功能和安全补丁。您可以通过本文查看Alibaba Cloud Linux 2镜像最新的可用版本及更新内容。背景信息 如无特殊声明,更新内容适用于云服务器...

诊断指标与诊断结果条目说明

ECSService.GuestOS 实例操作系统相关配置诊断(Linux)检查实例操作系统的系统文件、关键进程、常用业务端口占用状态、防火墙状态等是否正常。ECSService.GuestOS 实例操作系统相关配置诊断(Windows)检查实例操作系统的常用业务...

Alibaba Cloud Linux 3镜像发布记录

支持SMC-D loopback特性(自研)引入SMC-D loopback特性,加速本地进程间TCP通信和容器间TCP通信。支持页表绑核,提供页表跨die的统计(自研)页表绑核的能力可以在内存紧张时,将QoS敏感型业务的页表尽力分配到当前NUMA节点,减少了内存...

安全告警概述

云安全中心支持实时检测资产中的安全告警事件,覆盖网页防篡改、进程异常、网站后门、异常登录、恶意进程等安全告警类型。通过威胁检测模型,提供全面的安全告警类型检测,帮助您及时发现资产中的安全威胁、实时掌握资产的安全态势。背景...

读写访问文件类问题

解决方案 建议选用NAS SMB推荐的Linux版本,NAS SMB支持的Linux操作系统版本如下表所示:操作系统类型 操作系统版本 CentOS CentOS 7.6 64位:3.10.0-957.21.3.el7.x86_64及以上 Alibaba Cloud Linux Alibaba Cloud Linux 2.1903 64位:4....
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
短信服务 物联网无线连接服务 云数据库 RDS 高速通道 边缘网络加速 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用