SysOM内核层容器监控

该指标提供有关容器内存使用情况的统计信息,包括容器的总内存(Total)、剩余内存(Free)、可用内存大小(Available)、页缓存(Cache)、块缓存(Buffers)、共享内存(Shmem)、可回收内存(SReclaimable)、不可回收内存(SUnreclaim...

内存诊断

内存诊断有普通内存诊断和共享内存诊断两种方式,具体内存诊断方式根据需求而定。普通内存 可以通过观察 polar_stat_activity_rt 视图,如下所示:SELECT pid,rss FROM polar_stat_activity_rt ORDER BY rss DESC;\watch 1 进而可通过 ...

内存诊断

内存诊断有普通内存诊断和共享内存诊断两种方式,具体内存诊断方式根据需求而定。普通内存 可以通过观察 polar_stat_activity_rt 视图,如下所示:SELECT pid,rss FROM polar_stat_activity_rt ORDER BY rss DESC;\watch 1 进而可通过 ...

pg_shmem_allocations

pg_shmem_allocations 视图显示从服务器的主共享内存段的分配模式。简介 pg_shmem_allocations 视图显示从服务器的主共享内存段的分配模式。说明 此视图不包括使用动态共享内存基础架构分配的内存。列名称 列类型 描述 name text 共享内存...

pg_shmem_allocations

pg_shmem_allocations 视图显示从服务器的主共享内存段的分配模式。简介 说明 pg_shmem_allocations 视图不包括使用动态共享内存基础架构分配的内存。匿名分配是直接使用 ShmemAlloc()分配,而不是通过 ShmemInitStruct()或 ShmemInitHash...

启动ACCL容器

PyTorch多进程处理、多线程Dataloader等会大量使用共享内存通信,故而建议为容器分配足够的共享内存空间。其他可行选项包括:shm-size=8g-v/dev/shm:/dev/shm-device=dev/infiniband-ulimit memlock=-1:1 挂载RDMA网卡设备并移除内存页锁定...

ResourceConfig

名称 类型 描述 示例值 object 资源配置 CPU string CPU 核心数 10 GPU string GPU 核心数 3 Memory string 内存容量 10Gi SharedMemory string 共享内存容量 5Gi GPUType string GPU 类型 Tesla-V100-16G

挂载EmptyDir Volume以修改shm大小

本文介绍如何设置Memory类型的emptyDir Volume的sizeLimit,并将其挂载到/dev/shm,从而修改ECI Pod的shm大小,解决共享内存不够用的问题。功能场景 默认情况下,Kubernetes创建的Pod,其共享内存默认为64 MiB(即/dev/shm 大小为64 MiB)...

Persistent Buffer Pool

背景信息 PolarDB PostgreSQL版 的内存可以分为Shared Buffer Pool、Dynamic Shared Memory Areas以及进程私有内存三部分:Shared Buffer Pool:集群启动时采用预分配的方式建立的一大段共享内存,通过确定offset来对各个功能模块划分使用...

资源组管理

如果MEMORY_SHARED_QUOTA参数设置为100%,那么资源组内部的所有内存都将被视为共享内存,所有任务都可以使用这块内存;如果MEMORY_SHARED_QUOTA参数值小于100%,系统将根据设定的比例将内存划分为固定部分和共享部分,固定部分是每个任务...

内存诊断

诊断结果以图表的方式展示系统内存整体使用情况,将容器内的缓存和共享内存归属到具体的文件夹下,清晰展示系统内存使用情况,便于运维。本文介绍内存诊断的具体内容。内存诊断包括内存总览、内存分析和OOM分析,用于浏览节点及Pod内存使用...

持久缓存池(Warm Buffer Pool)

技术原理 PolarDB MySQL版 的持久缓存池功能利用了Linux的共享内存(Shared Memory)技术,将物理机内部的InnoDB缓存池从 PolarDB 的进程中独立起来,以实现主节点快速重启的能力。持久缓存池的技术架构如下:缓存池的控制信息、Page的控制...

MySQL 实际内存分配情况介绍

共享内存 执行如下命令,即可查询示例的共享内存分配情况:show variables where variable_name in('innodb_buffer_pool_size','innodb_log_buffer_size','innodb_additional_mem_pool_size','key_buffer_size','query_cache_size');...

Shared Server

PolarDB PostgreSQL版 针对上述问题,从数据库内部提供了 Shared Server(本文简称SS)内置连接池功能,采用共享内存+Session Context+Dispatcher转发+Backend Pool的架构,实现了用户连接与后端进程的解绑。后端进程具备了Native、Shared...

Resource Manager

背景信息 PolarDB PostgreSQL版 的内存可以分为以下三部分:共享内存 进程间动态共享内存 进程私有内存 进程间动态共享内存和进程私有内存是 动态分配 的,其使用量随着集群承载的业务运行情况而不断变化。过多使用动态内存,可能会导致...

MySQL实际内存分配情况介绍

MySQL 的内存大体可以分为共享内存和session私有内存两部分,下面将详细介绍各部分的构成。内存共享 执行如下命令,即可查询示例的共享内存分配情况:show variables where variable_name in('innodb_buffer_pool_size','innodb_log_buffer...

闪回表

内存占用 打开闪回日志功能需要增加的共享内存大小为以下三项之和:polar_flashback_log_buffers*8 kB polar_flashback_logindex_mem_size MB polar_flashback_logindex_queue_buffers MB 打开快速恢复区需要增加大约32 KB的共享内存大小,...

闪回表

内存占用 打开闪回日志功能需要增加的共享内存大小为以下三项之和:polar_flashback_log_buffers*8 kB polar_flashback_logindex_mem_size MB polar_flashback_logindex_queue_buffers MB 打开快速恢复区需要增加大约32 KB的共享内存大小,...

文件存储

pg_dynshmem 用于动态共享内存的文件。所有节点存储一份 pg_snapshots 导出的快照(snapshot)。pg_replslot replication slot数据。pg_stat_tmp 统计子系统的临时文件。pg_stat 统计子系统的持久化文件。pg_serial 已提交的Serializable...

Global Plan Cache

当不经常使用或者失效的GPC被清理以后,会释放出共享内存空间,之后本地的Plan Cache会尝试移动到GPC中。polar_enable_gpc_level GPC功能的开启级别,允许动态修改。取值如下:0(默认):表示不使用GPC。1:表示仅在只读节点(RO)上使用...

全局执行计划缓存

当不经常使用或者失效的GPC被清理以后,会释放出共享内存空间,之后本地的Plan Cache会尝试移动到GPC中。polar_enable_gpc_level GPC功能的开启级别,允许动态修改。取值如下:0(默认):表示不使用GPC。1:表示仅在只读节点(RO)上使用...

共享

共享内存型e4包括的实例规格及指标数据如下表所示。实例规格 vCPU 内存(GiB)网络带宽(Gbit/s)网络收发包PPS(万)多队列 弹性网卡 单网卡私有IP ecs.e4.small 1 8.0 0.5 5 1 2 2 ecs.e4.large 2 16.0 0.5 10 1 2 2 ecs.e4.xlarge 4 32....

查看详细信息

SHMEM 共享内存,以及tmpfs和devtmpfs。INACTIVE 长时间未被访问过的内存页。ANON_PAGES 匿名内存页。COMMITTED_AS 完成当前负载预计需要的内存。MEM_TOTAL 系统可用总内存,不包括kernel占用的内存,这个值在系统运行期间一般是固定不变的...

ECS资源复用版

Memory资源 共享内存可用 MaxCompute实际购买成功的ECS实例的内存总数。共享内存计划上限 共享单元中包含的ECS实例的内存总数。共享内存使用 实际被使用的内存数量。说明 ECS共享资源可用值小于计划上限值,可能是由于ECS资源预定容量不足...

PolarDB PostgreSQL版架构介绍

T5时刻,只读节点再次读取页面P1,由于BufferPool中不存在P1,因此从共享内存上读取了最新的P1,但是只读节点并没有回放LSN=300的日志,读取到了一个对其来说超前的 未来页面。未来页面 的问题是:部分页面是 未来页面,部分页面是正常的...

基于TairString实现高性能分布式锁

如果一台主机上的多个进程需要并发访问某项资源,则可以使用进程间同步的原语,例如信号量、管道、共享内存等。但如果多台主机需要同时访问某项资源,就需要使用一种在全局可见并具有互斥性的锁了。这种锁就是分布式锁,可以在分布式场景中...

服务网格落地

SOFAMosn 的 Metric 迁移:蚂蚁团队使用了共享内存来共享新老进程的 Metric 数据,保证在迁移的过程中 Metric 数据也是正确的。内存复用机制 内存复用机制主要特征如下:基于 sync.Pool。Slice 复用使用 Slab 细粒度,提高复用率。常用结构...

Operator

应对策略 为了消除内存 OOM 风险和避免业务资源容量规划上的偏差,蚂蚁团队制定了新的“共享内存”策略。该策略主要内容:Sidecar 的内存 request 被置为 0,不再向调度器额外申请资源。Limit 被设置为应用的 1/4,保障 Sidecar 在正常运行...

配置共享GPU调度cGPU算力调度策略

步骤一:查看是否已安装共享GPU组件 配置共享GPU算力分配策略时,未安装共享GPU组件和已安装共享GPU组件的操作方式不同,因此需要您确认集群是否已安装共享GPU组件。登录 容器服务管理控制台,在左侧导航栏选择 集群。在 集群列表 页面,...

查看增强监控

平均值:os.mem_size.mapped_file.avg 最大值:os.mem_size.mapped_file.max 最小值:os.mem_size.mapped_file.min 共享内存使用量 MB ✔️ ✔️ 平均值:os.mem_size.rss.avg 最大值:os.mem_size.rss.max 最小值:os.mem_size.rss.min ...

GPU调度概述

关于如何开启共享GPU,请参见 安装共享GPU组件;关于如何关闭共享GPU显存隔离能力,请参见 关闭共享GPU显存隔离能力。关于如何使用共享GPU调度,请参见 运行共享GPU示例、监控和隔离GPU资源、基于节点池管理共享GPU。GPU拓扑感知调度 ...

使用共享GPU调度(eGPU)

具体使用方法,请参见 安装共享GPU调度组件。说明 如果Pod需要调度并使用整卡资源,则需要在目标Pod上增加Label ack.gpushare.placement=require-whole-device,然后指定需要使用的GPU显存数量为 gpu-mem,则该Pod会被默认调度到拥有该数量...

共享GPU调度

关于如何开启共享GPU调度专业版,请参见 安装共享GPU调度组件。关于如何使用共享GPU调度专业版,请参见 运行共享GPU调度示例、通过共享GPU调度实现多卡共享。若ACK专有版集群已安装共享GPU调度基础版,在迁移至ACK Pro托管版集群后,需要将...

关闭对应用的GPU隔离能力

具体操作,请参见 安装共享GPU组件 或 安装共享GPU调度组件。操作步骤 执行以下命令查询集群的GPU共享能力。kubectl inspect cgpu 预期输出:NAME IPADDRESS GPU0(Allocated/Total)GPU Memory(GiB)...

安装共享GPU调度组件

本文介绍如何在GPU节点上安装共享GPU组件和GPU资源查询工具,实现GPU的调度和隔离能力。前提条件 共享GPU调度目前已实行收费。在使用共享GPU调度前,需开通云原生AI套件。具体收费信息,请参见 云原生AI套件计费说明。关于云原生AI套件的更...

在ACK专有版集群中使用共享GPU调度

如您需要在 ACK专有版集群 中使用共享GPU调度基础版,请参见...基础版迁移专业版 安装共享GPU调度组件 运行共享GPU调度组件 使用共享GPU调度实现仅共享不隔离能力 使用共享GPU调度实现cGPU算力分配策略 解决专业版集群升级共享GPU调度失效问题

更改共享GPU调度显存最小分配单位

关于安装共享GPU调度专业版的组件,请参见 安装共享GPU调度组件。集群类型为ACK Pro且集群版本≥1.18.8。关于创建ACK Pro集群和升级集群,请参见 创建ACK Pro版集群 和 升级集群。注意事项 如果集群中已存在共享GPU应用(申请了aliyun....

操作系统监控

云监控通过安装在阿里云主机(ECS实例)和非阿里云主机上的云监控插件,为您采集丰富的操作系统层面的监控指标,您可以为操作系统监控指标设置报警规则。当某个监控指标达到报警条件时,会给您发送报警通知,以便您及时关注其动态。前提...

高级配置:内存缓存本地目录

在大部分模型推理场景中,业务进程通过OSS或NAS将模型文件挂载到本地目录,进行模型读取、...当服务进行扩容时,新的实例会自动加入已有的内存共享集群,并且初始化模型加载时可以直接从远端进行读取。因此,弹性扩缩容更快,更适合弹性场景。

共享GPU调度概述

关于如何安装和使用共享GPU调度,请参考:安装共享GPU调度组件 运行共享GPU调度示例 除此以外,还有一些进阶能力,您可以根据业务需求选择:通过共享GPU调度实现多卡共享 通过共享GPU调度实现算力分配 配置共享GPU调度节点选卡策略 配置...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
共享带宽 文件存储 CPFS 共享流量包 NAT网关 数据管理 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用