什么是AI通信加速库Deepnccl

针对NVLink互连拓扑的通信优化,可以通过扩展单机内部不同的N-Trees拓扑结构组合,实现了拓扑调优并发挥多通道性能。例如,在通信数据量超过128 MB的场景下,NVLink互连拓扑优化方案相比NCCL原生在性能上提升了20%以上。多机优化 多机优化...

集群高可用架构推荐配置

关于如何在ACK集群中使用拓扑感知调度能力,例如使Pod在多个拓扑域中重试或将Pod调度到属于同一低延时部署集的ECS中,请参见 拓扑感知调度。虚拟节点高可用配置 您可以借助ACK虚拟节点将Pod快速地调度到弹性容器实例ECI上运行。使用ECI时,...

拓扑排序

对于有向边(u,v),定义所有满足u的顶点序列为拓扑序列。拓扑排序是求一个有向图的拓扑序列的算法。算法步骤如下:从图中找到一个没有入边的顶点,并输出。从图中删除该点,及其所有出边。重复以上步骤,直到所有没有入边的顶点都已输出。...

实现ECI Pod可用区打散或亲和调度

此时,您可以通过Kubernetes原生调度语义中的Pod拓扑分布约束(topologySpreadConstraints)、节点亲和性(nodeAffinity)和Pod亲和性(podAffinity)来实现。重要 仅当Pod中带有 nodeAffinity、podAffinity、topologySpreadConstraints ...

应用场景

场景一:面向大中型企业的多地容灾高可用网络架构 当本地数据中心的关键业务对可用性要求极高时,建议在多个接入点建立专线连接,该拓扑确保了因光纤切断、设备故障或接入点位置故障导致的连接故障的恢复能力。自主申请专线和共享合作伙伴...

更换集群损坏的本地盘

在 EMR控制台 上单击盘所在集群,在 集群服务 页签找到对该盘有读写操作的EMR服务,通常包括HDFS、HBase和Kudu等存储类服务,选择目标服务区域的>停止 完成服务停止操作。您也可以在该节点通过 sudo fuser-mv$device_name 命令查看占用...

节点池服务拓扑管理

Service流量拓扑管理实现原理 为了解决上述问题,容器服务 Edge 版 基于原生的Service,增加了Endpoint的拓扑管理功能,即通过简单配置来限制Service后端Endpoint的访问范围。例如,边缘节点应用只能由相同节点池的节点访问,或者只能由本...

GPU拓扑感知调度概述

本文简要描述了GPU拓扑分布情况,以及GPU拓扑感知调度的优势。GPU拓扑分布 下图为NVLink连接8个Tesla V100的混合立体网络拓扑。每块V100 GPU有6个NVLink通道,8块GPU间无法做到全连接,2块GPU间最多只能有2条NVLink连接。其中GPU0和GPU3,...

历史功能发布记录(2023年之前)

增强网格拓扑渲染能力,以不同维度展示应用服务间调用的拓扑关系及网格相关信息。全面支持第三方令牌在ACK集群的兼容,提高工作负载安全性。发布即插即用的插件市场,解决用户自定义EnvoyFilter的诉求。全部 v1.14 全部 使用插件市场扩展...

Pod 拓扑分布约束及Pod亲和与反亲和调度

ACS 兼容 Kubernetes 原生的 Pod 拓扑分布约束及 Pod 亲和与反亲和调度能力,通过配置 Pod 亲和与 Pod 反亲和控制 Pod 之间的部署关系;也可以使用 Pod 拓扑分布约束控制 Pod 部署到不同的拓扑域,也一样可以实现高可用。因为 ACS 通过虚拟...

隔离损坏的本地盘

背景信息 隔离损坏的本地盘仅支持大数据型实例,隔离损坏的本地盘系统事件包括以下事件:本地磁盘出现损坏告警(Disk:ErrorDetected)因系统维护隔离盘(SystemMaintenance.IsolateErrorDisk)因系统维护重启实例并隔离盘...

历史功能发布记录(2021年)

全部 自定义Kubernetes授权策略 集群拓扑功能集成ARMS Kubernetes监控能力 容器服务ACK增强了集群拓扑功能,集成了ARMS Kubernetes监控中的集群网络拓扑功能,支持查看集群下的Service和Workload的网络拓扑,以及各资源与云服务之间的网络...

可观测概述

ASM网格拓扑功能相关的指标设置:ASM网格拓扑功能依赖于Sidecar上报的监控指标,若您开启了网格拓扑,关闭部分监控指标会对网格拓扑功能造成影响甚至不可用。如果不启用REQUEST_COUNT的SERVER侧指标,将无法生成HTTP或gRPC服务的拓扑图。...

应用拓扑

应用拓扑 页面显示了应用下各接口之间的拓扑关系。功能入口 登录 ARMS控制台,在左侧导航栏单击 应用监控 eBPF 版>应用列表。在顶部菜单栏,选择地域。在 应用列表 页面单击目标应用。单击 应用拓扑 页签。功能说明 应用拓扑 页面显示了...

应用拓扑

应用拓扑 页面展现了全局范围内运行的应用,在指定时间段内的性能数据和拓扑结构。应用拓扑示例图 示例图说明:1 小时:表示指定时间之前 1 小时。时间间隔有 5 分钟到 24 小时的多个选项。2020-09-03:表示指定的日期。14:59:表示指定的...

功能变更记录

使用云企业网拓扑 负载均衡拓扑 新增 展示负载均衡中具备绑定关系的监听和后端服务器组的组网关系。使用负载均衡拓扑 2023年05月 功能名称 变更类型 功能描述 相关文档 公网流量分析 新增 基于地域粒度和实例粒度,分别以一元组、二元组、...

配置资源参数

说明 单Region单可用区网络拓扑默认配置了地域Region、专有网络VPC和交换机vSwitch,如果不需要更改,可使用默认配置。还可以根据个人喜好,设置边框样式。按上述操作方法,依次完成专有网络VPC、交换机vSwitch、云服务器ECS、安全组、云...

ECS系统事件汇总

SystemMaintenance.IsolateErrorDisk 因系统维护隔离盘 严重 Instance:SystemMaintenance.IsolateErrorDisk:Inquiring:因系统维护隔离盘问询中 Instance:SystemMaintenance.IsolateErrorDisk:Executing:因系统维护隔离盘执行中 ...

内核版本发布记录

增强 aliyun-qos 分布式限流插件功能,提供了集群级别的限流能力,使您无需再关注内部节点的实际拓扑和负载情况,各节点之间能够自适应分配流量比例,易用性与稳定性相比单机版QoS有显著提升。支持 Indexing Service系列,提升租户集群稳定...

变更表类型及拆分规则(DRDS模式)

相关文档 拆分规则变更后,您可以通过如下命令查看表的拆分规则或拓扑结构:查看表拆分规则,请参见 规则和拓扑查询语句。查看表拓扑结构,请参见 规则和拓扑查询语句。常见问题 Q:为什么有时拆分键变更的DDL任务会执行失败?此时该如何...

创建自定义应用

本文使用 单Region单可用区 网络拓扑,从 快速创建 下单击选中 单Region单可用区 并将其拖拽到右侧画布中,如下图所示。参考 应用架构示例 中的架构设计图,从左侧产品列表或通过关键字搜索,分别查找到云服务器ECS、安全组、云数据库RDS和...

什么是云上Landing Zone

网络规划 规划云上VPC的拓扑结构、混合云网络的互联、网络的流量走向、相关的安全措施,以及如何构建高可用和可扩展的网络架构。身份权限 规划谁能够访问云,并通过单点登录SSO和细粒度授权实现人员按需访问。安全防护 通过在云上构建基础...

本地盘实例运维场景和系统事件

更换盘可以保留除盘外其他本地盘的数据,对应的运维流程如下:您收到磁盘故障以及计划隔离盘的通知。您完成准备工作,包括修改/etc/fstab 配置文件、备份数据等。如果系统事件中包括隔离盘事件或对应操作,您响应通知,授权隔离...

数据开发常见问题

解决方法:修改OSS Endpoint地址为内网地址。使用EMR metaservice功能,不指定Endpoint。例如 select*from tbl limit 10 可以正常运行,但是执行 Hive SQL:select count(1)from tbl 时报错。修改OSS Endpoint地址为内网地址。alter table...

变更表类型及分区策略(AUTO模式)

查看表拓扑结构,请参见 SHOW TOPOLOGY FROM tablename。常见问题 Q:为什么有时分区变更的DDL任务会执行失败?此时该如何处理?A:实例崩溃或唯一索引存在冲突等因素会导致分区变更的DDL任务执行失败。但这不会损坏原表任何数据,也不会...

数据缓存亲和性调度优化

您可以根据集群节点拓扑结构,新增Kubernetes集群拓扑相关的节点标签(),并设置该标签的亲和性权重(),请参见 参考配置示例二:添加集群节点池级别亲和性。apiVersion:v1 data:pluginsProfile:|pluginConfig:args:|preferred:#fluid ...

部分地域升级迁移指引

影响范围 为了方便您快速获取在受影响地域中所有的云产品和实例,我们提供了一款工具快速帮助您完成云产品的梳理并且为您绘制了相应的拓扑图辅助理解这些云产品之间的关系。在线调研阿里云资源 当前这款工具仅支持了受影响的部分云产品的主...

设置数据流转规则

网关发现子设备 设备拓扑关系变更 网关设备特有Topic:/${productKey}/${deviceName}/thing/topo/lifecycle,流转子设备和网关之间的拓扑关系建立和解除消息的Topic。设备拓扑关系变更 对应设备上报原始数据的Topic:/sys/${productKey}/${...

规则和拓扑查询语句

本文介绍了规则和拓扑类查询语句。SHOW RULE[FROM tablename]SHOW FULL RULE[FROM tablename]SHOW TOPOLOGY FROM tablename SHOW PARTITIONS FROM tablename SHOW BROADCASTS SHOW DATASOURCES SHOW NODE SHOW RULE[FROM tablename]使用...

规则和拓扑查询语句

本文介绍了规则和拓扑类查询语句。SHOW RULE[FROM tablename]SHOW FULL RULE[FROM tablename]SHOW TOPOLOGY FROM tablename SHOW PARTITIONS FROM tablename SHOW BROADCASTS SHOW DATASOURCES SHOW NODE SHOW RULE[FROM tablename]使用...

术语表

元数据节点 PolarDB-X实例的元数据管理节点,主要记录了表的拓扑信息等状态信息,并且提供全局时间戳的授时服务。日志节点(Change Data Capture,简称CDC)日志节点提供完全兼容MySQL Binlog格式和协议的增量订阅能力,提供兼容MySQL ...

部分可用区升级迁移指引

影响范围 本次物理基础设施的升级可能会导致您的某些云产品和实例需要迁移,我们为您提供了一款工具快速帮助您完成云产品的梳理并且为您绘制了相应的拓扑图辅助理解这些云产品之间的关系。同时能够对您的现有资源进行调研,筛选出需要您...

使用直连模式连接Tair

无需配置 adaptiveRefreshTriggersTimeout(Duration timeout)为防止集群拓扑刷新频率过高,此参数只允许在对应时间内产生一次拓扑刷新。15s validateClusterNodeMembership()是否校验Cluster节点逻辑,阿里云 Tair 实例无需校验。false....

创建和管理专有网络

网络拓扑 单击 网络拓扑 页签,您可以查看该VPC下的 资源拓扑 和 路由拓扑。编辑专有网络的基本信息 您可以编辑VPC的名称和描述信息。登录 专有网络管理控制台。在顶部状态栏处,选择VPC的地域。在 专有网络 页面,找到目标VPC,单击VPC的...

使用直连模式连接Redis

无需配置 adaptiveRefreshTriggersTimeout(Duration timeout)为防止集群拓扑刷新频率过高,此参数只允许在对应时间内产生一次拓扑刷新。15s validateClusterNodeMembership()是否校验Cluster节点逻辑,阿里云 Redis 实例无需校验。false....

DescribeServiceMeshDetail-获取服务网格详情

Enabled boolean 是否启用网格拓扑(必须先开启采集 Prometheus 监控指标,当该项配置更新为 false 时,系统自动设置本项值为 false)。取值:true:启用网格拓扑。false:不启用网格拓扑。false Url string 网格拓扑服务地址。http://1.2....

PolarDB-X 1.0间同步

支持的同步架构 一对一单向同步 一对多单向同步 级联单向同步 多对一单向同步 关于各类同步架构的介绍及注意事项,请参见 数据同步拓扑介绍。支持同步的SQL操作 操作类型 SQL操作语句 DML INSERT、UPDATE、DELETE 数据库账号的权限要求 ...

历史功能发布记录(2022年)

本文介绍容器服务ACK 2022年功能发布的相关动态。背景信息 容器服务ACK支持的Kubernetes(K8s)版本:v1.24、v1.22、v1.20。容器服务ACK支持的操作系统:CentOS 7.9、Alibaba Cloud Linux 3.2104、Alibaba Cloud Linux 2.1903、Windows ...

创建安全沙箱应用

拓扑域:即topologyKey,指定调度时作用域,这是通过Node节点的标签来实现的,例如指定为 kubernetes.io/hostname,那就是以Node节点为区分范围;如果指定为 beta.kubernetes.io/os,则以Node节点的操作系统类型来区分。选择器:单击选择器...

使用Prometheus配置报警规则的最佳实践

如果你的集群节点使用多核机型的服务器,推荐使用CPU拓扑感知调度,最大化利用碎片化CPU。更多信息,请参见 CPU拓扑感知调度。工作负载异常 Deployment可用副本状态异常 Critical kube_deployment_spec_replicas{}!kube_deployment_status_...
共有49条 < 1 2 3 4 ... 49 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
可观测链路 OpenTelemetry 版 高速通道 弹性公网IP 短信服务 人工智能平台 PAI 金融分布式架构
新人特惠 爆款特惠 最新活动 免费试用