性能监控最佳实践

建设一体化性能监控平台 随着互联网技术的不断发展,企业的业务规模和复杂度也在不断增加。为了保证业务的稳定性和可靠性,企业需要对其系统进行全面的性能监控。而一体化性能监控就是一种集成了多种监控工具和技术的综合性监控方案,可以...

阿里云电子政务云产品全家福

阿里云电子政务云平台价格是华北2公共云同等配置的2倍 云数据库 MongoDB版 云数据库 MongoDB 版(ApsaraDB for MongoDB)基于飞天分布式系统和高性能存储,提供三节点副本集的高可用架构,容灾切换、故障迁移完全透明化,可提供专业的数据...

附录:SOFAStack 产品目录

API 网关 API 网关(API Gateway)是一个 API 管理平台,帮助企业统一管理对内外开放的 API,为网络隔离的系统间提供高性能、高安全性、高可靠性的通信,同时保障内部系统的安全性;用于满足企业对外部合作伙伴开放业务、企业自身混合云...

常见问题

本文列举了阿里云 表格存储 的常见问题,帮助您快速了解 表格存储。一般性常见问题 什么是 表格存储?表格存储 面向海量结构化数据提供Serverless表存储服务,同时针对物联网场景深度优化提供一式的IoTstore解决方案。适用于海量账单、IM...

SSL-VPN连接常见问题

本文汇总了建立SSL-VPN连接时出现客户端连接失败、流量不通现象的常见原因并提供了相应的解决方案。常见问题快捷链接 客户端连接问题 客户端连接失败怎么办?客户端之前连接成功,但间歇性中断下线怎么办?仅部分客户端连接成功怎么办?SSL...

性能版实例

以下内容为 AnalyticDB PostgreSQL版 实例常见故障场景中高性能版和高可用版的对比:恢复(Recovery)模式 根据以往 AnalyticDB PostgreSQL版 运行情况,故障最大的场景为恢复模式,故障概率远大于另外两种场景(计算节点故障和计算节点宿...

故障演练

ADP提供基于线下交付经验设计的丰富故障演练场景,对基础设施、底座、中间件的常见故障场景进行覆盖,涵盖了集群级别的大规模故障以及节点、pod级别的资源故障。部分演练场景为破坏性场景(如机器重启、网卡损坏),可能导致环境状态异常、...

功能特性

高可用管理平台 HAS 定位于 IT 技术...故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的演练和恢复计划,保证用户能够有计划地测量和观测应用高可用能力。

ADP底座介绍

常见故障场景自动诊断:内置长期经验沉淀的运维知识库,自动识别常见故障问题,并提供故障处置建议。自动化巡检和告警通知:内置基础告警策略并可灵活配置,可对接多种告警通知方式,定期巡检,及时感知问题。业务数据的存储备份及还原:...

什么是AI分布式训练通信优化库AIACC-ACSpeed

AIACC-ACSpeed优化原理 场景说明 使用单机多卡或多机多卡进行AI分布式训练时,分布式通信的线性度可作为单卡训练扩展到多卡的性能指标,线性度的计算方式如下:单机内部扩展性:线性度=多卡性能/单卡性能/单机卡数 多机之间扩展性:线性度=...

NAT网关故障排查指南

本文介绍NAT网关的常见故障及排查方案。流量不通类故障排查:ECS实例配置DNAT条目后无法被公网访问 VPC内新建交换机的ECS无法通过SNAT访问公网 VPC内存在多个NAT网关时,某交换机的ECS实例不能访问公网 访问流量异常类故障排查:客户端访问...

什么是AI通信加速库Deepnccl

Deepnccl是为阿里云神龙异构产品开发的一种用于多GPU互联的AI通信加速库,在AI分布式训练或多卡推理任务中用于提升通信效率。本文主要介绍Deepnccl的架构、优化原理和性能说明。产品简介 Deepnccl基于NCCL(NVIDIA Collective ...

共享内存通信(SMC)常见问题

如果您在Alibaba Cloud Linux 3系统中启用了共享内存通信SMC(Shared Memory Communication),且使用过程中遇到无法正常通信、部分端口不可用、对比TCP没有应用性能提升等问题,可以参考本文提供的方案进行排查并解决。启用SMC后应用性能...

安装ACCL库

ACCL(Alibaba Collective Communication Library)是一款高性能通信库,提供了AllReduce、AllToAllV、Broadcast等常用集合操作接口以及点到点Send/Recv接口,为多机多卡训练提供高效的通信支持。本文为您介绍如何安装ACCL库。背景信息 ...

网络优化

负载均衡性能优化 在网络密集型应用场景中,负载均衡 通常作为集群流程的入口,通过将流量分发到不同的后端服务器来扩展应用系统的吞吐能力,并且可以消除系统中的单点故障,提升应用系统的可用性。对于阿里云提供的SLB包括应用型负载均衡...

自治服务概述

云数据库 OceanBase 的自治服务是一款面向开发、运维、DBA 的一式智能诊断自治服务,为用户提供可视化监控、性能优化、故障诊断、安全管理、容量管理等能力,帮助用户更简单、更低成本、更高性能的使用 OceanBase 数据库。背景信息 传统...

实践教程概览

使用IMB软件和MPI通信库测试E-HPC通信性能 IMB(Intel MPI Benchmarks)用于评估HPC集群在不同消息粒度下节点间点对点、全局通信的效率。MPI(Message Passing Interface)是支持多编程语言的并行计算通信库,具有高性能、大规模性、可移植...

使用IMB软件和MPI通信库测试集群通信性能

本文以IMB软件和MPI通信库为例介绍如何测试E-HPC集群的通信性能。背景信息 IMB(Intel MPI Benchmarks)用于评估HPC集群在不同消息粒度下节点间点对点、全局通信的效率。MPI(Message Passing Interface)是支持多编程语言编程的并行计算...

通信能力技术服务协议

为使用通信能力技术服务,您应当阅读并遵守《通信能力技术服务协议》(以下简称“本协议”)。在接受本协议之前,请您务必仔细阅读本协议的全部内容,特别是免除或者限制责任的条款以及管辖法院的选择条款等,限制、免责条款可能以加粗形式...

eRDMA

弹性RDMA(Elastic Remote Direct Memory Access,简称eRDMA),是阿里云提供的低延迟、大吞吐、高弹性的高性能RDMA网络服务。eRDMA的能力实现需要基于支持eRDMA能力的实例规格,创建挂载支持弹性RDMA能力的网卡,才能够实现具有大规模RDMA...

网络资源

网络资源是指用于节点之间通信和数据传输的硬件和软件资源,除了包括广域网、局域网、交换机、路由器,还包括常用到的专有网络、虚拟交换机、负载均衡、弹性公网、VPN、DNS、CDN等资源。在分布式系统中,网络资源的主要作用是支持节点之间...

PAI灵骏智算服务概述

PAI灵骏 是一种大规模高密度计算服务,全称“PAI灵骏智算服务”,提供高性能AI训练、高性能计算所需的异构计算算力服务。PAI灵骏 主要面向图形图像识别、自然语言处理、搜索广告推荐、通用大模型等大规模分布式的AI研发场景,适用于自动...

eRDMA概述

众多应用都是基于TCP/IP构建的,但随着数据中心相关的业务蓬勃发展,应用对于网络的性能需求(如延迟、吞吐)越来越高,受限于TCP/IP的局限性(如拷贝开销大、协议栈处理厚、CC算法复杂、上下文切换频繁等),TCP/IP的网络通信性能已经成为...

查询网络通信距离(NCD)

PAI灵骏提供了统一的网络通信距离NCD(Network Communication Distance)查询接口,供您对GPU节点(或网卡)间的通信距离进行查询,以实现更优的任务调度,获得最佳的训练性能。本文为您介绍NCD的基本概念、使用NCD的原因以及如何使用NCD。...

数据转发到另一Topic

相关文档 配置解析脚本将Topic数据转发到其他Topic 基于消息转发的M2M设备间通信 基于Topic消息路由的M2M设备间通信 常见问题 两个设备之间能通信吗?设备可以订阅其他设备的通信Topic吗?硬件设备和MQTT客户端使用同一设备证书接入物联网...

新手指引

模块问题 计费常见问题 数据库常见问题 流量统计常见问题 网站管理常见问题 管理控制台常见问题 网站耗资源(客户程序故障常见问题 更多常见问题,请参见 常见问题和故障排除汇总。反馈与建议 在使用阿里云云虚拟主机时,如果有任何疑问...

数据转发到其他Topic

操作样例 基于消息转发的M2M设备间通信 相关文档 配置SQL表达式将Topic数据转发到另一Topic 基于Topic消息路由的M2M设备间通信 常见问题 两个设备之间能通信吗?设备可以订阅其他设备的通信Topic吗?硬件设备和MQTT客户端使用同一设备证书...

TCP连接超时时间配置

概述 用户的客户端调用API网关的引擎,API网关的引擎调用用户的后端服务,目前都使用的是TCP连接,关于TCP连接,一些超时时间的配置会影响到整个通信过程,配置不合理会导致不同情形的问题,甚至导致故障。本文档在API网关的角度对API...

实例概述

物联网平台提供公共实例和企业版实例,基于实例管理设备接入、设备通信、设备运维及设备相关业务运行。本文介绍公共实例、企业版实例以及如何开通和使用实例实现物联网设备的管理和运维。说明 物联网平台连接设备的工作原理、功能特性和...

监控、诊断和故障排除

故障排除 性能相关常见问题 平均E2E延时高,而平均服务端延时低 前面介绍了平均E2E延时与平均服务器延时的区别。所以产生高E2E延时、低服务器延时可能的原因有两个:客户端应用程序响应慢 可用连接数或可用线程数有限 对于可用连接数问题,...

网站耗资源(客户程序故障常见问题

常见的造成网站耗资源(客户程序故障)现象的原因如下所示:网站程序编写不合理,例如ASP程序变量没有清空。网站数据库调用频繁,例如当ACCESS数据库的容量比较大时(超过100 MB以上),性能可能会出现问题。网站访问量过大或者流量过大...

功能发布记录

2022年11月 更新事项 描述 AI Earth 地球科学云平台正式发布 平台集公开数据检索、在线处理分析(工具箱模式+开发者模式)、遥感AI模型训练为一体,为广大科研用户和政企用户提供便捷高效的一式遥感云计算服务。2022年08月 更新事项 描述...

GPU计算型

GPU计算型实例具有高性能、高并行计算能力,适用于大规模并行计算场景,可以为您的业务提供更好的计算性能和效率。本文为您介绍云服务器ECS GPU计算型实例规格族的特点,并列出了具体的实例规格。主售(推荐类型)GPU计算型实例规格族gn7e ...

弹性裸金属服务器概述

当弹性裸金属服务器发生硬件故障时,支持故障转移,数据都保留在云盘中。产品优势 弹性裸金属服务器通过技术创新实现客户价值。具体而言,弹性裸金属服务器具有以下优势:用户独占计算资源 作为一款云端弹性计算类产品,弹性裸金属服务器...

应用场景

产品优势 针对上述痛点,无影云应用 具备以下优势:一式全方位PaaS能力:无影云应用 提供一式的PaaS平台云化移植的应用虚拟环境,提供丰富的客户端SDK和平台 OpenAPI服务工具。仅需通过轻量二次开发,即可实现传统应用上云和全端快速...

应用场景

产品优势 针对上述痛点,无影云应用 具备以下优势:一式全方位PaaS能力:无影云应用 提供一式的PaaS平台云化移植的应用虚拟环境,提供丰富的客户端SDK和平台 OpenAPI服务工具。仅需通过轻量二次开发,即可实现传统应用上云和全端快速...

常见问题

本文汇总了使用E-HPC时的常见问题。集群相关 为什么某些地域无法创建E-HPC集群?如果您在E-HPC支持的地域和可用区下,不能创建E-HPC集群。可能是由于该地域不支持创建集群所需的相关资源,或者资源库存不足。例如:该地域不支持创建NAS文件...

什么是Web应用防火墙

Web应用防火墙(Web Application Firewall,简称WAF)为您的网站或App业务提供一式安全防护。WAF可以有效识别Web业务流量的恶意特征,在对流量清洗和过滤后,将正常、安全的流量返回给服务器,避免网站服务器被恶意入侵导致性能异常等...

产品优势

本文介绍Link WAN网管核心与自建核心能力间的差异以及D2D通信技术。能力差异 能力 Link WAN(LoRaWAN)其他LoRa平台 LoRaWAN国际标准 遵循LoRaWAN国际标准协议。标准纷乱,彼此互不相通,系统维护成本高。技术 阿里云自主迭代,跟随联盟...

NVMe协议介绍

NVMe专为SSD设计,它利用高速接口进行CPU和SDD间的数据通信,相比SCSI、virtio-blk等传统驱动协议速度更快、传输带宽更高。NVMe正在成为数据中心服务器和客户端设备的新行业标准。阿里云ESSD NVMe云盘具备NVMe协议的高性能以及企业特性,...
共有187条 < 1 2 3 4 ... 187 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
短信服务 物联网无线连接服务 边缘网络加速 负载均衡 弹性公网IP 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用