阿里云大规模网格AI信号优化-阿里云大规模网格AI信号优化文档介绍内容-阿里云

服务运维

本文将主要分享大规模服务网格，在蚂蚁集团当前体量下，落地到支撑蚂蚁金服双十一大促过程中，运维所面临的挑战与演进。云原生化的选择与问题传统的 Service Mesh：在软件形态上：将中间件的能力从框架中剥离成独立软件。在具体部署上：...

应用场景

灵骏主要面向图形图像识别、自然语言处理、搜索广告推荐、通用大模型等大规模分布式的AI研发场景，适用于自动驾驶、金融风控、药物研发、科学智能、元宇宙、互联网和ISV等行业。大规模分布式训练高性能打造AI进化底座。超大规模GPU算力...

基本概念

本文为您介绍灵骏中用到的基本概念，帮助您正确理解和使用。使用灵骏的过程中，您可以根据业务需求规划多...优化套件灵骏提供的适合大规模并行计算集群优化组件的集合，包括数据加载优化、集合通信优化、计算资源优化、网络优化等几个组件。

历史功能发布记录（2023年之前）

本文介绍服务网格 ASM 2023年之前功能发布的相关动态。2022年12月功能功能描述发布地域适用Istio版本适用产品规格相关文档新增自适应配置推送优化功能。ASM提供一种托管式的按需推送xDS配置的能力。根据访问日志，实时分析服务所需...

功能发布记录

本文介绍服务网格 ASM相关内容的最新动态。2024年03月功能功能描述发布地域适用Istio版本适用产品规格相关文档访问日志支持以纯文本（非JSON）的形式定义输出。支持将访问日志以纯文本的形式输出至容器标准输出。纯文本形式相比...

ACK One概述

一键部署经云端大规模验证的企业级产品、组件到任意Kubernetes集群，从而获得增强的安全、调度、AI大数据加速器能力。产品功能为了应对分布式云场景多种挑战，ACK One 提供以下功能。注册集群通过 ACK One 注册集群，您可以将来自不同...

历史功能发布记录（2023年）

Serverless 版 ACK Serverless支持Spot实例创建加速，提升大批量Spot实例创建规模 ACK Serverless提供高达100万核/小时的实例创建能力，可以在短时间内快速创建大量Spark Job等任务型并发处理实例，降低Job任务的排队时长，支撑大数据存算...

功能发布记录

一款基于AI大模型的优化技术咨询服务机器人，通过"文字聊天”和“表格文件”来沟通业务中的问题，自动生成数学建模公式、代码、调用软件运行求解、结果解释。2023年8月求解器SDK更新V0.25.x版本（V0.25.1下载）：提升内点法的性能 MILP...

PAI灵骏智算服务概述

PAI灵骏是一种大规模高密度计算服务，全称“PAI灵骏智算服务”，提供高性能AI训练、高性能计算所需的异构计算算力服务。PAI灵骏主要面向图形图像识别、自然语言处理、搜索广告推荐、通用大模型等大规模分布式的AI研发场景，适用于自动...

应用Sidecar资源后的配置推送优化效果

本文以部署420个Pod的较大规模集群为例，测试并分析应用Sidecar资源后的服务网格配置推送优化效果。前提条件已添加集群到ASM实例。具体操作，请参见添加集群到ASM实例。通过kubectl连接ACK集群。具体操作，请参见获取集群KubeConfig并...

AI加速概述

PAI-AI加速器主要用于训练加速和推理加速，它通过数据集加速、计算加速、优化算法、调度算法和资源优化技术等多种手段，提高了AI训练和推理的速度、易用性和稳定性，全面提升了AI计算的效率。本文为您介绍AI加速器的功能亮点。AI加速器功能...

功能特性

灵骏满足AI、HPC等计算密集场景需要的高性能算力，可实现高性能、大规模的池化算力，满足自动驾驶、科研、金融、生物制药等多行业的异构算力需求。本文为您介绍灵骏的功能特性。高速RDMA网络架构阿里巴巴2016年开始投入专项研究RDMA...

什么是服务网格ASM？

商业版在标准版的基础上，增强了多协议支持以及动态扩展能力，提供精细化服务治理，完善零信任安全体系，并持续提升性能及大规模集群支持能力，降低在生产环境落地服务网格的门槛，适用于有多语言互通、服务精细治理需求、在生产环境大...

使用CNP性能评测

CNP（Cloud Native Application Performance Optimizer），一站式云原生应用性能评测、分析和优化的平台型产品，致力于提升云上应用性能，自动化高效评测灵骏集群训练性能，提供性能优化建议。本文为您介绍如何使用CNP进行性能评测。CNP...

常见问题FAQ

优化求解器当前可以快速求解大规模线性规划LP、混合整数线性规划MILP、凸二次规划QP问题，目前支持命令行和C、C++、Python、Java的API调用，可在Windows，macOS和Linux系统下使用。有示例代码和案例分析讲解如何使用，免费。运行产生异常请...

网格优化中心概述

在大多数情况下，在大规模集群中的一个简单的工作负载可能只与少数其他工作负载进行通信。将它的配置更改为仅包含一组必要的服务会对网格代理的内存占用产生较大影响。Sidecar资源对象可以帮助定义这种配置约束关系。基于访问日志分析自动...

使用基于访问日志分析自动推荐的Sidecar资源

在默认情况下，由于不能确定网格内服务之间的调用依赖关系，Sidecar的配置中保存了数据平面内所有服务的信息。您可以使用Sidecar资源配置使对应工作负载上的Sidecar将仅关注与自己有调用依赖关系的服务信息。本文介绍如何使用基于访问日志...

网格热力图（v1.x版本）

网格热力图是基础平面地图的子组件，支持独立的样式和数据配置，包括网格的大小、颜色、边宽以及经纬度等，能够以网格点的形式表现地理位置上的点的分布密度。本文介绍网格热力图各配置项的含义。注意当前为v1.x版本的网格热力层子组件...

功能特性

说明商业版在标准版的基础上，增强了多协议支持以及动态扩展能力，提供精细化服务治理，完善零信任安全体系，并持续提升性能及大规模集群支持能力，降低在生产环境落地服务网格的门槛，适用于有多语言互通、服务精细治理需求、在生产...

什么是人工智能平台PAI

千亿级特征样本的大规模并行计算框架Parameter Server。Spark、PySpark、MapReduce等业内主流开源框架。PAI提供的服务：可视化建模和分布式训练Designer，详情请参见可视化建模（Designer）。Notebook交互式AI研发DSW（Data Science ...

什么是EMR Serverless Milvus

它在开源版本的基础上增强了可扩展性，能提供大规模AI向量数据的相似性检索服务。凭借其开箱即用的特性、灵活的扩展能力和全链路监控告警，Milvus云服务成为多样化AI应用场景的理想选择，包括多模态搜索、检索增强生成（RAG）、搜索推荐、...

AI计算资源概述

资源类型介绍云原生资源灵骏智算资源灵骏智算资源是PAI面向大规模深度学习及融合智算的算力资源，基于软硬件一体优化技术，构建高性能异构算力底座，具备高性能、高效率、高利用率等核心优势，满足高性能计算等领域需求。灵骏智算资源...

产品优势

神行工具包（DeepGPU）优势神行工具包中的组件主要包括神龙AI加速引擎AIACC、AI分布式训练通信优化库AIACC-ACSpeed、AI训练计算优化编译器AIACC-AGSpeed、集群极速部署工具FastGPU以及GPU容器共享技术cGPU，其各自具有以下核心优势。...

配置服务发现范围提升网格配置的推送效率

在网格管理页面，单击目标实例名称，然后在左侧导航栏，选择 网格优化中心>服务发现范围配置。在服务发现范围配置页面，网格服务发现模式选择自动发现数据面 Kubernetes 集群中选定命名空间下的服务。在选择命名空间页签，选择目标...

网格热力层（v2.x版本）

网格热力层是基础平面地图的子组件，支持独立的样式和数据配置，包括网格的大小、颜色、边宽以及经纬度等，能够以网格点的形式表现地理位置上的点的分布密度。本文介绍网格热力层各配置项的含义。注意当前为v2.x版本的网格热力层子组件...

启用Multi-Buffer实现TLS加速

在微服务场景下，Envoy无论是作为Ingress Gateway还是作为微服务的代理，都需要处理大量的TLS请求，尤其在握手阶段执行非对称加解密的操作时，需要消耗大量的CPU资源，在大规模微服务场景下这可能会成为一个瓶颈。ASM结合Intel的Multi-...

产品简介

ACK集群Pro版是在 ACK集群基础版的基础上发展而来的集群类型，继承了原托管版集群的所有优势，例如控制面托管、控制面高可用等，同时进一步增强了集群的可靠性、安全性和调度性，并且支持赔付标准的SLA，适合生产环境下有着大规模业务，...

什么是容器服务灵骏版

保障集群的稳定性、可靠性、安全性，支持赔付标准的SLA，满足企业级大规模生产环境的业务需求。简化运维 ACK灵骏托管版集群提供标准的Kubernetes服务，并与智能计算灵骏以及其他相关云产品进行深度集成。为集群和灵骏计算节点提供了简单的...

ASM集成KServe实现云原生AI模型推理服务

KServe介绍 KServe作为模型服务器，为大规模服务机器学习和深度学习模型提供了基础。KServe可以部署为传统的Kubernetes Deployment方式，也可以部署为支持归零的Serverless方式，提供基于流量的自动扩缩功能以及模型的蓝绿和金丝雀部署等。...

AI赋能热线营销场景解决方案

应用场景批量规模外呼预测式外呼是大规模外呼场景下极大提升销售通话效率的解决方案。阿里云联络中心的预测式外呼，通过AI预测，全自动控制外呼节奏，在满足呼损要求的前提下，最大可能地提升销售通话效率。人工销售外呼及接听无需复杂...

使用Intel AI容器镜像部署Qwen-7B-Chat

本文聊天机器人为例，介绍如何使用Alibaba Cloud AI Containers（简称AC2）提供的Intel AI容器镜像部署通义千问Qwen-7B-Chat。背景信息通义千问-7B（Qwen-7B）是阿里云研发的通义千问大模型系列的70亿参数规模模型。Qwen-7B是基于...

【产品变更】ACK云原生AI套件商用收费与优惠活动公告

云原生AI套件简介云原生AI套件是基于容器服务ACK Pro版集群（1.18.aliyun.1及以上版本）部署运行的插件化工具集，通过任务编排、调度，以及异构资源容器化统一运维，优化AI平台资源使用效率和AI工程交付速度。关于云原生AI套件的更多信息...

什么是GPU云服务器

GPU的功能特性如下：拥有大量擅长处理大规模并发计算的算术逻辑单元（Arithmetic and Logic Unit，即ALU）。能够支持多线程并行的高吞吐量运算。逻辑控制单元相对简单。下表为您介绍GPU云服务器与自建GPU服务器的区别。对比项 GPU云服务器 ...

时空引擎版本发布记录

性能优化 Geometry SQL 增强 ST_AsHMT 对于落入单个网格内的几何对象的优化处理，以提升性能。Raster SQL 增强Raster Chunk读取，采用In-place内存解析的方式，以提升性能。增强 ST_ImportFrom 函数，基于Minio和HDFS文件导入时支持mapping...

云原生AI套件概述

使用云原生AI套件，您可以充分利用云原生架构和技术，在Kubernetes容器平台上快速定制化构建AI生产系统，并为AI/ML应用和系统提供全栈优化。本文介绍云原生AI套件产品架构、核心功能、使用场景、使用流程等内容。视频介绍产品架构云原生...

时空数据库版本发布记录

性能优化 Geometry SQL 增强 ST_AsHMT 对于落入单个网格内的几何对象的优化处理，以提升性能。Raster SQL 增强Raster Chunk读取，采用In-place内存解析的方式，以提升性能。增强 ST_ImportFrom 函数，基于Minio和HDFS文件导入时支持mapping...

时空数据库版本发布记录

性能优化 Geometry SQL 增强 ST_AsHMT 对于落入单个网格内的几何对象的优化处理，以提升性能。Raster SQL 增强Raster Chunk读取，采用In-place内存解析的方式，以提升性能。增强 ST_ImportFrom 函数，基于Minio和HDFS文件导入时支持mapping...

什么是AI分布式训练通信优化库AIACC-ACSpeed

AIACC-ACSpeed（AIACC 2.0-AIACC Communication Speeding）是阿里云推出的AI分布式训练通信优化库AIACC-Training 2.0版本。相比较于分布式训练AIACC-Training 1.5版本，AIACC-ACSpeed基于模块化的解耦优化设计方案，实现了分布式训练在兼容...

概述

除此之外，数据工程师、算法工程师和开发工程师的人力成本也是当前数据驱动的智能决策应用难以大规模落地的一个阻碍。事实上，鉴于数据库研究在数据发现、数据管理、版本控制、数据清理和数据集成方面积累的专业知识，PolarDB for AI 可以...

RPC

MOSN 升级方案容器替换方案完成后，我们要面临第三个问题：由于是大规模的容器，所以 MOSN 在开发过程中，势必会存在一些问题，MOSN 出现问题，如何升级？线上几十万容器升级一个组件的难度是很大的，因此，在版本初期就需考虑到 MOSN 的...

阿里云大规模网格AI信号优化

新品推荐