模型服务网格

模型服务网格(Model Service Mesh)提供了一个可扩展的、高性能的基础架构,用于将多个模型服务进行管理、部署和调度,以此更好地处理模型的部署、版本管理、路由和推理请求的负载均衡。本文介绍模型服务网格的概念和相关功能。什么是模型...

高级配置:内存缓存本地目录

在大部分模型推理场景中,业务进程通过OSS或NAS将模型文件挂载到本地目录,进行模型读取、模型切换以及容器的扩缩容等操作时,会受网络带宽的影响,存在较大的延时问题。为了解决这个问题,EAS 提供了本地目录内存缓存加速的功能。通过将...

使用说明

本文介绍将业务程序与远程登录程序进行进程隔离,以保证设备在故障时可以进行远程运维。背景信息 设备基于物联网平台的消息通信能力开展业务,由于不同设备业务的复杂性,以及业务需要定期变更升级,导致设备的业务程序容易出现故障,导致...

网络类场景

排除端口 无需注入网络延迟调用故障的端口,与本地服务端口和远程服务端口功能互斥。可以指定多个,使用逗号分隔,使用连接符表示范围。例如80,8000-8080。远端服务IP 指定演练对象访问的远端服务IP。可以通过子网掩码来指定一个网段的IP...

查看应用分组

创建应用分组后,您可以查看应用分组的组内资源、监控视图、故障列表、可用性监控等数据,并执行相关操作。通过应用分组集中管理资源,便于您及时接收故障资源的报警通知,并及时处理故障。操作步骤 登录 云监控控制台。在左侧导航栏,选择...

标准架构

当数据库节点发生故障时,数据会丢失,系统会重新拉起一个 Tair 进程(没有数据),当节点故障业务自动切换完成后,应用程序需要将数据重新预热。单副本架构不支持以下功能:自动或手动备份、离线全量Key分析 和 实例回收站。若您对数据有...

模型训练

训练是整个模型产出最重要的一个操作,为了保证训练流程的单线程化和纯粹性,将训练流程整体封装打包在一个训练框架下,而把训练过程产生的重要节点拆分至一级菜单栏,整个训练流程都为快速的产出最优模型服务,而且训练框架内部又给予绝对...

Stable Diffusion AIACC加速版部署文档

SDXL base模型 sd_xl_refiner_1.0_0.9vae.safetensors:SDXL refiner模型 v1-5-pruned-emaonly.safetensors:Stable Diffusion 1.5模型 v2-1_768-ema-pruned-fp16.safetensors:Stable Diffusion 2.1模型 我们可以根据输入文字以及生成图片...

无法连接Windows实例

故障现象 无法ping通ECS实例,在排除Iptables和网卡IP配置问题且回滚系统后,仍然无法ping通。故障原因 可能是ECS实例安全组默认的公网规则被删除。解决方法 重新配置ECS实例的安全组公网规则,具体操作请参见 ECS实例安全组默认的公网规则...

管理探针

否则系统会定时检查AHAS进程是否存在,如进程不存在,系统会自动重启该进程。每次您的主机重启时,AHAS探针进程也会自动重启。您可以通过控制台卸载AHAS探针,或者执行卸载AHAS探针脚本。通过控制台卸载AHAS探针:登录 AHAS控制台,然后在...

设备使用物模型通信

开发语言 Link SDK使用示例 C Link SDK Extended 物模型开发 C(v4.x)物模型使用 C(v3.x)物模型编程 Android 物模型开发 Java 物模型开发 Python 物模型通信 Node.js 物模型开发 iOS 不支持 物模型通信流程 重要 下述设备与物联网平台...

用户窃电识别

例如通过采集电量异常、负荷异常、终端报警、主站报警及线损异常等信息监测窃漏电情况及计量装置故障,或根据报警事件发生前后客户计量点电流、电压及负荷数据情况,构建基于指标加权的用电异常分析模型...

绑定多个EAIS实例

您可以通过在ECS实例上指定EAIS实例编号的方式,指定使用某个EAIS实例来运行进程,具体操作,请参见 使用EAIS进行PyTorch模型推理或训练。EAIS实例的编号说明如下:EAIS实例的编号与您绑定的EAIS实例的创建时间有关。在当前已绑定的EAIS...

EasyCkpt:AI大模型高性能状态保存恢复

EasyCkpt是PAI为PyTorch大模型训练场景而开发的高性能Checkpoint框架,通过实现接近0开销的模型保存机制,提供了大模型训练全过程进度无损的模型保存与恢复的能力。目前EasyCkpt支持当前流行的两种大模型训练框架Megatron和DeepSpeed,本文...

部署Stable Diffusion应用FAQ

Stable Diffusion本身的原因,特定模型下开启面部修复功能(restore face)时,会发生进程卡住现象。您可以尝试在Stable Diffusion的WebUI界面中手动取消面部修复功能。为什么无法在线安装插件?容器镜像部署存在安全限制,不允许在线安装...

代码逻辑场景

本文列出了故障演练支持的代码逻辑场景。篡改Java方法返回值 修改Java指定方法的返回值,返回指定的值。具体示例,请参见 JVM注入动态脚本。参数名称 是否必选 默认值 参数说明 类名 是 无 完整的类名,包含包名。例如:...

评分卡训练

评分卡是信用风险评估领域常用的建模工具,其原理是通过分箱输入将原始变量离散化后再使用线性模型(逻辑回归或线性回归等)进行模型训练,其中包含特征选择及分数转换等功能。同时也支持在训练过程中为变量添加约束条件。说明 如果未指定...

应用视图

应用视图页面是通过采集主机进程与网络数据,来展示主机部署应用的拓扑架构。您可以通过筛选进程类型,查看进程的拓扑图和详细信息。本文介绍如何在应用视图中查看进程。操作步骤 登录 AHAS控制台,在左侧导航栏选择 故障演练>架构感知。在...

演练场景说明

K8s类场景 场景名称 特性 Node演练场景 Kubernetes集群中Node资源故障场景,目前包含基础资源中的CPU、网络和进程。每个Node场景下都包含通用的Node筛选参数,用于查找目标Node。Pod演练场景 Kubernetes集群中Pod资源故障场景,包含删除Pod...

图像分类训练(torch)

如果您的业务场景涉及图像分类,则可以通过图像分类训练(torch)组件构建图像分类模型,从而进行模型推理。本文为您介绍图像分类训练(torch)组件的配置方法及使用示例。前提条件 已开通OSS并完成授权,详情请参见 开通OSS服务 和 云产品...

窃电用户自动识别概述

通过采集电量异常、负荷异常、线损异常、终端报警、主站报警信息,建立数据分析模型,工作人员可以实时监测窃漏电情况并发现计量装置故障。根据报警事件发生前后,客户计量点有关的电流、电压和负荷等数据情况,构建基于指标的用电异常分析...

电源故障定位

您可以参考以下方法定位电源故障并进行处理流程。诊断流程 电源故障详细处理流程,如下图所示。处理步骤 测量输入电压。使用万用表测量输入电压,根据电源适配器的工作电压范围判断输入电压是否异常。插拔电源适配器。把电源适配器以及电源...

JVM注入动态脚本

向指定的Java方法注入一段动态代码,您可通过代码方式实施任意故障场景,例如篡改方法入参、篡改方法返回值等。参数说明如下:参数名称 是否必选 默认值 参数说明 脚本类型 否 Java 动态脚本的语言类型,可选项:Java、Groovy。脚本名称 否...

构建运营模型

运营模型是指组织和业务团队使用云计算平台支持业务的过程中,根据业务需求、企业架构、组织文化、现有的技术水平和工具等构建的模型。每个企业的运营模型都是独特的,本文将介绍四种常见的运营模型以供参考。构建运营模型的目的是为了实现...

查看事件与监控信息

故障列表 故障列表显示当前应用分组正在报警的全部资源,如果正在报警的规则被禁用,则故障列表中不再显示被禁用规则的故障信息。可用性监控 查看服务实例可用性的监控信息。组进程监控 查看组进行监控的进程ID、动态规则匹配和状态等信息...

封装模型镜像

前言 您的模型将以Docker镜像的方式在VCS中调度使用,VCS将为您做好服务进程守护、负载均衡、使用计量等。因此首先需要您将模型和服务端程序封装为Docker镜像。操作步骤 1.准备镜像内容,主要包括基础镜像、启动脚本、HTTP服务程序、算法包...

图像度量学习训练(raw)

如果您的业务场景涉及度量学习,则可以通过图像度量学习训练(raw)组件构建度量学习模型,从而进行模型推理。本文为您介绍图像度量学习训练(raw)组件的配置方法和使用示例。前提条件 已开通OSS并完成授权,详情请参见 开通OSS服务 和 云...

图像关键点训练

如果您的业务场景涉及人体相关的关键点检测,则可以通过图像关键点训练组件构建关键点模型,从而进行模型推理。本文为您介绍图像关键点训练组件的配置方法及使用示例。前提条件 已开通OSS并完成授权,详情请参见 开通OSS服务 和 云产品依赖...

设计方案

容错 容错是指在分布式系统中,系统出现故障时,通过设计和实现可靠的机制和策略,使系统能够自动检测、排除或者纠正错误,保证系统能够正常运行,从而提高系统的可靠性和稳定性。容量 容量是在一定时间内,系统能够处理的最大工作量或数据...

服务介绍

为该孪生空间创建一个场景,为园区中建筑和设备建立3D模型,关联孪生节点物模型,展示园区温湿度状态和警示信息,通过设备运行数据和告警信息,对设备进行故障预判并及时修复。下图为一个园区孪生实体图示例,构建温湿度统计的业务模型。您...

模型技术服务内容说明

1.服务概述 1.1 服务说明 大模型应用咨询服务 根据客户的业务诉求,基于大模型的相关应用场景进行整体规划设计和咨询类服务。大模型工程技术服务 覆盖从场景设计、数据和素材整理准备、产品部署培训、测试和应用推广全过程。基于提示词工程...

PAI-TF概述

基于GPU卡映射,您无需感知宿主机的GPU卡物理结构,PAI-TF会将您作业中申请的GPU卡自动映射至作业进程空间,则您感知到的GPU卡为gpu:0、gpu:1….等。模型在线预测 PAI为您提供了在线预测服务 EAS。您可以将PAI-TF中训练生成的模型一键部署...

功能导航条

抑制 自定义小计 分析计算 数据/模型切换 下载 清空 抑制 抑制功能可以去除当前即席分析中全部为0、null或者空文本的行或列。帮助您排除一些脏数据的干扰。对所有行、列开启抑制 对所有行、列开启抑制时,整个表格中所有数据全部为0、null...

安全告警大模型分析

云安全中心应用AI大模型技术,从安全运营管理者视角出发,在告警分析、告警处置及持续监测的整体管理链路中,利用大模型对关联事件的总结分析能力,高效帮助安全管理者完成安全告警运营。使用限制 仅支持已购买云安全中心防病毒版、高级版...

安装探针概述

接入容器服务K8s版 架构感知和故障演练支持对容器服务K8s版安装探针,安装成功后即可自动侦测包含的ECS主机、容器组、容器、进程和云服务等组件。接入主机 任何Linux主机都可以通过公网地域接入AHAS控制台。后续操作 接入成功后,您可以...

常见问题

本文为您介绍DashScope灵积模型服务中的常见问题,方便您快速找到解决方案。1.服务开通问题 开通是否收费?DashScope灵积模型服务为免费开通,开通服务后,针对不同模型,DashScope提供不同的免费额度供您使用。具体开通流程的参考,请前往...

AI推理服务概述

借助ACK云原生AI套件提供的Arena命令行工具、AI负载调度、GPU管理、资源弹性伸缩等基础能力,您可以在Kubernetes集群中简便、高效地把训练好的模型部署为AI推理服务。阿里云容器服务ACK支持为推理服务提供弹性伸缩、GPU共享调度、性能监控...

虚拟机场景

本文列出了虚拟机常见的故障演练场景。JvmCodeCache满 制造JVM CodeCache区域满的故障,CodeCache区域满会直接导致JIT编译关闭,从而引起业务系统性能下降。一般用于验证业务系统在高并发且系统性能下降的情况下,是否能够通过限流、快速扩...

功能特性

堆内(total 和 used)和堆外内存统计 堆内各个内存空间占用内存统计 垃圾回收(GC)占整个进程运行时间比例 QPS 按 1s、15s、30s、60s 的 CPU 统计 libuv 句柄,定时器统计 …… 安全提醒 npm 模块安全漏洞提醒 故障排查 热点函数分析,...

快速开始

直接调用大模型 涉及功能:模型体验中心、模型广场、Prompt工程 基于企业文档的大模型问答 涉及功能:应用中心-应用广场RAG应用、企业知识库 基于训练数据的专属大模型 涉及功能:模型工具-模型调优、训练数据、模型评测、模型部署 直接...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 负载均衡 威胁情报服务 表格存储 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用