人脸修复增强

功能描述 人脸修复增强能力可以对输入图像中的人脸进行裁剪、对齐、细节增强,最后再融合回原图。关于该接口功能的示例图如下:输入原图:输出增强后示意图:说明 您可以进入 在线咨询 获取在线人工帮助。当前能力可在视觉智能开放平台有...

Linux集成开发指南

异步请求时需要RequestID关联请求,关联操作可以让应用找到输入图像和Callback结果的关系,RequestID通过sail:face:DetectionResult:request_id返回给用户。如果是同步请求,可以任意填写一个RequestID。SourceType:(sail:face:...

图像隐形文字水印

本文介绍图像生产(imageenhan)类目下的图像隐形文字水印ImageBlindCharacterWatermark语法及示例。功能描述 图像隐形文字水印能力可以为图片添加或者解析指定文字水印。关于该接口功能的示例图如下:说明 您可以进入 在线咨询 获取在线...

SAM自动图片分割和预标注

背景信息 Grounded SAM模型是一个最强的零样本视觉应用,它可以通过文本输入,检测、分割和生成任何图像。它是由IDEA领衔的中国专业团队打造的,基于Meta的SAM模型和其他三个强大的零样本模型。Grounded SAM模型主要由Grounding DINO和SAM...

2020年

2020-11-30 华东2(上海)视频综合增强 视频人脸融合 可以将视频中某个指定的人脸,融合进另一个人的人脸特征,达到换脸的感官效果。2020-11-30 华东2(上海)通用视频人脸融合 2020年10月 类目名称 接口名称 功能描述 发布时间 发布地域 ...

多媒体分析概述

图像多标签 1次基础模型服务 提供图像多标签打标能力,可以输出概率最高的Top K个标签以及对应的概率,也可以输出图像的高维特征。高频标签举例:女生、自拍、男生、生活随拍、截屏、食物、车、美食、游戏、卡通、动物、韩系穿搭等。人像...

图像关键点训练

如果您的业务场景涉及人体相关的关键点检测,则可以通过图像关键点训练组件构建关键点模型,从而进行模型推理。本文为您介绍图像关键点训练组件的配置方法及使用示例。前提条件 已开通OSS并完成授权,详情请参见 开通OSS服务 和 云产品依赖...

样本标注

本文档将介绍工业视觉智能产品内置的标注工具的使用,对于不同的模型所需的样本标注工具会有差异,下面会详细解释,在使用中可以先看一下新手引导,有问题时可随时点击帮助按钮获取帮助。新手引导 用户在前三次进入标注工具,会弹出引导层...

组件参考:所有组件汇总

组件类型 组件 描述 自定义组件 自定义组件 支持在AI资产管理中创建自定义组件,自定义组件创建成功后,您可以在Designer中将该组件与官方组件串联使用进行模型训练。源/目标 读OSS数据 该组件用来读取对象存储OSS Bucket路径下的文件或...

明星识别

功能描述 明星识别能力可以识别图像中的明星人物。可以识别超过2.7万个明星人物。说明 您可以进入 在线咨询 获取在线人工帮助。当前能力可在视觉智能开放平台有完整的免费产品体验,您可以单击 立即试用 对该能力进行更直观试用以及在线...

创新专区介绍

创新专区基于阿里云人工智能技术,自动生成各类创意内容,能够帮助创作者快速且大规模地创作文本和图像类型的内容,包括但不限于独特的动漫角色、富有创意的文字视觉效果以及风格各异的图文内容,广泛应用于多元化的业务场景。服务开通 请...

C++

完成上述步骤后,在 lib 目录中可以找到两个动态链接库文件libalibabacloud-sdk-core.so和libalibabacloud-sdk-imageseg.so,您可以构建自己的代码并链接这两个库文件,完成最终的图像分割调用。代码示例 SDK示例如下,代码以ImageSeg为例...

人脸美颜

功能描述 人脸美颜能力可以图像中的人脸进行美颜。产品支持以下功能:人脸美颜:磨皮、美白、锐化(清晰度)、平滑度等。参数调整:可自定义调整参数,提升个人形象。关于该接口功能的示例图如下:输入原图 美白 磨皮 说明 您可以进入 ...

通用文字识别

功能描述 通用文字识别能力可以识别图像中文字内容和文字区域坐标,适用于多场景图像文字识别。说明 您可以进入 在线咨询 获取在线人工帮助。当前能力可在视觉智能开放平台有完整的免费产品体验,您可以单击 立即试用 对该能力进行更直观...

图像度量学习训练(raw)

如果您的业务场景涉及度量学习,则可以通过图像度量学习训练(raw)组件构建度量学习模型,从而进行模型推理。本文为您介绍图像度量学习训练(raw)组件的配置方法和使用示例。前提条件 已开通OSS并完成授权,详情请参见 开通OSS服务 和 云...

场景识别

功能描述 场景识别能力可以识别图像中的场景环境,支持数十种常见场景,包括:人物、动物、狗、猫、鱼、鸟、花、草地、蔬菜、植物、水果、餐厅、美食、聚餐、烧烤 物品、手机、显示器 室外、广场、建筑、游乐场、户外、公路、小河、山峰、...

室外场景分割

功能描述 室外场景分割能力可以图像中的场景进行像素级抠图。当前共支持13种场景:天空、草地、地面、树木、花、山石、水、雪地、建筑物、人物、动物、交通工具、结构物、其他。关于该接口功能的示例图如下:说明 您可以进入 在线咨询 ...

通义千问VL

通义千问VL是阿里云研发的大规模视觉语言模型(Large Vision Language Model,LVLM),可以图像、文本、检测框作为输入,并以文本和检测框作为输出,支持中文多模态对话及多图对话,并具有更好的性能,是首个支持中文开放域的通用定位模型...

商品分类

功能描述 商品分类能力可以识别图像中的商品分类,返回商品类目、置信度等信息。目前已经支持服饰鞋包、3C数码、家居用品等超过六千种类目分类。说明 您可以进入 在线咨询 获取在线人工帮助。当前能力可在视觉智能开放平台有完整的免费产品...

二维码识别

功能描述 二维码识别能力可以识别图像中是否含有二维码信息,输出图像中二维码包含的文本信息(每个二维码对应的URL或文本),可支持图像中含有多个二维码识别。说明 在同时检测多个Task的情况下,将按照Task的个数进行累计计费。您可以...

应用场景

例如一个电商平台中包含了各种商品的图像和描述信息,用户在搜索商品时,可以通过图像或者描述信息查询相关的商品,并且还希望能够实现推荐功能,自动向用户推荐可能感兴趣的商品。用户只需要先将商品的图像和描述信息使用Embedding技术...

基础概念

关键帧可以做为随机访问(seek)的参考点,可以当成图像。GOP Group of Picture(以下简称GOP)顾名思义就是有一组帧组成的一个序列。一个GOP由关键帧开始,后面跟随者一组B帧和P帧。GOP过小,会导致I帧的比例增高,压缩比降低。GOP过大,...

Brotli压缩

如果您需要进一步减小图片文件的体积可以使用 图像处理 功能,如果您需要进一步减小视频文件的体积可以使用 视频转码 功能。“图像处理”和“视频转码”都会影响文件清晰度。操作步骤 登录 CDN控制台。在左侧导航栏,单击 域名管理。在 ...

Brotli压缩

如果您需要进一步减小图片文件的体积可以使用 图像处理 功能,如果您需要进一步减小视频文件的体积可以使用 视频转码 功能。“图像处理”和“视频转码”都会影响文件清晰度。操作步骤 登录 DCDN控制台。在左侧导航栏,单击 域名管理。在 ...

SDK总览

人脸人体 人脸搜索1:N、图像人脸融合、人脸活体检测等能力。文字识别 身份证识别、驾驶证识别、PDF识别等能力。商品理解 商品分类。内容审核 文本内容安全、图片内容安全。图像识别 通用图像达标、元素识别、场景识别等能力。图像生产 图片...

OCR录制

录制流程 点击右上角开始捕捉流程 选中包含目标控件的目标区域(可以使用图像模式或者传统模式捕捉目标控件最外围窗体)选择OCR前缀相关动作即可应用OCR分析截取控件 这里以OCR-点击动作为例子 OCR录制通用参数 动作参数-关键词:你想要...

Gzip压缩

如果您需要进一步降低图片文件的体积可以使用 图像处理 功能;如果您需要进一步降低视频文件的体积可以使用 视频转码 功能。Gzip压缩支持的文件类型有 text/xml、text/plain、text/css、application/javascript、application/x-javascript...

捕捉控件

考虑到匹配的准确性与效率,我们一般推荐您使用基于自动匹配的模式,若您希望捕捉的控件或其所在的界面无法被该模式识别,您也可以通过图像录制的模式,来截取目标操作区域,RPA会通过图像识别的方式对其进行匹配。2.1.自动匹配模式/win32-...

Gzip压缩

如果您需要进一步降低图片文件的体积可以使用 图像处理 功能;如果您需要进一步降低视频文件的体积可以使用 音视频转码 功能。操作步骤 登录 视频点播控制台。在左侧导航栏选择 配置管理>分发加速配置>域名管理,进入到域名管理页面。单击...

Brotil压缩

如果您需要进一步降低图片文件的体积可以使用 图像处理 功能;如果您需要进一步降低视频文件的体积可以使用 视频转码 功能。Brotli压缩支持的文件类型有text/xml、text/plain、text/css、application/javascript、application/x-javascript...

2022年

2022-12-30 Linux服务端 服务端人脸识别SDK 类目名称 能力名称 功能描述 发布时间 发布地域 相关文档 视频生产 模板视频人脸融合 在获得用户授权的前提下,视频人脸融合可以将视频中检测到的最大人脸,融合进另一个人的人脸特征,达到换脸...

压缩规则

如果您需要进一步降低图片文件的体积可以使用 图像处理 功能;如果您需要进一步降低视频文件的体积可以使用 视频转码 功能。压缩规则不 生效的场景 由于源站或客户端设置项冲突,部分场景下压缩规则不生效。源站 当源站文件的大小在1 KB-10...

基本概念

通过阅读本文,您可以了解MediaBox音视频SDK产品中常用名词的基本概念。产品定义 MediaBox音视频SDK MediaBox音视频SDK整合了直播推流SDK、播放器SDK、短视频SDK、美颜特效SDK等产品,为AUI Kits低代码应用方案提供端侧音视频能力,例如推...

使用AMD CPU实例部署通义千问Qwen-VL-Chat

Qwen-VL可以图像、文本、检测框作为输入,并以文本和检测框作为输出。在Qwen-VL的基础上,利用对齐机制打造出基于大语言模型的视觉AI助手Qwen-VL-Chat,它支持更灵活的交互方式,包括多图、多轮问答、创作等能力,天然支持英文、中文等多...

快速开始

通义千问VL 说明 支持的领域/任务:aigc 通义千问VL是阿里云研发的大规模视觉语言模型(Large Vision Language Model,LVLM),可以图像、文本、检测框作为输入,并以文本和检测框作为输出,支持中文多模态对话及多图对话,并具有更好的...

插件配置概述

向量检索功能,可以实现图像搜索。6.7.0、7.10.0(内核版本为1.2.0及以上)安装 aliyun-knn 向量检索引擎插件。能够帮助您快速实现图像搜索、视频指纹采样、人脸识别、语音识别和商品推荐等向量检索场景的需求。重要 日志增强版实例不支持...

通义千问

通义千问VL是阿里云研发的大规模视觉语言模型(Large Vision Language Model,LVLM),可以图像、文本、检测框作为输入,并以文本和检测框作为输出,支持中文多模态对话及多图对话,并具有更好的性能,是首个支持中文开放域的通用定位模型...

OSS中的透明图片添加水印不生效

解决方案 JPG、PNG这是两种不同的图片格式,JPG图像是没有透明的背景,而PNG图像可以保留透明的背景。请检查原图是否为PNG格式,如果是PNG格式,优先转换成JPG格式后,再添加水印。详情请参见 格式转换。适用于 对象存储OSS

基于PAI产品的虚拟上装解决方案

效果展示图如下:方式二:基于SAM和ControlNet的人台重绘技术 在SDWebUI中,您可以同时利用多个ControlNet来完成图像生成中的部分内容编辑。这意味着您可以在完整保留原始图像衣物的细节后,对其余细节部分进行创意生成,例如对人物和背景...

人物写真生成API详情

人物形象训练lora方式流程图:人物形象训练lora方式上,人物写真基于扩散模型的图像生成能力,结合LoRA训练实现人像和风格融合,并叠加一系列后处理能力,实现兼具相似度、真实感、美观度的写真生成能力,人物写真可以实现高度个性化、高...
共有51条 < 1 2 3 4 ... 51 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
图像搜索 视觉智能开放平台 Serverless 应用引擎 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用