图像融合可以干啥-图像融合可以干啥文档介绍内容-阿里云

人物写真生成API详情

人物形象训练lora方式流程图：人物形象训练lora方式上，人物写真基于扩散模型的图像生成能力，结合LoRA训练实现人像和风格融合，并叠加一系列后处理能力，实现兼具相似度、真实感、美观度的写真生成能力，人物写真可以实现高度个性化、高...

EAS一键部署HuggingFace&ModelScope服务应用

EAS 提供了预置镜像以部署社区模型，并针对模型分发和镜像拉起做了加速机制。您只需配置几个参数就可以将社区模型一键快捷的部署到 EAS ...示例效果如下图所示：图像人脸融合模型：damo/cv_unet-image-face-fusion_damo。示例效果如下图所示：

集成视觉智能服务

EnhanceFace 对输入图像中的人脸进行裁剪、对齐、细节增强，最后再融合回原图。FaceBeauty 对图像中的人脸进行美颜，包括磨皮、美白、去除黑眼圈、法令纹等。FaceMakeup 模拟彩妆，通过添加口红、高光、整妆等彩妆素材，进一步提升人脸美化...

FaceChain人物写真生成

FaceChain基于扩散模型的图像生成能力，结合LoRA训练实现人像和风格融合，并叠加一系列后处理能力，实现兼具相似度、真实感、美观度的写真生成。开发者可以通过以下链接，了解如何通过大模型服务平台调用FaceChain人物写真API。快速开始 ...

功能特性

媒体处理可以将一个音视频文件转换成另一个或多个音视频文件，以适应不同网络带宽、终端设备和用户的需求。对媒体的内容、文字、语音、场景进行多模态分析，实现智能审核、内容理解、智能编辑等多种处理功能。音视频转码把音视频码流转换...

标注文件格式说明

如果您需要根据已有数据生成TFRecord，则可以先将已有文件转换为PAI标注格式，再生成TFRecord。本文为您介绍标注文件格式。CSV数据格式如下。字段数据类型描述数据ID INT 数据标识原始数据 JSON 包含图片URL 融合答案 JSON 标注结果 ...

文字纹理生成API详情

aigc/创意文字生成 WordArt锦书-文字纹理生成可以对输入的文字内容或文字图片进行创意设计，根据提示词内容对文字添加材质和纹理，实现立体材质、场景融合、光影特效等效果，生成效果精美、风格多样的艺术字，结合背景可以直接作为文字海报...

文字纹理生成API详情

WordArt锦书-文字纹理生成可以对输入的文字内容或文字图片进行创意设计，根据提示词内容对文字添加材质和纹理，实现立体材质、场景融合、光影特效等效果，生成效果精美、风格多样的艺术字，结合背景可以直接作为文字海报使用。输入内容&...

基于函数计算部署图像描述模型mPLUG 

图像描述模型可以根据图片信息生成一句对应的描述，可以用于给一张图片配上一句文字或者打个标签的场景。本文介绍如何使用函数计算部署图像描述模型mPLUG。背景信息 AIGC（Artificial Intelligence Generated Content）是指人工智能生成...

快速开始

人物形象训练lora方式流程图：人物形象训练lora方式上，人物写真基于扩散模型的图像生成能力，结合LoRA训练实现人像和风格融合，并叠加一系列后处理能力，实现兼具相似度、真实感、美观度的写真生成能力，人物写真可以实现高度个性化、高...

视频人脸融合模板增加

功能描述视频人脸融合模板增加功能可以将已通过内容审核的包含人脸的视频，作为视频人脸融合的模板，供模板视频人脸融合功能使用。说明您可以进入在线咨询获取在线人工帮助。阿里云视觉智能开放平台视觉AI能力API接入、接口使用或问题...

2023年

2023年05月类目名称能力名称功能描述发布时间发布地域相关文档图像分析处理胃癌检测可以根据输入扫描范围覆盖胃部的平扫CT（例如胸部或腹部平扫CT等），检测胃癌和非胃癌病变。2023-05-26 华东2（上海）胃癌检测 2023年04月类目...

PAI ArtLab高清修复的三种方式

SD Upscale 在使用AI Upscale时，您可能会观察到AI在修复的同时引入了一些额外的画面变化，为了解决这个问题并确保画面精确度，您可以再进行一轮图像到图像的转换，重新构建细节。这种方法的优势在于，它可以借助同一模型及提示信息，生成...

目标检测介绍

IPC图像目标检测可以检测到输入图像中的目标物体，例如人、车辆、宠物等。IPC视频目标检测可以检测到输入视频中的目标物体，例如人、车辆、宠物等。车辆检测车辆拥堵检测根据图片中的车辆，判断是否发生拥堵。车辆违停检测可通过检测...

Modelscope镜像部署

图像人脸融合模型：damo/cv_unet-image-face-fusion_damo。示例效果如下图所示：大语言对话模型目前支持一键部署的大语言对话模型列表，请参见附录：目前支持一键部署的大语言对话模型列表。使用大语言对话模型的通用流程如下：步骤一：...

RDS搭配异构数据库实现数据多样化存储

本文介绍数据多样化存储的典型应用。RDS可以搭配云数据库Redis、...例如，当业务应用为论坛时，RDS搭配OSS使用，论坛用户的图像、帖子内的图像等资源可以存储在OSS中，以减少RDS的存储压力。RDS和OSS搭配使用相关案例请参见多结构数据存储。

通过Stable Diffusion扩展插件实现文字光影图

本文以部署Stable Diffusion和ControlNet扩展插件实现文字光影效果图为例，演示如何使用...Ending Control Step：ControlNet介入结束时间，越早结束图像和文字融合效果好，但可能文字光影效果不明显。单击 Generate 生成结果图。示例如下：

AI写真：Python SDK使用说明

通过SDK，您可以定制Lora模型，并根据模板制作写真。本文为您介绍使用Python SDK调用接口之前的准备工作以及使用示例。前提条件已准备好Python环境，环境依赖Python 3.4及其以上版本。已准备好5-20张训练图片和1张模板图片，用于模型训练...

FaceChain社区版服务实例部署文档

随后，该项目使用人脸融合模型进一步改善上述写真图像的人脸细节，其中用于融合的模板人脸通过人脸质量评估模型在训练图像中进行挑选；最后再使用人脸识别模型计算生成的写真图像与模板人脸的相似度，以此对写真图像进行排序，并输出排名靠...

多模态文生图模型

FaceChain基于扩散模型的图像生成能力，结合LoRA训练实现人像和风格融合，并叠加一系列后处理能力，实现兼具相似度、真实感、美观度的写真生成能力。人物写真生成；生成专属人物形象；FaceChain人物形象训练 facechain-finetune FaceChain...

功能特性

任务中心场景化解决方案多媒体分析提供图像领域内开箱即用的算法服务能力，包括图像打标、图像分类、图像质量分评定等。多媒体分析概述智能设计ArtLab 为设计师群体提供的一站式自动化AIGC设计工具，集成了Stable Diffusion、Kohya等...

什么是文档智能

文档智能深度融合文字识别、自然语言处理、图像处理、电子文档解析、文档预训练模型等多项技术，对非结构化和半结构化文档进行智能自动化处理，从而简化业务操作流程、提升文档处理效率。选择文档智能，您可以高效完成以下文档处理任务：...

图像裁剪

功能描述图像裁剪能力可以对输入的图像按照指定尺寸变换。支持自动判断主体区域位置，使用更好的裁剪方式对图像进行裁剪。说明您可以进入在线咨询获取在线人工帮助。当前能力可在视觉智能开放平台有完整的免费产品体验，您可以单击 ...

AnyText图文融合API详情

AnyText图文融合说明支持的领域/任务：aigc/AnyText图文融合通义万相-AnyText图文融合，支持图文生成和文字编辑功能，可广泛应用于电商海报、Logo设计、创意涂鸦、表情包、儿童绘本等诸多场景。AnyText模型支持两种调用模式：文字生成：...

写真相机方案

Lora选择和融合。图像生成。图像预处理。初次生成图像。二次生成图像。前提条件已创建专有网络，并配置公网连接。已创建专有网络VPC、交换机和安全组。具体操作，请参见搭建IPv4专有网络和创建安全组。已为该VPC创建了公网NAT网关，并...

基于AIACC加速器快速实现AIGC绘画

使用Controlnet插件 ControlNet是一个用于控制AI图像生成的插件，它可以利用输入图片中的边缘特征、深度特征或人体姿势的骨架特征，与文字提示一起精准地控制AI图像的生成，以获得更好的视觉效果。Canny是ControlNet中一个常见的模型，用于...

标注模板说明

Vision-LLM有着广阔的前景和潜力，尤其在视觉与语言融合的领域，如图像搜索引擎、智能助理、智能家居等。然而，目前Vision-LLM还存在一些挑战和限制：训练数据和计算资源：Vision-LLM的训练需要大量的图像和文本数据以及高性能计算资源。...

图像微动

功能描述图像微动能力可以对输入图像中包括的天空区域及人物头发区域进行静转动处理，得到微动的AVI格式视频。说明您可以进入在线咨询获取在线人工帮助。当前能力可在视觉智能开放平台有完整的免费产品体验，您可以单击立即试用对该...

应用场景

灵骏主要面向图形图像识别、自然语言处理、搜索广告推荐、通用大模型等大规模分布式的AI研发场景，适用于自动驾驶、金融风控、药物研发、科学智能、元宇宙、互联网和ISV等行业。大规模分布式训练高性能打造AI进化底座。超大规模GPU算力...

产品简介

滤镜SDK（iOS）基础美颜基础美颜SDK（Android）基于人脸检测，可以对图像质感、人像肤质、色调进行自由调节，从而达到均衡肤色、消除面部瑕疵、美化人脸的功效。基础美颜SDK（iOS）视频增强视频增强SDK（Android）基于多维视频增强算法，...

AI写真：PHP SDK使用说明

通过SDK，您可以定制LoRA模型，并根据模板制作写真。本文为您介绍使用PHP SDK调用接口之前的准备工作以及使用示例。前提条件环境依赖：PHP版本为5.5或者更高版本。已准备好5-20张训练图片和1张模板图片，用于模型训练和写真制作。图片格式...

智能标签

智能标签，是通过对视频中视觉、文字、语音、行为等信息进行分析，结合多模态信息融合及对齐技术，实现高准确率内容识别，自动输出视频的多维度内容标签，将非结构化信息转化为结构化信息。可应用于视频智能分析、视频审核、视频搜索、视频...

垃圾分类识别

本文介绍图像识别（imagerecog）类目下的垃圾分类识别ClassifyingRubbish的语法及示例。功能描述垃圾分类识别能力可以对图片中的物品垃圾进行分类，并给出具体的物品名称。说明您可以进入在线咨询获取在线人工帮助。当前能力可在视觉...

AI写真：Go SDK使用说明

通过SDK，您可以定制LoRA模型，并根据模板制作写真。本文为您介绍使用Go SDK调用接口之前的准备工作以及使用示例。前提条件已准备好Go环境。已准备好5-20张训练图片和1张模板图片，用于模型训练和写真制作。图片格式支持.jpg、.jpeg、.png...

CREATE MODEL

否 retrieval_num_shards INTEGER 向量索引使用的分片个数，向量数据和结构化数据进行融合检索时，每个索引表分片会先根据向量的相似查询获取topK数据，再基于合并后的topK数据进行结构化数据过滤。默认值为4。否 text_analyzer VARCHAR 此...

视频AI概述

产品信息：视频DNA 配置文档：视频DNA 智能标签智能标签服务通过分析视频中视觉、文字、语音、行为等信息，结合多模态信息融合及对齐技术，实现高准确率内容识别，自动输出视频的多维度内容标签，将非结构化信息转化为结构化信息。...

头发分割

应用场景假发网络试戴：通过头发分割，截取自拍照的头发后，换成假发图像，就可以直接看到假发试戴效果，省去了网购后佩戴不合适需要退换货的烦恼。理发店发型尝试：发型师指导客户通过平板电脑或手机拍摄的自己头像，换成各种发型，有更...

检查器管理

说明在实际应用中，可以根据需要调整该设置来在性能和图像质量之间找到合适的平衡点。在性能有限的平台上或在追求更高帧率时，可能需要降低渲染精度；而在渲染高质量图像或截图时，可适当提高渲染精度以获得更好的视觉效果。抗锯齿设置抗...

什么是三维空间重建

产品可以帮助客户以较低的成本对室内空间进行数据采集，通过深度预估算法或人工标注的形式构建出3D模型，结合全景图像实现步进式3D漫游效果，最终服务于空间展示与营销的应用场景。同时，本产品面向开发者全面开放阿里云提供的API和SDK接口...

产品架构

AI引擎 AI引擎是Lindorm在数据库内集成AI能力对多模数据（时序、文本、图像、音视频等）进行一站式智能分析和处理的引擎，包括LLM、文生图、图生图、图片识别等。其支持用户使用SQL从开源模型平台（包括ModelScope、HuggingFace）灵活导入...

图像融合可以干啥

新品推荐