图像识别技术-图像识别技术文档介绍内容-阿里云

产品功能相关

文档智能是文字识别技术的进一步升级，除了文字识别，文档智能还综合运用自然语言处理、图像处理、电子文档解析、文档预训练模型等多种技术，实现对PDF/Word/Excel/图片等各类非结构化和半结构化文档的智能自动化处理。相较于文字识别只能...

教育场景识别

为用户提供数学试题图片中题目文本及数学公式的识别、速算题目文字的检测和识别等服务，并返回题目框位置与内容，为智慧教学场景下的拍照搜题、板书识别、自动阅卷等应用提供关键基石技术能力。可大程度辅助教师的教务工作，并协助教育进行...

功能特性

包括人物、事件、血腥暴恐等-语音广告识别识别语音内容中的垃圾广告-语音违禁识别识别语音中的违禁内容，包括违禁品、非法交易等-语音呻吟声识别识别语音内容中的娇喘和呻吟声-文档审核1.0版文档图像内容识别识别doc、docx、ppt、pptx...

人像素描风格化

功能描述人像素描风格化能力可以对一张人物图像自动识别其头部区域，生成大头照下的素描画效果。返回结果的分辨率固定为512x512像素。关于该接口功能的示例图如下：输入原图输出效果图说明您可以进入在线咨询获取在线人工帮助。当前...

内容识别

基于图片AI技术，识别图片中的场景、物体和事件等内容，实现图片的自动打标，可用于相册分类、图库分类检索等场景。重要此文档已不再维护，建议您使用新版智能媒体管理。关于智能媒体管理新版与旧版的对比，请参见新旧版本使用指引。关于...

公众人物识别

本文介绍人脸人体（facebody）类目下的公众人物识别RecognizePublicFace的语法及示例。功能描述公众人物识别能力可以识别图片中的一个或多个公众人物信息。公众人物是指在一定范围内具有重要影响力、拥有一定的社会地位、被大众广泛关注、...

通用分割

功能描述通用分割能力可以识别输入图像中视觉中心的物体轮廓，将物体与背景进行分离，返回分割后的前景物体图（4通道）。关于该接口功能的示例图如下：输入原图输出结果图您可以传入ReturnForm参数指定返回结果形式：指定为 crop，对...

SegmentBody人像分割

SegmentBody用于识别输入图像中的人体轮廓，与背景进行分离，返回分割后的前景人像图（4通道），适用于单人、多人、复杂背景、各类人体姿态等场景。介绍名称：人像分割 Action:SegmentBody 图片限制图片格式：JPEG、JPG、PNG（不支持8位...

车牌识别

功能描述车牌识别能力可以准确识别出图像中车牌位置，输出车牌位置坐标、车牌类型、车牌号码、车牌号码置信度、车牌置信度，共5个关键字段信息。说明您可以进入在线咨询获取在线人工帮助。当前能力可在视觉智能开放平台有完整的免费...

内容审核介绍

内容审核技术基于阿里云视觉分析技术和深度识别技术，并经过阿里集团内和云上客户的多领域、多场景的广泛应用和不断优化，提供风险和治理领域的图像识别、定位、检索等全方位服务能力，不仅能帮助用户降低色情、暴恐、广告、垃圾、敏感信息...

商品分割

功能描述商品分割能力用于识别输入图像中的商品轮廓，与背景进行分离，返回分割后的前景商品图（4通道）。功能适用于实景图，不适用于卡通图片。商品分割主要针对拍到全貌的商品进行分割。关于该接口功能的示例图如下：输入原图输出结果...

人体分割

功能描述人体分割能力用于识别输入图像中的人体轮廓，与背景进行分离，返回分割后的前景人像图（4通道）。本功能适用于真人图片，不适用于卡通图片。关于该接口功能的示例图如下：输入原图输出结果图（默认为4通道透明图，和原图分辨率...

天空分割

功能描述天空分割能力可以识别输入图像中的天空区域，与背景进行分离，返回分割后的前景区域图。说明您可以进入在线咨询获取在线人工帮助。当前能力可在视觉智能开放平台有完整的免费产品体验，您可以单击立即试用对该能力进行更直观...

什么是阿里云视觉智能开放平台

具体方向包括：生成专区、人脸人体、文字识别、商品理解、内容审核、图像识别、图像生产、分割抠图、视觉搜索、图像分析处理、目标检测、视频理解、视频生产、视频分割共14个类目，上百项AI能力供您使用。平台将持续更新迭代更多视觉AI...

2021年

2021-09-31 华东2（上海）IPC图像目标检测 2021年08月类目名称接口名称功能描述发布时间发布地域相关文档 图像识别 广告素材分析可以对素材图片中的人物（明星、素人、CG人物）、场景等打上标签信息，可支持数千个内容标签，覆盖...

SDK总览

图像识别 通用图像达标、元素识别、场景识别等能力。图像生产图片上色、字幕擦除、文生图等能力。分割抠图人体分割、头像分割、商品分割等能力。目标检测主体检测、物体检测、猫鼠识别等能力。视频理解镜头解析、视频OCR、视频内容理解...

AI能力清单

AI存储支持的AI能力列表：类目能力名称 API接口技术文档目标检测 IPC视频目标检测 DetectVideoIPCObject IPC视频目标检测 IPC图像目标检测 DetectIPCObject IPC图像目标检测文字识别视频文字识别 RecognizeVideoCharacter 视频文字...

目标检测介绍

目标检测技术基于阿里云计算机视觉与深度学习技术，对通用或指定的目标进行检测、识别、打标。目标检测技术广泛应用于安防、交通等行业内图像场景的目标检测与跟踪。服务开通请单击立即开通在对应产品页面开通该服务，具体开通方式请...

功能特性

未在控制台或API展示的功能，请通过商务人员联系技术团队。重要以下功能需要提交转码作业使用，按照输出的视频规格和时长，收取普通转码费用。计费说明请参见转码定价。参数类型说明输入文件封装格式视频：3GP、AVI、FLV、MP4、M3U8...

文字识别介绍

文字识别技术基于阿里云深度学习技术，为您提供通用的印刷文字识别和文档结构化等能力。文字识别技术可以灵活应用于证件文字识别、发票文字识别、文档识别与整理等行业场景，满足认证、鉴权、票据流转审核等业务需求。服务开通请单击立即...

新手指南

其他类目能力详细说明及使用方法，请参见：生成专区、人脸人体、文字识别、商品理解、内容审核、图像识别、图像生产、分割抠图、视觉搜索、图像分析处理、目标检测、视频理解、视频生产、视频分割。参考案例开发代码示例为身份证识别系统...

商品理解介绍

商品理解技术是基于阿里云深度学习算法，结合图像或视频的商品检测、分析/比对技术，为您提供对商品类目、标签、属性的识别以及置信度信息等能力。可广泛应用于电子商务、零售、生产等行业，实现货架商品识别、商品二维码识别、商品属性...

组件参考：所有组件汇总

序列标注训练（MaxCompute）（即将下线）该组件是将输入序列的每个TOKEN作为一个多分类问题，采用Google原论文中的序列标注方法，实现对输入序列TOKEN进行分类，通常用于分词、词性标注和命名实体识别等。文本摘要训练该组件旨在从冗长、...

应用场景

AIACC进行AI训练的典型业务场景如下所示：场景适用模型常用存储图像分类、图像识别 MXNet框架的模型并行文件存储系统CPFS CTR预估 TensorFlow框架的Wide&Deep模型文件系统HDFS NLP自然语言处理 TensorFlow框架的Transformer、Bert模型...

RecognizeEduFormula-印刷体数学公式识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 98%。如何使用本接口步骤概述 1 开通教育场景识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买教育...

什么是文档智能

文档智能深度融合文字识别、自然语言处理、图像处理、电子文档解析、文档预训练模型等多项技术，对非结构化和半结构化文档进行智能自动化处理，从而简化业务操作流程、提升文档处理效率。选择文档智能，您可以高效完成以下文档处理任务：...

RecognizeWaybill-电子面单识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别识别准确率可达 93%。如何使用本接口步骤概述 1 开通车辆物流识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买电子面单...

RecognizeGeneral-通用文字识别

本接口图片示例本接口核心能力分类概述多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。全字段识别结构化识别图片上所包含的全字段，并返回 JSON。图像增强默认支持图像增强，包括图像畸变自动矫正、模糊图片...

实人认证方案

实人认证方案是依托活体检测、人脸比对等生物识别技术和证件OCR识别技术等进行的自然人真实身份校验。简介实人认证方案主要包括如下能力：实名校验用于验证用户证件信息，核实用户的姓名和身份证号码是否真实存在且匹配，防止身份造假，...

RecognizeBasic-电商图片文字识别

本接口图片示例本接口核心能力分类概述多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。多网络场景电商商品宣传图片、社区贴吧图片、网络 UGC 图片等网络场景识别文字。适用场合适用于违规广告识别、信息审核...

RecognizeTaxiInvoice-出租车发票识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 97%。如何使用本接口步骤概述 1 开通票据凭证识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买票据...

在GPU实例上使用RAPIDS加速图像搜索任务

图像搜索任务基于图像识别和搜索功能，可以实现以图搜图，在不同行业应用和业务场景中帮助您搜索相同或相似的图片。图像搜索任务背后的两项主要技术是特征提取及向量化、向量索引和检索。图像搜索任务背后的两项主要技术是特征提取及向量化...

RecognizeEduOralCalculation-口算判题

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 97%。如何使用本接口步骤概述 1 开通教育场景识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买教育...

RecognizeEstateCertification-不动产权证识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 98%。如何使用本接口步骤概述 1 开通个人证照识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买不动产...

产品简介

能力介绍能力名称支持终端描述实时视频分割实时视频分割SDK（Android）基于深度学习框架，结合检测识别技术，实现高精视觉分割能力，可实现实时全自动主体、场景像素级识别，对高度镂空主体、复杂背景等场景都有较好的效果。...

RecognizeMultiLanguage-通用多语言识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 98%。如何使用本接口步骤概述 1 开通通用文字识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买小语种...

分割抠图介绍

分割抠图技术基于阿里云深度学习技术，结合检测识别技术，为您提供高精度视觉分割能力。分割抠图技术可以实现秒级全自动主体、场景像素级识别，制作4通道透明素材。不仅实现了发丝级精抠，对高度镂空主体、复杂背景等场景都有很好的效果，...

RecognizeEnglish-英语作文识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。多卡面类型支持各种位数、凸字卡面、平面卡面的识别。如何使用本接口步骤概述 1 开通小语种识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果...

RecognizeCarVinCode-车辆vin码识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 98%。如何使用本接口步骤概述 1 开通车辆物流识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买车辆 ...

RecognizeEduPaperOcr-整页试卷识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 97%。如何使用本接口步骤概述 1 开通教育场景识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买教育...

图像识别技术

新品推荐