aliyun短消息识别等语音识别使用指引-aliyun短消息识别等语音识别使用指引文档介绍内容-阿里云

非开发者使用指南

五、免费试用功能简介服务能力免费试用期间权益试用期过后如何继续使用 语音识别 上传文件：每天免费使用额度为2小时（音频时长），当日免费额度用完后，在24小时后才可以重新使用。麦克风：无使用限制。麦克风和音频文件升级为商用版 ...

接口说明

一句话识别功能支持对一分钟内的短语音进行识别，适用于对话聊天、控制口令、语音输入法、语音搜索等较短的语音识别场景。使用须知说明如需使用Android/iOS SDK，请参见移动端接口说明。支持的输入格式：单声道（mono）16bit采样位数...

WebSocket协议说明

如果您不希望引入阿里云智能语音交互产品SDK，或者目前提供的Java、C或C++的SDK不能满足您的要求，可以基于本文描述自行开发代码访问阿里语音服务。功能介绍阿里云智能语音交互产品通过WebSocket协议对外提供实时语音流语音转写功能，支持...

服务升级与购买

本文以语音识别为例介绍业务开通后的相关变更操作，帮助您更灵活地使用智能语音服务。前提条件完成智能语音服务开通，详情请参见开通服务。重要 语音识别服务免费试用版提供最大不超过2路并发。如需更多并发，请升级商用版，升级前请阅读...

SDK和API概览

阿里云智能语音交互SDK提供RESTful API、移动端、服务端、微信小程序以及WebSocket等多种接入方式，可帮助您更加方便、快捷、灵活地将语音识别或语音合成功能集成到您的服务当中。SDK接入类型接入方式服务能力 RESTful API RESTful API ...

最佳实践

说明若您有合作需求或技术咨询请进钉钉群：63840009561 预处理视频文件以提高文件转写效率 Paraformer语音识别API可以兼容视频文件，但由于视频文件尺寸通常较大、传输较为耗时，因此建议您对视频文件进行预处理。仅提取需要进行语音识别...

产品公共FAQ

产品公共常见问题主要分为以下几类：功能类 使用阿里云音视频通信RTC如何调用语音识别服务？智能语音交互服务中语音识别和语音合成用到的端口是哪些？开通商用或者扩容并发，多久才会在控制台上显示？智能语音交互创建的项目数量有限制吗？...

DSW使用案例汇总

使用EasyASR进行语音识别 本文以语音识别为例，为您介绍如何在 DSW 中使用EasyASR算法包。使用EasyASR进行语音分类本文为您介绍如何在 DSW 中使用EasyASR算法包训练语音分类模型。使用EasyCompression进行模型压缩训练本文介绍如何使用...

什么是智能语音交互

智能语音交互（Intelligent Speech Interaction）是基于语音识别、语音合成、自然语言理解等技术，为企业在多种实际应用场景下，赋予产品“能听、会说、懂你”式的智能人机交互功能。适用于智能问答、智能质检、法庭庭审实时记录、实时演讲...

语音识别输入格式FAQ

本文主要介绍智能语音交互的语音识别输入格式说明，以及输入语音格式不符合要求时常见问题以及方法，您可以优先在文本档获取对应解决方案。语音识别各服务支持的语音输入格式 语音识别服务语音输入格式说明一句话识别支持的输入格式：...

最佳实践

通过OSS提高文件转写效率和稳定性推荐使用与Paraformer语音识别API同地域的阿里云对象存储OSS进行音视频文件存储。OSS可以便捷的为文件生成URL，从而被指定为API的输入。对位于同地域OSS中的文件进行转写有助于提高转写效率和稳定性。说明...

最佳实践

通过OSS提高文件转写效率和稳定性推荐使用与Paraformer语音识别API同地域的阿里云对象存储OSS进行音视频文件存储。OSS可以便捷的为文件生成URL，从而被指定为API的输入。对位于同地域OSS中的文件进行转写有助于提高转写效率和稳定性。说明...

概述

在通义听悟的语音转写中，如果您的业务领域有部分词汇默认识别效果不够好，可以考虑使用热词功能，将这些词添加到热词词表从而改善语音识别效果。使用须知目前仅支持中文热词识别。每个用户默认最多创建10个热词词表。每个词表最多包含300...

并发与监控FAQ

说明并发概念适用于智能语音交互产品中的一句话识别、实时语音识别、录音文件识别极速版、语音合成、长文本语音合成等服务。不同服务之间不共享并发额度，同一服务下不同项目（对应不同AppKey）共享并发额度。什么是QPS？QPS是指每秒...

语音识别

模型简介说明支持的领域/任务：audio（音频）/asr（语音识别）Paraformer语音识别API基于通义实验室新一代非自回归端到端模型，提供基于实时音频流的语音识别以及对输入的各类音视频文件进行语音识别的能力。可应用于：对语音识别结果...

应用场景

语音短消息 发送或者接收语音短消息时，利用音频转文字能力，实现音频内容快速预览。视频实时直播字幕现场演讲场景、实时直播场景下，将视频中的音频实时转写为字幕，还可以进一步对内容进行管理。实时会议记录将会议、法庭庭审中的音频...

自学习平台FAQ

一句话识别、实时语音识别、录音文件识别中如何设置泛热词请参见使用SDK设置业务专属热词。如何使用SDK设置自学习模型？如果是通过控制台创建的自学习模型，可在项目切换模型时选择该模型，发布上线后将与Appkey绑定，您无需在代码中自行...

从这里开始

智能语音交互产品基于语音识别、语音合成、自然语言理解等技术，实现“能听、会说、懂你”式的智能人机交互体验，适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景。本文为您介绍如何使用智能语音交互，帮助您快速了解其使用...

语音识别问题排查

本文为您介绍语音识别中出现问题的排查步骤及解决方案。排查步骤使用cooledit或者Adobe Audition软件查看语音格式，播放试听并查看分轨情况、波形、能量和频谱图。ASR识别标准格式：8KHz或16KHz采样率、16bit采样位数、单声道的语音数据...

机器人管理

本类型机器人需配合语音导航能力使用，即：由语音导航能力完成音义一体化、双工控制等语音导航场景外层逻辑后，由本机器人提供对话服务。您可以购买阿里云智能语音导航，或接入三方语音导航能力。语音外呼机器人用于电话渠道，根据配置...

功能特性

语音服务语音服务（Voice Service），是阿里云为了方便用户使用语音能力，联合运营商提供稳定可靠、安全可信的云通信服务。包含语音通知、语音验证码、语音机器人等丰富的PaaS/SaaS产品，具备高可用、高并发、高质量、接入便捷的优势。...

管理项目

配置项目 语音识别 当项目类型为仅语音识别 或语音识别+语音合成+语音分析时，项目配置操作如下。单击目标项目右侧的项目功能配置。在 语音识别ASR 区域，选择基础模型或者自学习模型。单击修改配置，根据使用场景选择基础模型，...

功能特性

包括人物、事件、血腥暴恐等-语音广告识别 识别语音内容中的垃圾广告-语音违禁识别 识别语音中的违禁内容，包括违禁品、非法交易等-语音呻吟声识别 识别语音内容中的娇喘和呻吟声-文档审核1.0版文档图像内容识别识别doc、docx、ppt、pptx...

Android SDK（旧版）

本文介绍了如何使用阿里云智能语音服务提供的旧版Android SDK，包括SDK的安装方法及SDK代码示例。请注意，新用户请关注新版Android SDK。注意推荐您使用新版本Android SDK，本版本后续将不再更新。详情请参见 Android SDK。前提条件阅读...

功能发布记录

本文介绍智能语音交互产品功能的最新动态和相关文档。2023年04月~2024年01月功能分类功能名称功能描述更新类型文档链接语音识别字幕上屏录音文件识别、录音...优化无语音识别 语音识别问题修复英文后处理效果优化，解决部分情况下...

应用场景

智能语音呼入：用户呼入后可通过回调接口获取企业设定的语音识别模型ID等参数，对用户的语音进行语音识别，将识别结果（一段文字）传给企业，企业根据自己的业务实际情况返回结果（一段音频或一段文字）给语音服务平台，语音服务平台进行...

生物识别（IFAA）介绍

简介 IFAA 是金融级移动端生物识别产品，利用内嵌在移动端硬件加密区的计算能力，结合设备原生的指纹、人脸识别等生物识别能力，进行金融级、硬件级身份认证。特点支持指纹和人脸识别。采用人体独一无二的特征进行验证，具有唯一性，可以...

基本概念

目前语音识别服务支持16000Hz和8000Hz两种采样率，其中电话业务一般使用8000Hz，其余业务使用16000Hz。调用语音识别服务时，如果语音数据采样率高于16000Hz，需要先把采样率转换为16000Hz才能发送给语音识别服务；如果语音数据采样率是8000...

产品简介-产品概述

文字识别（OCR）可以将图片中的文字信息转换为可编辑文本，阿里云根据客户的业务场景和需求，将产品分为了OCR统一识别、通用文字识别、个人证照识别、发票凭证识别、教育场景识别、车辆物流识别、企业资质识别、小语种文字识别等几大类商品...

iOS SDK（旧版）

本文介绍了如何使用阿里云智能语音服务提供的旧版iOS SDK，包括SDK的安装方法及SDK代码示例。请注意，新用户请关注新版iOS SDK。注意推荐您使用新版本iOS SDK，本版本后续将不再更新。详情请参见 iOS SDK。前提条件首先阅读接口说明，...

服务用量

在控制台，您可以直观地查看智能语音交互服务的调用情况，包括时长、次数、并发路数等，根据运营数据判断当前使用是否合理，并决策是否需要增加或减少相关服务调用量。总览登录智能语音交互控制台，在总览页面，您可以查看已开通语音...

快速开始

Paraformer语音识别说明支持的领域/任务：audio（音频）/asr（语音识别）Paraformer语音识别API基于通义实验室新一代非自回归端到端模型，提供基于实时音频流的语音识别以及对输入的各类音视频文件进行语音识别的能力。可被应用于：对...

产品功能

智能语音交互智能语音呼入用户呼入后可通过回调接口获取企业设定的语音识别模型ID等参数，对用户的语音进行语音识别，将识别结果（一段文字）传给企业，企业根据自己的业务实际情况返回结果（一段音频或一段文字）给语音服务平台，语音...

内容识别

基于图片AI技术，识别图片中的场景、物体和事件等内容，实现图片的自动打标，可用于相册分类、图库分类检索等场景。重要此文档已不再维护，建议您使用新版智能媒体管理。关于智能媒体管理新版与旧版的对比，请参见新旧版本使用指引。关于...

美颜特效

短视频SDK提供的美颜、特效功能由阿里云美颜特效SDK提供服务。集成方也可以自行对接第三方美颜特效SDK。美颜特效SDK 接入简单快速、性能高、功能多样，是阿里云美颜特效SDK的核心优势。美颜特效SDK为视频创作者提供移动端和PC端的人脸基础...

通过控制台使用语音通知/语音验证码

语音通知/语音验证码是通过电话呼叫的方式向指定号码发送语音通知或对验证码进行语音播报，您可以在控制台发送语音通知或语音验证码。使用须知文本转语音模板和语音通知文件审核通过后才可以使用。对同一个“资质+用途”下的主叫进行流...

定制语言模型

在 语音识别ASR 下，单击修改配置，选择语言识别模型，单击确认使用。在项目配置页面的自学习区域，选中您已定制好的模型场景，单击应用。说明语言模型定制时选的基础模型需要和当前项目配置的语音识别模型一致，才会在下拉框中显示...

二维码识别

关于智能媒体管理新版与旧版的对比，请参见新旧版本使用指引。关于新版智能媒体管理二维码识别功能的更多信息，请参见二维码识别。功能概述二维码识别可以检测图片中的二维码以及二维码的位置和内容，其中位置包含左上角横坐标、左上角...

人脸AR

短视频SDK提供的高级美颜和美肌功能由阿里云美颜特效SDK 和相芯科技（FaceUnity）提供服务。美颜特效SDK 接入简单快速、性能高、功能多样，是阿里云美颜特效SDK 的核心优势。美颜特效SDK 为视频创作者提供移动端和PC端的人脸基础美颜、...

语音识别自学习工具

在语音识别服务中心，如果您的业务领域有部分词汇默认识别效果不好可以使用热词功能；如果您需要的语音识别服务场景不在所提供的模型范围内，或者需要对标准模型进行更进一步优化，可以使用语音模型定制功能，达成优化目的。通过自学习工具...

aliyun短消息识别等语音识别使用指引

新品推荐