在线语音识别服务-在线语音识别服务文档介绍内容-阿里云

语音识别FAQ

语音识别服务支持离线功能吗？语音识别支持哪些模型？语音识别是否可以混合识别极少量英文单词和字母？开启ITN（逆文本规整）后，中文数字混合时为什么并不是全部转为阿拉伯数字？录音文件识别的enable_sample_rate_adaptive和极速版本里的...

语音数据集

ASR泛热词表是一种用于语音识别服务的数据集，用于改善特定领域识别效果不佳的情况。以下是关于ASR泛热词表的一些说明：作用：ASR泛热词表主要用于解决语音识别服务在特定识别场景下的问题，如地名、人名、特定品牌名等。通过将这些词添加...

服务升级与购买

重要 语音识别服务免费试用版提供最大不超过2路并发。如需更多并发，请升级商用版，升级前请阅读产品定价，详情请参见产品定价。确认用户授权书开通商用版需要您确认用户授权书，主要为了同意我们使用您的语音数据对模型进行优化，更好地...

创建专有语言模型

如果您需要的语音识别服务场景不在所提供的公共模型范围内，您可以自定义专属语言模型。本文为您介绍在控制台如何创建专有语言模型。登录智能联络中心控制台。在左侧导航栏，选择智能交互>实时语音识别。在通用设置页面，选择语言模型>...

产品公共FAQ

产品公共常见问题主要分为以下几类：功能类使用阿里云音视频通信RTC如何调用语音识别服务？智能语音交互服务中语音识别和语音合成用到的端口是哪些？开通商用或者扩容并发，多久才会在控制台上显示？智能语音交互创建的项目数量有限制吗？...

语音识别自学习工具

在语音识别服务中心，如果您的业务领域有部分词汇默认识别效果不好可以使用热词功能；如果您需要的语音识别服务场景不在所提供的模型范围内，或者需要对标准模型进行更进一步优化，可以使用语音模型定制功能，达成优化目的。通过自学习工具...

基本概念

调用语音识别服务时，如果语音数据采样率高于16000Hz，需要先把采样率转换为16000Hz才能发送给语音识别服务；如果语音数据采样率是8000Hz，请勿将采样率转换为16000Hz，项目中选用支持8000Hz采样率的模型。采样位数（sample size）采样值或...

非开发者使用指南

麦克风和音频文件升级为商用版将对应的实时语音识别 服务升级为商用版。升级为商业版之后，进入后付费按量计费模式，此时可购买资源包进行抵扣。语音合成合成与下载：每天不限次数。语音合成升级为商用版将对应的语音合成服务升级...

基本概念

调用语音识别服务时，如果语音数据采样率高于16000Hz，需要先把采样率转换为16000Hz才能发送给语音识别服务；如果语音数据采样率是8000Hz，请勿将采样率转换为16000Hz，项目中选用支持8000Hz采样率的模型。采样位数（sample size）采样值或...

错误码

51040103 实时语音识别服务不可用检查实时语音识别服务是否有任务堆积等导致任务提交失败 51040104 请求实时语音识别服务超时。排查实时语音识别日志。51040105 调用实时语音识别服务失败。检查实时语音识别服务是否启动，端口是否正常...

错误码

51040103 实时语音识别服务不可用检查实时语音识别服务是否有任务堆积等导致任务提交失败 51040104 请求实时语音识别服务超时。排查实时语音识别日志。51040105 调用实时语音识别服务失败。检查实时语音识别服务是否启动，端口是否正常...

应用场景

自学习平台热词在语音识别服务中，如果在您的业务领域有一些特有的词，默认识别效果较差的情况下可以使用热词功能，将这些词添加到词表，改善识别结果。语言模型定制支持上传业务相关的文本语料训练模型，可以在该业务领域中获得更高的...

Windows

使用场景您可以将本地发布端或订阅端的音频数据通过阿里云语音识别服务转换成文字，实现流程如下所示：阿里云RTC会将音频数据发送至音频识别SDK中。音频识别SDK将音频数据发送至音频识别服务进行实时语音处理并返回识别结果。音频识别SDK...

Android

使用场景您可以将本地发布端或订阅端的音频数据通过阿里云语音识别服务转换成文字，实现流程如下所示：阿里云RTC会将音频数据发送至音频识别SDK中。音频识别SDK将音频数据发送至音频识别服务进行实时语音处理并返回识别结果。音频识别SDK...

SDK和API概览

离线移动端iOS SDK 离线语音合成离线移动端Android SDK 离线语音合成服务端 Java SDK 一句话识别、实时语音识别、录音文件识别、录音文件识别闲时版、语音合成、长文本语音合成、声音事件检测、说话人识别、性别识别、语种识别 Python ...

iOS和Mac

使用场景您可以将本地发布端或订阅端的音频数据通过阿里云语音识别服务转换成文字，实现流程如下所示：阿里云RTC会将音频数据发送至音频识别SDK中。音频识别SDK将音频数据发送至音频识别服务进行实时语音处理并返回识别结果。音频识别SDK...

接口说明

实时语音识别服务的智能断句功能会判断出一句话的开始与结束，如：{"header":{"namespace":"SpeechTranscriber","name":"SentenceBegin","status":20000000,"message_id":"a426f3d4618447519c9d85d1a0d1*","task_id":"5ec521b5aa104e3abccf...

Paraformer语音识别热词定制与管理

Paraformer语音识别热词定制与管理说明支持的领域/任务：audio（音频）/asr（语音识别）在语音识别服务中，如果您的业务领域有部分词汇默认识别效果不够好，可以考虑使用热词功能，将这些词添加到词表从而改善识别结果。前提条件已开通...

RESTful API

2.语音识别服务域名：nls-gateway-cn-shanghai.aliyuncs.com。3.语音识别接口请求路径：/stream/v1/asr。4.设置必选请求参数：appkey、format、sample_rate。5.设置可选请求参数：enable_punctuation_prediction、enable_inverse_text_...

C++ SDK

生成SDK库文件和可执行程序：srDemo（一句话识别）、stDemo（实时语音识别）、syDemo（语音合成）、daDemo（语音对话）。scripts/build_linux.sh 查看范例使用方式。cd build/demo./stDemo Android平台编译支持arm64-v8a、armeabi、...

C# SDK

基础接口 NlsClient：语音处理客户端，利用该客户端可以进行一句话识别、实时语音识别和语音合成的语音处理任务。该客户端为线程安全，建议全局仅创建一个实例。接口名启用版本功能描述 SetLogConfig 3.1.9 设置日志文件与存储路径。越早...

RESTful API

语音识别服务域名：nls-gateway-cn-shanghai.aliyuncs.com *3.语音识别接口请求路径：/stream/v1/tts*4.设置必须请求参数：appkey、token、text、format、sample_rate*5.设置可选请求参数：voice、volume、speech_rate、pitch_rate*/String...

接口说明

如果您已接入录音文件识别服务，即没有设置录音文件识别服务的版本，默认为2.0版，可以继续使用；如果您新接入录音文件识别服务，请设置服务版本为4.0。输入参数及说明：提交录音文件识别请求时，需要设置输入参数，以JSON格式的字符串传入...

计量计费

计费方式模型服务模型名计费单元计费单价 Paraformer语音识别 paraformer-1 秒（不足1秒四舍五入）0.00008元/秒 paraformer-8k-1 paraformer-mtl-1 重要 Paraformer语音识别模型服务仅对音轨中被判定为语音内容的时长进行语音转写，并...

计量计费

Paraformer语音识别计费单元模型服务计费单元 Paraformer语音识别秒（不足1秒四舍五入）重要 Paraformer语音识别模型服务仅对音轨中被判定为语音内容的时长进行语音转写，并据此进行计量计费，非语音内容不计量、不计费。通常情况下...

计量计费

Paraformer语音识别计费单元模型服务计费单元 Paraformer语音识别秒（不足1秒四舍五入）重要 Paraformer语音识别模型服务仅对音轨中被判定为语音内容的时长进行语音转写，并据此进行计量计费，非语音内容不计量、不计费。通常情况下...

API详情

概述 Paraformer语音识别提供的文件转写API，能够对常见的音频或音视频文件进行语音识别，并将结果返回给调用者。常见的音频或音视频文件一般采用16kHz及以上的采样率进行录制，可选择paraformer-v1模型进行中英文语音识别，或选择...

快速开始

Paraformer语音识别说明支持的领域/任务：audio（音频）/asr（语音识别）Paraformer语音识别API基于通义实验室新一代非自回归端到端模型，提供基于实时音频流的语音识别以及对输入的各类音视频文件进行语音识别的能力。可被应用于：对...

快速开始

Paraformer语音识别说明支持的领域/任务：audio（音频）/asr（语音识别）Paraformer语音识别API基于通义实验室新一代非自回归端到端模型，提供基于实时音频流的语音识别以及对输入的各类音视频文件进行语音识别的能力。可被应用于：对...

录音文件识别API详情

Paraformer语音识别说明支持的领域/任务：audio（音频）/asr（语音识别）Paraformer语音识别提供的文件转写API，能够对常见的音频或音视频文件进行语音识别，并将结果返回给调用者。常见的音频或音视频文件一般采用16kHz及以上的采样率...

录音文件识别API详情

Paraformer语音识别说明支持的领域/任务：audio（音频）/asr（语音识别）Paraformer语音识别提供的文件转写API，能够对常见的音频或音视频文件进行语音识别，并将结果返回给调用者。常见的音频或音视频文件一般采用16kHz及以上的采样率...

接口说明

4.结束识别客户端发送停止一句话识别请求，通知服务端语音数据发送结束，停止语音识别，服务端返回最终识别结果：{"header":{"namespace":"SpeechRecognizer","name":"RecognitionCompleted","status":20000000,"message_id":"10490c992...

创建语音识别模型

语音识别模型是对智能交互通话中的音频流做实时识别，达到“边说边出文字”的效果，为您提供最优质的离线/流式语音转文字服务。本文为您介绍如何在控制台创建语音识别模型。登录智能联络中心控制台。在左侧导航栏，选择智能交互>实时语音...

功能特性

语音服务语音服务（Voice Service），是阿里云为了方便用户使用语音能力，联合运营商提供稳定可靠、安全可信的云通信...智能语音交互增值服务 ASR 提供语音识别，语音转文本服务。录音提供录音服务。行业云联络中心_座席提供坐席服务。

计费概述

语音数据处理费用类别服务计费方式说明 语音识别 实时语音识别 按照语音时长计费可以自助开通后付费或购买预付费资源包。一句话语音识别 按照调用次数计费录音文件识别按照录音时长计费录音文件识别极速版按照录音时长计费录音...

功能发布记录

同时支持实时和离线语音识别，支持8k和16k模型。识别速度快：采用“字”级别建模单元及自研模型推理引擎，并发推理速度相比业内主流推理框架提升10倍以上；服务响应毫秒级延迟。新增识音石V1·识音后处理模型更新修复英文ITN时间戳问题...

智能语音交互试用服务及服务改进计划协议

1.3 智能语音交互服务：指阿里云面向客户方提供的语音识别以及语音合成等服务。1.4 业务数据：指您使用智能语音交互服务进行识别、合成或其他方式处理的原始数据。1.5 本服务：指智能语音交互服务的试用版本。1.6 阿里云官网：指阿里云官方...

智能语音合成服务及服务改进计划协议

1.3 智能语音交互服务：指阿里云面向客户方提供的智能语音识别以及智能语音合成等服务。1.4 业务数据：指您使用智能语音交互服务进行识别、合成或其他方式处理的原始数据。1.5 本服务：指智能语音交互服务中，长文本以及短文本的智能语音...

智能语音导航

智能语音导航是综合利用自动语音识别（Automatic Speech Recognition，ASR）、文字转语音（Text To Speech，TTS）以及自然语言理解（Natural Language Understanding，简称NLU）技术并面向企业客户提供的一款电话机器人产品。

最佳实践

说明若您有合作需求或技术咨询请进钉钉群：63840009561 预处理视频文件以提高文件转写效率 Paraformer语音识别API可以兼容视频文件，但由于视频文件尺寸通常较大、传输较为耗时，因此建议您对视频文件进行预处理。仅提取需要进行语音识别...

在线语音识别服务

新品推荐