语音交互-语音交互文档介绍内容-阿里云

SDK和API概览

阿里云智能语音交互SDK提供RESTful API、移动端、服务端、微信小程序以及WebSocket等多种接入方式，可帮助您更加方便、快捷、灵活地将语音识别或语音合成功能集成到您的服务当中。SDK接入类型接入方式服务能力 RESTful API RESTful API ...

产品优势

本文为您介绍智能语音交互的产品核心优势。语音识别识别准确率高基于SAN-M自研的“识音石”通用端到端语音识别框架，中文识别准确率可达业内最高水平；在输入法、客服、会议等领域，文字识别错误率相比上一代系统下降10%～30%，大幅提高...

运行示例

智能语音交互的AccessKey ID、AccessKey Secret和AppKey的环境变量名：ALIYUN_AK_ID、ALIYUN_AK_SECRET、NLS_APP_KEY。安装Python3以及Python SDK。请先安装 Python3。执行如下命令，使用PIP安装（推荐）Aliyun-python-sdk-core，安装版本...

通过控制台获取Token

前提条件已开通智能语音交互服务。具体操作，请参见步骤3：开通服务。操作步骤登录智能语音交互控制台。在总览页面，单击点击获取临时AccessToken。单击复制，即可获取AccessToken。重要此Token仅供测试使用，24小时后失效。长期...

SDK FAQ

如果未生成TaskId，说明请求未成功到达智能语音交互的服务端，一般为本地环境问题。建议您优先排查本地网络和环境，将线上Demo和本地对比检查。Java SDK通过传入阿里云账号的AccessKey ID和AccessKey Secret，调用阿里云Java SDK得到client...

功能发布记录

本文介绍智能语音交互产品功能的最新动态和相关文档。2023年04月~2024年01月功能分类功能名称功能描述更新类型文档链接语音识别字幕上屏录音文件识别、录音文件识别极速版、录音文件识别闲时版支持字幕上屏场景。新增接口说明 ...

在控制台创建热词

通过智能语音交互控制台中的添加热词功能，开发者可以上传自定义的热词列表，提升在其识别准确率。本文为您介绍如何在控制台创建热词。背景信息热词包括名称类和业务类，具体说明如下：名称类（人名/地名）目前名称类热词只支持人名和...

并发与监控FAQ

智能语音交互产品中的并发，是指系统同时处理的请求数。以实时语音转写为例，每当发起一个请求后（比如调用start接口），即为建立一个WebSocket链接，在请求结束之前（比如调用stop或close接口），该请求一直占用一个并发。如果您的并发...

功能特性

本文为您介绍智能语音交互的各项功能及其对应场景、支持的语音格式和调用方式。功能服务参数表服务时效性功能适用场景支持的语音格式支持调用方式免费调用量购买一句话识别实时识别一分钟内的短语音。App语音搜索、语音电话客服...

通过控制台界面定制

个性化人声定制超过10个 60元/个购买入口：登录阿里云智能语音交互控制台，在左侧导航栏，选择个性化人声定制>定制声音，单击立即购买。表 2.使用音色使用阶段使用方式使用服务标准价格备注新开通智能语音交互3个月所有方式 ...

获取Token概述

访问令牌（Access Token）主要用于身份验证和授权，在调用阿里云智能语音交互API时，客户端应用或服务器端程序需要先获取一个有效的Token作为凭证，以此来证明请求的合法性，并获得对智能语音服务的访问权限。本文介绍Token的获取方式和...

使用录音文件识别时如何设置OSS内网地址

您在使用智能语音交互产品中的录音文件识别服务时，在提交录音文件识别任务的同时，您还需要提供一个音频文件下载地址。如果您使用了阿里云OSS服务作为音频文件下载服务，可以使用内网域名以避免产生流量费用。本文为您介绍如何设置OSS内网...

地域和域名

本文为您介绍智能语音交互产品的地域和域名信息。背景信息为进一步降低华北和华南用户的网络接入时延，智能语音交互产品在当前华东2（上海）地域的基础上新增华北2（北京）和华南1（深圳）地域。对时延敏感的业务，建议选择最近的地域...

语音识别问题排查

出现“吞音、辨识度不高、听不懂”等情况无法解决时：如果存在方言和重口音，可能由于ASR的训练数据覆盖不全造成识别错误，请联系阿里智能语音交互工程师进一步评估。如果有大量的重口音（非方言）识别需求，请联系阿里智能语音交互工程师...

对接操作审计

智能语音交互已经对接阿里云操作审计产品，实现对控制台的操作审计。开通操作审计服务使用阿里云账号登录操作审计控制台。RAM用户登录需要进行相应的授权。操作审计支持免开通，任何已完成实名认证且未欠费的有效阿里云账号皆可使用。...

开通授权

登录智能语音交互控制台。单击左侧导航栏服务开通与购买，切换到设备端解决方案页签，选择要购买的商业版SDK，单击右侧购买预付费资源包。在购买页面，再次选择商业版SDK 规格类型，并设置规格数量，确认费用后，单击右下角立即购买...

界面化的TTS下载工具

前提条件已开通智能语音交互服务，请参见开通服务。已创建项目，请参见创建项目。使用限制目前此功能只针对标准版TTS声音。操作步骤重要该合成能力调用的是语音合成服务，100字符以内（含100字符）每试听或下载一次，均算作一次服务...

上传语音文件

本文为您介绍如何在控制台导入智能语音交互放音文件。登录智能联络中心控制台。在左侧导航栏，选择智能交互>语音文件管理，单击导入语音文件。根据页面提示，选择语音文件相关信息。单击确认导入。

自动化测试

创建自动化测试任务登录智能语音交互控制台。在左侧导航栏单击自动化测试，在自动化测试页面单击创建任务。在创建任务面板中，填写任务名称，注意不能与现有的任务名称重复。选择或者上传测试集。目前支持上传标注测试集、仅上传...

智能语音合成服务及服务改进计划协议

阿里云不会故意识别、提取、搜集或单独储存业务数据中可能包含的个人信息，亦不会将您业务数据中可能包含的个人信息和阿里云掌握的其他数据进行关联或融合，阿里云仅会将可能包含个人信息的业务数据用于智能语音交互服务改进、优化用途。...

错误码查询

本文主要介绍智能语音交互的错误码和解决办法。您可以优先在本文档查询错误码，获取对应解决方案。什么是智能语音交互的错误码？您在使用SDK或者调用API接口过程中，如果本地或者服务端返回结果报错，则表示操作失败。您可以通过返回结果中...

WebSocket协议说明

如果您不希望引入阿里云智能语音交互产品SDK，或者目前提供的Java、C或C++的SDK不能满足您的要求，可以基于本文描述自行开发代码访问阿里语音服务。功能介绍阿里云智能语音交互产品通过WebSocket协议对外提供实时语音流语音转写功能，支持...

语音合成FAQ

语音合成（TTS）是概率模型，目前业界能做到的读音正确率在96%~98%之间，阿里云智能语音交互产品在通用场景下测试准确率在97%左右。这意味着不是所有读音错误都能被修复掉，建议您可以通过换字或使用SSML功能。语音合成的发音读错怎么办？...

定制语言模型

前提条件已开通智能语音交互服务，详情请参见开通服务。训练语料说明调用限制该功能免费开放给所有开通智能语音交互免费版和商用版的用户。训练数据为领域相关的文本，与待识别语音数据越接近，优化效果越好。以文本方式保存，使用 UTF...

概述

阿里云智能语音交互对某些场景（包括通用、教育、司法、医疗等）进行了大量语音识别训练，提供了高准确率场景模型。当您的语音识别需求超出预设模型范畴，或是希望对现有的标准模型进行个性化定制时，可以通过自学习平台的语言模型定制功能...

Java SDK

本文介绍如何使用智能语音交互流式文本语音合成的Java SDK，包括SDK的安装方法及SDK代码示例等。前提条件在使用SDK之前，请先阅读接口说明。下载安装从Maven服务器下载最新版本的SDK nls-sdk-java-demo+flowingtts+3.zip。...

服务升级与购买

登录智能语音交互控制台。在服务管理与开通页面，单击服务列表操作列下的升级为商用版。在变配页面，修改各服务配置信息。使用预付费资源包以实时语音识别为例，为您介绍购买和查询资源包用量的方法。重要资源包是在后付费账单...

语音识别FAQ

智能语音交互的一句话识别，标点符号是根据什么来判断逗号和句号的？离线文件转写如何区分左右声道？语音识别可以支持多个词表吗？设置录音文件识别服务的版本，"4.0"和"2.0"两个版本有什么区别？在电话端支持哪些国家的语音识别？在语音...

语音识别输入格式FAQ

本文主要介绍智能语音交互的语音识别输入格式说明，以及输入语音格式不符合要求时常见问题以及方法，您可以优先在文本档获取对应解决方案。语音识别各服务支持的语音输入格式语音识别服务语音输入格式说明一句话识别支持的输入格式：...

iOS SDK

本文介绍了如何使用阿里云离线语音合成服务提供的iOS NUI SDK，包括下载安装SDK和语音包、SDK关键接口及代码示例。前提条件阅读接口说明，详情请参见接口说明。已获取项目Appkey，详情请参见创建项目。已获取AccessKey ID和 AccessKey ...

后续呼入回调

本文为您介绍智能语音交互呼入回调HTTP接口后续呼入的请求参数和返回参数。请求示例 http://127.0.0.1/test?call_id=100001616500^10000187*×tamp=1504174341229&content_type=normal&content={"role":"B","identity":"id2","words":...

通过SDK获取Token

背景信息通过SDK获取Token方式说明通过智能语音交互SDK获取Token 适用于通过智能语音交互SDK直接获取Token的场景，建议您集成此SDK。通过阿里云公共SDK获取Token 适用于当前智能语音交互暂未提供对应语言SDK获取Token的场景。前提条件 ...

离线语音合成使用问题

智能语音交互的AccessKey ID、AccessKey Secret和AppKey的环境变量名：NLS_AK_ENV、NLS_SK_ENV、NLS_APPKEY_ENV*/root["ak_id"]=getenv("NLS_AK_ENV");ak_id也就是阿里云账号的AccessKey ID，和ak_secret对应，请注意不要设置成阿里云主...

Python Demo

已开通智能语音交互并获取AccessKey ID和AccessKey Secret，详情请参见从这里开始。SDK说明录音文件识别的Python示例使用了阿里云Python SDK的CommonRequest提交录音文件识别请求和查询识别结果，采用RPC风格的POP API调用方式。关于使用...

智能语音交互的AccessKey ID、AccessKey Secret和AppKey的环境变量名：ALIYUN_AK_ID、ALIYUN_AK_SECRET、NLS_APP_KEY。import java.io.File;import java.io.FileOutputStream;import java.io.IOException;import java.nio.ByteBuffer;...

C++ SDK

本文介绍如何使用阿里云智能语音交互提供的C++ SDK，包括SDK的安装方法、SDK代码示例以及常见问题等。SDK下载说明当前最新版本：3.1.17，支持Linux、Windows及Android平台。发布日期：2023年08月09日。使用SDK前，请先阅读接口说明，详情...

Java SDK

智能语音交互的AccessKey ID、AccessKey Secret和AppKey的环境变量名：ALIYUN_AK_ID、ALIYUN_AK_SECRET、NLS_APP_KEY。import java.io.File;import java.io.FileInputStream;import java.io.IOException;import ...

C++ SDK

本文介绍如何使用阿里云智能语音交互提供的C++ SDK，包括SDK的安装方法、SDK代码示例以及常见问题等。SDK下载说明当前最新版本：3.1.17，支持Linux、Windows及Android平台。发布日期：2023年08月09日。使用SDK前，请先阅读接口说明，详情...

Java Demo

已开通智能语音交互并获取AccessKey ID和AccessKey Secret，详情请参见从这里开始。SDK说明录音文件识别的Java示例使用了阿里云Java SDK的CommonRequest提交录音文件识别请求和识别结果查询，采用的是RPC风格的POP API调用。阿里云Java ...

Python Demo

已开通智能语音交互并获取AccessKey ID和AccessKey Secret，详情请参见从这里开始。SDK说明录音文件识别的Python示例使用了阿里云Python SDK的CommonRequest提交录音文件识别请求和查询识别结果，采用RPC风格的POP API调用方式。关于使用...

语音交互

新品推荐