INTERSPEECH 2022论文解读|Paraformer: 高识别率、高计算效率的单轮非自回归端到端语音识别模型

INTERSPEECH 2022论文解读|Paraformer: 高识别率、高计算效率的单轮非自回归端到端语音识别模型

INTERSPEECH 是由国际语音通讯协会(International Speech Communication Association, ISCA)创办的语音信号处理领域顶级旗舰国际会议。历届 INTERSPEECH 会议都备受全球各地语音语言领域人士的广泛关注。本文介绍一种具有高识别率与计算效...

INTERSPEECH 2022论文解读|Paraformer: 高识别率、高计算效率的单轮非自回归端到端语音识别模型

INTERSPEECH 2022论文解读|Paraformer: 高识别率、高计算效率的单轮非自回归端到端语音识别模型

针对 Transoformer 模型自回归生成文字的低计算效率的缺陷,学术界提出了非自回归模型来并行地输出目标文字(如图1所示)。根据生成目标文字时的迭代轮数,非自回归模型分为:多轮迭代式与单轮非自回归模型。迭代式非自回归模型,主要为 Mask-Predict 模式[2],训练时,将输...

达摩院智能语音交互 - 人机对话技术浅析

4 课时 |
100 人已学 |
免费

达摩院智能语音交互 - 声纹识别技术

4 课时 |
2764 人已学 |
免费

阿里巴巴智能语音交互技术与应用

7 课时 |
7096 人已学 |
免费
开发者课程背景图

INTERSPEECH 2017系列 | 语音识别技术之声学模型

编者:今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥尔摩顺利召开,众多的高校研究机构和著名的公司纷纷在本次会议上介绍了各自最新的技术、系统和相关产品,而阿里巴巴集团作为钻石赞助商也派出了强大的阵容前往现场。从10月25日开始,阿里iDST语音团队和云栖社区将共同打造一系列语音技术分享...

[帮助文档] 如何在控制台创建语音识别模型

语音识别模型是对智能交互通话中的音频流做实时识别,达到“边说边出文字”的效果,为您提供最优质的离线/流式语音转文字服务。本文为您介绍如何在控制台创建语音识别模型。

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

相关电子书
更多
复杂声学环境下的语音交互:技术与实践
AI赋能的语音交互解决方案 Link Voice
阿里云总监课第二期——Latency Controlled-BLSTM模型在语音识别中的应用
立即下载 立即下载 立即下载