声道能干啥-声道能干啥文档介绍内容-阿里云

直播推流移动端播放没有声音而PC端正常

以Sound Studio为例，将sound.wav打开，观察声音波形（其中上波形为左声道，下波形为右声道），仔细查看可以得到左声道的波峰刚好对应右声道波谷。再次将左右声道叠加，合成为单声道（模拟手机端外放）。波形如下所示，可以看到声音已经...

语音识别输入格式FAQ

语音识别各服务支持的语音输入格式语音识别服务语音输入格式说明一句话识别支持的输入格式：PCM编码（无压缩的PCM或WAV文件）、WAV、OPUS、AMR格式单声道（mono）音频文件，16 bit采样位数。音频采样率：8000 Hz、16000 Hz。时长限制：...

音频转码

发送MNS消息转码后音频信息音频格式：opus 音频配置：采样率为48kHz，声道为双声道音频码率：96 Kbps 文件存储路径 opus文件：oss:/outbucket/outobject.opus 处理示例/对文件example.wav进行音频转码。POST/exmaple.wav?x-oss-async-...

TargetAudio

说明不同格式支持的声道数有所不同，mp3 仅支持单、双声道；ac3 最大支持 6 声道（5.1）；amr 仅支持单声道。2 FilterAudio object 音频处理参数，参数 TranscodeAudio 为空时或 TranscodeAudio.Codec为 copy 时，本参数无效。说明 API 为...

基本概念

重要除录音文件识别以外的服务只支持单声道（mono）音频数据，如果您的数据是双声道或其他，需要先转换为单声道。逆文本规整（inverse text normalization）语音转换为文本时使用标准化的格式展示数字、金额、日期和地址等对象，以符合...

音频拼接

说明不同格式支持的声道数有所不同，mp3仅支持单、双声道；ac3最大支持6声道（5.1）；amr仅支持单声道。aq int 否音频压缩质量。取值范围：0~100。说明该参数与 ab 互斥，若都不设置则按照编码器默认码率进行编码。ab int 否音频比特率...

IAliEngineMediaEngine

参数说明名称类型描述 audioNumChannel AliEngineAudioNumChannelType 声道数，默认单声道。SetSubscribeAudioSampleRate：设置输出音频采样率（混音前数据不支持该参数设置）。void SetSubscribeAudioSampleRate...

回调及监听

samplesPerSec int 每一个声道每秒的采样点数。onCaptureData：本地推流音频数据。public void onCaptureData(long dataPtr,int numSamples,int bytesPerSample,int numChannels,int sampleRate,int samplesPerSec);参数类型描述 dataPtr...

语音识别问题排查

ASR识别标准格式：8KHz或16KHz采样率、16bit采样位数、单声道的语音数据（录音文件识别服务可支持双声道语音数据识别）。检查管控台项目中使用的模型是否支持音频采样率和场景。播放声音进行试听，重点关注如下两点：是否存在噪音。若存在...

AudioStream

名称类型描述示例值 object 音频流信息。Index long 音频流索引号。1 Language string 音频流中使用的语言，格式为 BCP 47 en CodecName string 编码器名称。aac CodecLongName string 编码...2 ChannelLayout string 声道排布形式。stereo

视频拼接

说明不同格式支持的声道数有所不同，mp3仅支持单、双声道；ac3最大支持6声道（5.1）；amr仅支持单声道。aq int 否音频压缩质量。取值范围：0~100。说明该参数与 ab 互斥，若都不设置则按照编码器默认码率进行编码。ab int 否音频比特率...

数据类型

通过阅读本文，您可以了解...枚举名描述 DingRtcEngineBasicQualityMode（默认）标准音质模式，默认16000Hz采样率，单声道，最大编码码率24kbps。DingRtcEngineHighQualityMode 高音质模式，默认48000Hz采样率，单声道，最大编码码率64kbps。...

查询导播台场景音频配置

ValidChannel String all 声道类型。取值：left：左声道。right：右声道。all（默认值）：双声道。示例请求示例 http(s):/live.aliyuncs.com/?Action=DescribeCasterSceneAudio &CasterId=97df6b7f-3490-47d2-ac50-88338765*&SceneId=97df...

功能特性

音视频文件服务参数表服务模式文件类型音频采样率文件格式大小限制声道/路语种支持热词语种离线说话人区分转写延迟识别结果返回方式调用SDK 源文件传输方案实时记录实时音频流 8k PCM、OPUS、WAV 24小时三路中中文不...

更新场景音频配置

AudioLayer.N.ValidChannel String 否 all 确定哪些声道可以作为音量输入。取值：leftChannel：左声道。rightChannel：右声道。all（默认值）：双声道。AudioLayer.N.Filter String 否 {"enableAgc":0,"enableAns":1 } 3A美音算法开关。该...

创建转码模板

声道数在下拉列表中选择声道数，支持保持原音频声道数，默认声道数2。音量归一开启后，经过模板处理的文件音量趋于一致，避免不同文件音量过大过小的现象。仅支持输出一路音频流时设置，多音频流不支持。单击提交，完成转码模板创建。...

数据类型

pub_audio_channels 音频声道数，取值：1：单声道。2：双声道。pub_video_codec 视频编码格式，目前只支持H264。视频不支持B帧。rts_event_handler_t：推流事件回调接口配置。typedef struct { void(*on_key_frame_req)(void*user_data);...

添加导播台布局

AudioLayer.N.ValidChannel String 否 all 确定哪些声道可以作为音量输入。取值：leftChannel：左声道。rightChannel：右声道。all（默认值）：双声道。AudioLayer.N.FixedDelayDuration Integer 否 5000 对音频进行固定延迟设置，可用于...

如何创建单画面布局

AudioLayer：指定音频音量、声道等配置信息，元素顺序与 MixList 顺序保持一致。单画面布局参数样例布局参数取值说明请参见添加导播台布局。名称示例值描述 Action AddCasterLayout 操作接口名称 CasterId LIVEPRODUCER_POST-...

修改导播台布局

AudioLayer.N.ValidChannel String 否 all 确定哪些声道可以作为音量输入。取值：leftChannel：左声道。rightChannel：右声道。all（默认值）：双声道。AudioLayer.N.FixedDelayDuration Integer 否 5000 该字段对音频进行固定延迟设置，可...

如何创建单画面布局

AudioLayer：指定音频音量、声道等配置信息，元素顺序与 MixList 顺序保持一致。单画面布局参数样例布局参数取值说明请参见添加导播台布局。名称示例值描述 Action AddCasterLayout 操作接口名称 CasterId LIVEPRODUCER_POST-...

UpdateLiveTranscodeTemplate-更新实时媒体转码模版

44100 Channels string 否音频声道数。取值 1：单声道。2：双声道。2 Profile string 否音频编码预置。当 Codec 为 AAC 时，取值：aac_low aac_he aac_he_v2 aac_ld aac_low 返回参数名称类型描述示例值 object Schema of Response ...

基础使用类

其中实时记录8K仅支持单声道识别，16K最多可支持三个声道的识别。通义听悟是否支持翻译？通义听悟的实时记录功能支持实时翻译，中、英、日、韩语间的双向实时互译；识别语音为中英自由说，可实时翻译为中文、英文、中文+英文。

概述

目前 SDK 主要包括以下三个方面：在音频方面，支持输入和输出都为 16k 采样率的单声道 PCM，同时也支持 48k 双声道的输入和输出。在视频方面，支持输入和输出 I420P YUV 格式的数据。在某些硬编平台，考虑到性能，支持 H264-NALU 输入和...

接口说明

支持设置返回结果：支持设置是否将中文数字转为阿拉伯数字输出，支持对多声道音频只处理首个声道。支持控制台配置项目热词、定制语言模型。目前支持的语种和方言模型如下：语种语言模型名称采样率标点 ITN 顺滑语义断句声音和文本...

功能发布记录（2.0）

V1.17.42@2021-03-23 支持播放和渲染双声道音频。V1.17.41@2021-02-26 新增角色鉴权功能，用户可在入会前设置角色是否具备推流权限。新增刷新令牌功能，可通过该接口修改入会鉴权中设置的角色身份。优化音频采集失败后重启逻辑。V1.17.40@...

计费说明

多声道计费模式：8k处理双声道，按单声道计费，即音频时长进行计费。16k处理多声道，按多声道计费，即声道数×音频时长进行计费。例如有左右2个声道，则为 2×时长进行计费。附加产品计费明细超额并发线路租赁费商品规格收费说明 ...

剪辑合成参数说明

如果设置为left，则输出视频的左右声道均会被复制为输入素材的左声道。如果设置为right，则输出视频的左右声道均会被复制为输入素材的右声道。AutoRegisterInputVodMedia Boolean 否是否需要将您时间线中的VOD媒资自动注册至IMS，默认为...

CreateLiveTranscodeTemplate-创建实时媒体转码模版

44100 Channels string 否音频声道数。取值 1：单声道。2：双声道。2 Profile string 否音频编码预置。当 Codec 为 AAC 时，取值：aac_low aac_he aac_he_v2 aac_ld aaclow 返回参数名称类型描述示例值 object Schema of Response ...

Windows

说明目前仅支持输入音频PCM数据，数据编码为Signed 16-bit，输入播放音频的声道数与采样率，可以在推流过程中动态变更，下一步骤2中，投递接口 pushExternalAudioRenderRawData 中可指定当次音频数据的采样率和声道数。应用侧持续调用 ...

数据结构

numChannels int 声道数量，取值：1：单声道。2：双声道。sampleRate int 每个声道的采样率。samplesPerSec int 每声道每秒的采样点数，即采样率。AliRtcVideoSample 视频样本。参数类型描述 dataFrameY long Y分量指针。dataFrameU long...

事件变更内容（2.x版本）

RecordingReady 公共字段话务公共字段文件名称(fileName)下载地址链接(downloadURL)技能组(skillGroupId)可选 RecordingReady 同上文本流 TextStream 公共字段话务公共字段技能组(skillGroupId)声道ID(channelId)声道类型(channelType...

查询导播台布局列表

ValidChannel String all 确定哪些声道可以作为音量输入。取值：leftChannel：左声道。rightChannel：右声道。all（默认值）：双声道。FixedDelayDuration Integer 20 该字段对视频进行固定延迟设置，可用于字幕同步。单位为毫秒（ms）。...

如何创建自定义布局

确定每个音频的音量倍数、输入声道。自定义画中画布局参数样例布局参数取值说明请参见添加导播台布局。名称示例值描述 Action AddCasterLayout 操作接口名称。CasterId LIVEPRODUCER_POST-cn-v0h1557*导播台ID。BlendList.1 RV01 下层...

发布日志

V1.17.42@2021-03-23 支持播放和渲染双声道音频。V1.17.41@2021-02-26 新增角色鉴权功能，用户可在入会前设置角色是否具备推流权限。新增刷新令牌功能，可通过该接口修改入会鉴权中设置的角色身份。优化音频采集失败后重启逻辑。V1.17.40@...

如何创建自定义布局

确定每个音频的音量倍数、输入声道。自定义画中画布局参数样例布局参数取值说明请参见添加导播台布局。名称示例值描述 Action AddCasterLayout 操作接口名称。CasterId LIVEPRODUCER_POST-cn-v0h1557*导播台ID。BlendList.1 RV01 下层...

接口说明

录音文件识别是针对已经录制完成的录音文件，进行离线识别的服务。...使用限制支持单轨和双轨的WAV、MP3、MP4、M4A、WMA、AAC、OGG、AMR、FLAC格式录音文件识别。音频文件大小不超过512 MB，视频文件大小不超过2 GB。需要识别的录音文件必须...

数据类型

channels int 声道数：1：单声道，2：双声道。samples int 采样点数（每个声道）。buffer void*音频帧数据缓冲区，该缓冲区大小为：buffer_size=samples×channels×bytesPerSample。timestamp long long 音频时间戳。...

接口说明

录音文件识别闲时版是针对已经录制完成的录音文件，进行离线识别的服务。...与录音文件识别区别在于返回时间不同，闲时版为24小时内返回结果。使用限制支持单轨和双轨的WAV、MP3、MP4、M4A、WMA、AAC、OGG、AMR和FLAC格式录音文件识别。...

数据类型

numChannels int 声道数量，取值：1：单声道。2：双声道。sampleRate int 每个声道的采样率。samplesPerSec int 每声道每秒的采样点数，即采样率。AliRtcVideoSample：视频样本。参数类型描述 dataFrameY long Y分量指针。dataFrameU ...

声道能干啥

新品推荐