A:建议录音时,靠近录音设备,控制录音环境的噪音,避免多人同时说话;可以降低语速,避免吞音和变形;尽量避免儿童不清晰的说话声,以及模型不支持的语种和方言。
A: 识别效果问题分为以下几类:
如果您的识别结果中存在部分词汇识别效果不好的情况,可考虑通过添加热词,提高该类词语的识别效果。您可以在 控制台-语音技术-自学习平台-热词管理中自主添加、使用、管理热词。详细使用方法可见:自学习平台-热词
建议您录音时,尽量避免说话和唱歌混合,或噪声明显的情况,尽量使用模型支持的语种或方言。
一般是音频信息不满足字幕识别要求导致的,建议通过 cooledit、Adobe Audition 或者 FFmpeg 等软件,查看音频的详细信息。
目前仅支持单通道、16kHz采样率的录音文件。
建议您将caption_type设置为auto,模型会自动判断音频类别,切分后送到对应的语音/唱歌模型。
单独的说话,建议将caption_type设置为speech,模型将只识别说话部分;
单独的唱歌,建议将caption_type设置为singing,模型将只识别唱歌部分。
识别音频时长需要在1s以上,过短的音频可能会存在漏识别情况。
A: 后处理问题分为以下几类:
建议您通过调整参数words_per_line(每行最长字符)来控制每个分句的最大长度。
"words_per_line" 会受到语言影响,中文默认值是16个字,英文是60个字母。值越小,分句越短;值越大,分句越长。
分句会综合考虑音频的停顿、文本的语义以及说话人转换等信息,同时也受限于每句最长字数的限制,因此存在句中断开的情况。
一般情况下,会根据书面文本中常用的形态进行转换,并不是所有数字都需要转成阿拉伯数字。如果仍出现“应转未转”的问题,您可以通过创建工单,选择 [语音技术] - [语音技术相关产品反馈],将问题和对应音频反馈给我们优化。
A:支持中文普通话、英语、粤语方言。如果有其他语种或方言需求,您可以通过创建工单,选择 [语音技术] - [语音技术相关产品反馈],与我们联系。
A:可以,支持识别中英文混合的音频。
A:支持16000 Hz的采样率。其他格式文件会被转换至16000 Hz,再进行语音识别。需注意,使用其他采样率或格式,可能会出现转换问题。
A:建议您通过调整参数adjust_endtime(每句的尾字延迟参数)来控制字幕展示的时长。
"adjust_endtime" 的取值范围是0~500ms,语音字幕默认值是 300ms, 歌词字幕 500ms。值越小,字幕持续时间越短;值越大,字幕持续时间越长。