You need to enable JavaScript to run this app.
导航
模型效果FAQ
最近更新时间:2022.11.10 16:49:07首次发布时间:2022.04.29 10:32:39

Q:如果人耳听不清音频,模型识别效果也不符合预期,该如何优化?

A:建议录音时,靠近录音设备,控制录音环境的噪音,避免多人同时说话;可以降低语速,避免吞音和变形;尽量避免儿童不清晰的说话声,以及模型不支持的语种和方言。

Q:如果人耳可以听清音频,但出现识别字准问题,该如何优化?

A: 识别效果问题分为以下几类:

  • 部分词汇识别不准

    如果您的识别结果中存在部分词汇识别效果不好的情况,可考虑通过添加热词,提高该类词语的识别效果。您可以在 控制台-语音技术-自学习平台-热词管理中自主添加、使用、管理热词。详细使用方法可见:自学习平台-热词

  • 丢字问题

    建议您录音时,尽量避免说话和唱歌混合,或噪声明显的情况,尽量使用模型支持的语种或方言。

  • 识别结果与听到的内容相差很大

    一般是音频信息不满足字幕识别要求导致的,建议通过 cooledit、Adobe Audition 或者 FFmpeg 等软件,查看音频的详细信息。
    目前仅支持单通道、16kHz采样率的录音文件。

  • 说话和唱歌混合时,识别效果不好

    建议您将caption_type设置为auto,模型会自动判断音频类别,切分后送到对应的语音/唱歌模型。
    单独的说话,建议将caption_type设置为speech,模型将只识别说话部分;
    单独的唱歌,建议将caption_type设置为singing,模型将只识别唱歌部分。

  • 很短的音频片段,没有识别结果

    识别音频时长需要在1s以上,过短的音频可能会存在漏识别情况。

Q:如果识别字准符合预期,但后处理效果不符合,该如何优化?

A: 后处理问题分为以下几类:

  • 分句过长、过碎

    建议您通过调整参数words_per_line(每行最长字符)来控制每个分句的最大长度。
      "words_per_line" 会受到语言影响,中文默认值是16个字,英文是60个字母。值越小,分句越短;值越大,分句越长。

  • 有的分句会在句中断开

    分句会综合考虑音频的停顿、文本的语义以及说话人转换等信息,同时也受限于每句最长字数的限制,因此存在句中断开的情况。

  • 开启ITN后,有些中文未转成阿拉伯数字

    一般情况下,会根据书面文本中常用的形态进行转换,并不是所有数字都需要转成阿拉伯数字。如果仍出现“应转未转”的问题,您可以通过创建工单,选择 [语音技术] - [语音技术相关产品反馈],将问题和对应音频反馈给我们优化。

Q:支持的语种和方言有哪些?

A:支持中文普通话、英语、粤语方言。如果有其他语种或方言需求,您可以通过创建工单,选择 [语音技术] - [语音技术相关产品反馈],与我们联系。

Q:中文模型能识别少量英文单词或字母吗?

A:可以,支持识别中英文混合的音频。

Q:音视频字幕服务支持哪些采样率?

A:支持16000 Hz的采样率。其他格式文件会被转换至16000 Hz,再进行语音识别。需注意,使用其他采样率或格式,可能会出现转换问题。

Q:字幕时间提前结束了怎么办?

A:建议您通过调整参数adjust_endtime(每句的尾字延迟参数)来控制字幕展示的时长。
"adjust_endtime" 的取值范围是0~500ms,语音字幕默认值是 300ms, 歌词字幕 500ms。值越小,字幕持续时间越短;值越大,字幕持续时间越长。