A:语音识别的准确率用字/词错误率(Char / Word Error Rate,CER / WER)来衡量,准确率 = 1 - 字错率。目前火山引擎的语音识别,在大部分的场景可以达到 85%~95% 的准确率。
A:您可以标注真实场景的测试音频(最好 > 3h),根据标注结果和识别结果计算 CER / WER;您也可以提供音频给我们,由我们进行标注和测试(将额外收取费用)。
A:流式语音识别是指边说话边识别,而录音文件转写是已有录音文件进行离线转写。前者适用于语音输入、语音搜索、会议字幕等场景;后者适用于电话录音转写、视频字幕生成等。
通常情况下,录音文件转写的效果要优于流式语音识别。
A:可以通过以下两种方案优化指定场景的识别准确率。
如果您的识别结果中存在部分词汇识别效果不好的情况,可考虑通过添加热词,提高该类词语的识别效果。您可以在 控制台-语音技术-自学习平台-热词管理中自主添加、使用、管理热词。详细使用方法可见:自学习平台-热词
若您已添加热词,但仍对识别效果不满意,且有指定场景的大量文本语料(话术、文章、会议纪要、工单等),可以立即咨询我们的销售专家,我们可协助您进行语言模型的优化,提高该场景的识别准确率。
A:目前,火山引擎语音识别提供了娱乐、办公、客服和通用四个场景,您可以根据自己的业务需要,有针对性地选择。如果业务场景是娱乐、办公、客服中的一个,推荐优先接入对应场景;如果通用场景的识别效果已经符合您的预期,可以接入通用场景。
如您有优化需求,一般娱乐、办公、客服场景可以做针对性的优化,但通用场景不会提供定制优化。
如您的接入量级很大,并且有优化需求,也不建议接入通用场景,可联系火山引擎的商务同学沟通方案。
A:支持,说话人识别为可选能力,可根据配置返回说话人信息。
A:如果遇到了识别结果不符合预期的问题,您可以创建工单,选择 [语音技术] - [语音技术相关产品反馈],提供问题音频、接入的具体场景、预期的识别结果,反馈给技术人员优化。
A:如有需求,您可以通过火山引擎官网,进一步商务咨询。