语音信号的基频,通常用 F0 表示。F0 检测算法是很多音频玩法的基础,比如 k 歌打分,修音等,
指的是浊语音信号的(准)周期结构的近似频率。
基频定义为每秒平均振荡次数,以 hz 表示。
通常基本频率大致在 80 到 450 Hz 的范围内,男性的声音低于女性和儿童。单个说话者的 F0 主要取决于声带的长度,而声带的长度又与整体的体型相关。
基频与音高密切相关 ,在音乐中用 midi number 来表示音高,与基频的关系 f0 的关系为
国际标准音 440 Hz 的 midi number 定为 69 ,可以看出,基频每增加一倍,midi number 增加 12 半音(semitone),关于音高和基频的转换可以参考:https://newt.phys.unsw.edu.au/jw/notes.html
一个八度(octave)等分 12 份,一份就是一个半音;每一个半音 100 等分,每一分就是音分。
然后每升高(或降低)一个八度,midi number 增(或减)12。
本算法获取的结果为基频的值,如果需要使用音高,需要再外部转换。
--- | 支持格式 |
---|---|
采样率 | 16000/44100/48000 |
通道数 | 1ch/2ch(检测只使用首个声道的数据) |
数据格式 | Planar-Float |
支持流式 | 支持 |
处理结果 | 基频的频率 |