先介绍一些关于响度的概念。声音三要素包含:响度(loudness)、音高(pitch)、音色(timbre)。响度是主观的心理量。对人类听觉来说,愈高的声压或声强,会造成愈大的听觉感知。而在人类的可听频率范围(20 Hz 到 20 000 Hz)中,由于听觉对 3 000 Hz 左右的声音较为敏感,该段频率也能造成较大的听觉感知。
首先对声音频率和听觉感知进行量化研究的,是美国的物理学家哈维·弗莱彻。1933年,他和蒙森以纯音作实验,找出不同频率和声压的组合,使得声音能造成相同的听觉感知。他们将结果画成曲线,称为弗莱彻-蒙森曲线(Fletcher–Munson curves)。1956年,又出现另一个版本,称为罗宾逊-达森曲线(Robinson–Dadson curves )。 2003年,在更加国际化的调查研究基础之上,国际标准化组织发布了作为国际标准的ISO 226:2003,称为等响曲线(equal-loudness curves)。
等响曲线的横坐标为频率,纵坐标为声压级。在同一条曲线之上,所有频率和声压的组合,都有着一样的响度。最下方的曲线表示人类能听到的最小的声音响度,即听阈。等响曲线反映了响度听觉的许多特点:
声压级愈高,响度一般也愈高。
响度频率有关,相同声压级的纯音,频率不同,响度也不同。
对于不同频率的纯音,提高声压级带来的响度增长,也有所不同。
本算法使用的标准是: EBU R.128
支持格式 | |
---|---|
采样率 | 16000/44100/48000 |
通道数 | 1ch/2ch(单声道/双声道均会检测) |
数据格式 | Planar-Float |
支持流式 | 支持 |
处理结果 | EBU R.128 标准 LUFS |