声音频率的科学原理详解

作者 Leo Chen · 2026-04-27 · 10 分钟阅读

什么是声音频率？

在 WhiteNoise.top 开发音频工具的工作中，我每天都在与声音频率打交道，也逐渐体会到底层物理学的优雅之处。声音频率是每秒钟发生的完整压力振荡周期的数量，以赫兹（Hz）为单位。一个以 440 Hz 振动的音叉每秒钟产生 440 个完整的压缩和稀疏周期，产生中央 C 上方的 A 音。这种振动频率与感知音高之间的简单关系是声学中最基本的概念之一。

声音本身是一种机械波，需要介质（如空气、水或固体）来传播。当声源振动时，它会产生交替的高压区域（压缩）和低压区域（稀疏），从声源向外传播。这些振荡的频率决定了我们感知的音高，而它们的幅度决定了响度。在室温下的空气中，这些压力波以大约每秒 343 米的速度传播，这个值被称为声速。

人类能听到的频率范围大致从低端的 20 Hz 到高端的 20,000 Hz，但这个范围在个体之间差异很大，并随年龄增长而缩窄。在我的听力测试中，我发现大多数 30 岁以上的成年人在 15,000 Hz 以上的纯音上有听力困难，到 60 岁时，上限通常下降到约 12,000 Hz。这种与年龄相关的听力损失称为老年性耳聋，不成比例地影响高频，因为耳蜗中检测这些频率的毛细胞最容易受到累积损伤。

波长及其与频率的关系

频率和波长通过声速呈反比关系。声波的波长是两个连续同相位点之间的物理距离，例如两个相邻的压缩区。公式很简单：波长等于声速除以频率。在空气中 343 米/秒的条件下，20 Hz 的声音波长约为 17.15 米，而 20,000 Hz 的声音波长仅为 1.7 厘米。

在我设计声学环境和测试音频设备的经验中，波长有着深远的实际影响。低频声音波长长，容易绕过障碍物发生衍射，且难以吸收或控制。这就是为什么邻居低音炮的低音能如此有效地穿过墙壁，也是为什么录音室中的低频陷阱需要体积很大才能有效。高频声音波长短，容易被软材料吸收和被薄隔板阻隔，这就是为什么关上门能有效衰减高音但几乎不影响低音。

在设计噪音生成器时，我在房间声学的背景下考虑波长。当房间的尺寸与特定频率的波长相当时，该频率会在房间中产生驻波模式，造成建设性和破坏性干涉的位置。这些被称为房间模态，它们会导致低频的剧烈电平变化。一个 70 Hz 的音调，波长约 4.9 米，在房间中某一位置的响度可能比仅两米之外的另一位置高 20 分贝。理解波长与房间尺寸之间的这种相互作用，对于任何从事声音工作的人来说都是至关重要的。

振幅、声强与响度感知

频率决定音高，而振幅决定声音有多大。振幅是指压力波从静止状态的最大偏移量，它与波携带的能量直接相关。声强以瓦特每平方米为单位测量，与振幅的平方成正比。振幅翻倍，声强增加四倍。

人类听觉在极其宽广的声强范围内运作。健康的年轻人在 1 kHz 处能检测到的最安静的声音——听阈——其声强约为每平方米一万亿分之一瓦特。痛阈大约发生在每平方米一瓦特，高出一万亿倍。为了管理这个巨大的范围，声学家使用分贝标度，将声强比压缩为更易管理的对数范围，从 0 到约 130 dB SPL。

在我的测量中，我观察到响度感知在不同频率上并不均匀。人耳在 2,000 到 5,000 Hz 范围内最敏感，这对应于耳道的谐振频率。40 dB SPL 的 1 kHz 纯音听起来明显比相同电平的 100 Hz 纯音更响。这种频率相关的敏感度由等响曲线所描述，最初由 Fletcher 和 Munson 在 1930 年代测量，后来由 Robinson 和 Dadson 改进。当我校准我们的噪音生成器时，我考虑了这些曲线，以确保即使用户调整频谱形状，感知响度仍然保持一致。

谐波、泛音和音色

由单一频率组成的纯音在自然界中很少见。大多数真实世界的声音是由基频加上一系列谐波组成的复合波形，谐波是基频的整数倍。一根以 220 Hz 振动的吉他弦会在 440 Hz、660 Hz、880 Hz 等频率上产生谐波。这些谐波的相对振幅赋予了每种乐器其特有的音色，这就是为什么钢琴和小提琴演奏同一个音符时声音截然不同。

在为我们平台分析自然声音录音时，我使用频谱图来可视化不同声源的谐波内容。频谱图将频率绘制在纵轴上，时间在横轴上，声强以颜色或亮度表示。鸟鸣和引擎嗡嗡声等音调性声音在基频和谐波频率处显示出清晰的水平线。流水声和风声等宽带声音则显示能量在宽频率范围内的连续分布，没有明显的谐波结构。

噪音信号就其本质而言缺乏谐波结构。白噪音在所有频率上都有能量，具有随机的相位关系，因此没有周期性，也没有基本音高。这正是噪音对遮蔽有用的原因：因为它不包含音调模式，听觉系统不会像抓住语音或音乐那样去抓住它。它停留在感知背景中，提高了检测其他声音的阈值，同时不会要求自身的注意力。

人耳如何处理频率

人类听觉系统通过耳蜗——内耳中充满液体的螺旋结构——进行了一种了不起的实时频率分析。声音进入耳道，振动鼓膜，并通过三块微小的骨头——锤骨、砧骨和镫骨——传递到耳蜗的卵圆窗。在耳蜗内部，基底膜响应传入的声音而振动。沿着膜的不同位置对不同频率作出响应：耳蜗靠近卵圆窗的基部响应高频，而顶端响应低频。

这种频率位置映射意味着耳蜗本质上对传入声音进行连续的频谱分析。沿基底膜的每个位置激发特定的毛细胞，将机械振动转换为通过听觉神经发送到大脑的电信号。然后大脑将这些信号解释为音高、响度、音色和空间位置。

在我的噪音生成器工作中，我发现思考耳蜗的频率分辨率很有用，这由临界频带的概念来描述。临界频带是耳朵在其中整合声能的频率范围。在低频处，临界频带绝对带宽较窄，在 500 Hz 以下约 100 Hz 宽。在较高频率处，它们变宽，在 10 kHz 处达到约 2,500 Hz 宽。这种可变分辨率是耳朵以对数方式感知音高的原因：从 100 Hz 到 200 Hz 的频率变化听起来与从 1,000 Hz 到 2,000 Hz 的变化是相同的音程，尽管绝对差异大了十倍。

音频工程中的频率应用

音频工程师不断与频率打交道，无论他们是在设计扬声器、混音音乐，还是像我们一样构建噪音生成器。20 Hz 到 20 kHz 的标准可听范围为了方便被划分为常规的子频带：次低音（20 到 60 Hz）、低音（60 到 250 Hz）、低中频（250 到 500 Hz）、中频（500 Hz 到 2 kHz）、高中频（2 到 4 kHz）、临场感（4 到 6 kHz）和空气感（6 到 20 kHz）。每个频带对声音的整体特征贡献不同。

在调整我们的噪音配置时，我特别关注 2 到 4 kHz 范围，因为这是耳朵最敏感的区域，也是语音辅音携带大部分信息的地方。该范围内能量的微小变化对感知的亮度和可懂度有不成比例的影响。当我为降低语音感知而整形遮蔽噪音时，我确保该区域有足够的能量来干扰携带含义的辅音频率。

奈奎斯特-香农采样定理控制着数字音频中频率的捕获方式。要准确表示一个信号，采样率必须至少是信号中最高频率的两倍。标准 CD 品质音频使用 44,100 Hz 的采样率，允许忠实再现高达 22,050 Hz 的频率。我们的噪音生成器默认以此采样率运行，但当用户需要扩展带宽用于超声波测试或过采样处理链等专业应用时，可以配置更高的采样率。

理解频率不仅仅是学术知识；它是所有音频工具构建的实践基础。每一个均衡器、滤波器、压缩器和噪音生成器都是通过操纵信号的频率内容来工作的。在我的开发工作中，扎实的频率理论知识影响着每一个设计决策，从滤波器拓扑结构的选择到频谱分析显示的分辨率。它是声音的语言，精通它对于任何从事音频工程的人来说都是必不可少的。

参考资料

常见问题

人类听力的频率范围是多少赫兹？

通常引用的范围是 20 Hz 到 20,000 Hz，但这在个体之间有所不同。随着年龄的增长，大多数成年人对 15,000 Hz 以上频率的敏感度会降低，且范围会随时间继续缩窄。

为什么低频声音更容易穿过墙壁？

低频声音的波长长，与典型墙体厚度相当甚至更大。长波长容易绕过障碍物发生衍射，且不能被薄隔板有效吸收，使得低音能穿过阻挡高频的结构。

频率和音高有什么区别？

频率是声波的物理属性，以赫兹为单位。音高是人类听觉系统对频率的主观感知。它们密切相关但不完全相同，因为音高感知受响度、音色和上下文的影响。

为什么耳朵以对数方式感知音高？

耳蜗的基底膜沿其长度以对数方式映射频率，因此等距的物理距离对应等倍频程间隔。这种对数映射意味着感知的音高间隔对应频率比，而非绝对频率差。

捕获完整可听范围需要多高的采样率？

根据奈奎斯特-香农定理，采样率必须至少是目标最高频率的两倍。44,100 Hz 的采样率可以捕获高达 22,050 Hz 的频率，舒适地覆盖了完整的可听范围。

Leo Chen

Leo Chen 是一位工具开发者和音频爱好者，专注于打造实用的在线声音与效率工具。