自然音と合成ノイズの比較
バックグラウンドサウンドへの2つのアプローチ
WhiteNoise.top を構築する中で、録音された自然サウンドスケープとアルゴリズムで生成された合成ノイズの両方を実装してきましたが、この2つのアプローチ間のエンジニアリングのトレードオフは、ほとんどの人が考えるよりも繊細です。表面的には、選択はシンプルに見えます:自然音は「リアル」で合成ノイズは「人工的」です。しかし、スペクトル内容、ファイル管理、ループ動作、ユーザーエクスペリエンスを深く掘り下げると、はるかに興味深い全体像が見えてきます。
雨、海の波、鳥のさえずり、風、川の流れなどの録音された自然音は、自然環境でマイクを使用してキャプチャされます。録音は編集され、時にはレイヤー化され、ユーザーのデバイスが再生するオーディオファイルとして配信されます。対照的に、合成ノイズはアルゴリズムを使用してリアルタイムで数学的に生成されます。オーディオファイルは存在せず、サウンドはデジタルフィルターで形成された乱数から作成されます。これについてはノイズジェネレーターの仕組みに関する記事で説明しました。
両方のアプローチには正当な長所と短所があり、私の経験では、ユーザーが好みとユースケースに基づいて選択できるよう、最良のオーディオツールは両方のオプションを提供しています。この記事では、オーディオ品質と実用的な展開の両方に重要ないくつかの観点から2つのアプローチを比較します。
スペクトル内容と音響特性
自然音と合成ノイズの最も根本的な違いは、そのスペクトル内容にあります。ホワイト、ピンク、ブラウンのいずれであっても、合成ノイズは正確に定義されたスペクトル形状を持っています。ホワイトノイズはフラットなパワースペクトル密度を持ちます。ピンクノイズは1オクターブあたり正確にマイナス3デシベルでロールオフします。これらの形状は数学的に決定され、完全に再現可能です。私の測定では、理論的な理想値からのジェネレーターのスペクトル偏差は、可聴範囲全体で0.5 dB未満です。
一方、自然音はシンプルな特性付けに抵抗する複雑で時間変動するスペクトルプロファイルを持っています。例えば、雨は水滴が表面に衝突することによる広帯域エネルギーを持っていますが、スペクトルは水滴のサイズ、表面材料、降雨強度によって変化します。高品質の雨の録音のスペクトル分析では、エネルギーが500 Hzから8 kHzの間に集中し、しぶき成分による約2〜4 kHzの広いピークがあり、200 Hz以下のエネルギーは比較的少ないことがわかりました。スペクトルは雨の強度の変動に伴って瞬間ごとに変化します。
海の波はさらに複雑な状況を示します。波が海岸で砕ける衝撃は、サブベースの轟きから高周波のシュッという音まで広帯域エネルギーのバーストを生み出し、続いて砂の上を水が流れる定常的なヒス音が続きます。私の分析では、スペクトルの重心(スペクトルの質量中心)が各波のサイクル中に劇的に変化し、衝撃段階では500 Hz以下から、後退段階では3 kHz以上へと移動します。このダイナミックな変動が海の音を魅力的にする要素の一つですが、合成ノイズの定常的な性質とは根本的に異なるものです。
マスキングの観点から、録音されたサウンドの非定常的な性質は利点にも欠点にもなり得ます。変動はリスナーの興味を維持し、より自然に感じられますが、マスキング効果が時間とともに変動することも意味します。波の間の静かな部分や雨の小やみの間は、マスキングレベルが低下し、不要な音が聞こえるようになる可能性があります。合成ノイズは常に一定で予測可能なマスキングレベルを維持します。
ループアーティファクトとシームレスな再生
録音された自然音における最も困難なエンジニアリング問題の一つは、シームレスなループの作成です。自然の録音は有限の長さ、通常30秒から数分であり、連続再生のために繰り返す必要があります。ループポイントが聞こえると、リスナーは自然環境の錯覚を壊すリズミカルな繰り返しを聞くことになります。制作作業では、ループアーティファクトを最小限に抑えるためのいくつかのテクニックを開発しましたが、どれも完璧ではありません。
最もシンプルなアプローチはクロスフェードループで、フェードカーブを使用して録音の終わりを始まりとブレンドします。通常、3〜5秒のレイズドコサインクロスフェードを使用しますが、これは雨のような連続的なサウンドではうまく機能しますが、ブレンドされている2つのセグメントに明確な特徴がある場合、例えば大きな雷鳴がフェードアウトとフェードインの両方に同時に現れる場合、聞こえるダブリングアーティファクトが発生する可能性があります。
より洗練されたアプローチは、長い録音(5〜10分以上)を使用し、より長いウィンドウにわたってクロスフェードを適用することです。これにより繰り返し率が低下するため、ループポイントがわずかに目立つとしても、リスナーがそれに遭遇する頻度が煩わしくなるほどではありません。ただし、長い録音はファイルサイズが大きくなり、それ自体のトレードオフが伴います。
海の波のような周期的な要素を持つ録音では、ループポイントを波のサイクルに同期させます。波形を分析して録音の始まりと終わり付近で波のサイクルの開始を見つけ、これらの一致する位相ポイントでトリミングとクロスフェードを行います。これにより、急なジャンプなしに波の自然なリズムを保持するループが生成されます。テストでは、このテクニックは効果的ですが時間がかかり、各録音に対して手動の調整が必要です。
合成ノイズはループの問題を完全に排除します。各サンプルがランダムプロセスから独立して生成されるため、信号は繰り返しません(PRNGの周期内で、128ビットの状態マシンでは天文学的に長い)。ループポイントも、クロスフェードも、リスナーが繰り返しを検出するリスクもありません。これは、録音されたサウンドスケープに対する合成ノイズの最も説得力のある実用的な利点の一つです。
ファイルサイズ、帯域幅、配信
録音された自然音はオーディオファイルとして保存し、ユーザーのデバイスに配信する必要があります。ファイルサイズは録音の長さ、サンプルレート、ビット深度、圧縮形式に依存します。44.1 kHz、16ビットの非圧縮WAV形式での2分間のステレオ録音は約21メガバイトです。圧縮形式ではこれが大幅に削減されます:同じ録音が高品質MP3(256 kbps)で約3.8メガバイト、96 kbpsのOpusで約1.4メガバイトです。
当社のようなWebベースのプラットフォームでは、ファイルサイズはロード時間とデータ使用量に直接影響します。それぞれ2分間の20種類の自然音録音を提供する場合、MP3形式での合計ライブラリサイズは約76メガバイトです。モバイルデータ接続のユーザーは、特にお気に入りに落ち着く前にいくつかのオプションを試すだけの場合、これが過剰に感じるかもしれません。実装では、プログレッシブロードを使用しています:各録音の最初の15秒がすぐにロードされ、残りはユーザーがリスニング中にバックグラウンドでストリーミングされます。
合成ノイズはオーディオファイルをまったく必要としません。PRNG、スペクトル成形フィルター、オーディオワークレットコードを含むジェネレーター全体は、通常10キロバイト未満の JavaScript です。これにより、ユーザーの接続速度に関係なく、ノイズはほぼ即座に再生を開始し、データ使用量は無視できるほどです。帯域幅が限られている地域や高額なモバイルデータのユーザーにとって、この利点は大きいです。
ただし、録音されたサウンドは最初のダウンロード後にローカルにキャッシュでき、以降の再生も同様に高速になります。そして、よく録音された自然サウンドスケープの豊かさと複雑さを合成的に再現することは困難です。私の経験では、最良のアプローチは、合成ノイズを即座に使える軽量なデフォルトとして提供し、録音されたサウンドスケープをユーザーが便利なときにダウンロードしてキャッシュできるオプションの拡張として提供することです。
一貫性と制御性
合成ノイズは、録音されたサウンドでは実現できない一貫性と制御性を提供します。ピンクノイズジェネレーターを特定のスペクトル形状でマイナス12 dBFSに設定すると、すべてのデバイスで毎回まったく同じ出力が得られることを知っています。スペクトル、振幅分布、統計的特性は決定論的で再現可能です。この予測可能性は、音響測定、機器テスト、サウンドマスキングシステムのキャリブレーションなどのアプリケーションに不可欠です。
録音された自然音は本質的に可変です。単一の録音でさえ、レベル、スペクトル、時間パターンの自然な変動を含みます。同じ音源の異なる録音、例えば2つの異なる場所での雨は、水滴のサイズ、表面材料、マイクの配置、環境条件の違いにより、かなり異なるサウンドになる可能性があります。この可変性はカジュアルリスニングには魅力的ですが、一貫した予測可能な音響動作を必要とするアプリケーションには問題があります。
制御性も合成ノイズが優れているもう一つの分野です。ユーザーは合成ノイズのスペクトル形状、振幅、さらには統計的分布をリアルタイムで調整できます。もっと低音が欲しい?スペクトルの傾きを調整します。よりソフトな特性が欲しい?ホワイトからピンクやブラウンに切り替えます。これらの調整は即座に有効になり、精密に微調整できます。録音されたサウンドでは、ユーザーの制御は音量、既存の録音のイコライゼーション、有限の録音ライブラリからの選択に限定されます。サウンドの特性を変更するには、別の録音を選択する必要があります。
開発作業では、合成ノイズの制御性と録音されたサウンドの自然な特性を組み合わせたハイブリッドモードを構築しました。一つのアプローチは、自然の録音から抽出したエンベロープを使用して合成ノイズの振幅を変調することです。結果は雨や波のように聞こえますが、合成ノイズのスペクトル一貫性とシームレスなループを備えています。もう一つのアプローチは、静かな自然の録音とより大きな合成ノイズのバックグラウンドをレイヤー化し、録音でテクスチャーと興味を加えながら合成ノイズで一貫したマスキングを提供することです。これらのハイブリッドアプローチは、両方の長所を求めるユーザーに好評です。
自然音と合成ノイズの選び方
両方のタイプのオーディオコンテンツを数年にわたって構築しテストしてきた後、それらの間の選択に関するいくつかの実践的なガイドラインを開発しました。音響測定、キャリブレーション、スペクトル精度が重要なアプリケーションには、合成ノイズが明確な選択です。予測可能で、制御可能で、ストレージスペースを必要としません。
カジュアルなバックグラウンドリスニングには、選択は個人の好みに依存します。自然音のオーガニックな特性と落ち着いた環境との関連性から、より魅力的で快適に感じるユーザーもいます。合成ノイズのニュートラルで一貫したブランケットが、それ自体に注意を引かないため好まれるユーザーもいます。プラットフォームで実施したユーザー調査では、一般的な使用では自然音が約60対40の割合で好まれていますが、主な目標を作業環境での気が散る音のマスキングと述べるユーザーの間では、合成ノイズが約30対70の割合で逆転します。
オフィスや図書館のような専門的な設定でのサウンドマスキングには、一貫性が信頼できるパフォーマンスを保証するため、音響コンサルタントはほぼ常に合成ノイズを好みます。自然音を使用するマスキングシステムは、静かな部分でマスキングが低下し、音響プライバシーが損なわれる瞬間があります。
ヘッドフォンを通じた個人的なリスニングには、両方のオプションを試して、自分にとって最も良いサウンドに基づいて選択することをお勧めします。当社のプラットフォームでは合成ノイズと録音されたサウンドスケープの切り替えが簡単で、多くのユーザーが両方の要素を組み合わせたカスタムミックスを作成しています。この記事で説明した技術的なトレードオフは現実のものですが、最終的に最良のバックグラウンドサウンドは、あなたの特定の環境とニーズに合ったものです。
参考文献
よくある質問
サウンドマスキングには自然音の録音が合成ノイズよりも優れていますか?
必ずしもそうではありません。合成ノイズは一定で予測可能なマスキングレベルを提供しますが、自然の録音には静かな部分でマスキング効果が低下する自然な音量変動があります。信頼性の高いマスキングには、一般的に合成ノイズが好まれます。
自然音の録音をシームレスにループさせるにはどうすればいいですか?
最も一般的なテクニックは、ループポイントでのクロスフェードで、録音の終わりを始まりと数秒にわたってブレンドします。海の波のような周期的なサウンドでは、ループポイントを波のサイクルに同期させるとより良い結果が得られます。
自然音ファイルにはどのくらいのストレージが必要ですか?
CD品質でMP3形式の2分間のステレオ録音は約3.8メガバイトです。20の録音のライブラリは約76メガバイトになります。合成ノイズはオーディオファイルを必要とせず、わずか数キロバイトのジェネレーターコードのみです。
合成ノイズを雨や海の波のように聞こえさせることができますか?
合成ノイズは自然音の平均スペクトルに近似するようにスペクトル成形できますが、実際の録音のダイナミックな変化、過渡的なイベント、オーガニックな特性は欠けています。自然のエンベロープで合成ノイズを変調するハイブリッドアプローチが中間的な選択肢を提供します。
モバイルデバイスでどちらのオプションがバッテリーを消費しますか?
どちらも再生中は同程度のCPUリソースを使用します。ただし、合成ノイズは初期のデータダウンロードを回避するため、セルラーラジオのエネルギーを節約します。長時間使用では、2つのアプローチ間のバッテリー消費の違いはわずかです。