音の位相と同期

 複数のカメラや録音機材を組み合わせて収録をした場合、それぞれの機材に同期信号を入力して記録をすれば各機器の記録の速度は揃い、各収録素材に時間的なズレは発生しません。しかし、同期信号を使わずに各機器に内蔵されたクロックを基準として収録した場合、個々のクロックの精度の差から、記録の速度に微妙な差が生じます。その結果、編集時に素材の開始部分を揃えても、終了部分では微妙な時間的なズレが発生します。
 このズレは、多くの映像機器で1時間あたり0.05秒から0.01秒といった程度と、1フレーム以下の誤差の場合が多いようです。そのため、映像同士や映像と音声を組み合わせる際には、それほど問題にならない誤差です。しかし、このような微妙なズレのある音素材をミックスしようとすると、音声の位相に影響が出ます。ほとんどの場合で大きな問題にならないようですが、原理的には以下のようなことが起きる可能性があります。

音は波

 私たちが耳で聞きとる音は、空気の気圧の差が波となったものです。例えば太鼓を鳴らしたとき、太鼓の皮が前後に振動します。この時、太鼓の皮が手前に張り出すことで太鼓の前の空気は押し出されて僅かに圧縮されます。つまり、気圧が高い状態になります。次に太鼓の皮が奥に引っ込むと、太鼓の前の空気は皮に引っ張られて膨らみます。つまり気圧が低い状態になります。これを繰り返して、気圧の波となって広がって行きます。空気の密度の差という意味で、粗密波と呼びます。

 マイクで収音する場合、振動板という部品が粗密波の力で揺れることで、電気信号に変わります。電気信号になった音は、電圧の波になります。

図 v02_fig_01
耳で聞く音は空気の粗密波、アナログ音声信号では電圧の波で表現できる

音のミックスと位相

 図 v02_fig_02のような同じ形の波形をミックスした場合、それぞれの波が強めあって振幅は大きくなります。つまり音が大きくなります。

図 v02_fig_02
全く同じ形の波形をミックスした場合、それぞれの波が強めあって振幅の大きな波になる

 これに対して、図v02_fig_03のように波のサイクルが反転した波形をミックスした場合、波の強弱が打ち消されて振幅は無くなります。その結果、音は鳴らなくなります。

図 v02_fig_03
サイクルが反転した波形をミックスした場合、それぞれの波が打ち消しあって波の振幅はなくなる

 波のサイクルが反転した状態を「位相が反転した」と表現します。
 この位相の反転は、電気信号としての音の波形だけでなく、実際に私たちが耳にする空気の粗密波にも影響します。例えば、2、3m離れた2つのスピーカーで1kHzの信号音を鳴らしたとき、聴く位置をスピーカーの中央から左右にズラすと、音の大きさが変化します。これは、耳に到達する音の位相の変化が音量に影響しているためです。

同期のズレと位相

 同期信号を使わずに、各機器に内蔵されたクロックの精度頼みで収録をした場合は、各クロックの誤差により記録の速度に微妙な違いが発生します。その結果、片方の収録素材に対してもう片方が次第に長くなる、或いは短くなるといったズレが生じ、片方の音声の波形は僅かに引き伸ばされた、或いは縮んだ形になります。

 v02_fig_04は、上の波形に対して下の波形が1.1倍に伸びています。この時、左側の青い四角の部分では波の形がほぼ揃っていますが、右の青い四角の部分では波の形が上下反転しています。この音声をミックスすると、ミックス前のそれぞれの音声の音量は一定であるにも関わらず、ミックスした音量は増減するということが起こります。
 今どきの映像機器で、1.1倍に伸びるといった大きな誤差が発生することは考えられません。しかし、もっと小さな誤差でも、長い時間の収録では次第に波形がずれて位相が反転するといったことが起こります。

図 v02_fig_04
元の波形に対して1.1倍に伸びた波形は、5周期で位相が反転し、10周期で元に戻る

どのような影響があるか

 2台のカメラで収録した音声がほんの僅かづつズレていった場合、これをミックスすると次第にリバーブ(エコー)がかかったようになり、さらにズレが大きくなるとディレイがかかったようになります。フレームレートが24fpsの場合、1フレーム程度のズレでリバーブがかかったような音になり、それを超えるとディレイがかかったような音になります。
 こういったズレ具合は、音を聞いてみればはっきりと分かります。しかし誤差が1フレーム以下の、はっきりとズレがあるようには聞こえない程度の極く僅かなズレのときでも、音の位相のズレは発生しています。
 実際の撮影で録音された音には、様々な周波数の音が混じり合っています。しかし、ここでは位相のズレによる影響が分かりやすいように、1kHzの波形について考えます。

実際にやってみた

 1kHzの音声が次第にズレていく素材を、オシレータという発振器から信号音を入力した2台のFX30で再現してみました。30分に一度オシレータのスイッチを入れなおして、音声の同期確認ポイントをつくり、ズレ具合を測りました。オシレータのスイッチを入れ直すことで波形のスタートはリセットされますが、2台のFX30には1台のオシレータからの信号音を分配して入力しているので、位相のズレを再現するという点では問題ありません。
 この2台のFX30は「FX30の同期精度」でテストしたように、24fpsのフレームレートで100分の収録をしたとき、およそ0.08フレームほどのズレが発生します。今回も100分の収録を行ったところ、2台のFX30で収録した素材には約0.075フレームのズレが発生しました。

 1kHzの波形の1サイクルは1/1000秒、つまり0.001秒です(v02_fig_05)。
 周波数は1秒間の波の数で表すので、ズレの量もフレーム単位ではなく秒数に換算すると、24fpsのフレームレートで0.075フレームは0.003秒の長さです。収録した音声全体で0.003秒のズレがあった場合、1kHzの波形は3サイクル分ズレるため、3回位相の反転を繰り返します

FCP画面 v02_fig_05
1kHzの信号音の波形1サイクルは0.001秒

 FX30で収録した素材をAppleのビデオ編集アプリFinal Cut Pro(ファイナルカットプロ 以下FCP)に読み込んで、タイムラインに並べます(v02_fig_06)。スタート部分で波形がピッタリと揃うよう、音声を展開して微調整しました。

FCP画面 v02_fig_06
FX30で収録したクリップをFCPのタイムラインに並べる

 2つのクリップを複合クリップにすることで、音声をミックスした波形を見ることができます(v02_fig_07)。

FCP画面 v02_fig_07
2つのクリップを複合クリップにすることで、音声がミックスされた波形がみられる

 先ほど計算したように、音量が3回増減する波形が現れました。増減する間隔が次第に短くなっているように見えるのは、収録速度の変化が次第に大きくなっているためです。恐らくカメラの発熱などの影響を受けて次第に精度が落ちていくためではと思います。
 なお、30分と60分、100分部分にトゲのような波形が見えるのは、オシレータのスイッチを入れ直した際のノイズです。
 ここでは1kHzの音声への影響を試しましたが、半分の周波数の場合は半分の回数の位相のズレが、倍の周波数では倍の回数の位相のズレが起こります

実際のところ

 ここでは、位相の変化による影響が分かりやすいように、オシレータから出力される整った波形を分配して2台のカメラに入力することで、2つの音声素材の波形が全く同じになるように記録しました。実際の撮影では、仮に同じ種類のマイクで同じ音源を狙ったとしても、2台のカメラで録音した音声が全く同じ波形になるということはありません。また、音源からのマイクの位置が違えば、そもそも収録の時点で位相の異なる音を録音することにもなります。そのため、オシレータから出力された音のように、綺麗に音が消えてしまうといったことは起こりにくいと思われます
 私の場合、ここで記載しているような位相のズレという不安があるので、同期信号を使わずに長時間収録した音声をミックスしたことがほとんどなく、ここで試しているような位相の影響による不具合を経験したことがありません。そこで、過去に同期信号を使わずに複数のカメラで長時間撮影をした際のカメラの音声を試しにミックスしてみました。ミックスした結果を数箇所で確認する限り、目立った影響はありませんでした
 恐らくは、位相のズレによる音量の変化は、相当に条件が揃った場合に現れる影響なのだと思います。逆に言えば条件が揃った場合には影響が心配されます。厄介なのは、とても長いスパンで影響が現れる現象なので、ミックス素材の冒頭部分を確認しただけでは影響の有無がわからないことです。長時間の収録など、懸念される要素がある収録では同期信号を使った収録をするのが安心だと思います。

まとめ

 同期信号を使わない、機器に内蔵されたクロックの歩進精度頼みの場合、それぞれの機材の記録速度に微妙なズレが生じます。このズレは、編集時の映像の動きに現れるズレだけでなく、音声にも影響が現れます。誤差が1フレーム程度になるとリバーブ(エコー)がかかったような音声になり、さらに誤差が広がるとディレイがかかったようになります。
 また、1フレーム以下の誤差の場合でも、音声の位相ズレによる影響が起こる可能性があります。これは、よほど条件が揃わなければ現れない現象のようです。また、長い時間の収録で影響が心配される現象なので、収録機材のクロックの精度が高い場合、数分から十数分程度の収録では気にする必要はないと思います。
 例えば私が使用しているSONYのFX30の場合、1時間収録した時の誤差は0.003秒程度です。多くのカメラでこの程度だと思います。また、TCXOという精度の高いクロックを内蔵した機材の場合、1時間の収録で0.0009秒程度と、かなり少ない誤差での収録が期待できます。しかし、機器によっては1時間の収録で0.13秒ほどの誤差が現れるものもあります。同期信号を使わない、機材の内蔵クロックの精度に頼った収録の場合は、事前に同期の精度をテストしておくことも大切です。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です