エンジニアさん、MIX師さんへ渡すときの音源の形式について、ちょっと踏み込んだお話です。
TL;DR 48 kHz または 96 kHz / 24-bit で録音、サンプリングレートはそのままでビット深度を 32-bit float にして書き出ししてください。
デジタルとは?
《声-マイク-プリアンプ》までが『アナログ領域』、ADC(アナログ-デジタル変換器)以降が『デジタル領域』となります。
PCで音声を扱うためにはアナログのままではいけませんので、ADCでPCM形式のデジタルデータに変換し処理を行います。
ADC(analog to digital converter)とは、アナログ信号をデジタル信号に変換する回路のことで、オーディオインターフェイスには必ず搭載されています。
DAC/ADCチップの有名なメーカーは旭化成エレクトロニクス(AKM)、ESS、Burr-Brownなどがあり、例えばRMEのBabyface Pro FSには『AK5574』というADCチップが搭載されています。
このADCチップに求められる性能は、アナログ信号を「正確にデジタルへとサンプリングすること」です。
ここの性能が悪ければ、S/N比が悪化する、周波数特性が変わる、全高調波歪が増えてしまうこととなり、音質劣化へと繋がります。
細かいことを話すと、A/D変換の質はADCチップだけで決まるものではなく、その他の設計や電源、ジッターの少ないクロックが大事となりますがこの話はまたあとで…。
つまり、オーディオインターフェイスはかなり大事ということ。
アナログ領域では「プリアンプ」も重要となりますがそれもまた今度…。
そしてデジタル信号に変換する際、サンプリングレートとビット深度を考えなければなりません。
サンプリングレートについて
まずサンプリングレートは 44.1 kHz や 96 kHz というアレです。
サンプリングレートはそこまで難しくなく、これの半分の周波数まで音を収録できると覚えておけばよいです。
つまり 44.1 kHz は 約 22 kHz まで再現できます。詳しくは『ナイキスト周波数』で調べてください。
注意点として、サンプリングレートを(後処理で)むやみに下げてはいけません。
ナイキスト周波数を超える信号成分は、エイリアシングによって「折り返し雑音(ノイズ)」が生まれます。
これを回避するために、サンプリングレート変換時には『iZotope RX 8』などの適切な「SRC(サンプリングレートコンバーター)」を使い処理する必要があります。
補足:録音時はA/D変換の前段でローパスフィルターを通るため特に気にする必要はありません。
色々書いておいてなんですが、この辺はエンジニアの仕事なので細かく理解する必要はないでしょう。
基本的には、録音したサンプリングレートのまま書き出しをすることだけ覚えておけば大丈夫です。
ちなみに、むやみに高いサンプリングレートを使えばよいというものではなく、「192 kHz で録音すると 48 kHz より音が悪くなる」という話もあります。(インターフェイスのクロック精度によるものだと思われます)
録音対象がボーカルであれば僕は 48 kHz での録音を推奨しています。
声に含まれている周波数は 20 kHz 以下に収まる上、そもそも人は 20 kHz 以上は聞こえないので 48 kHz で録音すれば十分と考えます。
続いては「ビット深度」について
サンプリングレートは 48 kHz でいいというのはご理解いただけたと思います。
ビット深度とはなんぞや?と。ビット深度は 16-bit とか 24-bit とかのアレです。
ビット深度はダイナミックレンジに関わってきます。ビット深度が高ければダイナミックレンジを広く録音することができます。低いとノイズフロアが上がり、S/N比が悪くなる、つまりダイナミックレンジが狭くなります。
Steinbergの一部の製品では 32-bit(floatではありません。)で録音することができるようですが、熱雑音等を考えると 24-bit で十分でしょう。16-bit では量子化ノイズの方が大きくなりますので 24-bit を推奨します。
歌い手の方は 48 kHz / 24-bit で録音してください。
そしてビット深度には 「32-bit float」 というちょっと特殊っぽい形式が存在します。
「フロート?なにそれおいしいの?」
と思われるかもしれません。(古いネタ)
「float」とは「浮動小数点数」のことでコンピューターの数値表現の一種です。
通常の 16-bit や 24-bit では、エフェクトをかけたり音量を 0.001dB でも操作すれば誤差によりノイズが発生します。フェードをかけても同じことです。
これを「量子化ノイズ」といいます。
DAWの内部処理は 32-bit float または 64-bit double で行われるため、最終的に書き出すまでは量子化ノイズは気にせずとも問題ありません。
以下 Wikipedia からの引用になりますが、読まなくていいです
32bit-floatの場合には156[dB]、64bit-floatの場合には331[dB]もの広いダイナミックレンジを確保できる。 この広いダイナミックレンジで計算を行うことで、整数型のデータに変換して信号を出力する際に内部計算において累積した誤差を切り捨てることにより、出力データの精度の範囲内においては内部計算の誤差が現れないように処理を行うことが可能となる。
浮動小数点数 – Wikipedia
製品に収録する音声信号フォーマットに直す直前まで波形がクリップせず音声加工処理を行えるメリットが有るため、2000年代以降はDTMやDAWにおいては全ての処理工程で浮動小数点数を用いている。
簡単にいえば、32-bit float なら音量を変えて書き出しても元に戻ります。
24-bit で録音しカット以外そのまま手を加えず 24-bit で書き出せば問題はありません。
ですがクロスフェードをかけたり、なにも音量操作をしないとしても、マスターフェーダー含め全く音量操作せず書き出せるか、うっかりも考えると難しいかもしれません。
そのため、僕は 32-bit float での書き出しを推奨しています。
ちなみにですが、 MP3 などの非可逆圧縮方式ではビット深度の概念はありません。エンコーダーにもよりますが、内部的にはおそらく 32-bit float での処理が行われています。
で、結局どうすればいいの?
結論ですが、サンプリングレートは 48 kHz または 96 kHz、ビット深度は 24-bit で録音、WAV形式でサンプリングレートはそのまま、ビット深度を 32-bit float にして書き出しをしてください。※32-bit integer(整数)ではありません。
難しければ MP3 でもなんでも適当に書き出しして送ってもらえればこちらでなんとかしますが、一度劣化した音質は元には戻せませんので、なるべく説明した通り書き出ししていただいた方がよいです。
特に MP3 や AAC は分かりづらいように情報を削って容量を小さくしている(これを非可逆圧縮といいます)ため、これで加工・編集を行うと音質の劣化がかなり目立ちます。
本来こういったことはエンジニアが理解していればよいものなのですが、歌ってみた界隈ではほとんどの人が自宅かつ自分で録音していることと思いますので、ある程度歌い手さん自身が理解している必要があります。
今回はデジタル側の話でしたが、マイクと口の距離、録音環境(部屋の反響等)、アナログ側でも気をつけるべき点はまだまだあります。
この辺は自分の好きな音源と、録ってみた音を聴き比べて何が違うか、どう音が悪いのか考えてみてください。 エンジニアもミックスするとき「リファレンス」を用意して聞き比べたりします。
補足:以下、noteに反響のことや「録り方」についての記事を書きました。 自宅環境での録音(宅録)で問題になる反響の種類・その対処法 【いい音で録るには?第二弾】マイクなどの機材からマイキング、ゲイン設定、録音まで
最後に
ところどころ偉そうに語ってしまいましたが、僕も完全に理解しているとは言い難いです。最低限困らないよう勉強はしたつもりですが、ADCがどうやってデジタルに変換しているかは全然わかりません。ΔΣ変調がどうとからしいですが…
最後に僕が勉強するにあたって非常に参考にさせていただいたサイト様・書籍を紹介しておきます。
サンプル・レートについて – Studio Gyokimae
David Shimamotoさんという方のウェブページ・資料集なのですが、デジタル機器を使った音楽制作について、内部の挙動や考え方をまとめてくださっています。それもとてもわかりやすく丁寧に…。
32-bit Float セッション、音源の理解は非常に難しい。 – NK Productions
こちらはNarukiさんというエンジニアの方のWebサイトで、こちらも参考にさせていただきました。
そして日本のサイトで解説されている内容は間違っているものも多く、特にビット深度について正確に書かれている記事は僕が調べた限りほとんどありませんでした。
難しいことは理解しなくても大丈夫ですが、エンジニアさん、MIX師さんへ音源を送る際、ちゃんとしたフォーマットで録音、お渡しすると喜ばれるかもしれませんので、是非少しでもお考えいただけたらと思います。
僕への歌ってみたのミックス依頼についてはトップページをご覧ください。