2026年5月22日
曲からボーカルを抽出する方法:手順・方法・期待できる結果
MacまたはiPhoneで曲からボーカルを抽出するための完全ガイド。AIを使った方法、ステップバイステップのワークフロー、品質向上のヒント、よくある質問を網羅。
このガイドでは、曲からボーカルを抽出するあらゆる実践的な方法を解説します。ファイルのプライバシーを守るMacネイティブのアプローチについては特に詳しく説明します。読み終える頃には、どの方法が自分の状況に合っているか、何のステップを踏めばよいか、出力品質に影響する要素は何か、そして取得したステムで実際に何ができるかがわかるようになります。
曲からボーカルを抽出する3つの方法
デバイス上で動作するAIアプリ
2026年のMacユーザーにとって、これが最善の選択肢です。デバイス上で動作するAIアプリは、自分のマシン上で完全に実行される、学習済みの音源分離モデルを使用します。ファイルがMacの外に出ることはなく、アカウントも不要で、最新の Apple Silicon チップにはこのような計算処理に特化した専用ハードウェアが搭載されているため、処理も高速です。
デバイス上のAIによる出力品質は、有料プランのクラウドツールの多くと同等か、それ以上です。ボーカルトラックと伴奏トラックの2つのステムが得られます。品質は録音によって異なりますが、現代の市販音楽では、サンプリング、リミックス、練習、カラオケに実際に使えるクオリティの結果が得られます。
Mac と iPhone のこのカテゴリにおけるメインアプリは SongSplit AI です。買い切りで、オフラインで動作し、macOS が再生できるすべての DRM フリーの音声フォーマットに対応しています。
クラウドベースのWebツール
素早い結果が必要で、機密性の高い素材を扱っていないのであれば、Webツールは便利です。最もよく使われているのは vocalremover.org、LALAL.AI、AudioStrip です。ファイルをアップロードすると、サービスのサーバーが処理を行い、分離されたステムをダウンロードできます。
トレードオフは確かに存在します。音声ファイルが他者のサーバーに送られます。無料プランにはファイルサイズと時間の制限があります。処理速度はサーバーの負荷に依存します。また、フル品質はサブスクリプションの後ろに隠れていることがよくあります。未発表の音楽、クライアントのセッション、または第三者に共有したくない素材を扱っている場合、クラウドツールは適切な選択肢ではありません。
とはいえ、コンセプトを試してみようと Spotify からダウンロードした曲を一度だけ処理するような場合、Webツールを使えば何もインストールせずに目的を達成できます。
Audacity での位相相殺
Audacity には位相相殺を使用する「Vocal Reduction and Isolation」エフェクトが内蔵されています。これは、一部のステレオ録音ではリードボーカルが正確にセンターにパンされている、つまり左チャンネルと右チャンネルに同一の形で存在するという考えに基づいています。片チャンネルを反転させてもう一方と混合すると、センターにパンされた音声要素がキャンセルされます。
この手法には実際の限界があります。ボーカルが厳密にセンターにパンされている場合にのみ機能しますが、それは一部の旧い録音には当てはまっても、現代の音楽では一般的ではありません。うまくいく場合でも、結果は空洞感があり不自然に聞こえます。ボーカルと周波数域を共有する楽器も減衰してしまい、薄くコムフィルターがかかった音になります。位相相殺については知っておく価値はありますが、ほとんどのMacユーザーはAIベースのツールから明らかに優れた結果を得られます。興味があれば、Audacity は無料でエフェクトを試すのに30秒もかかりません。
なぜデバイス上のAIがMacでより優れた結果を出すのか
2020年末以降に製造されたすべてのMacには Apple Neural Engine が搭載されています。これは Face ID、コンピュータフォトグラフィー、Siri 音声認識を担うのと同じ専用プロセッサーです。音源分離モデルはこのハードウェアに適しています。Neural Engine は低消費電力で効率よく行列演算を実行するため、ファンを回すことなく高速に処理が完了します。
クラウドツールに対する品質上の優位性は、処理中に起こらないことから来ています。Webツールにファイルをアップロードする際、ネットワーク越しに圧縮またはトランスコードされた音声を送信しています。相手側のAIは到着したものを処理します。デバイス上では、モデルは中間エンコードを挟まず、元のファイルを直接処理します。高ビットレートのソースファイルでは、その差が聞き取れます。
ネットワーク遅延もありません。M3 Mac での4分の曲は、選択した品質モードにもよりますが、おおよそ30秒から60秒で処理されます。サーバー負荷の高いクラウドツールでは、キューに並ぶだけでそれ以上の時間がかかることもあります。
SongSplit AI を使って Mac でボーカルを抽出する方法
システム要件: macOS 14 Sonoma 以降を搭載した Apple Silicon Mac(M1 以降)。iPhone および iPad では iOS 17 以降、A12 チップ以降が必要です。これは iPhone XS 以降のすべての iPhone と現行のすべての iPad が対象です。
ダウンロード:Mac と iPhone 向け App Store、または App Store を経由しない場合は Mac 向け直接ダウンロードもご利用いただけます。
ステップ 1:DRM フリーの音声ファイルを用意する
DRM フリーとは、ファイルがコピープロテクションで暗号化されていないことを意味します。iTunes、Bandcamp、Amazon Music で購入した MP3、WAV、FLAC、AIFF、M4A ファイルは DRM フリーです。CD リップも DRM フリーです。これらはすべて使用できます。
Spotify と Apple Music のストリーミングファイルは DRM で保護されています。SongSplit を含むいかなるツールも処理できない方式で暗号化されています。ストリーミングサービスのトラックで作業したい場合は、その特定の曲の DRM フリーのコピーを購入する必要があります。
ステップ 2:ファイルをインポートする
ファイルを SongSplit のウィンドウにドラッグするか、「ファイル」>「開く」を使用します。波形はすぐに読み込まれます。どこにもアップロードされていないため、インターネット接続速度に左右される待ち時間はありません。
ステップ 3:品質モードを選択する
SongSplit には2つのモードがあります。高速モードはクイックプレビューに便利で、分離のうまくいく曲を見つけるために複数のトラックを試聴する場合に役立ちます。高品質モードはより丁寧な処理を行い、特に複雑なアレンジでも明らかにクリーンな分離結果を生み出します。DAW で使用したり、何らかの形でリリースしたりする予定のものには、高品質モードを使用してください。
ステップ 4:分離を実行する
「分離」ボタンをクリックします。Apple Neural Engine がデバイス上で計算を処理します。M シリーズの Mac では、一般的な3〜4分の曲が高速モードで1分以内、高品質モードで1〜2分で処理されます。処理中に波形がボーカルトラックと伴奏トラックに分かれていくのが見えます。
ステップ 5:結果をプレビューする
書き出す前に、ボーカルステムと伴奏ステムを切り替えてトラックを最後まで聴きます。ボーカルのリバーブのテール、重なったハーモニーがあるサビのセクション、そしてむき出しの楽器パッセージに注意を払ってください。ここで、ステムが目的に使えないほど大きな音漏れがあるかどうかがわかります。
ステップ 6:書き出す
ボーカルトラック、伴奏トラック、またはその両方を保存します。ファイルは M4A として書き出され、Logic Pro、GarageBand、Ableton Live、Pro Tools、Final Cut Pro、その他の標準音声を受け付けるあらゆるソフトウェアと互換性があります。後の工程で別のフォーマットが必要な場合は、それらのアプリから WAV や MP3 に変換することもできます。
分離品質に影響するもの
AIモデルは、混合された2つの信号を解きほぐすために最善を尽くしています。録音によって、その難易度は異なります。出力品質に実際に影響する要素を紹介します。
ソースファイルの品質。 ロスレスまたは高ビットレートのファイルを渡すと、AIはより多くの情報を使えます。128 kbps の MP3 はロスレス圧縮によってすでに大量の音声データが削除されています。普通に聴いている分には大きな差は感じないかもしれませんが、モデルは感じます。FLAC または 256 kbps 以上の MP3 が利用できるのであれば、それを使用してください。
録音された年代。 1990年頃以降の市販のポップ・ロック録音は分離がうまくいきます。1980年代半ば以前の録音はアナログサミングを使って信号を混合していることが多く、それを逆算するのが難しいです。クラシックソウルや古いジャズを扱っている場合、より多くの音漏れを覚悟してください。
ミックス内でのボーカルの位置。 ミックスの中で明確に前に出ていて、周波数スペクトラムに余裕があるリードボーカルは、モデルに最もクリーンな信号を提供します。埋もれているか、同じ周波数帯域の他の楽器と競合しているボーカルは、より不明瞭な結果になります。
ボーカルのリバーブとディレイ。 長いリバーブのテールは、出力のアーティファクトの最も一般的な原因です。モデルは、減衰するリバーブの残響がボーカルステムに属するのか伴奏ステムに属するのかを判断しなければならず、常に正確ではありません。ドライな録音は最もクリーンに分離されます。強いリバーブのかかったボーカルは、一部の残響が伴奏に漏れ込みます。
バッキングハーモニー。 ソロのリードボーカルは簡単です。密な背景ボーカルのスタックは難しく、モデルは複数のレイヤーを「ボーカル」ステムに帰属させながら、楽器をクリーンに保たなければなりません。厚いハーモニーの曲では、伴奏トラックにバッキングボーカルの断片が現れることがあります。
ジャンルのパターン。 過去30年間のポップ、ロック、R&B、ヒップホップは、ほとんどの場合うまく分離されます。ボーカリストとサックスやピアノが全く同じ周波数帯域を占有する可能性のある密なジャズの録音は、本当に難しいです。ミックス内でサンプルがどのように処理されているかによって、ヘビーにピッチシフトまたはチョップされたボーカルサンプルを含むヒップホップはどちらに転ぶか場合によります。
抽出したボーカルでできること
カラオケ。 クリーンな分離からの伴奏ステムは、カラオケのバッキングトラックとしてすぐに使えます。スマートフォンからBluetooth スピーカーで再生したり、テレビにキャストしたり、GarageBand にインポートしてループやキーチェンジに使ったりできます。カラオケのワークフローについての詳細なガイドは、カラオケトラックの作り方をご覧ください。
ボーカル練習。 シンガーは伴奏ステムを使って、元のアーティストのボーカルを邪魔にせず、実際のプロダクションに合わせて練習します。MIDI モックアップではなく、実際のバンドが背後にいる状態で聴けるため、競合する音声なしに元のフレージングやタイミングの選択を意識することができます。
リミックスとサンプリング。 プロデューサーはボーカルステムを抽出してフレーズをサンプリングし、アカペラを中心に新しいプロダクションを構築したり、ある曲のボーカルを別の伴奏に重ねたりします。ボーカルステムにより、ほとんどの商業トラックで通常アクセスできるものよりもアカペラに近いものが得られます。
文字起こし。 ボーカルを分離することで、特にボーカルが忙しいミックスに埋もれているトラックの歌詞がはるかに聴き取りやすくなります。楽器が音節をマスキングしなくなり、ピッチを失わずに DAW 内でボーカルステムをスローダウンすることができます。
音楽教育。 学生はボーカルステムをソロにして、フレージング、ビブラート、ブレスコントロール、ボーカルアレンジを単独で研究できます。楽器を取り除くことで、フルバンドに気を散らされることなく、ボーカリストが実際に何をしているかに集中できます。
よくある質問
Spotify の曲からボーカルを抽出できますか?
できません。Spotify のファイルは DRM で保護されており、ファイルレベルで暗号化されています。実際の音声データは Spotify の復号化キーなしには読み取れないため、いかなるボーカル抽出ツールも処理できません。DRM フリーのファイルが必要です。購入したか CD からリップした MP3、WAV、FLAC、または M4A です。アルバムの CD を持っている場合は、iTunes または XLD のようなツールでリップすれば、処理できる DRM フリーの FLAC が得られます。
すべての曲でボーカル抽出は機能しますか?
現代の市販録音の大多数では機能しますが、結果は異なります。明確なリードボーカルと明確に定義された楽器演奏を持つ曲はクリーンに分離されます。ボーカルに強いリバーブがかかっているか、密なバッキングハーモニーがあるか、またはボーカルと楽器の周波数が大きく重なっている録音は、より多くのアーティファクトと音漏れが生じます。書き出す前に結果をプレビューして、何を扱っているかを確認してください。
ボーカルステムとアカペラの違いは何ですか?
アカペラは、セッションから得られた元々の分離されたボーカル録音であり、トラックにミックスされる前のものです。楽器の音漏れがなく、クリーンです。AIによって抽出されたボーカルステムは推定値です。完成したミックスからボーカルを分離しようとするモデルの最良の推測です。ほとんどのクリエイティブな目的(サンプリング、練習、カラオケ)では、その違いはそれほど重要ではありません。プロフェッショナルなリリースや完全なクリーンさが求められる場合は、セッションのオリジナルアカペラが常に良い音になります。
抽出されたボーカルは完璧に聴こえますか?
いいえ。現在のいかなるツールも、すべての録音で完璧な分離を実現できません。リバーブのテールの音漏れ、ボーカルステムに時折現れる楽器の断片、または伴奏ステムに現れるボーカルの断片が生じることを想定してください。アーティファクトの程度は録音によります。カラオケ、練習、サンプリングの用途では、現在のAIツールの品質は十分に使えます。プロフェッショナルなリリースレベルの作業では、コミットする前に特定の出力を慎重に評価してください。
ドラム、ベース、ギターなどの個別の楽器を抽出できますか?
SongSplit AI は2つのステム分割(ボーカルと伴奏)に特化しています。ここはAI分離品質が一貫して高く役立つ領域です。個別の楽器を分離するフルマルチステム分離はモデルにとってより難しく、ドラム、ベース、ギターはすべて大きな周波数コンテンツを共有しています。LALAL.AI などの他のツールはマルチステム抽出を提供していますが、ステム数が増えるにつれてステムごとの品質と音漏れが増加します。プライバシーを守りながら Mac で2ステム処理を行うには、SongSplit が適切なツールです。
iPhone と iPad でも動作しますか?
はい。SongSplit AI は iPhone と iPad で同じデバイス上での分離を使って動作します。A12 チップ(iPhone XS 以降、および同等の iPad 世代)から対応しています。ワークフローは同じです。「ファイル」アプリからインポートし、品質モードを選択し、処理して書き出します。インターネット接続は不要で、何もデバイスの外に出ません。
関連ガイド
特定の目的で抽出したステムを使用する場合、以下のガイドで各ユースケースをより深く解説しています。
伴奏ステムを適切なタイミングとエクスポート設定で完成したカラオケトラックに仕上げる方法については、カラオケトラックの作り方をご覧ください。
音声ステムの概念が初めてで、それを使い始める前に何であるかを理解したい場合は、オーディオステムとは何かが基礎をカバーしています。
SongSplit とクラウドツールの品質とプライバシーの比較を含む、Mac で利用できるボーカル除去アプリの比較については、Mac 向けボーカル除去アプリ比較をご覧ください。