22 maggio 2026

Come estrarre la voce da un brano: metodi, passaggi e cosa aspettarsi

Una guida completa per estrarre la voce da qualsiasi brano su Mac o iPhone. Copre i metodi basati su IA, il flusso di lavoro passo dopo passo, suggerimenti sulla qualità e le domande più comuni.

Questa guida illustra ogni metodo pratico per estrarre la voce da un brano, con il massimo dettaglio sull’approccio nativo per Mac che mantiene i tuoi file al sicuro. Alla fine saprai quale metodo si adatta alla tua situazione, quali passaggi seguire, cosa influisce sulla qualità dell’output e cosa puoi effettivamente fare con le tracce una volta ottenute.

Tre modi per estrarre la voce da un brano

App basate su IA che girano sul tuo dispositivo

Questa è la migliore opzione per gli utenti Mac nel 2026. Le app IA sul dispositivo usano un modello di separazione delle sorgenti audio addestrato che gira interamente sulla tua macchina. Il file non lascia mai il tuo Mac, non è richiesto alcun account e l’elaborazione è veloce perché i chip Apple Silicon moderni dispongono di hardware dedicato esattamente per questo tipo di calcolo.

La qualità dell’output delle app IA sul dispositivo eguaglia o supera la maggior parte degli strumenti cloud nei loro livelli a pagamento. Ottieni due tracce: una traccia vocale e una strumentale. La qualità varia in base alla registrazione, ma sulla musica commerciale moderna i risultati sono genuinamente utilizzabili per campionamento, remix, pratica e karaoke.

SongSplit AI è la principale app di questa categoria per Mac e iPhone. È un acquisto singolo, funziona offline e supporta ogni formato audio senza DRM che macOS è in grado di riprodurre.

Strumenti web basati su cloud

Se hai solo bisogno di un risultato rapido e non stai lavorando con materiale sensibile, gli strumenti web sono comodi. I più usati sono vocalremover.org, LALAL.AI e AudioStrip. Carichi un file, i loro server lo elaborano e scarichi le tracce separate.

I compromessi sono reali: il file audio va sul server di qualcun altro, i livelli gratuiti hanno limiti di dimensione e durata, la velocità di elaborazione dipende dal loro carico e la qualità completa spesso si trova dietro un abbonamento. Se stai lavorando con musica inedita, sessioni di clienti o qualsiasi cosa che preferiresti non condividere con terze parti, uno strumento cloud è la scelta sbagliata.

Detto questo, per un lavoro occasionale su un brano che hai scaricato per testare il concetto, uno strumento web ti porta al risultato senza installare nulla.

Cancellazione di fase in Audacity

Audacity include un effetto integrato “Riduzione e isolamento vocale” che usa la cancellazione di fase. L’idea è che su alcune registrazioni stereo la voce solista sia posizionata esattamente al centro, il che significa che appare in modo identico nei canali sinistro e destro. Se si inverte un canale e si mixano entrambi insieme, il contenuto posizionato al centro si annulla.

Questa tecnica ha limiti reali. Funziona solo se la voce è rigorosamente al centro, il che vale per alcune registrazioni più datate ma è ben lontano dall’essere universale nella musica moderna. Anche quando funziona, il risultato suona vuoto e artificiale: gli strumenti che condividono lo spazio di frequenza con la voce vengono attenuati anche loro, lasciando un suono sottile e filtrato. La cancellazione di fase vale la pena di conoscerla, ma la maggior parte degli utenti Mac ottiene risultati notevolmente migliori dagli strumenti basati su IA. Se sei curioso, Audacity è gratuito e l’effetto richiede 30 secondi per essere provato.

Perché l’IA sul dispositivo produce risultati migliori su Mac

Ogni Mac prodotto dalla fine del 2020 include un Apple Neural Engine. È lo stesso processore specializzato che gestisce Face ID, la fotografia computazionale e il riconoscimento vocale di Siri. I modelli di separazione delle sorgenti audio si adattano bene a questo hardware: il Neural Engine esegue operazioni sulle matrici in modo efficiente a basso consumo energetico, il che significa elaborazione rapida senza far girare la ventola.

Il vantaggio qualitativo rispetto agli strumenti cloud deriva da ciò che non accade durante l’elaborazione. Quando carichi un file su uno strumento web, stai inviando audio compresso o transcodificato attraverso una rete. L’IA dall’altra parte lavora con ciò che arriva. Sul dispositivo, il modello elabora direttamente il file originale senza alcun passaggio di codifica intermedia. Su una sorgente ad alto bitrate, questa differenza è udibile.

Non c’è nemmeno latenza di rete. Un brano di 4 minuti su un Mac M3 viene elaborato in circa 30-60 secondi a seconda della modalità di qualità scelta. Gli strumenti cloud con server molto carichi possono impiegare più tempo solo per mettersi in coda.

<!-- Cloud side background -->
<rect x="10" y="10" width="320" height="220" rx="12" ry="12" class="svg-it-box svg-it-cloud-bg" />
<text x="170" y="36" text-anchor="middle" class="svg-it-label svg-it-title-text svg-it-badge-cloud" style="fill:#FF3B30;">Caricamento cloud</text>

<!-- Cloud steps -->
<rect x="28" y="48" width="120" height="36" class="svg-it-box svg-it-step svg-it-fadein it-d1" />
<text x="88" y="70" text-anchor="middle" class="svg-it-label svg-it-fadein it-d1">Il tuo file audio</text>

<line x1="148" y1="66" x2="168" y2="66" class="svg-it-arrow svg-it-fadein it-d1" />

<rect x="168" y="48" width="140" height="36" class="svg-it-box svg-it-step svg-it-fadein it-d2" />
<text x="238" y="64" text-anchor="middle" class="svg-it-label svg-it-fadein it-d2">Caricamento sul</text>
<text x="238" y="79" text-anchor="middle" class="svg-it-label svg-it-fadein it-d2">loro server</text>

<line x1="238" y1="84" x2="238" y2="104" class="svg-it-arrow svg-it-fadein it-d2" />

<rect x="168" y="104" width="140" height="36" class="svg-it-box svg-it-step svg-it-fadein it-d3" />
<text x="238" y="120" text-anchor="middle" class="svg-it-label svg-it-fadein it-d3">L'IA elabora</text>
<text x="238" y="135" text-anchor="middle" class="svg-it-label svg-it-fadein it-d3">da remoto</text>

<line x1="168" y1="122" x2="148" y2="122" class="svg-it-arrow svg-it-fadein it-d3" />

<rect x="28" y="104" width="120" height="36" class="svg-it-box svg-it-step svg-it-fadein it-d4" />
<text x="88" y="126" text-anchor="middle" class="svg-it-label svg-it-fadein it-d4">Scarica il risultato</text>

<text x="170" y="170" text-anchor="middle" class="svg-it-label" style="fill:#FF3B30; font-size:12px;">Il file ha lasciato il tuo Mac</text>
<text x="170" y="188" text-anchor="middle" class="svg-it-label" style="fill:#8E8E93; font-size:11px;">Richiede internet, account o abbonamento</text>

<!-- Divider -->
<line x1="350" y1="15" x2="350" y2="225" class="svg-it-divider" />

<!-- Local side background -->
<rect x="360" y="10" width="330" height="220" rx="12" ry="12" class="svg-it-box svg-it-local-bg" />
<text x="525" y="36" text-anchor="middle" class="svg-it-label svg-it-title-text" style="fill:#16A34A;">Sul dispositivo (SongSplit)</text>

<!-- Local steps -->
<rect x="378" y="48" width="130" height="36" class="svg-it-box svg-it-step svg-it-fadein it-d1" />
<text x="443" y="70" text-anchor="middle" class="svg-it-label svg-it-fadein it-d1">Il tuo file audio</text>

<line x1="508" y1="66" x2="528" y2="66" class="svg-it-arrow svg-it-fadein it-d1" />

<rect x="528" y="48" width="140" height="36" class="svg-it-box svg-it-step svg-it-fadein it-d2" />
<text x="598" y="64" text-anchor="middle" class="svg-it-label svg-it-fadein it-d2">Apple Neural</text>
<text x="598" y="79" text-anchor="middle" class="svg-it-label svg-it-fadein it-d2">Engine (locale)</text>

<line x1="598" y1="84" x2="598" y2="104" class="svg-it-arrow svg-it-fadein it-d3" />

<rect x="378" y="104" width="284" height="36" class="svg-it-box svg-it-step svg-it-fadein it-d4" style="fill:#ECFDF5; stroke:#86EFAC;" />
<text x="520" y="120" text-anchor="middle" class="svg-it-label svg-it-fadein it-d4" style="fill:#166534;">Voce + Strumentale</text>
<text x="520" y="135" text-anchor="middle" class="svg-it-label svg-it-fadein it-d4" style="fill:#166534;">salvati sul tuo Mac</text>

<text x="525" y="170" text-anchor="middle" class="svg-it-label" style="fill:#16A34A; font-size:12px;">Il file non lascia mai il tuo Mac</text>
<text x="525" y="188" text-anchor="middle" class="svg-it-label" style="fill:#8E8E93; font-size:11px;">Funziona offline. Acquisto singolo.</text>

I servizi cloud per rimuovere la voce inviano il tuo audio a un server remoto. SongSplit esegue la stessa IA in locale usando l'Apple Neural Engine.

Come estrarre la voce su Mac con SongSplit AI

Requisiti di sistema: Mac Apple Silicon (M1 o più recente) con macOS 14 Sonoma o versione successiva. Su iPhone e iPad, iOS 17 o versione successiva con chip A12 o più recente. Questo copre ogni iPhone dall’XS in poi e ogni iPad attuale.

Opzioni di download: App Store per Mac e iPhone.

Passaggio 1: Ottieni un file audio senza DRM

Senza DRM significa che il file non è cifrato con protezione dalla copia. I file MP3, WAV, FLAC, AIFF e M4A acquistati da iTunes, Bandcamp o Amazon Music sono senza DRM. I rip da CD sono senza DRM. Tutti questi funzionano.

I file in streaming di Spotify e Apple Music sono protetti da DRM. Sono cifrati in modo tale da impedire a qualsiasi strumento, incluso SongSplit, di elaborarli. Se vuoi lavorare con un brano di un servizio di streaming, devi trovare o acquistare una copia senza DRM di quel brano specifico.

Passaggio 2: Importa il file

Trascina il file sulla finestra di SongSplit, oppure usa File > Apri. La forma d’onda si carica immediatamente. Non viene caricato nulla da nessuna parte, quindi non c’è alcun tempo di attesa legato alla tua connessione internet.

Passaggio 3: Scegli una modalità di qualità

SongSplit offre due modalità. La modalità rapida fornisce un’anteprima veloce, utile se stai ascoltando molte tracce per capire quali si separano bene. La modalità qualità esegue un’elaborazione più approfondita e produce una separazione notevolmente più pulita, specialmente su arrangiamenti complessi. Per qualsiasi cosa che stai pianificando di usare in un DAW o di pubblicare in qualsiasi forma, usa la modalità qualità.

Passaggio 4: Avvia la separazione

Fai clic sul pulsante Dividi. L’Apple Neural Engine gestisce il calcolo in locale. Sui Mac della serie M, un tipico brano di 3-4 minuti termina in meno di un minuto in modalità rapida e in 1-2 minuti in modalità qualità. Vedrai la forma d’onda dividersi in una traccia vocale e una strumentale durante l’elaborazione.

Passaggio 5: Ascolta l’anteprima dei risultati

Prima di esportare, passa dalla traccia vocale a quella strumentale e ascolta il brano per intero. Presta attenzione alla coda di riverbero sulla voce, alle sezioni del ritornello se ci sono armonie sovrapposte e a qualsiasi passaggio strumentale esposto. È qui che sentirai se c’è un significativo “bleeding” che rende le tracce inutilizzabili per il tuo scopo.

Passaggio 6: Esporta

Salva la traccia vocale, quella strumentale o entrambe. I file vengono esportati in M4A, compatibile con Logic Pro, GarageBand, Ableton Live, Pro Tools, Final Cut Pro e qualsiasi altro software che accetti audio standard. Puoi anche convertire in WAV o MP3 da ognuna di queste app se hai bisogno di un formato diverso in seguito.

Prova SongSplit AI gratuitamente. Disponibile per Mac e iPhone.
App Store (Mac + iPhone)

Cosa influisce sulla qualità della separazione

Il modello IA fa del suo meglio per districare due segnali che sono stati mixati insieme. Alcune registrazioni rendono questo compito più facile di altre. Ecco cosa sposta davvero l’ago della bilancia sulla qualità dell’output.

Qualità del file sorgente. L’IA ha più informazioni con cui lavorare quando le fornisci un file lossless o ad alto bitrate. Un MP3 a 128 kbps ha già scartato dati audio significativi attraverso la compressione lossy. Potresti non sentire una grande differenza in ascolto casuale, ma il modello sì. Se hai accesso a un FLAC o a un MP3 256 kbps+, usalo.

Era della registrazione. Le registrazioni pop e rock commerciali a partire all’incirca dal 1990 in poi si separano bene. Le registrazioni precedenti alla metà degli anni ‘80 spesso utilizzavano una somma analogica che fonde i segnali in modi più difficili da invertire. Se stai lavorando con soul classico o jazz più datato, aspettati più bleeding.

Posizione della voce nel mix. Una voce solista che si trova chiaramente in primo piano nel mix, con spazio intorno ad essa nello spettro delle frequenze, fornisce al modello il segnale più chiaro con cui lavorare. Le voci che sono sepolte o che competono pesantemente con altri strumenti nella stessa gamma di frequenze producono risultati più confusi.

Riverbero e delay sulla voce. Le code di riverbero lunghe sono la fonte più comune di artefatti nell’output. Il modello deve decidere se un’onda di riverbero in decadimento appartiene alla traccia vocale o a quella strumentale, e non sempre lo fa correttamente. Le registrazioni asciutte si separano nel modo più pulito. Le voci con molto riverbero lasceranno un po’ di dispersione che sanguina nella traccia strumentale.

Armonie di supporto. Una voce solista singola è semplice. Strati densi di voci di supporto sono più difficili, perché il modello deve attribuire più livelli alla traccia “vocale” mantenendo pulita la strumentazione. Potresti sentire alcuni frammenti di voci di supporto che appaiono nella traccia strumentale su brani con armonie dense.

Caratteristiche del genere. Pop, rock, R&B e hip-hop degli ultimi 30 anni si separano bene nella maggior parte dei casi. Le registrazioni jazz dense, dove un sassofono o un pianoforte può occupare esattamente la stessa gamma di frequenze di un cantante, sono genuinamente più difficili. L’hip-hop con campioni vocali molto intonati o tagliati può andare in entrambi i sensi a seconda di come il campione è elaborato nel mix.

Cosa puoi fare con le voci estratte

Karaoke. La traccia strumentale di una separazione pulita è immediatamente utilizzabile come base per karaoke. Riproducila dal tuo telefono attraverso un altoparlante Bluetooth, proiettala su una TV, o importala in GarageBand per loop e cambi di tonalità. Per un tutorial dettagliato del flusso di lavoro karaoke, vedi la guida su come creare una traccia karaoke.

Pratica vocale. I cantanti usano la traccia strumentale per esercitarsi con la produzione originale senza la voce dell’artista originale in mezzo. Senti la band reale dietro di te invece di un mockup MIDI, e puoi isolare le scelte di fraseggio e di tempo dell’originale senza audio in competizione.

Remix e campionamento. I produttori estraggono le tracce vocali per campionare frasi, costruire nuove produzioni intorno a un acappella, o mixare la voce di un brano su una base strumentale diversa. La traccia vocale ti dà qualcosa di più vicino a un acappella di quello a cui avresti altrimenti accesso per la maggior parte dei brani commerciali.

Trascrizione. Isolare la voce rende i testi molto più facili da sentire, specialmente su brani dove le voci si trovano in un mix affollato. Gli strumenti smettono di mascherare le sillabe e puoi rallentare la traccia vocale nel tuo DAW senza perdere il riferimento di tonalità.

Educazione musicale. Gli studenti possono ascoltare in solitaria la traccia vocale per studiare il fraseggio, il vibrato, il controllo del respiro e l’arrangiamento vocale in isolamento. Rimuovere gli strumenti ti permette di concentrarti su ciò che il cantante sta effettivamente facendo senza che la band completa distragga la tua attenzione.

Domande frequenti

Posso estrarre la voce da un brano su Spotify?

No. I file Spotify sono protetti da DRM, il che significa che sono cifrati a livello di file. Nessuno strumento di estrazione vocale può elaborarli, perché i dati audio effettivi non sono leggibili senza la chiave di decrittografia di Spotify. Hai bisogno di un file senza DRM: un MP3, WAV, FLAC o M4A che hai acquistato o rippato da CD. Se possiedi il CD dell’album, ripparlo con iTunes o uno strumento come XLD ti fornisce un FLAC senza DRM che puoi elaborare.

L’estrazione vocale funziona su ogni brano?

Funziona sulla grande maggioranza delle registrazioni commerciali moderne, ma i risultati variano. I brani con una voce solista chiara e in primo piano e una strumentazione ben definita si separano in modo pulito. I brani con molto riverbero vocale, dense armonie di supporto, o registrazioni dove le frequenze vocali e strumentali si sovrappongono pesantemente avranno più artefatti e bleeding. Ascolta l’anteprima dei risultati prima di esportare per sapere con cosa stai lavorando.

Qual è la differenza tra una traccia vocale e un acappella?

Un acappella è la registrazione vocale isolata originale della sessione, catturata prima che fosse mai mixata nella traccia. È pulita, senza bleeding strumentale. Una traccia vocale estratta dall’IA è una stima: la migliore ipotesi del modello su come separare la voce da un mix finito. Per la maggior parte degli scopi creativi (campionamento, pratica, karaoke), questa distinzione non conta molto. Per uscite professionali o qualsiasi cosa in cui sia richiesta una pulizia clinica, un acappella originale della sessione suonerà sempre meglio.

Le voci estratte suoneranno perfette?

No. Nessuno strumento attuale ottiene una separazione perfetta su ogni registrazione. Aspettati un po’ di bleeding della coda di riverbero, occasionali frammenti strumentali nella traccia vocale o frammenti vocali nella traccia strumentale. Il grado di artefatti dipende dalla registrazione. Per casi d’uso karaoke, pratica e campionamento, la qualità degli attuali strumenti IA è più che utilizzabile. Per lavori a livello di pubblicazione professionale, valuta attentamente l’output specifico prima di impegnarti.

Posso estrarre strumenti individuali come batteria, basso o chitarra?

SongSplit AI si concentra sulla divisione in due tracce: voce e strumentale. È qui che la qualità della separazione IA è costantemente alta e utile. La separazione multi-stem completa che isola i singoli strumenti è più difficile per il modello, perché batteria, basso e chitarra condividono tutti un contenuto di frequenza significativo. Altri strumenti come LALAL.AI offrono l’estrazione multi-stem, ma la qualità per traccia e il bleeding aumentano man mano che si divide in più tracce. Per il lavoro a due tracce su Mac con privacy, SongSplit è lo strumento giusto.

Funziona su iPhone e iPad?

Sì. SongSplit AI gira su iPhone e iPad usando la stessa separazione sul dispositivo, a partire dal chip A12 (iPhone XS e successivi, e generazioni equivalenti di iPad). Il flusso di lavoro è lo stesso: importa dall’app File, scegli la modalità di qualità, elabora, esporta. Non è richiesta alcuna connessione internet e nulla lascia il tuo dispositivo.

Guide correlate

Se stai usando le tracce estratte per uno scopo specifico, queste guide approfondiscono ogni caso d’uso.

Per trasformare la traccia strumentale in una traccia karaoke finita con le impostazioni di timing e di esportazione corrette, vedi come creare una traccia karaoke.

Se sei nuovo al concetto di tracce audio stem e vuoi capire cosa sono prima di lavorarci, cosa sono le tracce audio stem copre le basi.

Per un confronto affiancato delle app per rimuovere la voce disponibili su Mac, incluso come SongSplit si confronta con gli strumenti cloud su qualità e privacy, vedi le migliori app per rimuovere la voce su Mac.

Pronto a dividere?

Scarica SongSplit AI e inizia a separare i tuoi brani preferiti oggi stesso.

Scarica su

App Store

Precedente Cosa sono le tracce stem in musica? Come ottenere le stem di qualsiasi brano

Torna al blog

Successivo Come creare una traccia karaoke da qualsiasi brano