22 de mayo de 2026

Cómo extraer la voz de una canción: métodos, pasos y qué esperar

Guía completa para extraer la voz de cualquier canción en Mac o iPhone. Métodos con IA, flujo paso a paso, consejos de calidad y preguntas frecuentes.

Esta guía recorre todos los métodos prácticos para extraer la voz de una canción, con mayor detalle en el enfoque nativo para Mac que mantiene tus archivos en privado. Al terminar, sabrás qué método se adapta a tu situación, qué pasos seguir, qué factores afectan la calidad del resultado y qué puedes hacer realmente con las pistas (stems) una vez que las tengas.

Tres formas de extraer la voz de una canción

Apps con IA que se ejecutan en tu dispositivo

Esta es la mejor opción para usuarios de Mac en 2026. Las apps de IA en el dispositivo utilizan un modelo de separación de fuentes de audio entrenado que se ejecuta completamente en tu equipo. Tu archivo nunca abandona tu Mac, no se requiere cuenta alguna y el procesamiento es rápido porque los chips Apple Silicon modernos disponen de hardware dedicado exactamente para este tipo de cómputo.

La calidad del resultado de la IA en el dispositivo iguala o supera a la mayoría de las herramientas en la nube en sus niveles de pago. Obtienes dos pistas: una pista de voz y una pista instrumental. La calidad varía según la grabación, pero en música comercial moderna los resultados son genuinamente utilizables para sampling, remixes, práctica y karaoke.

SongSplit AI es la principal app de esta categoría para Mac e iPhone. Es un pago único, funciona sin conexión y es compatible con todos los formatos de audio sin DRM que macOS puede reproducir.

Herramientas web en la nube

Si solo necesitas un resultado rápido y no trabajas con material sensible, las herramientas web son convenientes. Las más utilizadas son vocalremover.org, LALAL.AI y AudioStrip. Subes un archivo, sus servidores lo procesan y descargas las pistas separadas.

Las desventajas son reales: tu archivo de audio va al servidor de otra persona, los niveles gratuitos tienen límites de tamaño y duración, la velocidad de procesamiento depende de la carga de sus servidores, y la calidad completa suele estar detrás de una suscripción. Si trabajas con música sin publicar, sesiones de clientes o cualquier cosa que prefieras no compartir con terceros, una herramienta en la nube es la opción incorrecta.

Dicho esto, para un trabajo puntual con una canción que descargaste de Spotify para probar el concepto, una herramienta web te llega sin necesidad de instalar nada.

Cancelación de fase en Audacity

Audacity incluye un efecto integrado llamado «Vocal Reduction and Isolation» que usa cancelación de fase. La idea es que en algunas grabaciones estéreo, la voz principal está panoramizada exactamente al centro, lo que significa que aparece de forma idéntica en los canales izquierdo y derecho. Si inviertes uno de los canales y los mezclas, el contenido centrado se cancela.

Esta técnica tiene limitaciones reales. Solo funciona si la voz está estrictamente centrada, algo que se cumple en algunas grabaciones antiguas pero que dista mucho de ser universal en la música moderna. Incluso cuando funciona, el resultado suena hueco y artificial: los instrumentos que comparten espacio de frecuencias con la voz también se atenúan, dejando un sonido delgado y con efecto de peine. Vale la pena conocer la cancelación de fase, pero la mayoría de los usuarios de Mac obtienen resultados notablemente mejores con herramientas basadas en IA. Si tienes curiosidad, Audacity es gratuito y el efecto tarda 30 segundos en probar.

Por qué la IA en el dispositivo da mejores resultados en Mac

Cada Mac fabricado desde finales de 2020 incluye un Apple Neural Engine. Es el mismo procesador especializado que gestiona Face ID, la fotografía computacional y el reconocimiento de voz de Siri. Los modelos de separación de fuentes de audio se adaptan bien a este hardware: el Neural Engine ejecuta operaciones matriciales de forma eficiente con bajo consumo, lo que se traduce en procesamiento rápido sin que el ventilador se dispare.

La ventaja de calidad sobre las herramientas en la nube proviene de lo que no ocurre durante el procesamiento. Cuando subes un archivo a una herramienta web, estás enviando audio comprimido o transcodificado a través de una red. La IA del otro extremo trabaja con lo que recibe. En el dispositivo, el modelo procesa tu archivo original directamente sin ningún paso de codificación intermedio. En una fuente de alta tasa de bits, esa diferencia se aprecia.

Tampoco existe latencia de red. Una canción de 4 minutos en un Mac M3 se procesa en aproximadamente 30 a 60 segundos según el modo de calidad que elijas. Las herramientas en la nube con alta carga en sus servidores pueden tardar más que eso solo en la cola de espera.

<!-- Fondo lado nube -->
<rect x="10" y="10" width="320" height="220" rx="12" ry="12" class="svg-box-eses svg-cloud-bg-eses" />
<text x="170" y="36" text-anchor="middle" class="svg-label-eses svg-title-eses" style="fill:#FF3B30;">Subida a la nube</text>

<!-- Pasos nube -->
<rect x="28" y="48" width="120" height="36" class="svg-box-eses svg-step-eses svg-fadein-eses d1-eses" />
<text x="88" y="70" text-anchor="middle" class="svg-label-eses svg-fadein-eses d1-eses">Tu archivo de audio</text>

<line x1="148" y1="66" x2="168" y2="66" class="svg-arrow-eses svg-fadein-eses d1-eses" />

<rect x="168" y="48" width="140" height="36" class="svg-box-eses svg-step-eses svg-fadein-eses d2-eses" />
<text x="238" y="64" text-anchor="middle" class="svg-label-eses svg-fadein-eses d2-eses">Se sube a</text>
<text x="238" y="79" text-anchor="middle" class="svg-label-eses svg-fadein-eses d2-eses">su servidor</text>

<line x1="238" y1="84" x2="238" y2="104" class="svg-arrow-eses svg-fadein-eses d2-eses" />

<rect x="168" y="104" width="140" height="36" class="svg-box-eses svg-step-eses svg-fadein-eses d3-eses" />
<text x="238" y="120" text-anchor="middle" class="svg-label-eses svg-fadein-eses d3-eses">IA procesa</text>
<text x="238" y="135" text-anchor="middle" class="svg-label-eses svg-fadein-eses d3-eses">de forma remota</text>

<line x1="168" y1="122" x2="148" y2="122" class="svg-arrow-eses svg-fadein-eses d3-eses" />

<rect x="28" y="104" width="120" height="36" class="svg-box-eses svg-step-eses svg-fadein-eses d4-eses" />
<text x="88" y="126" text-anchor="middle" class="svg-label-eses svg-fadein-eses d4-eses">Descargas resultado</text>

<text x="170" y="170" text-anchor="middle" class="svg-label-eses" style="fill:#FF3B30; font-size:12px;">Tu archivo salió de tu Mac</text>
<text x="170" y="188" text-anchor="middle" class="svg-label-eses" style="fill:#8E8E93; font-size:11px;">Requiere internet, cuenta o suscripción</text>

<!-- Divisor -->
<line x1="350" y1="15" x2="350" y2="225" class="svg-divider-eses" />

<!-- Fondo lado local -->
<rect x="360" y="10" width="330" height="220" rx="12" ry="12" class="svg-box-eses svg-local-bg-eses" />
<text x="525" y="36" text-anchor="middle" class="svg-label-eses svg-title-eses" style="fill:#16A34A;">En tu dispositivo (SongSplit)</text>

<!-- Pasos locales -->
<rect x="378" y="48" width="130" height="36" class="svg-box-eses svg-step-eses svg-fadein-eses d1-eses" />
<text x="443" y="70" text-anchor="middle" class="svg-label-eses svg-fadein-eses d1-eses">Tu archivo de audio</text>

<line x1="508" y1="66" x2="528" y2="66" class="svg-arrow-eses svg-fadein-eses d1-eses" />

<rect x="528" y="48" width="140" height="36" class="svg-box-eses svg-step-eses svg-fadein-eses d2-eses" />
<text x="598" y="64" text-anchor="middle" class="svg-label-eses svg-fadein-eses d2-eses">Apple Neural</text>
<text x="598" y="79" text-anchor="middle" class="svg-label-eses svg-fadein-eses d2-eses">Engine (local)</text>

<line x1="598" y1="84" x2="598" y2="104" class="svg-arrow-eses svg-fadein-eses d3-eses" />

<rect x="378" y="104" width="284" height="36" class="svg-box-eses svg-step-eses svg-fadein-eses d4-eses" style="fill:#ECFDF5; stroke:#86EFAC;" />
<text x="520" y="120" text-anchor="middle" class="svg-label-eses svg-fadein-eses d4-eses" style="fill:#166534;">Voz + Instrumental</text>
<text x="520" y="135" text-anchor="middle" class="svg-label-eses svg-fadein-eses d4-eses" style="fill:#166534;">guardados en tu Mac</text>

<text x="525" y="170" text-anchor="middle" class="svg-label-eses" style="fill:#16A34A; font-size:12px;">El archivo nunca abandona tu Mac</text>
<text x="525" y="188" text-anchor="middle" class="svg-label-eses" style="fill:#8E8E93; font-size:11px;">Funciona sin conexión. Pago único.</text>

Los eliminadores de voz en la nube envían tu audio a un servidor remoto. SongSplit ejecuta la misma IA localmente usando el Apple Neural Engine.

Cómo extraer la voz en Mac con SongSplit AI

Requisitos del sistema: Mac con Apple Silicon (M1 o más reciente) con macOS 14 Sonoma o posterior. En iPhone y iPad, iOS 17 o posterior con chip A12 o más reciente. Esto abarca todos los iPhones desde el XS en adelante y todos los iPad actuales.

Descarga: disponible en el App Store para Mac e iPhone.

Paso 1: Consigue un archivo de audio sin DRM

Sin DRM significa que el archivo no está cifrado con protección anticopia. Los archivos MP3, WAV, FLAC, AIFF y M4A que compraste en iTunes, Bandcamp o Amazon Music no tienen DRM. Los ripeos de CD tampoco. Todos estos funcionan.

Los archivos de streaming de Spotify y Apple Music sí tienen DRM. Están cifrados de manera que impide que cualquier herramienta, incluido SongSplit, los procese. Si quieres trabajar con una pista de un servicio de streaming, necesitas conseguir o comprar una copia sin DRM de esa canción en concreto.

Paso 2: Importa el archivo

Arrastra el archivo a la ventana de SongSplit, o pulsa para abrir con Archivo > Abrir. La forma de onda carga de inmediato. No se está subiendo nada a ningún sitio, así que no hay tiempo de espera vinculado a tu conexión a internet.

Paso 3: Elige el modo de calidad

SongSplit ofrece dos modos. El modo rápido te ofrece una vista previa ágil, útil si estás revisando varias pistas para encontrar cuáles separan bien. El modo calidad realiza un análisis más completo y produce una separación notablemente más limpia, especialmente en arreglos complejos. Para cualquier cosa que planees usar en un DAW o publicar en cualquier forma, usa el modo calidad.

Paso 4: Ejecuta la separación

Pulsa el botón Split. El Apple Neural Engine gestiona el cómputo de forma local. En Macs con chips de la serie M, una canción típica de 3 a 4 minutos termina en bastante menos de un minuto en el modo rápido, y en 1 a 2 minutos en el modo calidad. Verás la forma de onda separarse en una pista de voz y una pista instrumental conforme procesa.

Paso 5: Previsualiza los resultados

Antes de exportar, alterna entre la pista de voz y la pista instrumental y escucha la canción completa. Presta atención a la cola de reverb en la voz, las secciones del estribillo si hay armonías apiladas, y los pasajes instrumentales expuestos. Aquí es donde escucharás si existe un sangrado significativo que haga que las pistas sean inutilizables para tu propósito.

Paso 6: Exporta

Guarda la pista de voz, la pista instrumental o ambas. Los archivos se exportan como M4A, que es compatible con Logic Pro, GarageBand, Ableton Live, Pro Tools, Final Cut Pro y cualquier otro software que acepte audio estándar. También puedes convertir a WAV o MP3 desde cualquiera de esas apps si necesitas un formato diferente más adelante.

Prueba SongSplit AI gratis. Disponible en Mac e iPhone.
App Store (Mac + iPhone)

Qué afecta la calidad de la separación

El modelo de IA hace su mejor esfuerzo para desenredar dos señales que se mezclaron juntas. Algunas grabaciones lo facilitan más que otras. Esto es lo que realmente mueve la aguja en la calidad del resultado.

Calidad del archivo fuente. La IA dispone de más información para trabajar cuando le proporcionas un archivo sin pérdida o de alta tasa de bits. Un MP3 a 128 kbps ya ha descartado datos de audio significativos mediante compresión con pérdida. Puede que no notes una gran diferencia al escuchar casualmente, pero el modelo sí. Si tienes acceso a un FLAC o a un MP3 a 256 kbps o más, úsalo.

Era de la grabación. Las grabaciones comerciales de pop y rock desde aproximadamente 1990 en adelante separan bien. Las grabaciones anteriores a mediados de los 80 a menudo empleaban mezcla analógica que fusiona las señales de maneras más difíciles de revertir. Si trabajas con soul clásico o jazz antiguo, espera más sangrado.

Posición de la voz en la mezcla. Una voz principal que se destaca con claridad en la mezcla, con espacio a su alrededor en el espectro de frecuencias, le proporciona al modelo la señal más clara para trabajar. Las voces que quedan enterradas o que compiten intensamente con otros instrumentos en el mismo rango de frecuencias producen resultados más turbios.

Reverb y delay en la voz. Las colas de reverb largas son la fuente más habitual de artefactos en el resultado. El modelo tiene que decidir si una reverberación en decaimiento pertenece a la pista de voz o a la pista instrumental, y no siempre acierta. Las grabaciones secas separan con más limpieza. Las voces con mucho reverb dejarán algo de reverberación filtrándose en el instrumental.

Armonías de fondo. Una voz principal en solitario es sencilla. Las capas densas de voces de fondo resultan más difíciles, porque el modelo tiene que atribuir múltiples capas a la pista «vocal» mientras mantiene la instrumentación limpia. Es posible que escuches fragmentos de voces de fondo apareciendo en la pista instrumental en canciones con armonías densas.

Patrones de género. El pop, rock, R&B y hip-hop de los últimos 30 años separan bien en la mayoría de los casos. Las grabaciones densas de jazz, donde un saxofón o piano puede ocupar exactamente el mismo rango de frecuencias que un vocalista, son genuinamente más difíciles. El hip-hop con samples vocales muy procesados o picados puede ir en cualquier dirección según cómo esté procesado el sample en la mezcla.

Qué puedes hacer con la voz extraída

Karaoke. La pista instrumental de una separación limpia es inmediatamente utilizable como pista de acompañamiento para karaoke. Reprodúcela desde tu teléfono a través de un altavoz Bluetooth, proyéctala en un televisor, o impórtala a GarageBand para hacer loops y cambios de tono. Para un recorrido detallado del flujo de trabajo de karaoke, consulta la guía sobre cómo hacer una pista de karaoke.

Práctica vocal. Los cantantes usan la pista instrumental para practicar con la producción real sin que la voz del artista original interfiera. Escuchas la banda real detrás de ti en lugar de una maqueta MIDI, y puedes aislar el fraseo y las decisiones de timing del original sin audio que compita.

Remixes y sampling. Los productores extraen pistas de voz para samplear frases, construir nuevas producciones en torno a un a cappella, o mezclar la voz de una canción sobre un instrumental diferente. La pista de voz te da algo más cercano a un a cappella de lo que normalmente tendrías acceso para la mayoría de los temas comerciales.

Transcripción. Aislar la voz hace que las letras sean mucho más fáciles de escuchar, especialmente en pistas donde la voz está en una mezcla muy ocupada. Los instrumentos dejan de enmascarar las sílabas, y puedes ralentizar la pista de voz en tu DAW sin perder la referencia de tono.

Educación musical. Los estudiantes pueden escuchar la pista de voz en solitario para estudiar el fraseo, el vibrato, el control de la respiración y el arreglo vocal en aislamiento. Eliminar los instrumentos te permite centrarte en lo que el vocalista hace realmente sin que la banda completa desvíe tu atención.

Preguntas frecuentes

¿Puedo extraer la voz de una canción de Spotify?

No. Los archivos de Spotify tienen DRM, lo que significa que están cifrados a nivel de archivo. Ninguna herramienta de extracción de voz puede procesarlos, porque los datos de audio reales no son legibles sin la clave de descifrado de Spotify. Necesitas un archivo sin DRM: un MP3, WAV, FLAC o M4A que hayas comprado o ripeado de un CD. Si tienes el CD del álbum, ripearlo con iTunes o una herramienta como XLD te proporciona un FLAC sin DRM que puedes procesar.

¿Funciona la extracción de voz en todas las canciones?

Funciona en la gran mayoría de las grabaciones comerciales modernas, pero los resultados varían. Las canciones con una voz principal clara y destacada y una instrumentación bien definida separan limpiamente. Las canciones con mucho reverb en la voz, armonías de fondo densas, o grabaciones donde las frecuencias de voz e instrumental se superponen en gran medida tendrán más artefactos y sangrado. Previsualiza los resultados antes de exportar para saber con qué estás trabajando.

¿Cuál es la diferencia entre una pista de voz y un a cappella?

Un a cappella es la grabación vocal original aislada de la sesión, capturada antes de que se mezclara en la pista. Es limpia, sin sangrado instrumental. Una pista de voz extraída por IA es una estimación: la mejor aproximación del modelo para separar la voz de una mezcla terminada. Para la mayoría de los propósitos creativos (sampling, práctica, karaoke), esa distinción no importa demasiado. Para lanzamientos profesionales o cualquier cosa donde se requiera una limpieza clínica, un a cappella original de la sesión siempre sonará mejor.

¿Las voces extraídas sonarán perfectas?

No. Ninguna herramienta actual logra una separación perfecta en todas las grabaciones. Espera algo de sangrado en la cola de reverb, fragmentos ocasionales de instrumentos en la pista de voz, o fragmentos vocales en la pista instrumental. El grado del artefacto depende de la grabación. Para karaoke, práctica y usos de sampling, la calidad de las herramientas de IA actuales es más que suficiente. Para trabajo de nivel de lanzamiento profesional, evalúa el resultado específico con detenimiento antes de comprometerte.

¿Puedo extraer instrumentos individuales como batería, bajo o guitarra?

SongSplit AI se centra en la separación en dos pistas: vocal e instrumental. Aquí es donde la calidad de la separación por IA es consistentemente alta y útil. La separación completa en múltiples pistas (stems) que aísla instrumentos individuales es más difícil para el modelo, porque la batería, el bajo y la guitarra comparten un contenido de frecuencias significativo. Otras herramientas como LALAL.AI ofrecen extracción de múltiples pistas, pero la calidad por pista y el sangrado aumentan conforme separas en más pistas. Para trabajo en dos pistas en Mac con privacidad, SongSplit es la herramienta adecuada.

¿Funciona en iPhone y iPad?

Sí. SongSplit AI se ejecuta en iPhone y iPad usando la misma separación en el dispositivo, a partir del chip A12 (iPhone XS en adelante, y generaciones equivalentes de iPad). El flujo de trabajo es el mismo: importa desde la app Archivos, elige tu modo de calidad, procesa, exporta. No se necesita conexión a internet y nada abandona tu dispositivo.

Guías relacionadas

Si estás usando las pistas extraídas para un propósito concreto, estas guías profundizan en cada caso de uso.

Para convertir la pista instrumental en una pista de karaoke terminada con el timing adecuado y ajustes de exportación, consulta cómo hacer una pista de karaoke.

Si eres nuevo en el concepto de pistas de audio (stems) y quieres entender qué son antes de trabajar con ellas, qué son las pistas de audio cubre los conceptos básicos.

Para una comparación lado a lado de apps eliminadoras de voz disponibles en Mac, incluyendo cómo se compara SongSplit con las herramientas en la nube en calidad y privacidad, consulta la mejor app eliminadora de voz para Mac.

¿Listo para separar?

Descarga SongSplit AI y empieza a separar tus canciones favoritas hoy mismo.

Descárgala en la

App Store

Anterior Cómo hacer una pista de karaoke de cualquier canción

Volver al blog

Siguiente ¿Qué son las pistas de audio en música? Cómo obtener stems de cualquier canción