22 de mayo de 2026

Cómo extraer la voz de una canción: métodos, pasos y qué esperar

Guía completa para extraer la voz de cualquier canción en Mac o iPhone. Métodos con IA, flujo paso a paso, consejos de calidad y preguntas frecuentes.

Esta guía cubre todos los métodos prácticos para extraer la voz de una canción, con mayor detalle en el enfoque nativo para Mac que mantiene tus archivos en privado. Al terminar, sabrás qué método se adapta a tu situación, qué pasos seguir, qué factores afectan la calidad del resultado y qué puedes hacer realmente con las pistas (stems) una vez que las tengas.

Tres formas de extraer la voz de una canción

Apps con IA que corren en tu dispositivo

Esta es la mejor opción para usuarios de Mac en 2026. Las apps de IA en el dispositivo utilizan un modelo de separación de fuentes de audio entrenado que corre completamente en tu equipo. Tu archivo nunca sale de tu Mac, no se necesita cuenta y el procesamiento es rápido porque los chips Apple Silicon modernos tienen hardware dedicado exactamente para este tipo de cómputo.

La calidad del resultado de la IA en el dispositivo es igual o mejor que la mayoría de las herramientas en la nube en sus niveles de pago. Obtienes dos pistas: una pista de voz y una pista instrumental. La calidad varía según la grabación, pero en música comercial moderna los resultados son genuinamente utilizables para sampling, remixes, práctica y karaoke.

SongSplit AI es la principal app de esta categoría para Mac e iPhone. Es un pago único, funciona sin conexión y soporta todos los formatos de audio sin DRM que macOS puede reproducir.

Herramientas web en la nube

Si solo necesitas un resultado rápido y no estás trabajando con material sensible, las herramientas web son cómodas. Las más usadas son vocalremover.org, LALAL.AI y AudioStrip. Subes un archivo, sus servidores lo procesan y descargas las pistas separadas.

Las desventajas son reales: tu archivo de audio va al servidor de otra persona, los niveles gratuitos tienen límites de tamaño y duración, la velocidad de procesamiento depende de la carga en sus servidores, y la calidad completa a menudo está detrás de una suscripción. Si trabajas con música sin publicar, sesiones de clientes o cualquier cosa que prefieras no compartir con terceros, una herramienta en la nube no es la opción adecuada.

Dicho esto, para un trabajo puntual con una canción que descargaste de Spotify para probar el concepto, una herramienta web te lleva ahí sin instalar nada.

Cancelación de fase en Audacity

Audacity incluye un efecto integrado llamado «Vocal Reduction and Isolation» que usa cancelación de fase. La idea es que en algunas grabaciones estéreo, la voz principal está panoramizada exactamente al centro, lo que significa que aparece de forma idéntica en los canales izquierdo y derecho. Si inviertes uno de los canales y los mezclas, el contenido centrado se cancela.

Esta técnica tiene limitaciones reales. Solo funciona si la voz está estrictamente centrada, algo que se cumple en algunas grabaciones antiguas, pero está muy lejos de ser universal en la música moderna. Incluso cuando funciona, el resultado suena hueco y artificial: los instrumentos que comparten espacio de frecuencias con la voz también se atenúan, dejando un sonido delgado y con efecto de peine. Vale la pena conocer la cancelación de fase, pero la mayoría de los usuarios de Mac obtienen resultados notablemente mejores con herramientas basadas en IA. Si tienes curiosidad, Audacity es gratuito y el efecto tarda 30 segundos en probar.

Por qué la IA en el dispositivo da mejores resultados en Mac

Cada Mac fabricado desde finales de 2020 incluye un Apple Neural Engine. Es el mismo procesador especializado que maneja Face ID, fotografía computacional y reconocimiento de voz de Siri. Los modelos de separación de fuentes de audio se adaptan bien a este hardware: el Neural Engine ejecuta operaciones matriciales de forma eficiente con bajo consumo, lo que significa procesamiento rápido sin que el ventilador se dispare.

La ventaja de calidad sobre las herramientas en la nube proviene de lo que no ocurre durante el procesamiento. Cuando subes un archivo a una herramienta web, estás enviando audio comprimido o transcodificado a través de una red. La IA del otro extremo trabaja con lo que recibe. En el dispositivo, el modelo procesa tu archivo original directamente sin ningún paso de codificación intermedio. En una fuente de alta tasa de bits, esa diferencia se escucha.

Tampoco hay latencia de red. Una canción de 4 minutos en un Mac M3 se procesa en aproximadamente 30 a 60 segundos dependiendo del modo de calidad que elijas. Las herramientas en la nube con alta carga en sus servidores pueden tardar más que eso solo en la cola de espera.

<!-- Fondo lado nube -->
<rect x="10" y="10" width="320" height="220" rx="12" ry="12" class="svg-box-esmx svg-cloud-bg-esmx" />
<text x="170" y="36" text-anchor="middle" class="svg-label-esmx svg-title-esmx svg-badge-cloud" style="fill:#FF3B30;">Subida a la nube</text>

<!-- Pasos nube -->
<rect x="28" y="48" width="120" height="36" class="svg-box-esmx svg-step-esmx svg-fadein-esmx d1-esmx" />
<text x="88" y="70" text-anchor="middle" class="svg-label-esmx svg-fadein-esmx d1-esmx">Tu archivo de audio</text>

<line x1="148" y1="66" x2="168" y2="66" class="svg-arrow-esmx svg-fadein-esmx d1-esmx" />

<rect x="168" y="48" width="140" height="36" class="svg-box-esmx svg-step-esmx svg-fadein-esmx d2-esmx" />
<text x="238" y="64" text-anchor="middle" class="svg-label-esmx svg-fadein-esmx d2-esmx">Se sube a</text>
<text x="238" y="79" text-anchor="middle" class="svg-label-esmx svg-fadein-esmx d2-esmx">su servidor</text>

<line x1="238" y1="84" x2="238" y2="104" class="svg-arrow-esmx svg-fadein-esmx d2-esmx" />

<rect x="168" y="104" width="140" height="36" class="svg-box-esmx svg-step-esmx svg-fadein-esmx d3-esmx" />
<text x="238" y="120" text-anchor="middle" class="svg-label-esmx svg-fadein-esmx d3-esmx">IA procesa</text>
<text x="238" y="135" text-anchor="middle" class="svg-label-esmx svg-fadein-esmx d3-esmx">de forma remota</text>

<line x1="168" y1="122" x2="148" y2="122" class="svg-arrow-esmx svg-fadein-esmx d3-esmx" />

<rect x="28" y="104" width="120" height="36" class="svg-box-esmx svg-step-esmx svg-fadein-esmx d4-esmx" />
<text x="88" y="126" text-anchor="middle" class="svg-label-esmx svg-fadein-esmx d4-esmx">Descargas resultado</text>

<text x="170" y="170" text-anchor="middle" class="svg-label-esmx" style="fill:#FF3B30; font-size:12px;">Tu archivo salió de tu Mac</text>
<text x="170" y="188" text-anchor="middle" class="svg-label-esmx" style="fill:#8E8E93; font-size:11px;">Requiere internet, cuenta o suscripción</text>

<!-- Divisor -->
<line x1="350" y1="15" x2="350" y2="225" class="svg-divider-esmx" />

<!-- Fondo lado local -->
<rect x="360" y="10" width="330" height="220" rx="12" ry="12" class="svg-box-esmx svg-local-bg-esmx" />
<text x="525" y="36" text-anchor="middle" class="svg-label-esmx svg-title-esmx" style="fill:#16A34A;">En tu dispositivo (SongSplit)</text>

<!-- Pasos locales -->
<rect x="378" y="48" width="130" height="36" class="svg-box-esmx svg-step-esmx svg-fadein-esmx d1-esmx" />
<text x="443" y="70" text-anchor="middle" class="svg-label-esmx svg-fadein-esmx d1-esmx">Tu archivo de audio</text>

<line x1="508" y1="66" x2="528" y2="66" class="svg-arrow-esmx svg-fadein-esmx d1-esmx" />

<rect x="528" y="48" width="140" height="36" class="svg-box-esmx svg-step-esmx svg-fadein-esmx d2-esmx" />
<text x="598" y="64" text-anchor="middle" class="svg-label-esmx svg-fadein-esmx d2-esmx">Apple Neural</text>
<text x="598" y="79" text-anchor="middle" class="svg-label-esmx svg-fadein-esmx d2-esmx">Engine (local)</text>

<line x1="598" y1="84" x2="598" y2="104" class="svg-arrow-esmx svg-fadein-esmx d3-esmx" />

<rect x="378" y="104" width="284" height="36" class="svg-box-esmx svg-step-esmx svg-fadein-esmx d4-esmx" style="fill:#ECFDF5; stroke:#86EFAC;" />
<text x="520" y="120" text-anchor="middle" class="svg-label-esmx svg-fadein-esmx d4-esmx" style="fill:#166534;">Voz + Instrumental</text>
<text x="520" y="135" text-anchor="middle" class="svg-label-esmx svg-fadein-esmx d4-esmx" style="fill:#166534;">guardados en tu Mac</text>

<text x="525" y="170" text-anchor="middle" class="svg-label-esmx" style="fill:#16A34A; font-size:12px;">El archivo nunca sale de tu Mac</text>
<text x="525" y="188" text-anchor="middle" class="svg-label-esmx" style="fill:#8E8E93; font-size:11px;">Funciona sin conexión. Pago único.</text>

Los eliminadores de voz en la nube envían tu audio a un servidor remoto. SongSplit corre la misma IA localmente usando el Apple Neural Engine.

Cómo extraer la voz en Mac con SongSplit AI

Requisitos del sistema: Mac con Apple Silicon (M1 o más reciente) con macOS 14 Sonoma o posterior. En iPhone y iPad, iOS 17 o posterior con chip A12 o más reciente. Esto cubre todos los iPhones desde el XS en adelante y todos los iPad actuales.

Para descargar: App Store para Mac e iPhone.

Paso 1: Consigue un archivo de audio sin DRM

Sin DRM significa que el archivo no está cifrado con protección contra copia. Los archivos MP3, WAV, FLAC, AIFF y M4A que compraste en iTunes, Bandcamp o Amazon Music no tienen DRM. Los ripeos de CD tampoco. Todos estos funcionan.

Los archivos de streaming de Spotify y Apple Music sí tienen DRM. Están cifrados de manera que impide que cualquier herramienta, incluido SongSplit, los procese. Si quieres trabajar con una pista de un servicio de streaming, necesitas conseguir o comprar una copia sin DRM de esa canción en específico.

Paso 2: Importa el archivo

Arrastra el archivo a la ventana de SongSplit, o usa Archivo > Abrir. La forma de onda carga de inmediato. No se está subiendo nada a ningún lado, así que no hay tiempo de espera ligado a tu conexión a internet.

Paso 3: Elige el modo de calidad

SongSplit ofrece dos modos. El modo rápido te da una vista previa ágil, útil si estás revisando varias pistas para encontrar cuáles separan bien. El modo calidad hace un análisis más completo y produce una separación notablemente más limpia, especialmente en arreglos complejos. Para cualquier cosa que planees usar en un DAW o publicar en cualquier forma, usa el modo calidad.

Paso 4: Ejecuta la separación

Haz clic en el botón Split. El Apple Neural Engine maneja el cómputo de forma local. En Macs con chips de la serie M, una canción típica de 3 a 4 minutos termina en bien menos de un minuto en el modo rápido, y en 1 a 2 minutos en el modo calidad. Verás la forma de onda separarse en una pista de voz y una pista instrumental conforme procesa.

Paso 5: Previsualiza los resultados

Antes de exportar, alterna entre la pista de voz y la pista instrumental y escucha la canción completa. Presta atención a la cola de reverb en la voz, las secciones del coro si hay armonías apiladas, y los pasajes instrumentales expuestos. Aquí es donde escucharás si hay un sangrado significativo que haga que las pistas sean inutilizables para tu propósito.

Paso 6: Exporta

Guarda la pista de voz, la pista instrumental o ambas. Los archivos se exportan como M4A, que es compatible con Logic Pro, GarageBand, Ableton Live, Pro Tools, Final Cut Pro y cualquier otro software que acepte audio estándar. También puedes convertir a WAV o MP3 desde cualquiera de esas apps si necesitas un formato diferente más adelante.

Prueba SongSplit AI gratis. Disponible en Mac e iPhone.
App Store (Mac + iPhone)

Qué afecta la calidad de la separación

El modelo de IA está haciendo su mejor esfuerzo para desenredar dos señales que fueron mezcladas. Algunas grabaciones lo hacen más fácil que otras. Esto es lo que realmente mueve la aguja en la calidad del resultado.

Calidad del archivo fuente. La IA tiene más información para trabajar cuando le das un archivo sin pérdida o de alta tasa de bits. Un MP3 a 128 kbps ya descartó datos de audio significativos mediante compresión con pérdida. Puede que no notes una gran diferencia al escuchar casualmente, pero el modelo sí. Si tienes acceso a un FLAC o un MP3 a 256 kbps o más, úsalo.

Era de la grabación. Las grabaciones comerciales de pop y rock desde aproximadamente 1990 en adelante separan bien. Las grabaciones anteriores a mediados de los 80 a menudo usaban mezcla analógica que fusiona las señales de maneras más difíciles de revertir. Si trabajas con soul clásico o jazz antiguo, espera más sangrado.

Ubicación de la voz en la mezcla. Una voz principal que se destaca claramente en la mezcla, con espacio a su alrededor en el espectro de frecuencias, le da al modelo la señal más clara para trabajar. Las voces que están enterradas o compitiendo intensamente con otros instrumentos en el mismo rango de frecuencias producen resultados más turbios.

Reverb y delay en la voz. Las colas de reverb largas son la fuente más común de artefactos en el resultado. El modelo tiene que decidir si una reverberación decayente pertenece a la pista de voz o a la pista instrumental, y no siempre lo acierta. Las grabaciones secas separan con más limpieza. Las voces con mucho reverb dejarán algo de reverberación filtrándose en el instrumental.

Armonías de fondo. Una voz principal en solitario es sencilla. Las capas densas de voces de fondo son más difíciles, porque el modelo tiene que atribuir múltiples capas a la pista «vocal» mientras mantiene la instrumentación limpia. Puede que escuches fragmentos de voces de fondo apareciendo en la pista instrumental en canciones con armonías densas.

Patrones de género. El pop, rock, R&B y hip-hop de los últimos 30 años separan bien en la mayoría de los casos. Las grabaciones densas de jazz, donde un saxofón o piano puede ocupar exactamente el mismo rango de frecuencias que un vocalista, son genuinamente más difíciles. El hip-hop con muestras vocales muy procesadas o picadas puede ir de cualquier manera dependiendo de cómo esté procesada la muestra en la mezcla.

Qué puedes hacer con la voz extraída

Karaoke. La pista instrumental de una separación limpia es inmediatamente utilizable como pista de acompañamiento para karaoke. Reprodúcela desde tu teléfono a través de un altavoz Bluetooth, proyéctala en un televisor, o impórtala a GarageBand para hacer loops y cambios de tono. Para un recorrido detallado del flujo de trabajo de karaoke, consulta la guía sobre cómo hacer una pista de karaoke.

Práctica vocal. Los cantantes usan la pista instrumental para practicar con la producción real sin que la voz del artista original esté de por medio. Escuchas la banda real detrás de ti en lugar de una maqueta MIDI, y puedes aislar el fraseo y las elecciones de timing del original sin audio que compita.

Remixes y sampling. Los productores extraen pistas de voz para samplear frases, construir nuevas producciones alrededor de un a cappella, o mezclar la voz de una canción sobre un instrumental diferente. La pista de voz te da algo más cercano a un a cappella de lo que tendrías acceso normalmente para la mayoría de los temas comerciales.

Transcripción. Aislar la voz hace que las letras sean mucho más fáciles de escuchar, especialmente en pistas donde la voz está en una mezcla muy ocupada. Los instrumentos dejan de enmascarar las sílabas, y puedes desacelerar la pista de voz en tu DAW sin perder la referencia de tono.

Educación musical. Los estudiantes pueden escuchar la pista de voz en solitario para estudiar el fraseo, el vibrato, el control de la respiración y el arreglo vocal en aislamiento. Sacar los instrumentos te permite enfocarte en lo que el vocalista está haciendo realmente sin que la banda completa distraiga tu atención.

Preguntas frecuentes

¿Puedo extraer la voz de una canción de Spotify?

No. Los archivos de Spotify tienen DRM, lo que significa que están cifrados a nivel de archivo. Ninguna herramienta de extracción de voz puede procesarlos, porque los datos de audio reales no son legibles sin la clave de descifrado de Spotify. Necesitas un archivo sin DRM: un MP3, WAV, FLAC o M4A que hayas comprado o ripeado de un CD. Si tienes el CD del álbum, ripearlo con iTunes o una herramienta como XLD te da un FLAC sin DRM que puedes procesar.

¿Funciona la extracción de voz en todas las canciones?

Funciona en la gran mayoría de las grabaciones comerciales modernas, pero los resultados varían. Las canciones con una voz principal clara y destacada y una instrumentación bien definida separan limpiamente. Las canciones con mucho reverb en la voz, armonías de fondo densas, o grabaciones donde las frecuencias de voz e instrumental se superponen en gran medida tendrán más artefactos y sangrado. Previsualiza los resultados antes de exportar para saber con qué estás trabajando.

¿Cuál es la diferencia entre una pista de voz y un a cappella?

Un a cappella es la grabación vocal original aislada de la sesión, capturada antes de que se mezclara en la pista. Es limpia, sin sangrado instrumental. Una pista de voz extraída por IA es una estimación: la mejor suposición del modelo para separar la voz de una mezcla terminada. Para la mayoría de los propósitos creativos (sampling, práctica, karaoke), esa distinción no importa mucho. Para lanzamientos profesionales o cualquier cosa donde se requiera una limpieza clínica, un a cappella original de la sesión siempre sonará mejor.

¿Las voces extraídas sonarán perfectas?

No. Ninguna herramienta actual logra una separación perfecta en todas las grabaciones. Espera algo de sangrado en la cola de reverb, fragmentos ocasionales de instrumentos en la pista de voz, o fragmentos vocales en la pista instrumental. El grado del artefacto depende de la grabación. Para karaoke, práctica y usos de sampling, la calidad de las herramientas de IA actuales es más que funcional. Para trabajo de nivel de lanzamiento profesional, evalúa el resultado específico cuidadosamente antes de comprometerte.

¿Puedo extraer instrumentos individuales como batería, bajo o guitarra?

SongSplit AI se enfoca en la separación en dos pistas: vocal e instrumental. Aquí es donde la calidad de la separación por IA es consistentemente alta y útil. La separación completa en múltiples pistas (stems) que aísla instrumentos individuales es más difícil para el modelo, porque la batería, el bajo y la guitarra comparten un contenido de frecuencias significativo. Otras herramientas como LALAL.AI ofrecen extracción de múltiples pistas, pero la calidad por pista y el sangrado aumentan conforme separas en más pistas. Para trabajo en dos pistas en Mac con privacidad, SongSplit es la herramienta adecuada.

¿Funciona en iPhone y iPad?

Sí. SongSplit AI corre en iPhone y iPad usando la misma separación en el dispositivo, a partir del chip A12 (iPhone XS en adelante, y generaciones equivalentes de iPad). El flujo de trabajo es el mismo: importa desde la app Archivos, elige tu modo de calidad, procesa, exporta. No se necesita conexión a internet y nada sale de tu dispositivo.

Guías relacionadas

Si estás usando las pistas extraídas para un propósito específico, estas guías profundizan en cada caso de uso.

Para convertir la pista instrumental en una pista de karaoke terminada con el timing adecuado y ajustes de exportación, consulta cómo hacer una pista de karaoke.

Si eres nuevo en el concepto de pistas de audio (stems) y quieres entender qué son antes de trabajar con ellas, qué son las pistas de audio cubre los conceptos básicos.

Para una comparación lado a lado de apps eliminadoras de voz disponibles en Mac, incluyendo cómo se compara SongSplit con las herramientas en la nube en calidad y privacidad, consulta la mejor app eliminadora de voz para Mac.

¿Listo para separar canciones?

Descarga SongSplit AI y empieza a crear. Disponible para Mac, iPhone e iPad.

Descarga en la

App Store

Anterior Cómo hacer una pista de karaoke de cualquier canción

Volver al blog

Siguiente ¿Qué son las pistas de audio en música? Cómo obtener stems de cualquier canción