2026年5月22日
如何从歌曲中提取人声:方法、步骤与注意事项
在 Mac 或 iPhone 上从任意歌曲中提取人声的完整指南。涵盖基于 AI 的方法、分步操作流程、质量优化技巧及常见问题解答。
本指南涵盖从歌曲中提取人声的所有实用方法,重点介绍可保护文件隐私的 Mac 原生方案。读完之后,您将了解哪种方法适合自己的情况、需要经过哪些步骤、哪些因素影响输出质量,以及拿到音轨/stems 后能用来做什么。
从歌曲中提取人声的三种方式
在设备上运行的基于 AI 的应用
这是 2026 年 Mac 用户的最佳选择。设备端 AI 应用使用训练好的音频源分离模型,完全在本机运行。文件永远不会离开您的 Mac,无需账号,处理速度快——因为现代 Apple Silicon 芯片内置了专为此类计算任务设计的专用硬件。
设备端 AI 的输出质量与大多数云端工具的付费套餐相当,甚至更优。输出为两条音轨/stems:人声音轨和伴奏音轨。质量因录音而异,但对于现代商业音乐,结果完全可用于采样、混音、练习和卡拉 OK。
SongSplit AI 是该类别中面向 Mac 和 iPhone 的主要应用。它是一次性购买,支持离线使用,并支持 macOS 可以播放的所有无 DRM 音频格式。
基于云端的网页工具
如果您只需要快速得到结果,并且处理的内容不涉及敏感信息,网页工具使用起来很方便。使用最广泛的有 vocalremover.org、LALAL.AI 和 AudioStrip。您上传文件,其服务器处理,然后下载分离好的音轨/stems。
权衡是真实存在的:您的音频文件会传至他人服务器,免费套餐有文件大小和时长限制,处理速度取决于其服务器负载,而完整质量往往需要订阅。如果您处理的是未发布的音乐、客户录音,或任何不希望与第三方共享的内容,云端工具并不是合适的选择。
话虽如此,如果只是对某首歌做一次性测试,网页工具无需安装任何软件就能快速搞定。
Audacity 中的相位消除
Audacity 内置了一个"人声降低与提取"效果,使用的是相位消除技术。其原理是:在某些立体声录音中,主人声被精确地居中声像,即在左右声道中以完全相同的形式出现。将一个声道反相后与另一声道混合,居中声像的内容就会相互抵消。
这一技术有真实的局限性。它只在人声严格居中声像时有效,这一点在部分较老的录音中成立,但在现代音乐中远非普遍。即便有效,结果也往往听起来空洞而人工感强:与人声共享频率空间的乐器也会被衰减,留下单薄、带梳状滤波感的声音。相位消除这一技术值得了解,但大多数 Mac 用户从基于 AI 的工具中能得到明显更好的结果。如果您感兴趣,Audacity 是免费的,该效果只需 30 秒即可尝试。
为什么设备端 AI 在 Mac 上能产生更好的结果
自 2020 年底起,每一台 Mac 都内置了 Apple Neural Engine。这是同一个专用处理器,负责处理 Face ID、计算摄影和 Siri 语音识别。音频源分离模型非常适合这一硬件:Neural Engine 以低功耗高效运行矩阵运算,意味着处理速度快,且不会让风扇狂转。
与云端工具相比,设备端 AI 的质量优势源自处理过程中"不发生"的事情。当您将文件上传至网页工具时,您是在通过网络发送压缩或转码过的音频。对方服务器上的 AI 处理的是接收到的内容。而在设备端,模型直接处理您的原始文件,无任何中间编码步骤。对于高码率的音源,这种差异是可以听出来的。
此外,也没有网络延迟。在 M3 Mac 上,一首 4 分钟的歌曲处理时间约为 30 至 60 秒,取决于您选择的质量模式。服务器负载较重的云端工具,光是排队就可能花费更长时间。
如何在 Mac 上使用 SongSplit AI 提取人声
系统要求: 运行 macOS 14 Sonoma 或更高版本的 Apple Silicon Mac(M1 或更新型号)。在 iPhone 和 iPad 上,需要 iOS 17 或更高版本以及 A12 芯片或更新型号。这覆盖了 iPhone XS 及之后的所有 iPhone,以及所有现行 iPad 型号。
下载选项:Mac 和 iPhone 版 App Store 或 Mac 直接下载(如果您希望绕过 App Store)。
第一步:获取无 DRM 的音频文件
无 DRM 意味着文件没有加密版权保护。您从 iTunes、Bandcamp 或 Amazon Music 购买的 MP3、WAV、FLAC、AIFF 和 M4A 文件均无 DRM。CD 翻录文件同样无 DRM。这些格式均可使用。
Spotify 和 Apple Music 的流媒体文件受 DRM 保护,以加密方式存储,任何工具(包括 SongSplit)都无法处理。如果您想处理流媒体服务中的曲目,需要单独购买或获取该歌曲的无 DRM 版本。
第二步:导入文件
将文件拖入 SongSplit 窗口,或使用"文件 > 打开"。波形会立即加载。由于没有任何上传操作,等待时间与您的网络连接无关。
第三步:选择质量模式
SongSplit 提供两种模式。快速模式提供快捷预览,适合在多首曲目中快速试听哪些分离效果较好。质量模式运行更彻底的处理,产生明显更干净的分离结果,尤其对编曲复杂的录音效果更佳。对于计划在 DAW 中使用或以任何形式发布的内容,请使用质量模式。
第四步:执行分离
点击"分离"按钮。Apple Neural Engine 在本地处理计算。在搭载 M 系列芯片的 Mac 上,一首典型的 3 至 4 分钟歌曲在快速模式下通常不到一分钟完成,质量模式下约需 1 至 2 分钟。处理过程中,您将看到波形分裂为人声音轨和伴奏音轨。
第五步:预览结果
导出前,在人声音轨和伴奏音轨之间切换并仔细聆听整首曲目。重点关注人声的混响尾音、叠加了和声的副歌部分,以及暴露的纯乐器段落。这是您判断是否存在明显串音、进而影响音轨可用性的关键环节。
第六步:导出
保存人声音轨、伴奏音轨或两者均保存。文件以 M4A 格式导出,与 Logic Pro、GarageBand、Ableton Live、Pro Tools、Final Cut Pro 以及任何支持标准音频的软件兼容。如果后续流程需要其他格式,您也可以在上述任一应用中将其转换为 WAV 或 MP3。
影响分离质量的因素
AI 模型尽力解开两个混合在一起的信号。某些录音让这一工作更容易,某些则更难。以下是真正影响输出质量的关键因素。
源文件质量。 当您提供无损或高码率文件时,AI 拥有更多信息可供处理。128 kbps 的 MP3 已通过有损压缩丢弃了大量音频数据。日常聆听时您可能感受不到太大差异,但模型是能感知到的。如果您能获取 FLAC 或 256 kbps 以上的 MP3,请使用它。
录音年代。 大约 1990 年以后的商业流行和摇滚录音通常分离效果良好。80 年代中期之前的录音往往使用模拟混音,以难以逆向的方式融合信号。如果您处理的是经典灵魂乐或较老的爵士乐,预计会有更多串音。
人声在混音中的位置。 在混音中清晰突出、频率空间充裕的主人声,能为模型提供最清晰的信号。被埋没或与其他乐器在相同频率范围内激烈竞争的人声,会产生更模糊的结果。
人声上的混响和延迟。 长混响尾音是输出中最常见的瑕疵来源。模型需要判断衰减的混响余韵属于人声音轨还是伴奏音轨,而它并非总能做出正确判断。干声录音分离最干净。混响较重的人声会在伴奏中留下一些余韵串入。
背景和声。 单一主人声处理起来相对简单。密集叠加的背景和声则更难,因为模型需要将多个层次归入"人声"音轨,同时保持乐器部分的干净。和声丰厚的歌曲中,伴奏音轨里可能会出现一些背景人声碎片。
音乐类型规律。 过去 30 年的流行、摇滚、R&B 和嘻哈在大多数情况下分离效果良好。密集的爵士录音——萨克斯风或钢琴可能与歌手占据完全相同的频率范围——确实更难处理。采用大量音高处理或切断人声采样的嘻哈,结果因混音中采样的处理方式而异。
提取人声后能做什么
卡拉 OK。 干净分离所得的伴奏音轨可以直接用作卡拉 OK 伴奏。从手机通过蓝牙音箱播放,投屏至电视,或导入 GarageBand 用于循环和变调。关于卡拉 OK 工作流程的详细说明,请参阅如何制作卡拉 OK 伴奏。
人声练习。 歌手使用伴奏音轨在真实编曲中练习演唱,而无需原唱人声干扰。您听到的是真实乐队伴奏,而非 MIDI 模拟,并且可以在没有竞争音频的情况下单独研究原唱的乐句处理和时值把握。
混音与采样。 制作人提取人声音轨,用于采样片段、围绕清唱构建新的编曲,或将一首歌的人声叠加到不同的伴奏之上。人声音轨让您能获得接近清唱(a cappella)的素材,这在大多数商业曲目中通常无法轻易获得。
歌词转录。 单独提取人声使歌词更容易听清,尤其是在人声埋于密集混音中的曲目里。乐器不再遮蔽音节,您还可以在 DAW 中减慢人声音轨速度而不失去音高参考。
音乐教育。 学生可以单独聆听人声音轨,在不受整支乐队吸引注意力的情况下研究乐句处理、颤音、呼吸控制和人声编排。将乐器剥离出去,让您专注于歌手实际在做什么。
常见问题
我能从 Spotify 的歌曲中提取人声吗?
不能。Spotify 文件受 DRM 保护,即在文件级别进行了加密。没有任何人声提取工具能处理它们,因为没有 Spotify 的解密密钥,实际音频数据是无法读取的。您需要一个无 DRM 的文件:您购买或从 CD 翻录的 MP3、WAV、FLAC 或 M4A。如果您拥有该专辑的 CD,使用 iTunes 或 XLD 等工具翻录可获得可供处理的无 DRM FLAC 文件。
人声提取对所有歌曲都有效吗?
它适用于绝大多数现代商业录音,但结果因曲而异。主人声清晰突出、乐器部分界定分明的歌曲分离效果干净。人声混响较重、背景和声密集,或人声与乐器频率大量重叠的录音,会有更多瑕疵和串音。导出前请预览结果,了解实际情况。
人声音轨和清唱(a cappella)有什么区别?
清唱(a cappella)是来自录音棚的原始独立人声录音,在混入曲目之前就已录制好。它是干净的,没有任何乐器串音。AI 提取的人声音轨是一种估算:模型对从混音成品中分离人声的最佳猜测。对于大多数创意用途(采样、练习、卡拉 OK),这种区别并不重要。但如果用于专业发行或需要极度干净的内容,来自录音棚的原始清唱始终会听起来更好。
提取的人声会完美吗?
不会。目前没有任何工具能在每一首录音上实现完美分离。预计会有一些混响尾音串入、偶尔的乐器碎片出现在人声音轨中,或人声碎片出现在伴奏音轨中。瑕疵程度取决于录音本身。对于卡拉 OK、练习和采样等用途,目前 AI 工具的质量完全可用。对于需要达到专业发行水准的工作,在确定使用前请仔细评估具体输出。
我可以单独提取鼓组、贝斯或吉他等乐器吗?
SongSplit AI 专注于两轨分离:人声和伴奏。这是 AI 分离质量持续稳定且实用的领域。将各个乐器单独分离的完整多轨分离对模型而言更难,因为鼓组、贝斯和吉他在频率内容上存在大量重叠。LALAL.AI 等其他工具提供多轨提取功能,但拆分出的音轨越多,每条音轨的质量和串音也会增加。对于需要在 Mac 上进行两轨处理且注重隐私保护的需求,SongSplit 是正确的选择。
这在 iPhone 和 iPad 上也能用吗?
可以。SongSplit AI 在 iPhone 和 iPad 上运行,同样使用设备端分离,从 A12 芯片(iPhone XS 及更新型号,以及对应的 iPad 世代)起支持。工作流程完全相同:从"文件"应用导入,选择质量模式,处理,导出。全程无需网络连接,文件不会离开您的设备。
相关指南
如果您希望将提取的音轨/stems 用于特定目的,以下指南对每种应用场景有更深入的介绍。
关于将伴奏音轨制作成完整卡拉 OK 伴奏(含时值调整和导出设置),请参阅如何制作卡拉 OK 伴奏。
如果您对音频 stems 的概念还不熟悉,想在动手之前先了解它们是什么,什么是音频 Stems 是很好的入门起点。
关于 Mac 上可用的人声消除应用横向对比,包括 SongSplit 在质量和隐私方面与云端工具的比较,请参阅Mac 最佳人声消除应用。