Handytool
音频指南5 分钟阅读更新于 2026年3月30日

人工智能语音分离

从嘈杂的录音中提取干净的语音——私密地在您的浏览器中。

Handytool的语音隔离器堆叠多遍RNNoise降噪和语音活动门,从任何MP3、WAV或M4A文件中去除音乐、人群和房间声音。

要点

  • 01两阶段管道:多遍神经降噪加上语音活动门,使非语音帧沉默。
  • 02隔离强度和遍数的控制让您在自然听起来和硬隔离之间调整。
  • 03当语音比背景音乐或人群噪音更响亮时效果最佳。
  • 04输出为48 kHz单声道WAV;不上传到任何服务器。

当您需要的不仅仅是降噪时

标准降噪处理稳定的背景嘶嘶声和嗡鸣。但是繁忙咖啡馆中录制的播客嘉宾呢?在音乐床上进行的访谈呢?在拥挤活动中拍摄的演讲呢?当背景很大声、多样或有音乐特征时,单一的降噪通道是不够的——您需要一个系统,它也能识别音频的哪些部分是语音,并使其他一切沉默。

Handytool的语音隔离器运行两阶段管道:多遍RNNoise神经降噪以紧缩噪声下限,然后是语音活动驱动的门,它抑制模型识别为非语音的帧。结果是一条音轨,其中沉默在短语之间替代背景,而不是原始噪音的更安静版本。整个过程在您的浏览器中本地运行——无需上传、无需账户。

如何从背景噪音中隔离语音

  1. 01

    拖入您的音频文件

    将MP3、WAV、M4A、OGG或FLAC文件拖入工具。接受最多200 MB。

  2. 02

    设置隔离强度

    强度控制非语音帧被门控的积极程度。从70-80开始用于播客或访谈;推至90-100以去除音乐床或人群噪音。

  3. 03

    选择遍数

    每额外的神经降噪遍数都会紧缩噪声下限。一遍适用于轻度嘈杂的录音;当背景噪音很大或混合时,两遍或三遍会改善结果。

  4. 04

    点击隔离并下载

    管道在您的浏览器中本地运行。完成后,将隔离的语音下载为48 kHz单声道WAV。

最受益于语音隔离的录音

  • 01在咖啡馆或餐厅录制的播客嘉宾
  • 02在会议或带人群噪音的活动中拍摄的访谈
  • 03下面有音乐床的演讲或演示
  • 04来自户外风和交通的现场录音
  • 05一端环境嘈杂的电话或视频通话录音

您的音频在本地处理,不在服务器上

隔离管道是在您的浏览器中加载一次的125 KB WebAssembly模块。当您拖入文件时,它会完全在您自己的机器上解码和处理。没有音频流传到服务器,没有创建账户,关闭标签页后不保留任何内容。

处理时间取决于遍数和文件长度。在现代笔记本电脑上,10分钟文件的两遍大约需要两到三分钟。接受最多200 MB的文件。

语音隔离器常见问题

我如何从语音录音中去除背景音乐?

将您的文件拖入语音隔离器,将强度设置为90-100,选择两遍或三遍,然后点击隔离。门使非语音帧沉默;降噪器在单词中拉下音乐渗漏。

这与语音增强器有何不同?

语音增强器进行单遍降噪以获得自然感受的稳定噪音清理。语音隔离器堆叠多遍并添加语音活动门,使所有非语音的东西沉默——更适合音乐、人群和多样噪音。

隔离强度滑块有什么作用?

它设置非语音帧被衰减的积极程度。在0处门是松散的;在100处模型不自信是语音的任何东西都进入沉默。70-80是播客的好起点,90-100用于音乐或人群去除。

我的音频会上传到服务器吗?

不会。管道是在您的CPU上本地运行的WebAssembly模块。没有任何东西离开您的计算机。

我得到什么输出格式?

单声道48 kHz 16位PCM WAV。如果您需要更小的文件,使用转换音频工具导出为MP3。

录音最长可以多久?

最多200 MB。两遍在现代笔记本电脑上大约以实时的3-5倍处理,所以10分钟的录音在两到三分钟内隔离。

相关工具

继续使用 音频 工具

音频 工具