Handytool
Guia de áudio5 min de leituraAtualizado 30 de mar. de 2026

Separação de voz com IA

Extraia voz limpa de gravações ruidosas — de forma privada, no seu navegador.

O isolador de voz do Handytool combina denoising multi-passagem RNNoise com um gate de detecção de voz para remover música, ruído de multidão e som ambiente de qualquer arquivo MP3, WAV ou M4A.

Pontos-chave

  • 01Pipeline de dois estágios: denoising neural multi-passagem mais um gate de detecção de voz que silencia quadros não-fala.
  • 02Controles de força de isolamento e número de passagens permitem ajustar entre som natural e isolamento agressivo.
  • 03Funciona melhor quando a voz é mais alta que a música de fundo ou ruído de multidão.
  • 04A saída é um WAV mono de 48 kHz; nada é enviado para nenhum servidor.

Quando Você Precisa de Mais que Redução de Ruído

A redução de ruído padrão lida com zumbido e chiado de fundo constante. Mas e quanto a um convidado de podcast gravado em um café movimentado, uma entrevista feita sobre uma base musical, ou um discurso filmado em um evento lotado? Quando o fundo é alto, variado ou musical, uma única passagem de denoising não é suficiente — você precisa de um sistema que também possa identificar quais partes do áudio são fala e silenciar tudo o mais.

O isolador de voz do Handytool executa um pipeline de dois estágios: múltiplas passagens de denoising neural RNNoise para apertar o piso de ruído, seguidas por um gate acionado por detecção de atividade de voz que suprime quadros que o modelo identifica como não-fala. O resultado é uma faixa onde o silêncio substitui o fundo entre frases, em vez de uma versão mais silenciosa do ruído original. Todo o processo funciona localmente no seu navegador — sem upload, sem conta necessária.

Como Isolar uma Voz do Ruído de Fundo

  1. 01

    Solte seu arquivo de áudio

    Arraste um arquivo MP3, WAV, M4A, OGG ou FLAC para a ferramenta. Até 200 MB são aceitos.

  2. 02

    Defina a força de isolamento

    A força controla o quão agressivamente os quadros não-voz são silenciados. Comece em 70–80 para podcasts ou entrevistas; aumente para 90–100 para remover uma base musical ou ruído de multidão.

  3. 03

    Escolha o número de passagens

    Cada passagem adicional de denoising neural aperta o piso de ruído. Uma passagem funciona para gravações levemente ruidosas; duas ou três passagens melhoram os resultados quando o ruído de fundo é alto ou misturado.

  4. 04

    Clique em Isolar e baixe

    O pipeline funciona localmente no seu navegador. Quando terminar, baixe a voz isolada como um WAV mono de 48 kHz.

Gravações que Mais se Beneficiam do Isolamento de Voz

  • 01Convidados de podcast gravados em cafés ou restaurantes
  • 02Entrevistas filmadas em conferências ou eventos com ruído de multidão
  • 03Discursos ou apresentações com uma base musical por baixo
  • 04Gravações de campo ao ar livre com vento e tráfego
  • 05Gravações de chamadas telefônicas ou videochamadas com ambientes ruidosos de um lado

Seu Áudio é Processado Localmente, Não em um Servidor

O pipeline de isolamento é um módulo WebAssembly de 125 KB carregado uma vez no seu navegador. Quando você solta um arquivo, ele é decodificado e processado inteiramente na sua máquina. Nenhum áudio é transmitido para um servidor, nenhuma conta é criada, e nada é retido após você fechar a aba.

O tempo de processamento depende do número de passagens e da duração do arquivo. Duas passagens em um arquivo de 10 minutos levam aproximadamente dois a três minutos em um laptop moderno. Arquivos de até 200 MB são aceitos.

Perguntas Frequentes do Isolador de Voz

Como faço para remover música de fundo de uma gravação de voz?

Solte seu arquivo no Isolador de Voz, defina a força para 90–100, escolha duas ou três passagens e clique em Isolar. O gate silencia quadros não-fala; o denoiser reduz a música que vaza durante as palavras.

Como isso é diferente do Aprimorador de Voz?

O Aprimorador de Voz faz uma única passagem de denoising para uma limpeza com sensação natural de ruído constante. O Isolador de Voz empilha múltiplas passagens e adiciona um gate de detecção de atividade de voz que silencia qualquer coisa fora da fala — melhor para música, multidões e ruído variado.

O que o controle deslizante de força de isolamento faz?

Define o quão agressivamente os quadros não-voz são atenuados. Em 0 o gate é solto; em 100 qualquer coisa que o modelo não tem certeza de ser voz vai para silêncio. 70–80 é um bom ponto de partida para podcasts, 90–100 para remoção de música ou multidão.

Meu áudio é enviado para um servidor?

Não. O pipeline é um módulo WebAssembly que funciona localmente na sua CPU. Nada sai do seu computador.

Que formato de saída recebo?

Um WAV mono de 48 kHz em PCM de 16 bits. Use a ferramenta Converter áudio para exportar como MP3 se precisar de um arquivo menor.

Qual é o tamanho máximo da gravação?

Até 200 MB. Duas passagens processam em aproximadamente 3–5 vezes o tempo real em um laptop moderno, então uma gravação de 10 minutos é isolada em dois a três minutos.

Ferramentas relacionadas

Continua a trabalhar com ferramentas de Áudio

ferramentas de Áudio