Wichtigste Erkenntnisse
- 01Zweistufige Pipeline: Multi-Pass-Neural-Rauschunterdrückung plus Voice-Activity-Gate, das Nicht-Sprach-Frames stummschaltet.
- 02Regler für Isolationsstärke und Anzahl der Durchläufe ermöglichen es Ihnen, zwischen natürlichem Klang und harter Isolation zu wählen.
- 03Funktioniert am besten, wenn die Stimme lauter ist als die Hintergrundmusik oder Menschenmenge.
- 04Die Ausgabe ist eine 48-kHz-Mono-WAV; nichts wird auf einen Server hochgeladen.
Wenn Sie mehr als Rauschunterdrückung benötigen
Standard-Rauschunterdrückung behandelt gleichmäßiges Hintergrundbrummen und Hum. Aber was ist mit einem Podcast-Gast, der in einem belebten Café aufgenommen wurde, einem Interview über einem Musikbett oder einer Rede bei einer Veranstaltung mit Menschenmenge? Wenn der Hintergrund laut, vielfältig oder musikalisch ist, reicht ein einzelner Rauschunterdrückungsdurchlauf nicht aus — Sie benötigen ein System, das auch erkennen kann, welche Teile des Audios Sprache sind, und alles andere stummschalten kann.
Der Stimmen-Isolator von Handytool führt eine zweistufige Pipeline aus: mehrere Durchläufe der RNNoise-Neural-Rauschunterdrückung zur Verschärfung des Rauschbodens, gefolgt von einem Voice-Activity-gesteuerten Gate, das Frames unterdrückt, die das Modell als Nicht-Sprache identifiziert. Das Ergebnis ist ein Track, bei dem Stille den Hintergrund zwischen Sätzen ersetzt, anstatt eine leisere Version des ursprünglichen Rauschens zu sein. Der gesamte Prozess läuft lokal in Ihrem Browser — kein Upload, kein Konto erforderlich.
So isolieren Sie eine Stimme aus Hintergrundgeräuschen
- 01
Ziehen Sie Ihre Audiodatei hinein
Ziehen Sie eine MP3-, WAV-, M4A-, OGG- oder FLAC-Datei in das Tool. Bis zu 200 MB werden akzeptiert.
- 02
Legen Sie die Isolationsstärke fest
Die Stärke steuert, wie aggressiv Nicht-Sprach-Frames gated werden. Beginnen Sie bei 70–80 für Podcasts oder Interviews; erhöhen Sie auf 90–100, um ein Musikbett oder Menschenmengen zu entfernen.
- 03
Wählen Sie die Anzahl der Durchläufe
Jeder zusätzliche Durchlauf der Neural-Rauschunterdrückung verschärft den Rauschabstand. Ein Durchlauf funktioniert bei leicht verrauschten Aufnahmen; zwei oder drei Durchläufe verbessern die Ergebnisse, wenn der Hintergrundlärm laut oder gemischt ist.
- 04
Klicken Sie auf Isolieren und laden Sie herunter
Die Pipeline läuft lokal in Ihrem Browser. Nach Abschluss laden Sie die isolierte Stimme als 48-kHz-Mono-WAV herunter.
Aufnahmen, die am meisten von Stimmen-Isolation profitieren
- 01Podcast-Gäste, die in Cafés oder Restaurants aufgenommen wurden
- 02Interviews, die auf Konferenzen oder Veranstaltungen mit Menschenmenge gefilmt wurden
- 03Reden oder Präsentationen mit Musikbett darunter
- 04Feldaufnahmen von draußen mit Wind und Verkehrslärm
- 05Telefon- oder Videoanruf-Aufnahmen mit lauter Umgebung auf einer Seite
Ihr Audio wird lokal verarbeitet, nicht auf einem Server
Die Isolations-Pipeline ist ein 125-KB-WebAssembly-Modul, das einmal in Ihrem Browser geladen wird. Wenn Sie eine Datei hineinziehen, wird sie vollständig auf Ihrem eigenen Computer dekodiert und verarbeitet. Kein Audio wird auf einen Server gestreamt, kein Konto wird erstellt, und nichts wird beibehalten, nachdem Sie den Tab schließen.
Die Verarbeitungszeit hängt von der Anzahl der Durchläufe und der Dateigröße ab. Zwei Durchläufe bei einer 10-Minuten-Datei dauern auf einem modernen Laptop etwa zwei bis drei Minuten. Dateien bis zu 200 MB werden akzeptiert.
Häufig gestellte Fragen zum Stimmen-Isolator
Wie entferne ich Hintergrundmusik aus einer Stimmenaufnahme?
Ziehen Sie Ihre Datei in den Stimmen-Isolator, stellen Sie die Stärke auf 90–100 ein, wählen Sie zwei oder drei Durchläufe und klicken Sie auf Isolieren. Das Gate stummschaltet Nicht-Sprach-Frames; der Denoiser reduziert Musik, die während Wörtern durchblutet.
Wie unterscheidet sich dies vom Voice Enhancer?
Voice Enhancer führt einen einzelnen Rauschunterdrückungsdurchlauf für eine natürlich wirkende Bereinigung von gleichmäßigem Rauschen durch. Voice Isolator stapelt mehrere Durchläufe und fügt ein Voice-Activity-Gate hinzu, das alles außer Sprache stummschaltet — besser für Musik, Menschenmengen und vielfältiges Rauschen.
Was macht der Isolationsstärke-Schieberegler?
Er legt fest, wie aggressiv Nicht-Sprach-Frames gedämpft werden. Bei 0 ist das Gate locker; bei 100 wird alles, bei dem sich das Modell nicht sicher ist, dass es Sprache ist, zu Stille. 70–80 ist ein guter Ausgangspunkt für Podcasts, 90–100 für Musik- oder Menschenmengen-Entfernung.
Wird mein Audio auf einen Server hochgeladen?
Nein. Die Pipeline ist ein WebAssembly-Modul, das lokal auf Ihrer CPU läuft. Nichts verlässt Ihren Computer.
Welches Ausgabeformat erhalte ich?
Eine Mono-48-kHz-WAV in 16-Bit-PCM. Verwenden Sie das Audio-Konvertierungs-Tool, um als MP3 zu exportieren, wenn Sie eine kleinere Datei benötigen.
Wie lange kann die Aufnahme sein?
Bis zu 200 MB. Zwei Durchläufe verarbeiten mit etwa 3–5-facher Echtzeit auf einem modernen Laptop, sodass eine 10-Minuten-Aufnahme in zwei bis drei Minuten isoliert wird.