Handytool
Audio-Anleitung5 Min. LesezeitAktualisiert 30. März 2026

KI-Sprachentrennung

Extrahieren Sie saubere Stimmen aus lauten Aufnahmen — privat, in Ihrem Browser.

Der Stimmen-Isolator von Handytool kombiniert Multi-Pass-RNNoise-Rauschunterdrückung mit einem Voice-Activity-Gate, um Musik, Menschenmengen und Raumgeräusche aus MP3-, WAV- oder M4A-Dateien zu entfernen.

Wichtigste Erkenntnisse

  • 01Zweistufige Pipeline: Multi-Pass-Neural-Rauschunterdrückung plus Voice-Activity-Gate, das Nicht-Sprach-Frames stummschaltet.
  • 02Regler für Isolationsstärke und Anzahl der Durchläufe ermöglichen es Ihnen, zwischen natürlichem Klang und harter Isolation zu wählen.
  • 03Funktioniert am besten, wenn die Stimme lauter ist als die Hintergrundmusik oder Menschenmenge.
  • 04Die Ausgabe ist eine 48-kHz-Mono-WAV; nichts wird auf einen Server hochgeladen.

Wenn Sie mehr als Rauschunterdrückung benötigen

Standard-Rauschunterdrückung behandelt gleichmäßiges Hintergrundbrummen und Hum. Aber was ist mit einem Podcast-Gast, der in einem belebten Café aufgenommen wurde, einem Interview über einem Musikbett oder einer Rede bei einer Veranstaltung mit Menschenmenge? Wenn der Hintergrund laut, vielfältig oder musikalisch ist, reicht ein einzelner Rauschunterdrückungsdurchlauf nicht aus — Sie benötigen ein System, das auch erkennen kann, welche Teile des Audios Sprache sind, und alles andere stummschalten kann.

Der Stimmen-Isolator von Handytool führt eine zweistufige Pipeline aus: mehrere Durchläufe der RNNoise-Neural-Rauschunterdrückung zur Verschärfung des Rauschbodens, gefolgt von einem Voice-Activity-gesteuerten Gate, das Frames unterdrückt, die das Modell als Nicht-Sprache identifiziert. Das Ergebnis ist ein Track, bei dem Stille den Hintergrund zwischen Sätzen ersetzt, anstatt eine leisere Version des ursprünglichen Rauschens zu sein. Der gesamte Prozess läuft lokal in Ihrem Browser — kein Upload, kein Konto erforderlich.

So isolieren Sie eine Stimme aus Hintergrundgeräuschen

  1. 01

    Ziehen Sie Ihre Audiodatei hinein

    Ziehen Sie eine MP3-, WAV-, M4A-, OGG- oder FLAC-Datei in das Tool. Bis zu 200 MB werden akzeptiert.

  2. 02

    Legen Sie die Isolationsstärke fest

    Die Stärke steuert, wie aggressiv Nicht-Sprach-Frames gated werden. Beginnen Sie bei 70–80 für Podcasts oder Interviews; erhöhen Sie auf 90–100, um ein Musikbett oder Menschenmengen zu entfernen.

  3. 03

    Wählen Sie die Anzahl der Durchläufe

    Jeder zusätzliche Durchlauf der Neural-Rauschunterdrückung verschärft den Rauschabstand. Ein Durchlauf funktioniert bei leicht verrauschten Aufnahmen; zwei oder drei Durchläufe verbessern die Ergebnisse, wenn der Hintergrundlärm laut oder gemischt ist.

  4. 04

    Klicken Sie auf Isolieren und laden Sie herunter

    Die Pipeline läuft lokal in Ihrem Browser. Nach Abschluss laden Sie die isolierte Stimme als 48-kHz-Mono-WAV herunter.

Aufnahmen, die am meisten von Stimmen-Isolation profitieren

  • 01Podcast-Gäste, die in Cafés oder Restaurants aufgenommen wurden
  • 02Interviews, die auf Konferenzen oder Veranstaltungen mit Menschenmenge gefilmt wurden
  • 03Reden oder Präsentationen mit Musikbett darunter
  • 04Feldaufnahmen von draußen mit Wind und Verkehrslärm
  • 05Telefon- oder Videoanruf-Aufnahmen mit lauter Umgebung auf einer Seite

Ihr Audio wird lokal verarbeitet, nicht auf einem Server

Die Isolations-Pipeline ist ein 125-KB-WebAssembly-Modul, das einmal in Ihrem Browser geladen wird. Wenn Sie eine Datei hineinziehen, wird sie vollständig auf Ihrem eigenen Computer dekodiert und verarbeitet. Kein Audio wird auf einen Server gestreamt, kein Konto wird erstellt, und nichts wird beibehalten, nachdem Sie den Tab schließen.

Die Verarbeitungszeit hängt von der Anzahl der Durchläufe und der Dateigröße ab. Zwei Durchläufe bei einer 10-Minuten-Datei dauern auf einem modernen Laptop etwa zwei bis drei Minuten. Dateien bis zu 200 MB werden akzeptiert.

Häufig gestellte Fragen zum Stimmen-Isolator

Wie entferne ich Hintergrundmusik aus einer Stimmenaufnahme?

Ziehen Sie Ihre Datei in den Stimmen-Isolator, stellen Sie die Stärke auf 90–100 ein, wählen Sie zwei oder drei Durchläufe und klicken Sie auf Isolieren. Das Gate stummschaltet Nicht-Sprach-Frames; der Denoiser reduziert Musik, die während Wörtern durchblutet.

Wie unterscheidet sich dies vom Voice Enhancer?

Voice Enhancer führt einen einzelnen Rauschunterdrückungsdurchlauf für eine natürlich wirkende Bereinigung von gleichmäßigem Rauschen durch. Voice Isolator stapelt mehrere Durchläufe und fügt ein Voice-Activity-Gate hinzu, das alles außer Sprache stummschaltet — besser für Musik, Menschenmengen und vielfältiges Rauschen.

Was macht der Isolationsstärke-Schieberegler?

Er legt fest, wie aggressiv Nicht-Sprach-Frames gedämpft werden. Bei 0 ist das Gate locker; bei 100 wird alles, bei dem sich das Modell nicht sicher ist, dass es Sprache ist, zu Stille. 70–80 ist ein guter Ausgangspunkt für Podcasts, 90–100 für Musik- oder Menschenmengen-Entfernung.

Wird mein Audio auf einen Server hochgeladen?

Nein. Die Pipeline ist ein WebAssembly-Modul, das lokal auf Ihrer CPU läuft. Nichts verlässt Ihren Computer.

Welches Ausgabeformat erhalte ich?

Eine Mono-48-kHz-WAV in 16-Bit-PCM. Verwenden Sie das Audio-Konvertierungs-Tool, um als MP3 zu exportieren, wenn Sie eine kleinere Datei benötigen.

Wie lange kann die Aufnahme sein?

Bis zu 200 MB. Zwei Durchläufe verarbeiten mit etwa 3–5-facher Echtzeit auf einem modernen Laptop, sodass eine 10-Minuten-Aufnahme in zwei bis drei Minuten isoliert wird.

Verwandte Tools

Weiterarbeiten mit Audio-Tools

Audio-Tools