Handytool
AudioKostenlosLäuft lokal

Audio in Text umwandeln

Konvertiere Spracheingaben in jeder Sprache direkt im Browser in Text.

.mp3.wav.ogg.m4a.aac.flac.webm.opus
Sprache
Modell wird geladen…

Läuft vollständig im Browser.

oder

Über Audio in Text umwandeln

Lade eine Audiodatei hoch oder sprich direkt ins Mikrofon und erhalte ein schriftliches Transkript in der Sprache des Sprechers – ohne Upload zu Servern, ohne Konto, ohne App-Installation. Handytool führt OpenAIs Open-Source-Modell Whisper direkt im Browser aus und nutzt WebGPU für Beschleunigung. Deine Podcasts, Interviews, Sprachnachrichten, Vorlesungen und Besprechungsaufnahmen bleiben vollständig privat. Das Ergebnis kannst du als Textdatei, SRT-Untertiteldatei oder WebVTT-Datei für Videoplayer herunterladen.

Funktionen von Audio in Text umwandeln

  • 01

    99 Sprachen, automatisch erkannt

    Whisper erkennt die gesprochene Sprache und erstellt das Transkript in derselben Sprache – Spanisch bleibt Spanisch, Japanisch bleibt Japanisch, Deutsch bleibt Deutsch. Keine Sprachauswahl, keine zusätzlichen Einstellungen.

  • 02

    Datei hochladen oder live aufnehmen

    Lade eine MP3-, WAV-, M4A-, OGG-, FLAC- oder WebM-Datei hoch, oder klicke auf "Stimme aufnehmen", um Audio direkt vom Mikrofon zu erfassen. Stoppe die Aufnahme und das Transkript wird sofort erstellt.

  • 03

    Privat, nur im Browser verarbeitet

    Das Whisper-Modell wird einmalig in dein Browser-Cache heruntergeladen und läuft vollständig auf deinem Gerät mit WebGPU-Beschleunigung. Nichts wird hochgeladen – deine Audiodaten verlassen deinen Computer nicht.

FAQ zu Audio in Text umwandeln

Wie transkribiere ich eine Audiodatei?
Lade deine Audiodatei (MP3, WAV, M4A, OGG, FLAC oder WebM) hoch und klicke auf "Transkribieren". Beim ersten Ausführen wird das Sprachmodell heruntergeladen (~150 MB); danach läuft die Transkription lokal ohne Internetverbindung ab.
Kann ich mit meinem Mikrofon aufnehmen?
Ja. Klicke auf "Stimme aufnehmen", erlaube Mikrofon-Zugriff im Browser, sprich und klicke auf "Aufnahme beenden". Die erfasste Audio wird wie eine hochgeladene Datei behandelt und kann sofort transkribiert werden.
Welche Sprachen werden unterstützt?
Alle 99 Sprachen, die Whisper unterstützt – darunter Englisch, Spanisch, Mandarin, Französisch, Arabisch, Hindi, Deutsch, Russisch, Portugiesisch, Japanisch und viele mehr. Das Transkript bleibt in der gesprochenen Sprache.
Wie lange kann die Audio sein?
Dateien bis 200 MB werden akzeptiert. Lange Aufnahmen werden in 30-Sekunden-Blöcken mit 5-Sekunden-Überlappung verarbeitet, sodass ein einstündiger Podcast immer noch ein kohärentes Transkript ergibt. Die Verarbeitungsdauer hängt davon ab, ob dein Browser WebGPU unterstützt.
Wird die Audio zu einem Server hochgeladen?
Nein. Das Modell und deine Audio bleiben im Browser. Das Whisper-Modell wird einmalig von einem CDN heruntergeladen und zwischengespeichert, danach findet die Transkription vollständig auf dem Gerät mit WebGPU oder WebAssembly statt.
Kann ich Untertitel für ein Video erhalten?
Ja. Lade die .srt- oder .vtt-Datei herunter und importiere sie in deinen Video-Editor, oder laden sie als Untertitel-Spur auf YouTube und anderen Plattformen hoch. Jede Zeile enthält den Zeitstempel-Bereich, den Whisper erkannt hat.

Verwandte Werkzeuge

Audio

Weitere Tools entdecken

Alle Werkzeuge