Wie transkribiere ich eine Audiodatei?

Lade deine Audiodatei (MP3, WAV, M4A, OGG, FLAC oder WebM) hoch und klicke auf "Transkribieren". Beim ersten Ausführen wird das Sprachmodell heruntergeladen (~150 MB); danach läuft die Transkription lokal ohne Internetverbindung ab.

Kann ich mit meinem Mikrofon aufnehmen?

Ja. Klicke auf "Stimme aufnehmen", erlaube Mikrofon-Zugriff im Browser, sprich und klicke auf "Aufnahme beenden". Die erfasste Audio wird wie eine hochgeladene Datei behandelt und kann sofort transkribiert werden.

Welche Sprachen werden unterstützt?

Alle 99 Sprachen, die Whisper unterstützt – darunter Englisch, Spanisch, Mandarin, Französisch, Arabisch, Hindi, Deutsch, Russisch, Portugiesisch, Japanisch und viele mehr. Das Transkript bleibt in der gesprochenen Sprache.

Wie lange kann die Audio sein?

Dateien bis 200 MB werden akzeptiert. Lange Aufnahmen werden in 30-Sekunden-Blöcken mit 5-Sekunden-Überlappung verarbeitet, sodass ein einstündiger Podcast immer noch ein kohärentes Transkript ergibt. Die Verarbeitungsdauer hängt davon ab, ob dein Browser WebGPU unterstützt.

Wird die Audio zu einem Server hochgeladen?

Nein. Das Modell und deine Audio bleiben im Browser. Das Whisper-Modell wird einmalig von einem CDN heruntergeladen und zwischengespeichert, danach findet die Transkription vollständig auf dem Gerät mit WebGPU oder WebAssembly statt.

Kann ich Untertitel für ein Video erhalten?

Ja. Lade die .srt- oder .vtt-Datei herunter und importiere sie in deinen Video-Editor, oder laden sie als Untertitel-Spur auf YouTube und anderen Plattformen hoch. Jede Zeile enthält den Zeitstempel-Bereich, den Whisper erkannt hat.

AudioKostenlosLäuft lokal

Audio in Text umwandeln

Konvertiere Spracheingaben in jeder Sprache direkt im Browser in Text.

.mp3.wav.ogg.m4a.aac.flac.webm.opus

Sprache

Modell wird geladen…

Läuft vollständig im Browser.

Audiodatei hier ablegen

MP3 · WAV · OGG · M4A · FLAC · WebM · max. 200 MB

Beim ersten Start werden ~150 MB heruntergeladen; danach zwischengespeichert.

Datei wählen

oder

Über Audio in Text umwandeln

Lade eine Audiodatei hoch oder sprich direkt ins Mikrofon und erhalte ein schriftliches Transkript in der Sprache des Sprechers – ohne Upload zu Servern, ohne Konto, ohne App-Installation. Handytool führt OpenAIs Open-Source-Modell Whisper direkt im Browser aus und nutzt WebGPU für Beschleunigung. Deine Podcasts, Interviews, Sprachnachrichten, Vorlesungen und Besprechungsaufnahmen bleiben vollständig privat. Das Ergebnis kannst du als Textdatei, SRT-Untertiteldatei oder WebVTT-Datei für Videoplayer herunterladen.

Funktionen von Audio in Text umwandeln

01
99 Sprachen, automatisch erkannt
Whisper erkennt die gesprochene Sprache und erstellt das Transkript in derselben Sprache – Spanisch bleibt Spanisch, Japanisch bleibt Japanisch, Deutsch bleibt Deutsch. Keine Sprachauswahl, keine zusätzlichen Einstellungen.
02
Datei hochladen oder live aufnehmen
Lade eine MP3-, WAV-, M4A-, OGG-, FLAC- oder WebM-Datei hoch, oder klicke auf "Stimme aufnehmen", um Audio direkt vom Mikrofon zu erfassen. Stoppe die Aufnahme und das Transkript wird sofort erstellt.
03
Privat, nur im Browser verarbeitet
Das Whisper-Modell wird einmalig in dein Browser-Cache heruntergeladen und läuft vollständig auf deinem Gerät mit WebGPU-Beschleunigung. Nichts wird hochgeladen – deine Audiodaten verlassen deinen Computer nicht.

FAQ zu Audio in Text umwandeln

Wie transkribiere ich eine Audiodatei?: Lade deine Audiodatei (MP3, WAV, M4A, OGG, FLAC oder WebM) hoch und klicke auf "Transkribieren". Beim ersten Ausführen wird das Sprachmodell heruntergeladen (~150 MB); danach läuft die Transkription lokal ohne Internetverbindung ab.
Kann ich mit meinem Mikrofon aufnehmen?: Ja. Klicke auf "Stimme aufnehmen", erlaube Mikrofon-Zugriff im Browser, sprich und klicke auf "Aufnahme beenden". Die erfasste Audio wird wie eine hochgeladene Datei behandelt und kann sofort transkribiert werden.
Welche Sprachen werden unterstützt?: Alle 99 Sprachen, die Whisper unterstützt – darunter Englisch, Spanisch, Mandarin, Französisch, Arabisch, Hindi, Deutsch, Russisch, Portugiesisch, Japanisch und viele mehr. Das Transkript bleibt in der gesprochenen Sprache.
Wie lange kann die Audio sein?: Dateien bis 200 MB werden akzeptiert. Lange Aufnahmen werden in 30-Sekunden-Blöcken mit 5-Sekunden-Überlappung verarbeitet, sodass ein einstündiger Podcast immer noch ein kohärentes Transkript ergibt. Die Verarbeitungsdauer hängt davon ab, ob dein Browser WebGPU unterstützt.
Wird die Audio zu einem Server hochgeladen?: Nein. Das Modell und deine Audio bleiben im Browser. Das Whisper-Modell wird einmalig von einem CDN heruntergeladen und zwischengespeichert, danach findet die Transkription vollständig auf dem Gerät mit WebGPU oder WebAssembly statt.
Kann ich Untertitel für ein Video erhalten?: Ja. Lade die .srt- oder .vtt-Datei herunter und importiere sie in deinen Video-Editor, oder laden sie als Untertitel-Spur auf YouTube und anderen Plattformen hoch. Jede Zeile enthält den Zeitstempel-Bereich, den Whisper erkannt hat.

Anleitungen

Artikel →

5 Min.
Audio-Anleitung
Audio transkribieren – online und kostenlos
Wandle Sprachmemos, Interviews und Aufnahmen zu durchsuchbarem Text direkt im Browser mit lokaler Spracherkennung um.
Aktualisiert 1. Mai 2026Lesen

Weitere Tools entdecken

Alle Werkzeuge →

Audio in Text umwandeln

Über Audio in Text umwandeln

Funktionen von Audio in Text umwandeln

99 Sprachen, automatisch erkannt

Datei hochladen oder live aufnehmen

Privat, nur im Browser verarbeitet

FAQ zu Audio in Text umwandeln

Anleitungen

Audio transkribieren – online und kostenlos

Verwandte Werkzeuge

Sprachverbesserer

Sprachisolator

Audio kürzen

Weitere Tools entdecken

PDF zu PNG

Japan Visa Fotogenerator

Untertitel-Brenner

JSON-Viewer

Grammatikprüfer