Handytool
Video-Anleitung5 Min. LesezeitAktualisiert 11. Feb. 2026

KI-Transkription, nur im Browser

Wandle jedes Video in Text und Untertitel um – ohne es hochzuladen.

Handytool führt OpenAIs Whisper-Modell direkt in deinem Browser aus, um MP4-, MOV-, WebM- und MKV-Dateien in Klartext, SRT- und VTT-Untertiteldateien umzuwandeln. Dein Video verlässt dein Gerät nie.

Wichtigste Erkenntnisse

  • 01Whisper AI läuft in deinem Browser – dein Video wird nie auf einen Server hochgeladen.
  • 02Unterstützt 99 Sprachen mit automatischer Spracherkennung.
  • 03Exportiert Klartext, SRT-Untertiteldateien und WebVTT zur direkten Nutzung in Editoren und YouTube.
  • 04Nach dem ersten Durchlauf wird das Modell zwischengespeichert und die Transkription funktioniert offline.

Warum Video im Browser transkribieren?

Ein Interview, eine Vorlesung, eine Zoom-Aufzeichnung oder ein YouTube-Video zu transkribieren bedeutete früher entweder manuelles Abtippen oder das Hochladen der Datei zu einem Cloud-Dienst. Cloud-Dienste sind schnell, aber mit echten Datenschutzrisiken verbunden – du lädst potenziell sensible Audiodaten auf einen Server eines Drittanbieters hoch. Handytool verfolgt einen anderen Ansatz: Es lädt OpenAIs Open-Source-Whisper-Sprachmodell einmal herunter und führt es dann vollständig auf deinem Gerät mit WebGPU oder WebAssembly aus.

Das Ergebnis ist die gleiche KI-Qualität der Transkription, die du von einem Cloud-Dienst bekommen würdest, aber deine Videodatei und Audio bleiben vollständig privat. Der erste Durchlauf lädt das Modell herunter (etwa 150 MB), danach funktioniert das Tool vollständig offline.

So transkribierst du ein Video

Lade eine Videodatei hoch und erhalte in wenigen Minuten ein Transkript.

  1. 01

    Öffne das Transkriptions-Tool

    Gehe zum Video-Transkriptions-Tool auf Handytool. Es ist kein Konto erforderlich.

  2. 02

    Füge deine Videodatei hinzu

    Lade eine MP4-, MOV-, WebM-, MKV-, M4V- oder AVI-Datei bis 500 MB hoch. Die Audiodatei wird lokal mit FFmpeg.wasm extrahiert – nichts wird hochgeladen.

  3. 03

    Wähle eine Sprache (optional)

    Whisper erkennt die gesprochene Sprache bei den meisten Aufzeichnungen automatisch. Wenn dein Video einen starken Akzent hat oder in einer weniger verbreiteten Sprache ist, verbessert die manuelle Sprachauswahl die Genauigkeit.

  4. 04

    Klicke auf Transkribieren

    Beim ersten Gebrauch wird das Whisper-Modell (~150 MB) in deinen Browser-Cache heruntergeladen. Nachfolgende Durchläufe nutzen das zwischengespeicherte Modell und funktionieren offline. Die Transkription wird in 30-Sekunden-Blöcken mit Überlappung verarbeitet, um den Kontext kohärent zu halten.

  5. 05

    Lade dein Ergebnis herunter

    Wenn das Transkript angezeigt wird, lade es als Klartext, SRT-Untertiteldatei oder WebVTT-Datei herunter. Alle drei werden aus dem gleichen Transkriptions-Durchlauf generiert.

Was du mit einem Video-Transkript machen kannst

Transkripte und Untertitel ermöglichen viele nachgelagerte Arbeitsabläufe.

  • 01Füge YouTube- oder Vimeo-Videos Untertitel hinzu, um die Barrierefreiheit zu verbessern.
  • 02Erstelle durchsuchbare Notizen aus Vorlesungen, Webinaren oder Schulungsaufzeichnungen.
  • 03Nutze Interview-Material für einen Blog-Beitrag oder Artikel.
  • 04Füge in einem Video-Editor mit der SRT-Datei eingebrannte Untertitel hinzu.
  • 05Generiere eine Zusammenfassung oder Aktionspunkte aus einer Meeting-Aufzeichnung.
  • 06Übersetze das Transkript nach dem Herunterladen in eine andere Sprache.

Whisper läuft auf deinem Gerät – nichts wird übertragen

Handytool nutzt FFmpeg.wasm, um die Audiospur lokal zu extrahieren, und übergibt sie dann an Whisper, das in deinem Browser über WebGPU (falls verfügbar) oder reines WebAssembly läuft. Zu keinem Zeitpunkt werden Audio- oder Videodaten über das Netzwerk gesendet.

Das macht das Tool geeignet für vertrauliche Aufzeichnungen – medizinische Interviews, rechtliche Aussagen, interne Geschäftstreffen, Therapie-Sitzungen – wo das Hochladen zu einem Cloud-Transkriptions-Dienst nicht akzeptabel ist.

Häufig gestellte Fragen zur Video-Transkription

Welche Videoformate werden unterstützt?

MP4, MOV, WebM, MKV, M4V und AVI-Container bis 500 MB. Gängige Audio-Codecs in diesen Containern (AAC, MP3, Opus, Vorbis) funktionieren alle.

Welche Sprachen kann es transkribieren?

Alle 99 Sprachen, die Whisper unterstützt, einschließlich Englisch, Spanisch, Mandarin, Französisch, Arabisch, Hindi, Deutsch, Russisch, Portugiesisch und Japanisch. Das Transkript bleibt in der gesprochenen Sprache.

Kann ich Untertitel für YouTube generieren?

Ja. Nach der Transkription lade die SRT- oder VTT-Datei herunter und lade sie direkt in YouTube Studios Untertitel-Editor hoch.

Wie lang kann das Video sein?

Dateien bis 500 MB werden akzeptiert. Lange Aufzeichnungen werden in 30-Sekunden-Blöcke mit 5-Sekunden-Überlappung aufgeteilt, damit das Transkript über das gesamte Video kohärent bleibt.

Wird das Video auf einen Server hochgeladen?

Nein. Sowohl FFmpeg.wasm als auch das Whisper-Modell laufen lokal in deinem Browser. Nichts wird zu irgendeinem Zeitpunkt hochgeladen.

Funktioniert es offline?

Nach dem ersten Durchlauf wird das Whisper-Modell in deinem Browser zwischengespeichert. Nachfolgende Transkriptionen funktionieren vollständig offline – du benötigst eine Internetverbindung nur beim ersten Mal.

Verwandte Tools

Weiterarbeiten mit Video-Tools

Video-Tools