Kluczowe punkty
- 01Whisper AI działa wewnątrz Twojej przeglądarki — Twoje wideo nigdy nie jest przesyłane na żaden serwer.
- 02Obsługuje 99 języków z automatycznym wykryciem języka.
- 03Eksportuje zwykły tekst, pliki napisów SRT i WebVTT do bezpośredniego użytku w edytorach i YouTube.
- 04Po pierwszym uruchomieniu model jest zbuforowany, a transkrypcja działa offline.
Dlaczego transkrybować wideo w przeglądarce?
Transkrypcja wywiadu, wykładu, nagrania Zoom lub wideo z YouTube kiedyś oznaczała либо ręczne przepisanie, либо wysłanie pliku do usługi chmurowej. Usługi chmurowe są szybkie, ale wiążą się z rzeczywistą stratą prywatności — przesyłasz potencjalnie wrażliwy dźwięk na serwer trzeciej strony. Handytool podchodzi inaczej: pobiera model mowy Whisper typu open-source od OpenAI raz, a następnie uruchamia go całkowicie na Twoim urządzeniu za pomocą WebGPU lub WebAssembly.
Wynik to taka sama transkrypcja jakości AI, którą uzyskałbyś z usługi chmurowej, ale Twój plik wideo i dźwięk pozostają całkowicie prywatne. Pierwsze uruchomienie pobiera model (około 150 MB), ale następnie narzędzie działa całkowicie offline.
Jak transkrybować wideo
Upuść plik wideo i uzyskaj transkrypt w kilka minut.
- 01
Otwórz narzędzie transkrypcji
Przejdź do narzędzia Transkrypcja wideo na Handytool. Nie potrzebne jest konto.
- 02
Dodaj swój plik wideo
Upuść plik MP4, MOV, WebM, MKV, M4V lub AVI o rozmiarze do 500 MB. Dźwięk jest ekstrahowany lokalnie za pomocą FFmpeg.wasm — nic nie jest przesyłane.
- 03
Wybierz język (opcjonalnie)
Whisper automatycznie wykrywa mówiony język dla większości nagrań. Jeśli Twoje wideo ma silny akcent lub jest w mniej rozpowszechnionym języku, ręczny wybór języka poprawia dokładność.
- 04
Kliknij Transkrybuj
Przy pierwszym użyciu model Whisper (~150 MB) pobiera się do pamięci podręcznej przeglądarki. Kolejne uruchomienia korzystają z zbuforowanego modelu i działają offline. Transkrypcja przetwarza fragmenty 30-sekundowe z nakładaniem się w celu utrzymania spójnego kontekstu.
- 05
Pobierz swój wynik
Gdy transkrypt się pojawi, pobierz go jako zwykły tekst, plik napisów SRT lub plik WebVTT. Wszystkie trzy są generowane z tego samego przebiegu transkrypcji.
Co możesz zrobić z transkryptem wideo
Transkrypty i napisy odblokowują wiele następujących przepływów pracy.
- 01Dodaj napisy kodowane do filmów YouTube lub Vimeo, aby poprawy dostępność.
- 02Twórz przeszukiwalne notatki z wykładów, webinarów lub nagrań szkoleniowych.
- 03Przeznacz materiał wywiadu do wpisu na blogu lub artykułu.
- 04Dodaj napisy wypalane w edytorze wideo za pomocą pliku SRT.
- 05Wygeneruj streszczenie lub punkty działań z nagrania spotkania.
- 06Przetłumacz transkrypt na inny język po pobraniu tekstu.
Whisper działa na Twoim urządzeniu — nic nie jest przesyłane
Handytool używa FFmpeg.wasm do lokalnego ekstrakcji ścieżki dźwiękowej, a następnie przekazuje ją do Whisper uruchamianego w Twojej przeglądarce za pośrednictwem WebGPU (gdzie jest dostępne) lub czystego WebAssembly. W żadnym momencie żadne dane audio lub wideo nie są wysyłane przez sieć.
To sprawia, że narzędzie jest odpowiednie do poufnych nagrań — wywiady medyczne, przesłuchania prawne, wewnętrzne spotkania biznesowe, sesje terapeutyczne — gdzie przesyłanie do usługi transkrypcji chmurowej jest niedopuszczalne.
FAQ do transkrypcji wideo
Które formaty wideo są obsługiwane?
Kontenery MP4, MOV, WebM, MKV, M4V i AVI do 500 MB. Wszystkie popularne kodeki audio wewnątrz tych kontenerów (AAC, MP3, Opus, Vorbis) działają.
Które języki może transkrybować?
Wszystkie 99 języków obsługiwanych przez Whisper, w tym angielski, hiszpański, mandaryński, francuski, arabski, hindi, niemiecki, rosyjski, portugalski i japoński. Transkrypt pozostaje w mówiony języku.
Czy mogę wygenerować napisy dla YouTube?
Tak. Po transkrypcji pobierz plik SRT lub VTT i wgraj go bezpośrednio w edytorze napisów YouTube Studio.
Jak długie może być wideo?
Akceptowane są pliki do 500 MB. Długie nagrania są dzielone na fragmenty 30-sekundowe z nakładaniem się 5 sekund, dzięki czemu transkrypt pozostaje spójny na całym wideo.
Czy wideo jest przesyłane na serwer?
Nie. Zarówno FFmpeg.wasm jak i model Whisper działają lokalnie w Twojej przeglądarce. Nic nie jest przesyłane na żadnym etapie.
Czy działa offline?
Po pierwszym uruchomieniu model Whisper jest zbuforowany w Twojej przeglądarce. Kolejne transkrypcje działają całkowicie offline — połączenie internetowe jest potrzebne tylko pierwszy raz.