Jak mogę transkrybować plik audio?

Dodaj plik audio (MP3, WAV, M4A, OGG, FLAC lub WebM) do narzędzia i kliknij Transkrybuj. Pierwsze uruchomienie pobiera model mowy (~150 MB); później transkrypcja działa lokalnie bez połączenia internetowego.

Czy mogę nagrać audio za pomocą mikrofonu?

Tak. Kliknij Nagraj głos, zezwól na dostęp do mikrofonu w przeglądarce, mów, a następnie kliknij Zatrzymaj nagrywanie. Przechwycony dźwięk jest traktowany jak przesłany plik i możesz go natychmiast transkrybować.

Które języki są obsługiwane?

Wszystkie 99 języków obsługiwanych przez Whisper — w tym angielski, hiszpański, mandaryński, francuski, arabski, hindi, niemiecki, rosyjski, portugalski, japoński i wiele innych. Transkrypcja pozostaje w języku, którym posługiwał się mówca.

Jak długo może trwać audio?

Akceptowane są pliki do 200 MB. Długie nagrania są przetwarzane w 30-sekundowych fragmentach z 5-sekundowym nakładaniem, dzięki czemu jednogodzinny podcast wciąż daje spójną transkrypcję. Czas przetwarzania zależy od tego, czy przeglądarka obsługuje WebGPU.

Czy audio jest wysyłane na serwer?

Nie. Zarówno model, jak i Twoje audio pozostają w Twojej przeglądarce. Model Whisper jest pobierany raz z sieci CDN i przechowywany w pamięci podręcznej, a następnie transkrypcja odbywa się całkowicie na urządzeniu za pomocą WebGPU lub WebAssembly.

Czy mogę uzyskać napisy do wideo?

Tak. Pobierz plik .srt lub .vtt i dodaj go do edytora wideo, lub prześlij go jako ścieżkę napisów na YouTube i innych platformach. Każdy wiersz napisów zawiera przedział czasu, jaki Whisper wykrył.

AudioZa darmoDziała lokalnie

Transkrypcja audio na tekst

Zamień mowę w dowolnym języku na tekst w przeglądarce.

.mp3.wav.ogg.m4a.aac.flac.webm.opus

Język

Ładowanie modelu…

Działa całkowicie w przeglądarce.

Dodaj plik audio tutaj

MP3 · WAV · OGG · M4A · FLAC · WebM · maks. 200 MB

Pierwsze uruchomienie pobiera ~150 MB; buforuje się później.

Wybierz plik

lub

O Transkrypcja audio na tekst

Dodaj plik audio lub nagraj bezpośrednio z mikrofonu, a otrzymasz transkrypcję pisaną w tym samym języku, którym posługiwał się mówca — bez wysyłania, bez konta, bez aplikacji. Handytool uruchamia otwartą transkrypcję Whisper od OpenAI bezpośrednio w Twojej przeglądarce za pomocą WebGPU, gdy jest dostępne, więc Twoje podkasty, wywiady, notatki głosowe, wykłady i nagrania spotkań pozostają w pełni prywatne. Pobierz wynik jako zwykły tekst, plik napisów SRT lub plik WebVTT gotowy do odtwarzaczy wideo.

Funkcje: Transkrypcja audio na tekst

01
99 języków, automatyczne wykrywanie
Whisper wykrywa język mówiony i tworzy transkrypcję w tym samym języku — španielski pozostaje spanielski, japoński pozostaje japoński, niemiecki pozostaje niemiecki. Bez wyboru języka, bez dodatkowych ustawień.
02
Prześlij plik lub nagraj na żywo
Dodaj plik MP3, WAV, M4A, OGG, FLAC lub WebM, lub kliknij Nagraj głos, aby nagrać dźwięk bezpośrednio z mikrofonu. Zatrzymaj się, gdy skończysz, a nagranie przejdzie bezpośrednio do transkrypcji.
03
Przetwarzanie prywatne, w przeglądarce
Model Whisper jest pobierany raz do pamięci podręcznej przeglądarki i działa całkowicie na Twoim urządzeniu z przyspieszeniem WebGPU, gdzie jest obsługiwane. Nic nie jest wysyłane — Twój audio nigdy nie opuszcza Twojego komputera.