Handytool
AudioZa darmoDziała lokalnie

Transkrypcja audio na tekst

Zamień mowę w dowolnym języku na tekst w przeglądarce.

.mp3.wav.ogg.m4a.aac.flac.webm.opus
Język
Ładowanie modelu…

Działa całkowicie w przeglądarce.

lub

O Transkrypcja audio na tekst

Dodaj plik audio lub nagraj bezpośrednio z mikrofonu, a otrzymasz transkrypcję pisaną w tym samym języku, którym posługiwał się mówca — bez wysyłania, bez konta, bez aplikacji. Handytool uruchamia otwartą transkrypcję Whisper od OpenAI bezpośrednio w Twojej przeglądarce za pomocą WebGPU, gdy jest dostępne, więc Twoje podkasty, wywiady, notatki głosowe, wykłady i nagrania spotkań pozostają w pełni prywatne. Pobierz wynik jako zwykły tekst, plik napisów SRT lub plik WebVTT gotowy do odtwarzaczy wideo.

Funkcje: Transkrypcja audio na tekst

  • 01

    99 języków, automatyczne wykrywanie

    Whisper wykrywa język mówiony i tworzy transkrypcję w tym samym języku — španielski pozostaje spanielski, japoński pozostaje japoński, niemiecki pozostaje niemiecki. Bez wyboru języka, bez dodatkowych ustawień.

  • 02

    Prześlij plik lub nagraj na żywo

    Dodaj plik MP3, WAV, M4A, OGG, FLAC lub WebM, lub kliknij Nagraj głos, aby nagrać dźwięk bezpośrednio z mikrofonu. Zatrzymaj się, gdy skończysz, a nagranie przejdzie bezpośrednio do transkrypcji.

  • 03

    Przetwarzanie prywatne, w przeglądarce

    Model Whisper jest pobierany raz do pamięci podręcznej przeglądarki i działa całkowicie na Twoim urządzeniu z przyspieszeniem WebGPU, gdzie jest obsługiwane. Nic nie jest wysyłane — Twój audio nigdy nie opuszcza Twojego komputera.

Transkrypcja audio na tekst – FAQ

Jak mogę transkrybować plik audio?
Dodaj plik audio (MP3, WAV, M4A, OGG, FLAC lub WebM) do narzędzia i kliknij Transkrybuj. Pierwsze uruchomienie pobiera model mowy (~150 MB); później transkrypcja działa lokalnie bez połączenia internetowego.
Czy mogę nagrać audio za pomocą mikrofonu?
Tak. Kliknij Nagraj głos, zezwól na dostęp do mikrofonu w przeglądarce, mów, a następnie kliknij Zatrzymaj nagrywanie. Przechwycony dźwięk jest traktowany jak przesłany plik i możesz go natychmiast transkrybować.
Które języki są obsługiwane?
Wszystkie 99 języków obsługiwanych przez Whisper — w tym angielski, hiszpański, mandaryński, francuski, arabski, hindi, niemiecki, rosyjski, portugalski, japoński i wiele innych. Transkrypcja pozostaje w języku, którym posługiwał się mówca.
Jak długo może trwać audio?
Akceptowane są pliki do 200 MB. Długie nagrania są przetwarzane w 30-sekundowych fragmentach z 5-sekundowym nakładaniem, dzięki czemu jednogodzinny podcast wciąż daje spójną transkrypcję. Czas przetwarzania zależy od tego, czy przeglądarka obsługuje WebGPU.
Czy audio jest wysyłane na serwer?
Nie. Zarówno model, jak i Twoje audio pozostają w Twojej przeglądarce. Model Whisper jest pobierany raz z sieci CDN i przechowywany w pamięci podręcznej, a następnie transkrypcja odbywa się całkowicie na urządzeniu za pomocą WebGPU lub WebAssembly.
Czy mogę uzyskać napisy do wideo?
Tak. Pobierz plik .srt lub .vtt i dodaj go do edytora wideo, lub prześlij go jako ścieżkę napisów na YouTube i innych platformach. Każdy wiersz napisów zawiera przedział czasu, jaki Whisper wykrył.

Powiązane narzędzia

Audio

Odkryj inne narzędzia

Wszystkie narzędzia