Handytool
AudioGratisSe ejecuta localmente

Transcribir audio a texto

Convierte audio hablado en cualquier idioma a texto en tu navegador.

.mp3.wav.ogg.m4a.aac.flac.webm.opus
Idioma
Cargando modelo…

Se ejecuta completamente en tu navegador.

o

Acerca de Transcribir audio a texto

Sube un archivo de audio o graba directamente desde tu micrófono, y obtén una transcripción escrita en el mismo idioma que habla el locutor — sin subir archivos, sin cuenta, sin aplicaciones. Handytool ejecuta el modelo Whisper de código abierto de OpenAI directamente en tu navegador usando WebGPU cuando está disponible, por lo que tus podcasts, entrevistas, notas de voz, conferencias y grabaciones de reuniones permanecen completamente privadas. Descarga el resultado como texto plano, un archivo de subtítulos SRT o un archivo WebVTT listo para reproductores de video.

Funciones de Transcribir audio a texto

  • 01

    99 idiomas, detección automática

    Whisper detecta el idioma hablado y escribe la transcripción en ese mismo idioma — el español sigue siendo español, el japonés sigue siendo japonés, el alemán sigue siendo alemán. Sin selector de idioma, sin configuraciones adicionales.

  • 02

    Sube un archivo o graba en directo

    Trae un archivo MP3, WAV, M4A, OGG, FLAC o WebM, o haz clic en Grabar voz para capturar audio directamente desde tu micrófono. Detente cuando termines y la grabación va directamente a la transcripción.

  • 03

    Procesamiento privado en navegador

    El modelo Whisper se descarga una sola vez en el caché de tu navegador y se ejecuta completamente en tu dispositivo con aceleración WebGPU donde sea compatible. Nada se sube — tu audio nunca sale de tu computadora.

Preguntas frecuentes sobre Transcribir audio a texto

¿Cómo transcribo un archivo de audio?
Sube tu archivo de audio (MP3, WAV, M4A, OGG, FLAC o WebM) en la herramienta y haz clic en Transcribir. La primera ejecución descarga el modelo de voz (~150 MB); después, la transcripción se ejecuta localmente sin conexión a internet.
¿Puedo grabar audio con mi micrófono?
Sí. Haz clic en Grabar voz, permite el acceso al micrófono en tu navegador, habla, y haz clic en Detener grabación. El audio capturado se trata como un archivo subido y puedes transcribirlo inmediatamente.
¿Cuáles son los idiomas admitidos?
Los 99 idiomas que Whisper admite — incluyendo inglés, español, mandarín, francés, árabe, hindi, alemán, ruso, portugués, japonés, y muchos más. La transcripción permanece en el idioma que se hablaba.
¿Cuánto tiempo puede durar el audio?
Se aceptan archivos de hasta 200 MB. Las grabaciones largas se procesan en fragmentos de 30 segundos con solapamiento de 5 segundos, por lo que un podcast de una hora produce una transcripción coherente. El tiempo de procesamiento depende de si tu navegador admite WebGPU.
¿Se sube el audio a un servidor?
No. Tanto el modelo como tu audio permanecen en tu navegador. El modelo Whisper se obtiene una sola vez de un CDN y se almacena en caché, luego la transcripción ocurre completamente en el dispositivo usando WebGPU o WebAssembly.
¿Puedo obtener subtítulos para un video?
Sí. Descarga el archivo .srt o .vtt y suéltalo en tu editor de video, o súbelo como pista de subtítulos en YouTube y otras plataformas. Cada línea de subtítulo incluye el rango de tiempo que Whisper detectó.

Herramientas relacionadas

Audio

Explora otras herramientas

Todas las herramientas