¿Cómo transcribo un archivo de audio?

Sube tu archivo de audio (MP3, WAV, M4A, OGG, FLAC o WebM) en la herramienta y haz clic en Transcribir. La primera ejecución descarga el modelo de voz (~150 MB); después, la transcripción se ejecuta localmente sin conexión a internet.

¿Puedo grabar audio con mi micrófono?

Sí. Haz clic en Grabar voz, permite el acceso al micrófono en tu navegador, habla, y haz clic en Detener grabación. El audio capturado se trata como un archivo subido y puedes transcribirlo inmediatamente.

¿Cuáles son los idiomas admitidos?

Los 99 idiomas que Whisper admite — incluyendo inglés, español, mandarín, francés, árabe, hindi, alemán, ruso, portugués, japonés, y muchos más. La transcripción permanece en el idioma que se hablaba.

¿Cuánto tiempo puede durar el audio?

Se aceptan archivos de hasta 200 MB. Las grabaciones largas se procesan en fragmentos de 30 segundos con solapamiento de 5 segundos, por lo que un podcast de una hora produce una transcripción coherente. El tiempo de procesamiento depende de si tu navegador admite WebGPU.

¿Se sube el audio a un servidor?

No. Tanto el modelo como tu audio permanecen en tu navegador. El modelo Whisper se obtiene una sola vez de un CDN y se almacena en caché, luego la transcripción ocurre completamente en el dispositivo usando WebGPU o WebAssembly.

¿Puedo obtener subtítulos para un video?

Sí. Descarga el archivo .srt o .vtt y suéltalo en tu editor de video, o súbelo como pista de subtítulos en YouTube y otras plataformas. Cada línea de subtítulo incluye el rango de tiempo que Whisper detectó.

AudioGratisSe ejecuta localmente

Transcribir audio a texto

Convierte audio hablado en cualquier idioma a texto en tu navegador.

.mp3.wav.ogg.m4a.aac.flac.webm.opus

Idioma

Cargando modelo…

Se ejecuta completamente en tu navegador.

Suelta un archivo de audio aquí

MP3 · WAV · OGG · M4A · FLAC · WebM · máx 200 MB

La primera ejecución descarga ~150 MB; se guarda en caché después.

Elegir archivo

Acerca de Transcribir audio a texto

Sube un archivo de audio o graba directamente desde tu micrófono, y obtén una transcripción escrita en el mismo idioma que habla el locutor — sin subir archivos, sin cuenta, sin aplicaciones. Handytool ejecuta el modelo Whisper de código abierto de OpenAI directamente en tu navegador usando WebGPU cuando está disponible, por lo que tus podcasts, entrevistas, notas de voz, conferencias y grabaciones de reuniones permanecen completamente privadas. Descarga el resultado como texto plano, un archivo de subtítulos SRT o un archivo WebVTT listo para reproductores de video.

Funciones de Transcribir audio a texto

01
99 idiomas, detección automática
Whisper detecta el idioma hablado y escribe la transcripción en ese mismo idioma — el español sigue siendo español, el japonés sigue siendo japonés, el alemán sigue siendo alemán. Sin selector de idioma, sin configuraciones adicionales.
02
Sube un archivo o graba en directo
Trae un archivo MP3, WAV, M4A, OGG, FLAC o WebM, o haz clic en Grabar voz para capturar audio directamente desde tu micrófono. Detente cuando termines y la grabación va directamente a la transcripción.
03
Procesamiento privado en navegador
El modelo Whisper se descarga una sola vez en el caché de tu navegador y se ejecuta completamente en tu dispositivo con aceleración WebGPU donde sea compatible. Nada se sube — tu audio nunca sale de tu computadora.

Preguntas frecuentes sobre Transcribir audio a texto

¿Cómo transcribo un archivo de audio?: Sube tu archivo de audio (MP3, WAV, M4A, OGG, FLAC o WebM) en la herramienta y haz clic en Transcribir. La primera ejecución descarga el modelo de voz (~150 MB); después, la transcripción se ejecuta localmente sin conexión a internet.
¿Puedo grabar audio con mi micrófono?: Sí. Haz clic en Grabar voz, permite el acceso al micrófono en tu navegador, habla, y haz clic en Detener grabación. El audio capturado se trata como un archivo subido y puedes transcribirlo inmediatamente.
¿Cuáles son los idiomas admitidos?: Los 99 idiomas que Whisper admite — incluyendo inglés, español, mandarín, francés, árabe, hindi, alemán, ruso, portugués, japonés, y muchos más. La transcripción permanece en el idioma que se hablaba.
¿Cuánto tiempo puede durar el audio?: Se aceptan archivos de hasta 200 MB. Las grabaciones largas se procesan en fragmentos de 30 segundos con solapamiento de 5 segundos, por lo que un podcast de una hora produce una transcripción coherente. El tiempo de procesamiento depende de si tu navegador admite WebGPU.
¿Se sube el audio a un servidor?: No. Tanto el modelo como tu audio permanecen en tu navegador. El modelo Whisper se obtiene una sola vez de un CDN y se almacena en caché, luego la transcripción ocurre completamente en el dispositivo usando WebGPU o WebAssembly.
¿Puedo obtener subtítulos para un video?: Sí. Descarga el archivo .srt o .vtt y suéltalo en tu editor de video, o súbelo como pista de subtítulos en YouTube y otras plataformas. Cada línea de subtítulo incluye el rango de tiempo que Whisper detectó.

Guías

Artículos →

5 min
Guía de audio
Cómo transcribir audio a texto online
Convierte notas de voz, entrevistas y grabaciones en texto buscable en tu navegador, con reconocimiento de voz en el dispositivo.
Actualizado 1 may 2026Leer

Herramientas relacionadas

Audio →

Explora otras herramientas

Todas las herramientas →

Transcribir audio a texto

Acerca de Transcribir audio a texto

Funciones de Transcribir audio a texto

99 idiomas, detección automática

Sube un archivo o graba en directo

Procesamiento privado en navegador

Preguntas frecuentes sobre Transcribir audio a texto

Guías

Cómo transcribir audio a texto online

Herramientas relacionadas

Mejorador de voz

Aislador de voz

Recortar audio

Explora otras herramientas

PDF a PNG

Generador de Foto para Visado Japón

Subtitle Burner

Visor JSON

Corrector de gramática