Handytool
Guía de vídeo5 min de lecturaActualizado 11 feb 2026

Transcripción con IA, solo en navegador

Convierte cualquier vídeo en texto y subtítulos sin subirlo a ningún lugar.

Handytool ejecuta el modelo Whisper de OpenAI directamente en tu navegador para transcribir archivos MP4, MOV, WebM y MKV en texto plano, archivos SRT y VTT de subtítulos. Tu vídeo nunca sale de tu dispositivo.

Puntos clave

  • 01Whisper AI se ejecuta dentro de tu navegador — tu vídeo nunca se sube a ningún servidor.
  • 02Soporta 99 idiomas con detección automática de idioma.
  • 03Genera texto plano, archivos de subtítulos SRT y WebVTT para usar directamente en editores y YouTube.
  • 04Después de la primera ejecución, el modelo se guarda en caché y la transcripción funciona sin conexión.

¿Por qué transcribir vídeo en tu navegador?

Transcribir una entrevista, conferencia, grabación de Zoom o vídeo de YouTube solía significar escribirlo manualmente o enviar el archivo a un servicio en la nube. Los servicios en la nube son rápidos pero tienen un costo real en privacidad — estás subiendo audio potencialmente sensible a un servidor de terceros. Handytool toma un enfoque diferente: descarga el modelo de voz Whisper de código abierto de OpenAI una sola vez y luego lo ejecuta completamente en tu dispositivo usando WebGPU o WebAssembly.

El resultado es la misma transcripción de calidad IA que obtendrías de un servicio en la nube, pero tu archivo de vídeo y audio permanecen completamente privados. La primera ejecución descarga el modelo (alrededor de 150 MB), pero después de eso, la herramienta funciona completamente sin conexión.

Cómo transcribir un vídeo

Arrastra un archivo de vídeo y obtén una transcripción en minutos.

  1. 01

    Abre la herramienta de transcripción

    Ve a la herramienta Transcribir vídeo en Handytool. No se necesita cuenta.

  2. 02

    Añade tu archivo de vídeo

    Arrastra un archivo MP4, MOV, WebM, MKV, M4V o AVI de hasta 500 MB. El audio se extrae localmente con FFmpeg.wasm — nada se sube.

  3. 03

    Selecciona un idioma (opcional)

    Whisper detecta automáticamente el idioma hablado en la mayoría de grabaciones. Si tu vídeo tiene un acento fuerte o está en un idioma menos común, elegir manualmente el idioma mejora la precisión.

  4. 04

    Haz clic en Transcribir

    En el primer uso, el modelo Whisper (~150 MB) se descarga en la caché de tu navegador. Los usos posteriores utilizan el modelo en caché y funcionan sin conexión. La transcripción se procesa en fragmentos de 30 segundos con solapamiento para mantener el contexto coherente.

  5. 05

    Descarga tu resultado

    Cuando aparezca la transcripción, descárgala como texto plano, archivo de subtítulos SRT o archivo WebVTT. Los tres se generan a partir de la misma ejecución de transcripción.

Qué puedes hacer con una transcripción de vídeo

Las transcripciones y subtítulos desbloquean muchos flujos de trabajo posteriores.

  • 01Añade subtítulos cerrados a vídeos de YouTube o Vimeo para mejorar la accesibilidad.
  • 02Crea notas buscables a partir de conferencias, seminarios web o grabaciones de capacitación.
  • 03Reutiliza metraje de entrevistas en una publicación de blog o artículo.
  • 04Añade subtítulos quemados en un editor de vídeo usando el archivo SRT.
  • 05Genera un resumen o elementos de acción a partir de una grabación de reunión.
  • 06Traduce la transcripción a otro idioma después de descargar el texto.

Whisper se ejecuta en tu dispositivo — nada se transmite

Handytool utiliza FFmpeg.wasm para extraer la pista de audio localmente, luego la pasa a Whisper ejecutándose en tu navegador a través de WebGPU (donde esté disponible) o WebAssembly puro. En ningún momento se envían datos de audio o vídeo a través de la red.

Esto hace que la herramienta sea adecuada para grabaciones confidenciales — entrevistas médicas, deposiciones legales, reuniones comerciales internas, sesiones de terapia — donde subir a un servicio de transcripción en la nube no es aceptable.

Preguntas frecuentes sobre transcripción de vídeo

¿Qué formatos de vídeo son compatibles?

Contenedores MP4, MOV, WebM, MKV, M4V y AVI de hasta 500 MB. Todos los códecs de audio comunes dentro de esos contenedores (AAC, MP3, Opus, Vorbis) funcionan.

¿Qué idiomas puede transcribir?

Los 99 idiomas que Whisper soporta, incluyendo inglés, español, mandarín, francés, árabe, hindi, alemán, ruso, portugués y japonés. La transcripción permanece en el idioma hablado.

¿Puedo generar subtítulos para YouTube?

Sí. Después de transcribir, descarga el archivo SRT o VTT y súbelo directamente en el editor de subtítulos de YouTube Studio.

¿Cuánto tiempo puede durar el vídeo?

Se aceptan archivos de hasta 500 MB. Las grabaciones largas se dividen en fragmentos de 30 segundos con solapamiento de 5 segundos, por lo que la transcripción permanece coherente en todo el vídeo.

¿Se sube el vídeo a un servidor?

No. Tanto FFmpeg.wasm como el modelo Whisper se ejecutan localmente en tu navegador. Nada se sube en ninguna etapa.

¿Funciona sin conexión?

Después del primer uso, el modelo Whisper se guarda en la caché de tu navegador. Las transcripciones posteriores funcionan completamente sin conexión — solo necesitas conexión a internet la primera vez.

Herramientas relacionadas

Continúa trabajando con herramientas de Vídeo

herramientas de Vídeo