Whisper

Es un modelo de IA desarrollado por OpenAI para el reconocimiento automático de voz (ASR, por sus siglas en inglés: Automatic Speech Recognition). En términos simples, Whisper convierte audio hablado en texto escrito de forma automática.

Características clave

  • Open Source: El modelo y el código son abiertos, puedes usarlos y modificarlos libremente.
  • Multilingüe: Reconoce y transcribe voz en varios idiomas.
  • Robusto: Puede manejar diferentes acentos, ruido de fondo y grabaciones de baja calidad.
  • Transcripción y Traducción: No solo transcribe, también puede traducir el audio a otros idiomas.
  • Tareas: Permite tareas como transcribir, traducir, detectar idioma y segmentar audio.

Subtítulos

Instalar whisper:

python3 pip install openai-whisper

Instalar ffmpeg (si no lo tienes):

brew install ffmpeg

Script de instalación de certificados de Python en Mac:

/Applications/Python\ 3.13/Install\ Certificates.command

Cómo generar subtítulos .srt con Whisper

whisper tu_audio.mp3 --language Spanish --task transcribe --model medium --output_format srt