Whisper
Es un modelo de IA desarrollado por OpenAI para el reconocimiento automático de voz (ASR, por sus siglas en inglés: Automatic Speech Recognition). En términos simples, Whisper convierte audio hablado en texto escrito de forma automática.
Características clave
- Open Source: El modelo y el código son abiertos, puedes usarlos y modificarlos libremente.
- Multilingüe: Reconoce y transcribe voz en varios idiomas.
- Robusto: Puede manejar diferentes acentos, ruido de fondo y grabaciones de baja calidad.
- Transcripción y Traducción: No solo transcribe, también puede traducir el audio a otros idiomas.
- Tareas: Permite tareas como transcribir, traducir, detectar idioma y segmentar audio.
Subtítulos
Instalar whisper:
python3 pip install openai-whisper
Instalar ffmpeg
(si no lo tienes):
brew install ffmpeg
Script de instalación de certificados de Python en Mac:
/Applications/Python\ 3.13/Install\ Certificates.command
Cómo generar subtítulos .srt
con Whisper
whisper tu_audio.mp3 --language Spanish --task transcribe --model medium --output_format srt