Extraer audio del video
ffmpeg -i video.mp4 audio.wav
Extraer voz con UVR
Puedes descarga la versión más reciente de Ultimate Vocal Remover en GitHub (dmg o zip)
https://github.com/anjok07/ultimatevocalremovergui
Al separar voz/música con IA, la música puede quedar con picos y bajones de volumen donde antes había voz.
Revisa que no esté activado algo como:
- Remove Silence
- Trim Silence
- Auto Trim
- Split by silence
Para crear pistas sin eliminación de silencios.
Transcribir audio a texto
A. Básico con marcas de tiempo.
whisper voz.wav --model medium
Instalación:
pip install -U openai-whisper
B. Avanzado con detección los hablantes.
- Crear una cuenta gratuita en Hugging Face.
- Aceptar las condiciones de uso del modelo de diarización de pyannote
pyannote/speaker-diarizationy depyannote/segmentationsi lo pide. - Crear un token de acceso tipo READ.
- Usar ese token en WhisperX.
- En Hugging Face, busca
pyannote/speaker-diarization-community-1 - y luego un botón parecido a "Agree and access repository"
- En Hugging Face, busca
whisperx voz.wav \
--model medium \
--language en \
--diarize \
--hf_token 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 \
--output_format srt
Puedes cambiar a large-v3 para mejor precisión.
Instalación:
pip install whisperx
Información:
La diarización de hablantes es detectar:
- Cuántas voces distintas hay en el audio,
- En qué momento habla cada una,
Muy útil para crear un guion de doblaje.
Extraer muestras de cada hablante
py extraer_muestras_hablantes.py
Comparar voces
py comparar_voces.py
Usa SpeechBrain (un modelo preentrenado spkrec-ecapa-voxceleb que sirve para hacer una comparación de características del hablante (timbre, rango, textura y presencia).
Instalación:
pip install torch torchaudio speechbrain
Traducir el .vtt:
python traducir_vtt.py
Instalación:
pip install deep-translator