DeepSpeech es un motor de reconocimiento de voz.

Ideal para transcribir entrevistas, podcasts, reuniones y otros contenidos de audio.

Es de código abierto (disponible en GitHub).
Desarrollado por Mozilla.
Diseñado para convertir audio en texto utilizando técnicas de aprendizaje profundo, inspirado en la investigación de Baidu.
Utiliza un modelo de redes neuronales recurrentes (RNN).

La calidad de la transcripción puede variar dependiendo del acento y la claridad del habla.

Instalación

Para utilizar DeepSpeech, necesitas:

Instalar el software.

pip install deepspeech

y Descarga los Modelos Preentrenados.

wget https://github.com/mozilla/DeepSpeech/releases/download/v0.9.3/deepspeech-0.9.3-models.pbmm
wget https://github.com/mozilla/DeepSpeech/releases/download/v0.9.3/deepspeech-0.9.3-models.scorer

wget es una utilidad de línea de comandos para descargar archivos desde la web.

Uso

DeepSpeech requiere que el audio esté en formato WAV, con una frecuencia de muestreo de 16kHz, mono y 16 bits.

Instalar SoX

brew install sox

Convertir el audio a formato WAV adecuado con SoX.

sox input_audio.mp3 --rate 16000 --bits 16 --channels 1 output_audio.wav

Ejecutar DeepSpeech desde la Línea de Comandos

deepspeech --model deepspeech-0.9.3-models.pbmm --scorer deepspeech-0.9.3-models.scorer --audio audio/lesson1.wav --json --extended > transcript_lesson1.txt

1, El parámetro --json se utiliza para obtener la salida de la transcripción en formato JSON, con tiempos de inicio, duración de cada palabra.

El parámetro --extended proporciona información adicional sobre la transcripción, incluyendo las puntuaciones de probabilidad de cada palabra.
- Puedes combinar --json y --extended para obtener una salida JSON extendida.