Este es un proyecto creado en Google Cloud con el cual mediante una aplicación web desarrollada en Flask nos permite la conversión de texto a audio utilizando la API de Google Cloud Text-to-Speech, así como la transcripción de audio a texto con la API de Google Cloud Speech-to-Text.
- Convierte texto a audio en formato MP3.
- Permite personalizar la voz con opciones de género y velocidad de habla.
- Transcribe audio en español a texto.
- Interfaz web intuitiva con controles de grabación y reproducción de audio.
Antes de ejecutar la aplicación, asegúrate de tener los siguientes requisitos instalados en tu entorno de Cloud Shell:
-
Python 3.11 o superior (preinstalado en Cloud Shell)
-
Cuenta de Google Cloud con las APIs habilitadas:
- Text-to-Speech API
gcloud services enable texttospeech.googleapis.com - Speech-to-Text API
gcloud services enable speech.googleapis.com
- Text-to-Speech API
-
Dependencias del sistema:
ffmpeg(Se instalará en el siguiente paso)
Sigue estos pasos para configurar y ejecutar el proyecto en Cloud Shell:
git clone https://github.com/vilcajoel/speech-text-and-text-to-speech-gcp.git
cd speech-text-and-text-to-speech-gcpCrea y activa un entorno virtual para aislar las dependencias del proyecto:
python3 -m venv venv
source venv/bin/activateEjecuta el siguiente comando para instalar ffmpeg, necesario para el procesamiento de audio:
sudo apt-get update && sudo apt-get install -y ffmpegInstala las dependencias necesarias utilizando el archivo requirements.txt:
pip install -r requirements.txtContenido de requirements.txt:
Flask==3.0.0
google-cloud-texttospeech==2.14.1
google-cloud-speech==2.21.0
gunicorn==21.2.0
Inicia la aplicación Flask con el siguiente comando:
python app.pyLa aplicación estará disponible en: http://127.0.0.1:5000
-
Conversión de Texto a Audio:
- Escribe el texto en el cuadro de texto.
- Selecciona el género de la voz (Neutral, Masculina o Femenina).
- Ajusta la velocidad de la voz.
- Haz clic en "Convertir a Audio" y escucha la reproducción.
-
Conversión de Audio a Texto:
- Presiona el botón "Iniciar Grabación".
- Graba tu voz y presiona "Detener Grabación".
- Obtén la transcripción en pantalla.
.
├── app.py
├── requirements.txt
├── templates
│ └── index.html
├── Poc
│ └── app_speech_to_text
│ └── app_text_to_speech
└── README.md
¡Las contribuciones son bienvenidas! Si deseas mejorar esta aplicación, por favor, haz un fork del repositorio y envía un pull request.
Este proyecto está bajo la licencia MIT. Consulta el archivo LICENSE para más detalles.
Para preguntas o sugerencias, contáctame en:
- ✉️ Email: joelvilcatarazona@gmail.com
- 🔗 LinkedIn: https://www.linkedin.com/in/joelvilca/
- 🐙 GitHub: https://github.com/vilcajoel
¡Espero que disfrutes usando esta aplicación! 🚀
