ChatGPT y Raspberry Pi, construyendo un asistente personal por voz usando AI

¿Qué te parecería conseguir un asistente personal por voz usando ChatGPT y Raspberry Pi? Han conseguido montar, con muy pocos recursos, un asistente personal que reconoce la voz y devuelve las respuestas con voz humana.

Desde que apareciese ChatGPT, los diferentes asistentes del mercado -pondremos como ejemplo los más populares, Siri o Alexa-, se están quedando atrás. Y es que ChatGPT de OpenAI están dando el bombazo en todo el mundo con sus capacidades. Incluso, algunos sectores ya le temen; ¿podría ser un impostor en algunos oficios? El debate está abierto y su regulación está encima de la mesa. Dejando a un lado, el tema de la legalidad y su uso, en este artículo te vamos a mostrar cómo han conseguido construir un asistente personal por voz usando el chatbot ChatGPT y una Raspberry Pi.

¿Qué se necesita para llevar a cabo el proyecto y montar nuestro ChatGPT asistente por voz?

El usuario Edwight Delgado ha conseguido -basándose en un proyecto de otro usuario Nickbild– llevar a cabo el proyecto con muy pocos recursos y que ha bautizado como GPT asistente. Si quieres reproducir su hazaña, lo que necesitarás es lo siguiente:

Raspberry Pi 4
Un micrófono que se conecte por USB o por jack de 3,5 mm
Un altavoz

Modos operandi de GPT asistente

Antes de darte todas las claves para poner en funcionamiento el proyecto, te explicaremos cómo es su funcionamiento. En primer lugar, Edwight ha usado la tecnología de Google GTTS -Google text-to-speech- para que ChatGPT traduzca el texto recibido a voz y así poder proyectarlo, posteriormente, por el altavoz que usemos para el proyecto.

Asimismo, ChatGPT y Raspberry Pi se entenderá bien gracias a que el usuario -tú en este caso- hablará por el micrófono que hayas conectado a tu Raspberry Pi. Este mensaje es recibido por la librería speech_recognition que traducirá ese mensaje hablado a texto. Posteriormente será enviado a ChatGPT para que éste pueda responder y, su mensaje también será traducido a la inversa; es decir, con la tecnología de Google se traducirá -o convertirá- la respuesta en texto en todo un mensaje por voz, al más puro estilo Alexa de Amazon o Siri de Apple. Así de simple funcionará todo.

La instalación de GPT asistente en la Raspberry Pi

Lo primero que vas a tener que hacer es crear el ambiente virtual:

python 3 -m venv venv

En segundo lugar, deberás activar el ambiente en bash o con fish:

source venv/bin/activate

source venv/bin/activate.fish

Tras ese paso, deberás instalar los paquetes y librerías necesarias de la siguiente manera:

pip install requirements.txt

Por último, deberás renombrar el archivo .env.example por .env y cambiar el token del archivo por el de la página de ChatGPT. Para conseguir el token, deberás ingresar en la página oficial de OpenAI y el contenido del auth-session-token deberás copiarlo en el archivo .env. Ya lo tendrás listo.

Imagen de Edwight Delgado

¿Qué tendrás que hacer para poner en marcha el GPT asistente?

Si todo ha salido con éxito, tu GPT asistente ya estará listo para usarse. Como te hemos comentado anteriormente, ahora es momento que pongas en práctica todo lo instalado y comiences por preguntar a GPT asistente alguna pregunta. Para invocar al asistente -y al igual que funcionan los demás asistentes por voz- es decir su nombre antes de cualquier pregunta. En este caso, la palabra clave para despertarlo es GPT. A partir de ese momento, ya podrás preguntar lo que tú prefieras. Ahora bien, antes de nada deberás introducir el script para ponerlo en funcionamiento:

python voice_chat.py

En ese preciso momento, GPT asistente te saludará y te ofrecerá su ayuda. Es decir, su respuesta será la siguiente:

'Hola, ¿en qué puedo ayudarte?'

Tú deberás esperar pocos segundos y lanzarle la pregunta a través del micrófono conectado al sistema. Como te hemos dicho anteriormente, deberás pronunciar su nombre en primer lugar y, seguidamente, la pregunta que quieras formular. Un ejemplo:

'GPT, ¿recomiéndame un buen restaurante cerca de mi posición'

La respuesta del bot debería aparecer en pocos segundos. Y a través de una voz humana digitalizada. Por otro lado, si quieres terminar de preguntar, la sesión debes cerrarla también por voz diciendo únicamente ‘Adiós‘ o ‘Muchas gracias y adiós‘.

Mientras tanto, según Nickbild asegura -según su experiencia- que la experiencia es mucho mejor que lo que puede recibirse de asistentes como Alexa de Amazon o Google Home. Sin embargo, por el momento, para despertar al asistente GPT se debe iniciar el script y no por un comendo de voz. Ahora bien, a asegurado que el proyecto no quiere dejarlo así y ya está trabajando en la manera de despertar a GPT asistente por voz mediante un comando al más puro estilo ‘Hey, GPT’. Es decir, que el asistente siga funcionando en segundo plano y pueda invocarse en cualquier momento mientras el equipo esté en marcha. Por último, te dejamos un vídeo de demostración de cómo funciona el proyecto.

Un comentario, deja el tuyo

Deja tu comentario Cancelar la respuesta

Pablo dijo

2 años ago

Agradezco este post, estaba haciendo todo de manera manual mediante extensiones de chrome para que chat gpt hablara, pero me faltaba algo mas «viable»

Existira la forma dentro de los archivos para cambiar la «activacion» de gpt voice?

Responder a Pablo