Guía Completa de LLMs en el Edge con Raspberry Pi

Seguro que te has preguntado si es posible tener un cerebro artificial potente sin depender de que los servidores de una gran empresa en Estados Unidos estén operativos. La respuesta es un rotundo sí, y además, hoy en día correr modelos de lenguaje en un dispositivo tan compacto como una Raspberry Pi ha dejado de ser un experimento para frikis y se ha convertido en una opción técnica viable y sorprendentemente eficiente.

La magia ocurre gracias a la computación en el borde o edge computing, que básicamente consiste en procesar la información justo donde se genera. Al mover la IA al dispositivo, conseguimos que la privacidad de los datos sea absoluta, ya que nada sale de casa, y eliminamos esa latencia desesperante que ocurre cuando los datos tienen que viajar miles de kilómetros antes de recibir una respuesta.

importancia actualizaciones ota en iot-2

Artículo relacionado:

Open source en IoT: plataformas, datos y edge AI que marcan la diferencia

El hardware ideal para la IA local

Si quieres meterte en este jardín, no te sirve cualquier placa. La Raspberry Pi 5 es la candidata perfecta gracias a su procesador Arm Cortex-A76, que es una auténtica bestia para manejar tareas de inferencia. Para que la experiencia no sea una tortura, es fundamental contar con el modelo de 8GB de RAM, ya que los modelos cuantizados consumen una cantidad considerable de memoria RAM y el sistema operativo necesita aire para respirar.

Un punto donde mucha gente mete la pata es la temperatura. La inferencia de LLMs pone a los núcleos al 100%, lo que provoca que el procesador se caliente quickest. Para evitar que el sistema baje el rendimiento por el thermal throttling, el Active Cooler oficial no es un accesorio opcional, es obligatorio. Si no quieres que tu Pi se convierta en un tostador, necesitas esa ventilación activa.

En cuanto al almacenamiento, aunque una tarjeta microSD de clase A2 cumple, si quieres que los modelos carguen en un abrir y cerrar de ojos, lo ideal es usar un SSD NVMe mediante un HAT M.2. La diferencia es abismal: cargar un modelo de 2GB puede pasar de 12 segundos a tan solo 3 o 4, lo cual acelera el despliegue de cualquier aplicación en el borde.

Arm amplía su programa de licencias de IA

Artículo relacionado:

Arm amplía Flexible Access para licencias de IA en el edge

Entendiendo los SLMs y la cuantificación

Olvídate de intentar ejecutar GPT-4 en una Raspberry; sería como querer meter un elefante en un coche compacto. Aquí entran en juego los Small Language Models (SLMs). Estos modelos, que suelen tener entre unos pocos cientos de millones y unos 7 u 8 mil millones de parámetros, están diseñados específicamente para dispositivos con recursos limitados sin perder demasiada coherencia.

El truco maestro para que esto funcione es la cuantificación GGUF. Básicamente, consiste en reducir la precisión de los pesos del modelo (por ejemplo, de 16 bits a 4 bits). Esto hace que el modelo ocupe mucho menos espacio en RAM y que la velocidad de generación de tokens sea aceptable, permitiendo alcanzar ritmos de lectura cómodos para un humano.

Llama 3.2 (1B y 3B): Ideales para diálogos multilingües y tareas de resumen.
Gemma 3 y 3n: Destacan por su eficiencia y, en algunas versiones, capacidades visuales.
Microsoft Phi-3.5: Muy potente en razonamiento, aunque a veces puede pecar de ser demasiado verboso.
TinyLlama: El rey de la velocidad, perfecto para comandos simples de domótica.

Herramientas de despliegue: Ollama y Llama.cpp

Para poner todo esto en marcha, tenemos dos caminos principales. Por un lado, Llama.cpp es la opción para quienes quieren control total. Permite compilar el código fuente optimizando las instrucciones ARM NEON y dotprod, lo que exprime cada gota de potencia del silicio. Es ideal para exponer una API compatible con OpenAI en el puerto 8080 y conectar la Pi con otros dispositivos de la red local.

Por otro lado, tenemos Ollama, que es probablemente la forma más sencilla de gestionar modelos hoy en día. Con un par de comandos en la terminal, puedes descargar y ejecutar modelos como Llama o Gemma sin complicaciones. Ollama levanta un servidor en segundo plano que permite interactuar con la IA mediante una librería de Python muy intuitiva, facilitando la creación de scripts personalizados.

Para optimizar el sistema, especialmente en versiones Lite de Raspberry Pi OS, es vital aumentar el espacio de swap a unos 4GB. Esto evita que el proceso sea aniquilado por el OOM Killer (Out Of Memory) cuando el modelo y el contexto del chat empiezan a llenar la memoria RAM disponible.

Artículo relacionado:

Agentes de IA local en ESP32: frameworks, proyectos y límites

Modelos de Visión y Lenguaje (VLMs) en el borde

La cosa se pone realmente interesante cuando mezclamos la vista con la palabra. Los Vision-Language Models (VLMs) permiten que la Raspberry Pi no solo lea, sino que entienda imágenes. Modelos como Moondream son sorprendentemente rápidos y capaces de describir escenas, contar objetos o realizar OCR directamente en el dispositivo.

Un ejemplo práctico y muy potente es el uso de la Raspberry Pi AI Camera. En lugar de enviar el vídeo bruto a la nube, la cámara procesa la imagen en el sensor y genera metadatos (como etiquetas de objetos y niveles de confianza). Estos datos ligeros se envían al LLM, que los convierte en resúmenes legibles para humanos. Es la diferencia entre enviar un vídeo de 1GB o un texto de 1KB.

Este enfoque abre la puerta a aplicaciones como el monitoreo de estanterías en retail, donde el sistema avisa si falta stock, o la vigilancia en fábricas para comprobar si los operarios llevan puesto el equipo de seguridad, todo ello manteniendo la privacidad y cumpliendo la normativa GDPR al no subir imágenes a servidores externos.

Casos de uso reales y automatización

Si te mola la domótica, puedes convertir tu Pi en un centro de control local. Imagina un asistente de voz que use Whisper.cpp para transcribir tu voz y un LLM local para parsear la intención en un JSON que luego dispare acciones en Home Assistant. Todo esto ocurre en milisegundos y sin conexión a internet.

En entornos industriales, estos sistemas pueden servir para el mantenimiento predictivo o la optimización de procesos en tiempo real. También son oro puro para la agricultura de precisión, donde un dispositivo móvil puede analizar la salud de los cultivos en medio del campo sin necesidad de tener cobertura 5G.

Desde herramientas educativas en zonas remotas hasta asistentes para personas con discapacidad, la capacidad de ejecutar IA generativa en el edge democratiza el acceso a la tecnología y permite crear soluciones hiper-especializadas que no dependen de una cuota mensual de suscripción en la nube.

Tener la capacidad de procesar lenguaje y visión de forma local en una placa de 80 euros es un salto tecnológico brutal. Combinando hardware optimizado, modelos cuantizados y herramientas como Ollama, cualquier desarrollador puede montar un ecosistema de IA privada, rápida y eficiente que realmente sea útil en el mundo físico.

Artículo relacionado:

EdgeCortix SAKURA-II Edge AI acelerador de IA con 60 TOPS y solo 8W