Google lanza Gemma 4: así es la nueva familia de modelos abiertos

Google ha dado un giro importante a su estrategia de inteligencia artificial abierta con el lanzamiento de Gemma 4, una nueva familia de modelos open weight que busca combinar alto rendimiento, eficiencia en hardware y una licencia realmente abierta para uso comercial. Construida sobre la misma base tecnológica que Gemini 3, esta línea apunta tanto a grandes empresas como a desarrolladores que quieren desplegar IA avanzada sin depender por completo de servicios cerrados en la nube.

Lejos de ser un modelo experimental más, Gemma 4 llega como una propuesta completa de cuatro variantes capaces de funcionar en móviles, dispositivos de borde, ordenadores personales y servidores con GPU de alto rendimiento. La apuesta de Google pasa por ofrecer más inteligencia por parámetro, reducir costes de infraestructura y, al mismo tiempo, dar margen a la comunidad y a las empresas para adaptar los modelos a sus propias necesidades.

Una familia de cuatro modelos pensada para abarcar del móvil al datacenter

La familia Gemma 4 se organiza en cuatro tamaños principales: E2B, E4B, 26B MoE y 31B Dense. Los dos primeros están orientados a ejecución en el borde (edge), mientras que los modelos de 26.000 y 31.000 millones de parámetros se dirigen a estaciones de trabajo potentes, incluidos portátiles de alto rendimiento y entornos de servidor.

Las variantes Effective 2B (E2B) y Effective 4B (E4B) han sido diseñadas específicamente para dispositivos con recursos limitados, como teléfonos Android, placas IoT y sistemas empotrados como Raspberry Pi o hardware de fabricantes como Qualcomm y MediaTek. Su objetivo es mantener una buena capacidad de razonamiento y multimodalidad reduciendo al máximo el consumo de memoria, batería y latencia.

Por encima, el modelo 26B con arquitectura Mixture of Experts (MoE) está optimizado para minimizar el tiempo de respuesta: durante la inferencia solo activa alrededor de 3,8 mil millones de parámetros, lo que permite generar tokens a gran velocidad en hardware de desarrollador o GPUs de consumo, incluyendo chips de IA personalizados, ideal para asistentes de programación locales y herramientas de desarrollo.

En el extremo superior se sitúa Gemma 4 31B Dense, la variante densa orientada a tareas donde prima la calidad y la coherencia por encima de la velocidad. Este modelo se ha colocado ya entre las primeras posiciones de los rankings de modelos abiertos como el Arena AI text leaderboard, compitiendo con sistemas que multiplican por veinte su tamaño en parámetros.

Esta combinación de modelos ligeros y pesados permite que Gemma 4 cubra desde usos cotidianos en el móvil hasta flujos de trabajo críticos en empresas, dando a arquitectos de sistemas margen para elegir entre rapidez de inferencia o profundidad de análisis según cada proyecto.

Multimodalidad extendida y ventanas de contexto largas

Uno de los puntos fuertes de la nueva familia es su capacidad para trabajar con múltiples tipos de contenido de forma nativa. Todos los modelos Gemma 4 pueden procesar texto e imágenes, admitiendo diferentes resoluciones y relaciones de aspecto, lo que facilita casos de uso como análisis de documentos escaneados, comprensión visual de interfaces o generación de descripciones.

Además, las versiones E2B y E4B amplían la multimodalidad a vídeo y audio, lo que les permite abordar tareas de reconocimiento de voz de baja latencia, análisis de clips de vídeo o aplicaciones de realidad aumentada, directamente en el dispositivo. En escenarios móviles o IoT, esta capacidad de ejecutar visión y audio sin depender constantemente de la nube reduce problemas de conectividad y mejora la privacidad.

En cuanto al manejo de información extensa, la familia Gemma 4 introduce ventanas de contexto de hasta 256.000 tokens en los modelos más grandes. Las variantes para dispositivos de borde ofrecen contextos de 128K, mientras que las de 26B y 31B alcanzan los 256K tokens. Eso permite, por ejemplo, cargar repositorios de código completos, grandes bases documentales o historiales de conversación muy largos en una sola consulta.

Esta amplitud de contexto resulta particularmente útil para generación de código offline, soporte técnico automatizado o análisis de documentos legales, ámbitos con especial relevancia en empresas europeas sometidas a normativas estrictas y que, a menudo, necesitan mantener la información dentro de sus propios sistemas.

Junto con la multimodalidad y el contexto ampliado, Google destaca el soporte de Gemma 4 para más de 140 idiomas. Esta cobertura lingüística amplia lo convierte en una opción atractiva para compañías con presencia global, administraciones públicas europeas o startups que quieren lanzar productos multilingües sin depender de múltiples modelos distintos.

Agentes autónomos, JSON y llamadas a funciones: Gemma 4 orientado a flujos agentic

Gemma 4 no se queda en la generación de texto tradicional. Toda la familia se ha diseñada con un foco claro en flujos de trabajo basados en agentes, una tendencia cada vez más relevante en entornos empresariales y de desarrollo de software.

Los modelos incorporan de serie soporte nativo para llamadas a funciones (function calling), lo que permite que el sistema invoque APIs externas o herramientas específicas de forma controlada. Junto a ello, ofrecen salida JSON estructurada, facilitando la integración con aplicaciones que necesitan respuestas formateadas para ser consumidas por otros servicios o microservicios.

Otro aspecto clave es la compatibilidad con instrucciones de sistema nativas, que permiten definir de manera precisa el rol del «system» y establecer reglas claras sobre el comportamiento del modelo. Esta capacidad resulta especialmente útil a la hora de construir agentes autónomos que gestionan atención al cliente, automatizan procesos internos o coordinan varias herramientas dentro de una empresa.

Según responsables de Google Cloud, la IA empresarial exige modelos capaces de ejecutar lógica compleja manteniendo los datos dentro de entornos seguros. En este sentido, el enfoque agentic de Gemma 4 se combina con opciones de despliegue local y en nubes controladas para reducir riesgos y aumentar el control sobre dónde y cómo se procesan los datos.

La compañía acompaña estos modelos con un Agent Development Kit (ADK), un marco modular pensado para acelerar el diseño de agentes, y con soporte para ejecutar cargas intensivas de forma serverless en Cloud Run sobre GPUs NVIDIA RTX PRO 6000 (Blackwell), lo que rebaja la inversión inicial necesaria para experimentar con agentes complejos.

Licencia Apache 2.0 y soberanía digital: implicaciones para Europa y España

Uno de los cambios más relevantes respecto a generaciones anteriores de Gemma está en la licencia. Por primera vez, Gemma 4 se distribuye bajo Apache 2.0, una licencia abierta plenamente permisiva que permite uso comercial sin restricciones específicas adicionales por parte de Google.

En las versiones anteriores, los términos de uso añadían condiciones que generaban dudas en equipos legales corporativos, especialmente en grandes empresas y administraciones públicas. Con Apache 2.0, Google sitúa Gemma 4 en la misma liga de licenciamiento que otros modelos abiertos de referencia como Llama, facilitando su adopción en proyectos de producción sin necesidad de negociaciones individuales.

Esta decisión tiene una lectura clara en clave europea. La combinación de modelo abierto, compatibilidad con más de 140 idiomas y opciones de despliegue soberano encaja con las exigencias de normativas de residencia de datos y con los debates en torno al Reglamento de IA de la Unión Europea. Compañías españolas y europeas pueden integrar Gemma 4 en sus soluciones manteniendo un mayor control sobre dónde se almacenan y procesan los datos.

Google prevé la disponibilidad de Gemma 4 en entornos de Nube Soberana y configuraciones air-gapped, así como en instalaciones on-premises. Para sectores regulados como banca, salud, energía o administraciones públicas, esto abre la puerta a aprovechar IA avanzada sin necesidad de enviar información sensible a infraestructuras compartidas fuera del espacio europeo.

La flexibilidad de la licencia también impulsa la creación de variantes locales y especializadas. Ya se han visto ejemplos en el pasado, como modelos adaptados a idiomas y contextos específicos (por ejemplo, BgGPT en Bulgaria o aplicaciones médicas en universidades norteamericanas), y la expectativa de Google es que Gemma 4 refuerce este ecosistema, al que algunos se refieren como un «Gemmaverse» con decenas de miles de variantes comunitarias.

Integración en Google Cloud, ejecución local y hardware necesario

Más allá de la apertura del modelo, Google ha preparado una infraestructura de soporte centrada en Vertex AI y Google Kubernetes Engine (GKE). A través de estos servicios, las organizaciones pueden aprovisionar recursos a medida, escalar cargas de inferencia y ajustar el despliegue a sus requisitos de seguridad y cumplimiento.

En Vertex AI, Gemma 4 se integra como parte del catálogo de modelos, lo que permite a los equipos técnicos probar, ajustar (fine-tuning) y desplegar variantes personalizadas manteniendo el control sobre los recursos de cómputo. La combinación con GKE habilita un escalado dinámico, adaptando el número de réplicas de los servicios de inferencia a la demanda real.

Un dato importante para empresas de tamaño medio es que los pesos bfloat16 de los modelos de 26B y 31B caben en una sola GPU NVIDIA H100 de 80 GB. Esto rebaja notablemente la inversión mínima para acceder a modelos de alto nivel, en comparación con alternativas que requieren varias GPUs en paralelo.

Al mismo tiempo, Gemma 4 está optimizado para funcionar en hardware diverso, desde GPUs de consumo hasta soluciones móviles con conectividad 5G M2M. Los modelos E2B y E4B aprovechan técnicas como Per-Layer Embeddings (PLE) para maximizar la eficiencia por parámetro, lo que les permite ejecutarse en teléfonos, Raspberry Pi o dispositivos edge con latencias muy bajas.

La compatibilidad se extiende también a ecosistemas como Hugging Face, Ollama, vLLM, LM Studio o llama.cpp, así como a plataformas de desarrollo de Google como AI Studio y AICore (para prototipos en Android). Esto facilita que tanto desarrolladores independientes como equipos corporativos integren Gemma 4 en sus flujos habituales sin necesidad de empezar desde cero.

Posibles usos en empresas, educación y sector público

Las capacidades de Gemma 4 permiten desplegar una amplia gama de aplicaciones prácticas que van más allá de los clásicos chatbots. En el entorno empresarial, los modelos pueden servir de base para asistentes virtuales internos que respondan dudas sobre documentación corporativa, generen resúmenes ejecutivos o automaticen tareas repetitivas en varios idiomas.

En el ámbito de la programación, la combinación de ventanas de contexto amplias, generación de código y baja latencia hace que Gemma 4 resulte adecuado para asistentes de desarrollo locales, revisión automática de código o herramientas que analizan repositorios completos en una sola pasada, manteniendo el código en la propia infraestructura de la empresa.

En educación, Gemma 4 podría utilizarse para crear tutores personalizados que adapten el contenido al nivel del estudiante, generen resúmenes de textos complejos o expliquen imágenes y gráficos, algo especialmente útil para alumnado con necesidades específicas de accesibilidad.

Para el sector público y las administraciones en España y Europa, la posibilidad de desplegar estos modelos en entornos controlados, con datos residentes en territorio europeo, abre opciones en atención ciudadana, análisis de expedientes o automatización de trámites, siempre que se integren con las garantías de transparencia y supervisión humana requeridas por la regulación.

En sectores como manufactura, agricultura de precisión o gestión de infraestructuras, la ejecución local en dispositivos de edge computing permite analizar datos en tiempo real sin depender de la conexión permanente a la nube. Esto reduce costes de transmisión, mejora tiempos de respuesta y disminuye la exposición de datos sensibles a redes externas.

IA local, costes y la brecha entre modelos abiertos y propietarios

El lanzamiento de Gemma 4 refleja una tendencia clara en la industria: la prioridad ya no es solo quién tiene el modelo más grande, sino quién logra la mejor relación entre capacidad, coste y facilidad de despliegue. Google insiste en la idea de «inteligencia por parámetro» como métrica central de esta nueva generación.

La posibilidad de ejecutar modelos avanzados de forma local, sin depender siempre de grandes servicios en la nube, apunta a un cambio en la forma de diseñar productos y servicios. Para muchas tareas cotidianas —resumir un texto, crear un recordatorio, procesar una imagen simple— no tiene demasiado sentido enviar datos a modelos masivos remotos si se puede resolver en el propio dispositivo.

Aun así, Gemma 4 no pretende reemplazar a los modelos propietarios de Google, sino complementarlos. La compañía mantiene Gemini como su capa más avanzada y cerrada, reservada para casos de uso donde la máxima capacidad sea prioritaria. Gemma 4 se sitúa un escalón por debajo en términos de frontera tecnológica, pero gana terreno en apertura, flexibilidad y control de costes.

Para los departamentos de IT, esto plantea una elección cada vez más visible: modelos cerrados, con mayor comodidad de uso pero menos control, frente a modelos abiertos que requieren una gestión más activa de la infraestructura a cambio de soberanía total y mayor optimización económica a medio plazo.

En este contexto, la competitividad de las empresas españolas y europeas en el campo de la IA puede depender, en buena medida, de su capacidad para integrar modelos abiertos como Gemma 4 en sus procesos críticos, combinándolos cuando sea necesario con servicios propietarios y asegurando siempre el cumplimiento de las normas de protección de datos y de la futura regulación europea en materia de inteligencia artificial.

Con Gemma 4, Google consolida una apuesta decidida por modelos abiertos eficientes, capaces de ejecutarse en hardware accesible, de adaptarse a distintos marcos regulatorios y de servir como base para una nueva generación de agentes y aplicaciones locales; quienes sepan aprovechar esta combinación de apertura, rendimiento y control tendrán ventaja a la hora de construir soluciones de IA sostenibles y alineadas con las exigencias de Europa.