Copy Fail, la vulnerabilidad de Linux que pone en jaque a servidores, nube y contenedores

La comunidad de software libre y administradores de sistemas Linux se enfrenta estos días a un problema que va bastante más allá de una simple actualización pendiente. Copy Fail, registrada como CVE-2026-31431, ha destapado una grieta en el núcleo de Linux que llevaba años pasando desapercibida y que permite a cualquier usuario local sin privilegios acabar con control total de la máquina.

El impacto va mucho más allá de un laboratorio de pruebas: servidores en centros de datos europeos, clústeres de Kubernetes, plataformas de CI/CD y servicios cloud que ejecutan código de terceros están en el punto de mira. Aunque el fallo no abre directamente una puerta desde Internet, convierte casi cualquier pequeña intrusión local en una escalada de privilegios a root muy fiable y difícil de rastrear.

Qué es Copy Fail (CVE-2026-31431) y por qué preocupa tanto

Copy Fail es una vulnerabilidad de escalada local de privilegios (LPE) en el kernel de Linux. En la práctica, permite que un usuario con una cuenta normal, un proceso dentro de un contenedor o un job de CI sin privilegios administrativos termine ejecutando código como root en sistemas vulnerables.

El problema se rastrea como CVE-2026-31431 y afecta al subsistema criptográfico del kernel, concretamente a la interfaz AF_ALG y al módulo algif_aead en combinación con la plantilla criptográfica authencesn. Esta combinación es la que acaba permitiendo escribir 4 bytes controlados por el atacante dentro de la caché de páginas del sistema.

Lo llamativo es que la explotación es sorprendentemente compacta. Distintos investigadores, entre ellos Xint Code y Theori, han publicado pruebas de concepto de apenas pocos cientos de bytes en Python que funcionan de forma estable en entornos convencionales, sin necesidad de condiciones de carrera exóticas ni configuraciones rebuscadas.

En Europa, donde Linux es omnipresente en bancos, operadores, administraciones y proveedores cloud, el hecho de que un exploit tan pequeño y fiable funcione contra múltiples distribuciones eleva el riesgo a un nivel que obliga a reaccionar con rapidez.

Origen del fallo: una optimización en 2017 que salió cara

El corazón técnico de Copy Fail está en un cambio introducido en el kernel de Linux en 2017, cuando se buscó acelerar el rendimiento del módulo criptográfico algif_aead. Esa optimización, pensada para realizar operaciones «in-place» y evitar copias de memoria innecesarias, abrió sin querer una vía para corromper la caché de páginas.

El código afectado se apoya en la plantilla authencesn (HMAC-SHA256 + AES-CBC). En lugar de utilizar únicamente el espacio de salida para escribir el resultado cifrado o descifrado, el algoritmo usa parte de ese búfer como zona temporal de trabajo. El problema viene cuando, durante estas operaciones, se escriben cuatro bytes fuera de los límites previstos.

En combinación con la llamada al sistema splice(), que enlaza directamente páginas de la caché del kernel con descriptores de archivo en espacio de usuario, esa escritura fuera de rango termina impactando en una página de la caché que contiene un archivo del sistema. Si el atacante consigue que esa página corresponda a un binario con bit setuid, como /usr/bin/su o sudo en Linux, tiene la puerta abierta para manipular código que se ejecutará como root.

El parche oficial que corrige la vulnerabilidad revierte precisamente esa optimización problemática, separando de nuevo las áreas de memoria de origen y destino. En las ramas estables del kernel el cambio se asocia a commits como a664bf3d603d, que ya están siendo integrados en versiones mantenidas a largo plazo.

Cinco detalles clave del funcionamiento del exploit

Los análisis publicados por Xint/Theori y otras firmas de seguridad describen un mecanismo de ataque relativamente directo. De forma simplificada, el flujo suele seguir estos pasos, aprovechando interfaces del kernel que vienen activas por defecto en la mayoría de distribuciones:

El atacante abre un socket AF_ALG y selecciona el modo AEAD vulnerable en el subsistema criptográfico del kernel.
Mediante splice(), enlaza páginas de la caché de un archivo legible (por ejemplo, /usr/bin/su) con el búfer de destino que usará el kernel para una operación criptográfica.
El algoritmo authencesn procesa los datos y, debido al bug lógico, escribe 4 bytes fuera de los límites del búfer de salida previsto.
Esos 4 bytes caen sobre la página de la caché que contiene el código del binario con setuid, y su contenido queda controlado por el atacante a través de los parámetros de la operación y el AAD.
Repitiendo el ciclo varias veces, se pueden modificar instrucciones clave del binario en memoria o inyectar pequeñas porciones de shellcode. Cuando se ejecuta el programa, se obtiene una shell con privilegios de root.

La gran ventaja para el atacante es que todo esto ocurre en la page cache del kernel. El archivo en disco no se altera, de forma que las comprobaciones habituales basadas en hashes, firmas o herramientas de integridad de ficheros muestran que todo está aparentemente correcto.

Al no marcarse la página como «sucia», el kernel no tiene motivos para escribir los cambios de vuelta al disco. Si el sistema se reinicia o la caché se invalida por presión de memoria, la modificación desaparece sin dejar rastro, lo que complica mucho cualquier análisis forense posterior.

Qué sistemas Linux están afectados y cuál es el nivel de riesgo

Todos los análisis coinciden en que el alcance es amplio. La vulnerabilidad afecta a kernels que incluyen la optimización de 2017 y mantienen soporte para AF_ALG y algif_aead. En la práctica, esto abarca la mayoría de versiones del kernel 4.14 en adelante, hasta que cada distribución ha integrado el parche correspondiente.

Entre las plataformas afectadas se citan expresamente Ubuntu, Debian, Red Hat Enterprise Linux (RHEL), SUSE, Amazon Linux y algunas compilaciones de WSL2 que habilitan AF_ALG. Diversos investigadores han probado con éxito el exploit en entornos representativos de producción, confirmando su viabilidad real.

En el caso de Europa, esto impacta de lleno en infraestructuras críticas y servicios públicos donde Linux es el estándar de facto: desde organismos de la administración y universidades hasta bancos, operadoras y grandes proveedores de alojamiento que ofrecen servidores compartidos o VPS multiusuario.

La clasificación de severidad ronda valores de alto riesgo en la escala CVSS (entorno de 7,8/10). Aunque no se trata de un fallo explotable de forma remota sin más, su combinación de simplicidad, estabilidad y capacidad para romper el aislamiento entre usuarios y contenedores lo coloca en la liga de vulnerabilidades como Dirty Pipe o Dirty COW.

Las propias distribuciones han ido publicando avisos de seguridad. Ubuntu, por ejemplo, marca el CVE como prioridad alta para múltiples ramas LTS y detalla qué paquetes siguen con «fix pending», mientras que proveedores como Amazon Linux enumeran versiones concretas de kernel 5.4, 5.10, 5.15, 6.12 o 6.18 pendientes de actualizar.

Impacto en servidores, contenedores y entornos cloud

El lugar donde Copy Fail muestra su peor cara son los escenarios multi-tenant, es decir, aquellos donde varios usuarios o clientes comparten la misma máquina física o el mismo kernel: servidores compartidos, clústeres de Kubernetes, runners de CI/CD o servicios cloud que ejecutan código de clientes.

En un proveedor de hosting europeo, por ejemplo, un cliente con una simple cuenta de usuario en un servidor compartido podría aprovechar cualquier fallo menor en su propia aplicación web para ejecutar código local y, a partir de ahí, tirar de Copy Fail para comprometer el host completo. Desde ese momento, los datos y servicios del resto de clientes del servidor quedarían al alcance.

La situación es similar en plataformas de integración y despliegue continuo (CI/CD) que compilan y prueban código de múltiples proyectos en máquinas compartidas. Un job aparentemente inocente dentro de un runner podría usar el exploit y obtener privilegios de root, dando acceso al resto de trabajos y credenciales almacenadas en el entorno.

En el caso de Kubernetes y otros orquestadores de contenedores, el problema es que todos los pods de un nodo comparten la misma caché de páginas del kernel del host. Un usuario dentro de un contenedor que pueda ejecutar la prueba de concepto podría escapar de su entorno aislado, tomar el control del nodo y, desde ahí, moverse lateralmente por el clúster.

Este tipo de escenarios están muy presentes en centros de datos europeos, proveedores cloud regionales y grandes compañías que han apostado por Kubernetes para sus cargas de trabajo. Para muchas de ellas, el CVE-2026-31431 ha desencadenado fines de semana de parches, cafés y reinicios planificados para cerrar la brecha lo antes posible.

Copy Fail frente a anteriores vulnerabilidades del kernel de Linux

Copy Fail se ha comparado con otros fallos célebres del kernel, como Dirty COW o Dirty Pipe, que también jugaban con la caché de páginas y las operaciones de E/S para alterar archivos que, en teoría, solo podían leerse.

La diferencia clave es el subsistema que se ve comprometido. Mientras que vulnerabilidades anteriores explotaban rutas de escritura en tuberías o mecanismos de copia de archivos, Copy Fail se apoya en la ruta criptográfica del kernel, a través de AF_ALG y operaciones AEAD, para conseguir un primitivo de escritura de 4 bytes en la caché.

Desde la perspectiva de un atacante, esto tiene varias ventajas: el código necesario se reduce mucho, no depende de carreras complejas y utiliza APIs que suelen estar activas por defecto porque muchas aplicaciones legítimas se apoyan en ellas para cifrado y autenticación.

El resultado es un exploit más silencioso y portable, que funciona de forma bastante consistente en distintas arquitecturas y versiones del kernel dentro del rango afectado. Por eso, aunque no permita escritura arbitraria ilimitada como otros bugs, la combinación de fiabilidad y sigilo lo convierte en una herramienta muy atractiva dentro de una cadena de ataque más amplia.

Para los equipos de seguridad, esto refuerza una idea que ya venía gestándose: las optimizaciones de rendimiento en el kernel pueden introducir vulnerabilidades serias si no se someten a auditorías de seguridad exhaustivas, algo nada trivial en un código tan grande y cambiante como el de Linux.

El papel de la inteligencia artificial en el descubrimiento de Copy Fail

Uno de los puntos más curiosos del caso es cómo se ha descubierto un error que llevaba ahí desde hace casi una década. Equipos como Xint Code y Theori han explicado que el hallazgo no se debe solo a paciencia humana, sino al uso de herramientas de análisis de código asistidas por inteligencia artificial.

Estas soluciones realizan un escaneo masivo del código del kernel, buscando patrones sospechosos, accesos a memoria potencialmente peligrosos y combinaciones de funciones que encajan con modelos de riesgo aprendidos. En subsistemas tan complejos como el criptográfico, donde se mezclan optimizaciones, plantillas y macros, un ojo humano puede pasar por alto interacciones sutiles.

La IA, en cambio, ayuda a resaltar trozos de código donde conviene mirar más despacio. En el caso de Copy Fail, este enfoque permitió detectar el bug lógico en authencesn y su relación con la optimización de 2017 y el uso de splice(), algo que había escapado a las revisiones previas.

Para muchas organizaciones europeas, el mensaje es doble: por un lado, incluso el software más auditado puede esconder vulnerabilidades críticas durante años; por otro, el uso de herramientas de análisis avanzadas basadas en IA se está convirtiendo en un requisito casi imprescindible para reforzar la seguridad de infraestructuras críticas.

Medidas de mitigación y parches disponibles

La solución de fondo pasa por lo de siempre, pero con algo de prisa: actualizar el kernel de Linux a una versión que incluya el parche para CVE-2026-31431. Los mantenedores del kernel han corregido el fallo en ramas como 6.18.22, 6.19.12 y kernel 7.0, y se están realizando backports a versiones de soporte prolongado.

Las distribuciones europeas más extendidas (Ubuntu, Debian, SUSE, RHEL, Amazon Linux y derivadas) han ido publicando sus propios kernels parcheados. En muchos casos, el cambio se vincula al commit a664bf3d603d o equivalentes que corrigen el manejo de buffers en algif_aead y revierten la optimización in-place problemática.

Allí donde no sea viable reiniciar de inmediato, se recomiendan varias medidas temporales para reducir la superficie de ataque. Una de las más directas es deshabilitar el módulo algif_aead mediante reglas de modprobe, evitando que se cargue en el arranque y descargándolo si ya está activo.

Para entornos de alto riesgo, algunos expertos sugieren dar un paso más y bloquear la interfaz AF_ALG mediante políticas de seguridad como seccomp, AppArmor o SELinux. Esta medida es más agresiva, ya que puede afectar a aplicaciones legítimas que usan AF_ALG para tareas criptográficas, por lo que conviene probarla bien en cada entorno antes de aplicarla en producción.

Detección y monitorización de intentos de explotación

Aunque la prioridad es parchear, muchas organizaciones quieren saber si se ha intentado explotar Copy Fail en sus sistemas o, al menos, montar mecanismos de alerta temprana. Varios fabricantes de soluciones de seguridad han publicado reglas de monitorización y EDR específicas para este caso.

Un enfoque habitual es vigilar accesos de lectura a binarios con setuid (como su, sudo, passwd, gpasswd, mount, umount, fusermount3, etc.) cuando proceden de intérpretes como Python o de rutas poco habituales, así como secuencias en las que inmediatamente después se llama a splice() por parte de usuarios no privilegiados.

También se recomienda monitorizar la creación de sockets AF_ALG (familia 26 en decimal) desde UIDs de usuarios normales y correlacionar estos eventos con ejecuciones de binarios privilegiados lanzados mediante sh -c o comandos similares, un patrón que encaja bien con lo que hace la prueba de concepto original.

En entornos con SIEM, estas reglas se pueden traducir en normas de auditd y correlaciones que disparen alertas cuando aparezcan cadenas de comportamiento sospechosas. Fabricantes de EDR avanzados han agregado firmas con nombres del estilo possible_copy_fail_cve_2026_31431 o similar para detectar tanto exploits escritos en Python como en Go o Rust.

Aunque esta monitorización no sustituye a los parches, ayuda a identificar actividades anómalas y a reaccionar antes de que un incidente pase a mayores, algo especialmente relevante para instituciones financieras, organismos públicos y proveedores de servicios críticos dentro de la Unión Europea.

Recomendaciones prácticas para empresas y administradores

Para organizaciones que dependen fuertemente de Linux en sus infraestructuras, el caso Copy Fail exige combinar medidas inmediatas con ciertos ajustes de fondo en la estrategia de seguridad. A corto plazo, los pasos más razonables pasan por:

Inventariar todos los sistemas Linux en producción y comprobar la versión del kernel con herramientas como uname -r.
Verificar en los boletines de seguridad de cada distribución (Ubuntu, Debian, RHEL, SUSE, Amazon Linux, etc.) si la versión en uso está afectada por CVE-2026-31431.
Aplicar cuanto antes las actualizaciones de kernel publicadas por el proveedor, priorizando servidores expuestos a usuarios múltiples o código no confiable.
En sistemas donde no se pueda actualizar de inmediato, deshabilitar algif_aead mediante modprobe y, si es viable, restringir AF_ALG con seccomp/AppArmor/SELinux.
Revisar y endurecer las políticas de contenedores y de entornos Kubernetes para limitar el acceso a interfaces del kernel que no sean estrictamente necesarias.

A medio plazo, merece la pena revisar cuántos binarios con bit setuid hay en los sistemas y si todos son realmente imprescindibles, reducir la exposición de servidores multiusuario y mejorar la integración de herramientas de análisis automatizado e IA en los procesos de desarrollo y pruebas internas.

La aparición de Copy Fail ha servido como recordatorio de que incluso un proyecto tan veterano y revisado como el kernel de Linux puede esconder vulnerabilidades serias durante años. Para empresas, administraciones y proveedores cloud europeos, la combinación de parches rápidos, mitigaciones bien pensadas y una monitorización más afinada es ahora mismo la mejor forma de mantener bajo control un fallo que, con apenas unos cientos de bytes de código, es capaz de convertir un simple usuario local en el dueño absoluto del sistema.