La nueva familia de nĂșcleos Arm C1 marca un cambio importante en el ecosistema mĂłvil y de dispositivos ultraportĂĄtiles, sustituyendo a los conocidos Cortex con un enfoque mĂĄs claro en rendimiento sostenido y eficiencia. Esta generaciĂłn llega con la plataforma Lumex y con un objetivo evidente: acelerar la IA en el propio dispositivo sin comprometer baterĂa ni temperatura.
Mås allå del cambio de nombre, la propuesta combina arquitectura Armv9.3-A, un rediseño profundo del subsistema de memoria y un impulso relevante a las capacidades de computación matricial. El resultado se traduce en mejoras generalizadas de rendimiento con un consumo mås contenido, ademås de una hoja de ruta pensada para smartphones, tablets, portåtiles y wearables.
Arquitectura y novedades de los nĂșcleos Arm C1
La serie C1 se organiza en cuatro variantes: C1-Ultra (mĂĄximo rendimiento), C1-Premium (alto rendimiento en menos ĂĄrea), C1-Pro (equilibrio) y C1-Nano (mĂĄxima eficiencia). Cada fabricante puede combinar estos bloques en clĂșsteres heterogĂ©neos para crear SoC adaptados a diferentes gamas y usos, con configuraciones de hasta 14 nĂșcleos.
Arm ha retocado tanto el frontâend como el backâend, incluyendo mejoras de predicciĂłn, cachĂ©s y ejecuciĂłn fuera de orden. Gracias a la nueva interconexiĂłn y a una cachĂ© compartida mĂĄs eficiente (con uso intensivo de celdas SLC), la plataforma ofrece incrementos medios cercanos al 15% en usos cotidianos, que escalan a +30% en cargas exigentes y alcanzan picos de hasta un 45% en multinĂșcleo.
El soporte de memoria evoluciona con LPDDR6 para reducir consumo y latencias, manteniĂ©ndose la compatibilidad con LPDDR5X a velocidades de hasta 9600 MT/s. Esta base de memoria, junto al rediseño del clĂșster, refuerza el rendimiento sostenido y la respuesta bajo presiĂłn tĂ©rmica.
C1-Ultra: el techo de rendimiento
Como nĂșcleo tope de gama, C1-Ultra apunta a los SoC insignia y a tareas de alta demanda como fotografĂa computacional, modelos grandes de IA o juegos AAA mĂłviles. Frente al CortexâX925, Arm habla de un +25% en monohilo, cifra que ayuda a escalar el rendimiento global cuando se combina con mĂĄs nĂșcleos en el clĂșster.
El frontâend mejora el ancho de banda de L1 de instrucciones y la precisiĂłn de predicciĂłn, mientras que el backâend incrementa la ventana de ejecuciĂłn fuera de orden en torno a un 25%, llegando a manejar unas 2.000 instrucciones simultĂĄneamente. AdemĂĄs, se duplica la L1 de datos hasta 128 KB y se acelera la lectura de L1 en aproximadamente un 33%.
C1-Premium: alto rendimiento en menos ĂĄrea
Para dispositivos premium que no necesiten el måximo absoluto, C1-Premium mantiene una arquitectura muy cercana a Ultra pero con una reducción de årea del 35%. Estå pensado para equilibrar prestaciones y coste, facilitando diseños mås compactos sin renunciar a cifras notables.
C1-Pro: equilibrio y mĂșsculo multinĂșcleo
En el segmento central, C1-Pro sustituye a los CortexâA725 con un +11% de rendimiento a igual consumo y con mejoras de eficiencia que alcanzan hasta un 26% menos de energĂa al mismo rendimiento. En juegos, Arm cita ganancias de alrededor de +16% en esta clase de nĂșcleos.
Las claves estĂĄn en un frontâend mĂĄs capaz (predicciĂłn estĂĄtica refinada y un BTB mucho mayor), y en un backâend con mĂĄs ancho de banda en L1D y menor latencia en L2 cuando la predicciĂłn acierta. TambiĂ©n se ha ajustado el predictor para acelerar la respuesta en escenarios reales.
C1-Nano: eficiencia por encima de todo
Para tareas ligeras y ahorro extremo, C1-Nano incrementa la eficiencia en torno a un 26% frente a su predecesor (manteniendo el ĂĄrea prĂĄcticamente intacta, ~+2% sobre A520). Se han desacoplado etapas de predicciĂłn y bĂșsqueda para traer antes las instrucciones a L1 y recortar esperas por predicciones fallidas.
AdemĂĄs, se optimiza el procesamiento vectorial, se apagan unidades cuando el pipeline se atasca y se reduce el trĂĄfico entre L3 y DRAM (alrededor de un 21% de media y hasta un 39% en ciertas cargas), lo que alivia consumo y mejora la respuesta.
C1-DSU: clĂșsteres flexibles y menos consumo
El nuevo C1âDSU orquesta la conexiĂłn de los nĂșcleos bajo una cachĂ© L3 compartida y hace de puente con el resto del SoC (RAM, GPU, etc.). Frente a iteraciones previas, el diseño rebaja el consumo tĂpico del sistema en torno a un 11% y el impacto de la memoria en un ~7%, apoyĂĄndose en modos como L3 Quick Nap para minimizar pĂ©rdidas cuando no se usa.
Otra pieza clave es la integraciĂłn de los aceleradores SME2 como elementos externos al nĂșcleo: en C1âUltra y C1âPremium su presencia es obligatoria, mientras que en C1âPro y C1âNano es opcional segĂșn el diseño del fabricante. Cualquier nĂșcleo del clĂșster puede acceder a ellos cuando estĂĄn presentes, lo que habilita combinaciones muy diversas (por ejemplo, 2Ă C1âUltra + 6Ă C1âPro con uno o dos aceleradores SME2, o conjuntos mĂĄs modestos mezclando Pro y Nano).
La plataforma Lumex contempla también GPU de nueva hornada. Aunque el foco de esta noticia son las CPU, la Mali G1 acompaña con mejoras de ~20% en rendimiento gråfico, dobla el throughput de ray tracing y reduce el coste energético por fotograma alrededor de un 9%, reforzando el conjunto para juegos y cargas de IA que prefieran la GPU.
SME2 y el papel de la CPU en la IA
El gran salto en IA llega con SME2 (Scalable Matrix Extension 2), que acelera multiplicaciones matriciales, predicados mĂșltiples y nuevos tipos de datos (incluidas precisiones compactas como 2b/4b), y se coordina con SVE2 para vectorizaciĂłn avanzada. En nĂșmeros agregados, Arm habla de mejoras medias de 3,7x con descensos de consumo cercanos a un 27%.
En casos prĂĄcticos, la compañĂa ha mostrado reducciones de latencia de 4,7x en reconocimiento de voz (Whisper Base), aceleraciones de 2,4â2,8x en texto a voz y grandes incrementos en generaciĂłn de tokens para LLM (por ejemplo, Gemma 3) que rozan el Ă5. Al ejecutar en CPU se evitan transferencias a otros aceleradores, lo que recorta esperar y aporta reactividad.
Para cargas pequeñas o interactivas, la CPU vuelve a ser protagonista: con SME2, muchas tareas cotidianas (mejora de imagen local, segmentación, clasificación, efectos de cåmara o audio) se completan antes, gastando menos y sin pasar por la red. Cuando la demanda crece, la GPU o una NPU externa pueden seguir tomando el relevo, pero la CPU ya no es un cuello de botella.
El soporte software tambiĂ©n acompaña: hay integraciĂłn en Linux y Android 16, toolchains y librerĂas optimizadas (KleidiAI), y compatibilidad en motores como Unity y Unreal Engine. Esto facilitarĂĄ que apps y juegos adopten estas mejoras con rapidez a medida que lleguen los primeros SoC comerciales.
La plataforma Lumex CSS pone todas las piezas juntas (CPU C1, GPU Mali G1, interconexiĂłn y memoria) con diseños listos para producciĂłn a 3 nm, telemetrĂa en hardware y compatibilidad de sistemas Arm con LPDDR6. AsĂ, los socios pueden acelerar sus proyectos para mĂłviles y portĂĄtiles, con clĂșsteres escalables de hasta 14 nĂșcleos y opciones de IA en el propio dispositivo.
Los Arm C1 combinan rendimiento sostenido, eficiencia y un empuje real a la IA en CPU gracias a SME2; ofrecen la flexibilidad de C1âDSU para adaptar los clĂșsteres a cada gama de producto y constituyen una base sĂłlida para la prĂłxima hornada de SoC mĂłviles y portĂĄtiles que busca equilibrar potencia, autonomĂa y capacidades de IA sin depender siempre de la nube.