Arm C1: asĂ­ son los nuevos nĂșcleos que impulsan rendimiento e IA

  • Nueva familia de nĂșcleos Arm C1 (Ultra, Premium, Pro y Nano) con hasta un 45% mĂĄs de rendimiento multinĂșcleo.
  • SME2 potencia la IA en CPU: mejoras medias de 3,7x y hasta 5x en cargas concretas, con menor consumo.
  • C1-DSU permite clĂșsteres de hasta 14 nĂșcleos, L3 compartida y configuraciones muy flexibles.
  • Plataforma Lumex CSS: integraciĂłn de CPU C1, GPU Mali G1 y soporte para LPDDR6 a 3 nm.

NĂșcleos Arm C1

La nueva familia de nĂșcleos Arm C1 marca un cambio importante en el ecosistema mĂłvil y de dispositivos ultraportĂĄtiles, sustituyendo a los conocidos Cortex con un enfoque mĂĄs claro en rendimiento sostenido y eficiencia. Esta generaciĂłn llega con la plataforma Lumex y con un objetivo evidente: acelerar la IA en el propio dispositivo sin comprometer baterĂ­a ni temperatura.

Mås allå del cambio de nombre, la propuesta combina arquitectura Armv9.3-A, un rediseño profundo del subsistema de memoria y un impulso relevante a las capacidades de computación matricial. El resultado se traduce en mejoras generalizadas de rendimiento con un consumo mås contenido, ademås de una hoja de ruta pensada para smartphones, tablets, portåtiles y wearables.

Arquitectura y novedades de los nĂșcleos Arm C1

Arquitectura de los nĂșcleos Arm C1

La serie C1 se organiza en cuatro variantes: C1-Ultra (mĂĄximo rendimiento), C1-Premium (alto rendimiento en menos ĂĄrea), C1-Pro (equilibrio) y C1-Nano (mĂĄxima eficiencia). Cada fabricante puede combinar estos bloques en clĂșsteres heterogĂ©neos para crear SoC adaptados a diferentes gamas y usos, con configuraciones de hasta 14 nĂșcleos.

Arm ha retocado tanto el front‑end como el back‑end, incluyendo mejoras de predicciĂłn, cachĂ©s y ejecuciĂłn fuera de orden. Gracias a la nueva interconexiĂłn y a una cachĂ© compartida mĂĄs eficiente (con uso intensivo de celdas SLC), la plataforma ofrece incrementos medios cercanos al 15% en usos cotidianos, que escalan a +30% en cargas exigentes y alcanzan picos de hasta un 45% en multinĂșcleo.

El soporte de memoria evoluciona con LPDDR6 para reducir consumo y latencias, manteniĂ©ndose la compatibilidad con LPDDR5X a velocidades de hasta 9600 MT/s. Esta base de memoria, junto al rediseño del clĂșster, refuerza el rendimiento sostenido y la respuesta bajo presiĂłn tĂ©rmica.

C1-Ultra: el techo de rendimiento

Como nĂșcleo tope de gama, C1-Ultra apunta a los SoC insignia y a tareas de alta demanda como fotografĂ­a computacional, modelos grandes de IA o juegos AAA mĂłviles. Frente al Cortex‑X925, Arm habla de un +25% en monohilo, cifra que ayuda a escalar el rendimiento global cuando se combina con mĂĄs nĂșcleos en el clĂșster.

El front‑end mejora el ancho de banda de L1 de instrucciones y la precisión de predicción, mientras que el back‑end incrementa la ventana de ejecución fuera de orden en torno a un 25%, llegando a manejar unas 2.000 instrucciones simultáneamente. Además, se duplica la L1 de datos hasta 128 KB y se acelera la lectura de L1 en aproximadamente un 33%.

C1-Premium: alto rendimiento en menos ĂĄrea

Para dispositivos premium que no necesiten el måximo absoluto, C1-Premium mantiene una arquitectura muy cercana a Ultra pero con una reducción de årea del 35%. Estå pensado para equilibrar prestaciones y coste, facilitando diseños mås compactos sin renunciar a cifras notables.

C1-Pro: equilibrio y mĂșsculo multinĂșcleo

En el segmento central, C1-Pro sustituye a los Cortex‑A725 con un +11% de rendimiento a igual consumo y con mejoras de eficiencia que alcanzan hasta un 26% menos de energĂ­a al mismo rendimiento. En juegos, Arm cita ganancias de alrededor de +16% en esta clase de nĂșcleos.

Las claves estĂĄn en un front‑end mĂĄs capaz (predicciĂłn estĂĄtica refinada y un BTB mucho mayor), y en un back‑end con mĂĄs ancho de banda en L1D y menor latencia en L2 cuando la predicciĂłn acierta. TambiĂ©n se ha ajustado el predictor para acelerar la respuesta en escenarios reales.

C1-Nano: eficiencia por encima de todo

Para tareas ligeras y ahorro extremo, C1-Nano incrementa la eficiencia en torno a un 26% frente a su predecesor (manteniendo el ĂĄrea prĂĄcticamente intacta, ~+2% sobre A520). Se han desacoplado etapas de predicciĂłn y bĂșsqueda para traer antes las instrucciones a L1 y recortar esperas por predicciones fallidas.

AdemĂĄs, se optimiza el procesamiento vectorial, se apagan unidades cuando el pipeline se atasca y se reduce el trĂĄfico entre L3 y DRAM (alrededor de un 21% de media y hasta un 39% en ciertas cargas), lo que alivia consumo y mejora la respuesta.

C1-DSU: clĂșsteres flexibles y menos consumo

El nuevo C1‑DSU orquesta la conexiĂłn de los nĂșcleos bajo una cachĂ© L3 compartida y hace de puente con el resto del SoC (RAM, GPU, etc.). Frente a iteraciones previas, el diseño rebaja el consumo tĂ­pico del sistema en torno a un 11% y el impacto de la memoria en un ~7%, apoyĂĄndose en modos como L3 Quick Nap para minimizar pĂ©rdidas cuando no se usa.

Otra pieza clave es la integraciĂłn de los aceleradores SME2 como elementos externos al nĂșcleo: en C1‑Ultra y C1‑Premium su presencia es obligatoria, mientras que en C1‑Pro y C1‑Nano es opcional segĂșn el diseño del fabricante. Cualquier nĂșcleo del clĂșster puede acceder a ellos cuando estĂĄn presentes, lo que habilita combinaciones muy diversas (por ejemplo, 2× C1‑Ultra + 6× C1‑Pro con uno o dos aceleradores SME2, o conjuntos mĂĄs modestos mezclando Pro y Nano).

La plataforma Lumex contempla también GPU de nueva hornada. Aunque el foco de esta noticia son las CPU, la Mali G1 acompaña con mejoras de ~20% en rendimiento gråfico, dobla el throughput de ray tracing y reduce el coste energético por fotograma alrededor de un 9%, reforzando el conjunto para juegos y cargas de IA que prefieran la GPU.

SME2 y el papel de la CPU en la IA

SME2 en Arm C1

El gran salto en IA llega con SME2 (Scalable Matrix Extension 2), que acelera multiplicaciones matriciales, predicados mĂșltiples y nuevos tipos de datos (incluidas precisiones compactas como 2b/4b), y se coordina con SVE2 para vectorizaciĂłn avanzada. En nĂșmeros agregados, Arm habla de mejoras medias de 3,7x con descensos de consumo cercanos a un 27%.

En casos prĂĄcticos, la compañía ha mostrado reducciones de latencia de 4,7x en reconocimiento de voz (Whisper Base), aceleraciones de 2,4–2,8x en texto a voz y grandes incrementos en generaciĂłn de tokens para LLM (por ejemplo, Gemma 3) que rozan el ×5. Al ejecutar en CPU se evitan transferencias a otros aceleradores, lo que recorta esperar y aporta reactividad.

Para cargas pequeñas o interactivas, la CPU vuelve a ser protagonista: con SME2, muchas tareas cotidianas (mejora de imagen local, segmentación, clasificación, efectos de cåmara o audio) se completan antes, gastando menos y sin pasar por la red. Cuando la demanda crece, la GPU o una NPU externa pueden seguir tomando el relevo, pero la CPU ya no es un cuello de botella.

El soporte software también acompaña: hay integración en Linux y Android 16, toolchains y librerías optimizadas (KleidiAI), y compatibilidad en motores como Unity y Unreal Engine. Esto facilitarå que apps y juegos adopten estas mejoras con rapidez a medida que lleguen los primeros SoC comerciales.

La plataforma Lumex CSS pone todas las piezas juntas (CPU C1, GPU Mali G1, interconexiĂłn y memoria) con diseños listos para producciĂłn a 3 nm, telemetrĂ­a en hardware y compatibilidad de sistemas Arm con LPDDR6. AsĂ­, los socios pueden acelerar sus proyectos para mĂłviles y portĂĄtiles, con clĂșsteres escalables de hasta 14 nĂșcleos y opciones de IA en el propio dispositivo.

Los Arm C1 combinan rendimiento sostenido, eficiencia y un empuje real a la IA en CPU gracias a SME2; ofrecen la flexibilidad de C1‑DSU para adaptar los clĂșsteres a cada gama de producto y constituyen una base sĂłlida para la prĂłxima hornada de SoC mĂłviles y portĂĄtiles que busca equilibrar potencia, autonomĂ­a y capacidades de IA sin depender siempre de la nube.

RISC-V SoC Sophgo
ArtĂ­culo relacionado:
SOPHGO SG2000/SG2002: SoC para IA con nĂșcleo RISC-V + ARM