La IA ha puesto patas arriba una vieja regla de los servidores: la memoria ya no quiere vivir en cada máquina

Para muchos de nosotros, la escasez de memoria puede sonar primero a un problema cercano al consumo doméstico: módulos de RAM, componentes y dispositivos condicionados por una demanda cada vez más tensionada. Pero el fenómeno que describe The Next Platform apunta también al otro extremo de la cadena. Alcanza a las grandes tecnológicas que entrenan, despliegan y ofrecen modelos de inteligencia artificial en centros de datos. La nube no es una abstracción, y su apetito de memoria está obligando a pensar algo que hasta hace poco parecía poco intuitivo: quizá cada máquina no deba depender solo de la RAM que lleva dentro.

La memoria cambia de sitio. La idea de fondo es trasladar a la memoria una lógica que ya nos resulta familiar con el almacenamiento. Hoy un dato puede vivir en el propio equipo, en otra máquina de la red o en un sistema compartido al que acceden varios servidores. La próxima generación de servidores podría tratar la RAM de una forma parecida: conservar una parte local en cada máquina, pero llevar una porción mucho mayor a grandes sistemas externos capaces de repartir capacidad según la necesidad de cada momento. De ahí sale lo que algunos llaman “memory godbox”: una gran caja o clúster de memoria que deja de estar atado a una sola máquina.

El momento de CXL. Durante años, Compute Express Link ha avanzado de forma lenta, casi como una promesa para arquitecturas más flexibles. La tecnología se presentó hace varios años, pero la presión actual de la memoria le está dando un contexto mucho más favorable. CXL proporciona una interfaz coherente para comunicar procesadores, memoria, aceleradores y otros periféricos, apoyándose en PCIe. La idea final es sencilla de contar, aunque compleja de ejecutar: separar recursos sin romper la sensación de que trabajan juntos.

CXL no llegó de golpe. Primero sirvió para ampliar la memoria de un servidor mediante módulos conectados a ranuras PCIe compatibles. Después, con CXL 2.0, apareció el pooling, es decir, la posibilidad de reunir memoria en un fondo común y asignarla a distintas máquinas según hiciera falta. El límite era que esa memoria podía reasignarse, pero no compartirse de verdad entre dos sistemas trabajando sobre los mismos datos. CXL 3.0 es el punto en el que esa frontera empieza a moverse, porque introduce topologías más amplias y memoria compartida entre máquinas, aunque con ciertas limitaciones técnicas.

El problema de fondo. Según The Next Platform, la IA no se queda corta solo por falta de cálculo, también por falta de memoria. La HBM que acompaña a las GPU es muy rápida y está pensada para alimentar esos chips a gran velocidad, pero su capacidad es limitada y su coste es alto. En entrenamiento, el gran reto suele estar en procesar cantidades enormes de datos para construir el modelo. En inferencia, en cambio, hablamos de otra cosa: usar ese modelo ya entrenado para responder a una petición.

En Xataka

Una IA montó una cafetería desde cero: sacó permisos, contrató personal y negoció con proveedores. Luego pidió 3.000 guantes de goma

La memoria de la conversación. Cada respuesta de un modelo de lenguaje se construye poco a poco, token a token. Para no recalcular todo lo anterior en cada paso, los sistemas guardan una especie de memoria de trabajo llamada KV cache. The Next Platform explica que ahí se conservan los vectores de atención previos, que ayudan al modelo a seguir teniendo en cuenta el contexto mientras genera la respuesta. El problema es que en servicios con muchos usuarios esa caché puede crecer hasta ocupar cantidades enormes de memoria, incluso más que el propio modelo.

Ya no es solo teoría. Esta idea ya no vive solo en documentos técnicos o promesas de arquitectura. The Register menciona a Panmnesia, Liqid y UnifabriX como compañías que trabajan en sistemas para llevar memoria fuera del servidor y ponerla al alcance de varias máquinas. Algunos lo hacen con switches CXL, otros con grandes reservas de DDR5 que pueden repartirse entre distintos hosts. The Next Platform añade el caso de Enfabrica y su sistema Emfasys, pensado para inferencia y capaz, según el medio, de alcanzar 18 TB de DDR5 por servidor de memoria y 144 TB en un rack completo. La conclusión es sencilla: la industria no solo busca más memoria, busca colocarla de otra manera para que la IA pueda aprovecharla mejor.

Imágenes | Xataka con Nano Banana

En Xataka | El 'Netflix chino' ha diseñado un plan para que la IA genere la mayoría de su contenido en cinco años. Suena arriesgado

La IA ha puesto patas arriba una vieja regla de los servidores: la memoria ya no quiere vivir en cada máquina

La escasez de memoria ya no afecta solo al consumo doméstico

La IA está empujando a los centros de datos hacia memoria compartida

Explora en nuestros medios

RECIBE "Xatakaletter", NUESTRA NEWSLETTER SEMANAL

Explora en nuestros medios