Un cuello de botella tecnológico está lastrando el desarrollo de la IA. La culpa la tiene el padre de la informática moderna

El 'cuello de botella de von Neumann' es un ejemplo de la tensión entre el diseño clásico de los ordenadores y las demandas (radicalmente distintas) de la IA

29 septiembre 2025, 16:31

Marcos Merino

Colaborador

La inteligencia artificial lleva varios años avanzando a pasos agigantados, pero hemos llegado a un punto en que su avance se enfrenta a un problema técnico de fondo que, aunque invisible para la mayoría de los usuarios, limita su eficiencia y su sostenibilidad: el 'cuello de botella de von Neumann'.

Y comprender qué significa eso, por qué afecta especialmente a la IA y qué soluciones se están explorando, es clave para entender el futuro de la computación.

Un problema de energía y datos

El entrenamiento de modelos de IA no sólo requiere cantidades colosales de datos, sino también una cantidad equiparable de energía. Modelos con miles de millones de parámetros deben procesar billones de fragmentos de información... pero la mayor parte del consumo no se debe al cálculo matemático en sí, sino a algo más mundano: el traslado de datos entre la memoria y el procesador.

En las arquitecturas de computación actuales, basadas en el diseño propuesto por John von Neumann en 1945, la unidad de procesamiento y la memoria están separadas y se comunican a través de un canal o 'bus'.

Esta separación otorga flexibilidad y escalabilidad —y esa es una de las razones por las que este diseño ha dominado durante más de seis décadas—, pero también implica un freno: la velocidad de transferencia de datos no ha crecido al mismo ritmo que la capacidad de cómputo.

En Xataka

John von Neumann, el genio que diseñó la arquitectura de nuestros ordenadores, lo hizo hace 75 años, y este es solo uno de sus logros

¿Por qué hablamos de 'cuello de botella'?

La separación entre memoria y procesamiento implica que cada operación requiere un constante ir y venir de datos: subirlos desde la memoria al procesador para calcular, y devolver los resultados de nuevo a la memoria. En modelos de aprendizaje profundo, con miles de millones de "pesos" que ajustar, este proceso se repite una y otra vez, con un coste enorme en tiempo y energía.

El problema se ha agravado en la última década. Mientras que la potencia de los procesadores y la densidad de la memoria han mejorado exponencialmente, la eficiencia del traslado de datos apenas ha progresado. Como resultado, los chips actuales pueden realizar sus cálculos a gran velocidad, pero se ven forzados a esperar pasivamente a que la información llegue por canales cada vez más congestionados.

En el caso de la IA, donde casi todas las operaciones están interconectadas y dependen de datos compartidos, este retraso se traduce en procesadores que permanecen inactivos buena parte del tiempo, esperando a que los datos lleguen para poder continuar.

La física detrás del gasto energético

Mover datos no sale gratis: cada vez que un bit viaja por un cable de cobre —cargándose para representar un "1" o descargándose para representar un "0"— se consume energía. Y cuanto más largo es el recorrido entre procesador y memoria, mayor es el coste.

Aunque cada transferencia individual gasta poco, el impacto se multiplica cuando se entrenan grandes modelos de lenguaje, donde cada paso puede implicar la carga de miles de millones de parámetros desde múltiples memorias gráficas.

No es de extrañar que entrenar un único modelo de gran escala consuma tanta electricidad como la que gasta un hogar medio de EE. UU. durante meses.

En Genbeta

Los expertos temían un 'invierno de la inteligencia artificial' hace tan solo un año. La realidad ha destrozado esa teoría

Estrategias para superar el cuello de botella

La industria tecnológica trabaja intensamente para mitigar esta limitación. Entre las soluciones más prometedoras destacan:

Óptica integrada: IBM ha presentado módulos de guías de onda poliméricas que incorporan la velocidad de la fibra óptica directamente en los chips, reduciendo el tiempo y la energía necesarios para transferir datos.
Computación en memoria: en lugar de mover los datos hasta el procesador, se realizan operaciones directamente dentro de la memoria. Tecnologías como la 'memoria de cambio de fase' (PCM) permiten almacenar los pesos de los modelos en la resistividad de materiales especiales, reduciendo drásticamente el tráfico de datos.
Computación cercana a la memoria: chips como el AIU NorthPole de IBM distribuyen pequeñas memorias locales junto a múltiples núcleos de procesamiento. En pruebas, este diseño logró ser hasta 73 veces más eficiente en energía que las GPU convencionales en tareas de inferencia.

Entonces, ¿desaparecerá la arquitectura de von Neumann?

No. Pese a sus limitaciones, el paradigma de von Neumann no desaparecerá: su versatilidad lo convierte en la opción idónea para tareas generales, como la computación gráfica o los cálculos de alta precisión en punto flotante, donde las arquitecturas alternativas aún no están a la altura.

Lo más probable es que el futuro combine lo mejor de ambos mundos: sistemas híbridos donde la computación clásica se encargue de las tareas versátiles y de precisión, mientras que las arquitecturas no-von Neumann antes mencionadas se especialicen en acelerar y hacer más sostenible el entrenamiento e inferencia de modelos de IA.

Vía | IBM

Imagen | Marcos Merino mediante IA

En Genbeta | Para que la IA generativa funcione, se necesita muchísima energía. Google, Amazon y Microsoft ya tienen la solución: energía nuclear

Ver todos los comentarios en https://www.genbeta.com

VER Comentarios