El mundo se está quedando sin datos para seguir entrenando a la IA. China tiene un as en la manga

Los modelos de inteligencia artificial (IA) tienen un problema que los chips más potentes no pueden resolver: se están quedando sin datos. Epoch AI, una organización de investigación sin ánimo de lucro especializada en el escalado de modelos de IA, advierte con un 80% de certeza que el texto de alta calidad disponible en internet se agotará en algún momento entre 2026 y 2032.

El motivo es muy sencillo: los laboratorios de IA llevan muchos años extrayendo todo lo que la web tiene para ofrecer y los modelos actuales ya entrenan sobre conjuntos de datos que se aproximan al límite teórico de la información disponible. Cuando esa mina de oro se vacíe, el escalado por volumen de datos dejará de funcionar. Y si este escenario se produce el desarrollo de la IA con toda probabilidad se ralentizará.

Todavía no sabemos qué estrategia están poniendo a punto las empresas de EEUU para resolver este problema, pero ya conocemos qué está preparando China. Su mayor rival. De hecho, el Gobierno de Xi Jinping ha decidido que esta escasez es una oportunidad. Esta semana la Administración Nacional de Datos de China ha publicado un borrador que describe su plan de acción con un objetivo claro: construir antes de 2028 un ecosistema de datos validados que sirva de combustible para la siguiente generación de modelos de IA.

La apuesta de China ya está sobre la mesa

El documento que ha elaborado la Administración Nacional de Datos identifica qué sectores concretos son objetivos prioritarios de generación y certificación de la información. Algunos de ellos son la investigación científica, la manufactura, la agricultura, la energía, el transporte, las finanzas, la sanidad, la educación y el comercio electrónico. No obstante, su plan no se detiene en los sectores tradicionales.

En Xataka

Fusión nuclear: el reactor surcoreano KSTAR ha reescrito los límites de lo posible

China tiene una ventaja estructural que ningún laboratorio occidental puede replicar fácilmente

Y es que también contempla cubrir con datos de calidad los campos de vanguardia, como la IA aplicada a los robots, la conducción autónoma, la aviación de baja altitud o la biomanufactura. Estos son, precisamente, los dominios cuyos datos no están en internet debido a que proceden de sensores, actuadores y entornos físicos. Conseguirlos requiere disponer de infraestructura industrial, y en este escenario China tiene una ventaja estructural que ningún laboratorio occidental puede replicar fácilmente.

No obstante, esto no es todo. El documento elaborado por la Administración Nacional de Datos fomenta explícitamente la expansión de la oferta de texto, código, imágenes, audio y vídeo necesaria para entrenar sistemas capaces de razonamiento complejo, comportamiento agéntico y control de robots inteligentes. De hecho, es una descripción casi exacta de lo que la industria llama modelos de próxima generación. No son solo sistemas capaces de responder preguntas; también podrán planificar, actuar y operar en el mundo físico.

La disponibilidad de datos multimodales de alta calidad, especialmente los que proceden de entornos industriales reales, es hoy uno de los cuellos de botella menos discutidos y más determinantes de la carrera de la IA. En un escenario en el que el acceso a los chips de vanguardia está restringido por los controles de exportación de EEUU, los datos se convierten en una ventaja competitiva. Si China no puede ganar la carrera del hardware, puede intentar ganar la del combustible que ese hardware necesita para ser realmente útil.

Imagen | Daoducquan

Más información | SCMP

En Xataka | La condena que aflige a China: tras décadas fabricando un procesador de escritorio competitivo, va seis años por detrás