Supercomputadores de alquiler: así es el gigante que AEMET estrena para hacer más y mejores predicciones meteorológicas que nunca

Supercomputadores de alquiler: así es el gigante que AEMET estrena para hacer más y mejores predicciones meteorológicas que nunca

16 comentarios Facebook Twitter Flipboard E-mail
Bullsequana2

Saber qué tiempo va a hacer no es sencillo, y para lograr hacer predicciones fiables se necesitan realizar cálculos muy complejos que están al alcance de los supercomputadores.

La Agencia Estatal de Meteorología, AEMET, anunciaba recientemente que iba a actualizarse y a estrenar nuevo supercomputador. Nosotros hemos hablado con uno de los máximos responsables de este proyecto, y hemos podido descubrir varios de sus secretos.

Un supercomputador estupendo que aún así queda lejos de la élite

El mundo de la supercomputación tiene en la lista TOP500 un referente claro de cómo andan las cosas en este ámbito. Los primeros integrantes de esa lista están en una élite casi inalcanzable para la mayoría de economías, y España no es una excepción. Los primeros diez puestos están dominados por China y Estados Unidos, aunque hay participantes notables en Alemania, Italia o Arabia Saudí en ese inicio del ranking.

Fugaku
El supercomputador más potente del mundo actualmente, el Fugaku de Japón.

El MareNostrum del Barcelona Supercomputing Center ocupa actualmente el puesto 42 de esa lista, pero está muy lejos de esos primeros puestos en rendimiento, aunque desde luego es difícil que cualquiera de los supercomputadores de la lista pueda superar el mágico emplazamiento de ese sistema en una antigua capilla.

El supercomputador que nos ocupa hoy es desde luego más modesto en ambos aspectos, pero sigue siendo un elemento clave para uno de los escenarios más claros del uso de la supercomputación: las simulaciones que permiten predecir el tiempo con antelación y anticiparnos a futuras condiciones meteorológicas.

Ese es uno de los objetivos de AEMET, la Agencia Estatal de Meteorología que desde hace años cuenta con supercomputadores precisamente destinados a habilitar dichas predicciones.

Precisamente estos días AEMET anunciaba la puesta en marcha de su nuevo supercomputador, un sistema que permitirá incrementar la capacidad y precisión de los cálculos de forma notable.

Raul Hilara

Para hablar de ese sistema nos pusimos en contacto con Raúl Hilara, Coordinador de Telemática de AEMET y uno de los máximos responsables del proyecto.

Este ingeniero de telecomunicaciones pasó de trabajar en la empresa privada en el ámbito del desarrollo de equipos médicos y foenses a acabar en AEMET —tras pasar también por el Ministerio de Hacienda—, donde desde hace años él y su equipo dan "soporte de comunicaciones, sistemas y aplicaciones al resto de AEMET". Hilara nos explicaba que aunque su equipo "da soporte al supercomputador, hay otros agentes que están implicados".

Hasta 10 veces más potente que el actual

Al comenzar a hablar de las "tripas" del nuevo supercomputador de AEMET, Hilara nos explicaba cómo en su ámbito un supercomputador "debe ser una máquina de propósito dedicado, debes diseñar desde el inicio cuál es el tipo de nodo o el almacenamiento, porque se busca que se puedan ejecutar los modelos de cálculo meteorológico, que son muy exigentes".

Aemet3

El objetivo de esta actualización es claro: aumentar la capacidad de cómputo, y eso se logra "aumentando número de cores, número de nodos y mejores características del procesador". Acompañando a esa mejora en los núcleos utilizados está también el aumento de memoria disponible y la mejora de la red de interconexión que permita acceder a un "mayor ancho de banda".

Al supercomputador le acompaña un sistema de ficheros llamado LUSTRE cuya conexión también se ha mejorado para lograr tratar con mayor capacidad los "ficheros grandes. También se ha mejorado la interconexión con el resto de sistemas del Centro de Proceso de Datos de AEMET, porque como explicaba Hilara "los datos, predicciones y modelos también hay que almacenarlos fuera. Una vez ejecutados los cálculos se llevan a otro sistema, y todo eso también mejora notablemente".

El responsable del proyecto nos explicaba cómo aunque "la meteorología no tiene tantos fabricantes, sí había bastante diversidad de tecnologías. Dejamos todo bastante abierto para dejarlo a juicio de los candidatos, y solo especificamos la memoria por nodo que es casi obligada". En este sentido nos explicaba cómo precisamente por eso "no se presentó ninguna oferta con ARM, ya que este tipo de procesador no dispone de tanta memoria por nodo", algo que es muy importante en el escenario que maneja AEMET.

Al final lo que tenemos son claras diferencias entre el supercomputador que entró en acción en 2014 y se había usado hasta ahora, y entre el nuevo modelo, que en realidad se implantará en dos fases. En una primera fase constará con 280 nodos con 2 procesadores AMD EPYC Rome por nodo, y en 2023 se ampliará para llegar a los 376 nodos con procesadores que serán tanto los Rome anteriores como futuros EPYC Genoa.

Los datos de los modelos específicos de procesadores de AMD se publicarán cuando se pongan en marcha, pero llaman la atención esos 96 núcleos por procesador que se podrían alcanzar en los nodos que se integren en la actualización de 2023.


BULL DLC B700

Nuevo Supercomputador (2021)

Nuevo Supercomputador (2023)

Número de nodos

324

280

376

Número de procesadores por nodo

2

2

2

Modelo de procesador

Intel Xeon 2697 v2 (Ivy Bridge a 2,7 GHz)

AMD EPYC Rome

AMD EPYC Rome / Genoa

Procesadores Totales

648

560

752

Núcleos por procesador

10

64

64 para EPYC Rome

Hasta 96 para EPYC Genoa

Núcleos totales

7.776

35.840

48.128

Memoria RAM total

31,5 TB DDR3

70 TB DDR4

106 TB DDR4

Sistema operativo

Red Hat Linux

Red Hat Linux

Red Hat Linux

Interconexión de nodos

InfiniBand FDR a 56 Gbps

Basada en Infiniband HDR

Basada en Infiniband HDR

Sistema de ficheros en paralelo

LUSTRE, 360 TB

LUSTRE 5,9 PB

LUSTRE 5,9 PB

potencia estimada

168 TFLOPs

Aprox. 1.350 TFLOPS

Aprox. 1.680 TFLOPS

En la tabla se puede ver cómo las prestaciones del supercomputador serán mucho más notables en todos los ámbitos, y es importante destacar, como señalaba Hilara, que aunque en el nuevo modelo inicialmente se tienen menos procesadores en total, el número de núcleos por procesador es mucho mayor en los EPYC Rome (64 frente a los 10 de los Xeon) que al final el número de núcleos totales se quintuplica en esa primera fase, y va aún más allá en la ampliación que se aplicará en 2023, donde la potencia podría ser 10 veces la del antiguo supercomputador..

Eso también se notará en la memoria principal disponible, que es más del doble en la primera fase y más del triple en la ampliación: llegará a contar con 106 TB de memoria RAM, que además será DDR4, lo que plantea también ventajas tanto en ancho de banda como en eficiencia.

¿Cómo se realiza esa ampliación en 2023? Como nos explicaba Raúl Hilara, no hay parada de servicio en ningún caso porque el supercomputador cuenta con dos clústeres y "todas las modificaciones se harán sobre uno mientras el otro seguirá operativo".

En el pliego del proyecto y en el anuncio oficial no se explicaba cuáles eran los plazos de puesta en funcionamiento del supercomputador, pero Hilara aclaraba este punto: "el contrato se firmó el 9 de noviembre de 2020, y poco después comenzó el acondicionamiento" de la ubicación en la que se instala el supercomputador.

Plano
El pliego del proyecto define la situación y disposición de los racks en las instalaciones de AEMET.

Las máquinas, ya aceptadas en la cadena de producción, han sufrido algún que otro retraso por la COVID-19 —difícil escapar de la escasez de chips—, pero en los últimos dos meses se ha realizado la preparación del CPD, con tareas como la preparación de la "refrigeración, los bastidores y el acondicionamiento del espacio, además de la recepción de los equipos para su instalación".

Tras la instalación se comprobará su rendimiento y prestaciones con diversos benchmarks para ver si efectivamente cumplen con el pliego, y tras esa fase "se empiezan a migrar datos, fase durante la cual convive el antiguo supercomputador con el nuevo".

Esa convivencia se producirá según las estimaciones en los meses de marzo y abril, y durante ella el antiguo supercomputador "seguirá proveyendo datos a los clientes". Aunque el nuevo supercomputador comenzará a funcionar en estos últimos días de febrero, no proporcionará datos aún a los clientes.

Así, explicaba Hilara, "se espera que la segunda semana de mayo de 2021 el nuevo supercomputador esté en funcionamiento". Ese plazo podría acortarse no obstante, pero parece claro que en pocas semanas los usuarios de este supercomputador podrán disfrutar de una potencia netamente superior a la que se ofrecía en el modelo anterior.

Supercomputadores de alquiler: comprarlos no tiene (mucho) sentido

Al hablar de las diferencias entre el modelo actual del supercomputador y el que había estado en funcionamiento hasta ahora surgía una pregunta obvia: ¿qué pasa con el supercomputador antiguo? ¿qué se hace con él?

Nowcastin2

Hilara nos indicaba cómo "hasta 2014 AEMET siempre tuvo su supercomputador en propiedad. Eso implicaba un esfuerzo bastante grande, además de bastante personal. Tenías el problema de la obsolescencia: amortizar el coste llevaba tiempo y ese plazo se podía alargar", algo que preocupaba si tenemos en cuenta que "el dinero para la compra de estos supercomputadores sale de los Presupuestos Generales del Estado".

Así, el modelo que se puso en funcionamiento en 2014 se vio afectado por ejemplo por la crisis de 2007. ¿Qué se hizo? "se adoptó la fórmula del arrendamiento". El antiguo supercomputador que se instaló en 2014 no es de AEMET, está en alquiler, y "es el fabricante se encarga de la retirada".

De hecho, nos confesaba Hilara, "el supercomptador anterior a 2014 seguía en nuestro Centro de Proceso de Datos, pero tenía un coste evidente. Quedaba muy bien, pero ya no era práctico".

Con el arrendamiento todo se simplifica y se optimiza. No solo se arrienda el supercomputador, sino que con la máquina se incluye la delegación del soporte y de parte de la administración. AEMET monitoriza y controla cómo se llevan a cabo todas las tareas del supercomputador, pero con este modelo de arrendamiento es posible externalizar esas tareas que desvían la atención de las tareas principales a las que se encargan sus técnicos.

¿Qué será capaz de hacer el nuevo supercomputador?

La capacidad de cálculo del nuevo supercomputador de AEMET hará posible acceder a nuevas posibilidades en diversos ámbitos y precisamente de todo ello quisimos hablar con este experto.

Aemet Pred

En la mente de los responsables de AEMET estaban claras las cinco áreas en las que se quería avanzar para lograr que el nuevo supercomputador proporcionase nuevas capacidades:

  1. Modelos de alta resolución de área limitada: se podrá mejorar la predicción de los fenómenos locales y en especial de los fenómenos de alto impacto como lluvias torrenciales. Estos escenarios hacen necesario recurrir a esos modelos de alta resolución y área limitada, que son muy complejos y necesitan una gran capacidad de cálculo. Ahora se podrán manejar celdas de 2,5 km en la península y las Islas Baleares, y de hasta 1,3 km en las Islas Canarias.
  2. Sistemas de Predicción por Conjuntos o EPS: como los modelos predictivos no son exactos, esos modelos plantean diferentes situaciones de contorno y presentan diferentes posibilidades. En EPS se realizan 25 predicciones simultáneas, de las que se toma una media y se presenta por la más probable. Se usaban 10 conjuntos, ahora se usarán 25.
  3. Sistemas de Predicción Inmediata o Nowcasting: para predicciones con alcances inferiores a 2 horas, en las  se exige un alto grado de detalle espacial y temporal, hay que utilizar EPS de Nowcasting (NWC). Estos sistemas tienen dos componentes esenciales: asimilan observaciones de disponibilidad rápida (como datos radar y datos de aviones) y las integraciones con alcances de unas 12 horas que están disponibles muy rápidamente (del orden de 1 hora). Los sistemas de Nowcasting son esenciales para la generación de avisos de fenómenos meteorológicos  adversos, especialmente cuando el fenómeno es muy local y para la gestión de operaciones aéreas en aeropuertos y áreas terminales de maniobra (TMA).
  4. Downscaling dinámico para predicciones: las predicciones se basan en modelos globales, y si se quiere conocer el impacto de estas predicciones a escala regional y local hay que hacer una reducción de escala (downscaling). En particular es recomendable hacer un downscaling dinámico, que consiste en anidar un modelo regional de alta resolución al modelo global. Esto requiere versiones especiales de los modelos numéricos y grandes recursos de supercomputación.
  5. Aplicaciones: los modelos de contaminación atmosférica, modelos de olas, modelos de océano, modelos hidrológicos, modelos de incendios, etc, utilizan la información que generan los modelos de predicción meteorológica para producir sus propias predicciones. El aumento de los recursos de cálculo permite la mejora de complejidad de estos modelos, lo que redunda en una mejora de esas predicciones. ¿Un ejemplo? La predicción de fenómenos costeros de oleaje por los daños que originan, o la predicción de concentración de contaminantes en áreas urbanas para poner en marcha medidas de mitigación.

En general la mejora se notará en todos los ámbitos: mejores predicciones, más precisas, más rápidas y que cubrirán rangos de tiempo más amplios que van desde los tres a los 12 días si se necesita.

Filomena contra los supercomputadores

La célebre Filomena que tuvo en jaque a varias Comunidades Autónomas —aunque tuviera un lado realmente espectacular— es un ejemplo interesante de qué habría pasado si AEMET hubiera contado con este potente supercomputador antes.

Filomena1

En realidad, explicaba Hilara, "Filomena ha sido un caso de éxito por precisión de lugar y momento: fue una predicción muy ajustada a la realidad". La predicción estaba ahí a disposición de todos los organismos públicos.

Aún así, explicaba, "con el nuevo supercomputador se podrá mejorar la resolución, con beneficios en la predicción,  nowcasting y otros. Esta mayor resolución redundaría en un mayor ajuste geográfico-temporal, pero aun así la predicción fue muy acertada".

Supercomputadores de la mano de la computación en la nube

Aunque hace tiempo que AEMET proporciona este tipo de servicios y otras agencias meteorológicas hacen lo mismo en todo el mundo, poco a poco estamos viendo cómo algunas grandes empresas están planteando soluciones alternativas para proporcionar sus propias predicciones meteorológicas.

Ecmwf
El CEPMPM/ECMWF cuenta con un supercomputador fabricado por la legendaria Cray. Fuente: ECMWF.

IBM lleva tiempo trabajando en un sistema de este tipo a través de su plataforma de inteligencia artificial Watson, y Amazon hace lo propio con su Forescast Weather Index, gestionado a través de su gigantesca infraestructura en la nube, AWS.

Ambas son propuestas interesantes, y nos preguntábamos si amenazan de alguna forma a lo que AEMET y otras agencias plantean con estos supercomputadores. Para Hilara AEMET no ve estos servicios como un peligro o una amenaza, y de hecho en la agencia "se prevé una oportunidad para los servicios en la nube". De hecho, AEMET participa en proyectos de nube como la European Weather Cloud.

Por ejemplo, explica, para disponer de esa capacidad de cómputo "cuando hay una situación excepcional. Ahí puede haber una necesidad y puedes tener que recurrir a servicios en la nube para aumentar los recursos de forma temporal". Tener esas propuestas es por tanto interesante para este experto, y hay agencias nacionales, como la de Suecia, que ya están avanzando en este sentido.

Es importante destacar aquí cómo AEMET "tiene modelos de predicción que se ejecutan en la agencia y una red de observación propia", pero está en contacto constante con organismos internacionales. Esta agencia es miembro del llamado Centro Europeo de Previsiones Meteorológicas a Plazo Medio (CEPMPM o ECMWF por sus siglas en inglés) y adicionalmente todos los países comparten datos para poder realizar predicciones de mejor nivel. En particular, AEMET está trabajando en la definición del mecanismo FDCM (Federation Data Coordination Mechanism) de EUMETNET.

Aquí es curioso cómo en la comparación —que levanta pasiones entre los expertos— con el Global Forecast System de Estados Unidos, el sistema europeo es considerado superior en precisión y detalle. Hasta Estados Unidos parece reconocer la excelencia de los modelos europeos de predicción, pero como señalaba Hilara en Estados Unidos se fomenta que sus modelos sean públicos, algo que no ocurre siempre en Europa.

Eso sí: este experto destaca que se está avanzando en este sentido con el diseño una Directiva de OpenData en la que se incluirán los datos meteorológicos y climatológicos. Algunos Servicios Meteorológicos Nacionales europeos se están adelantando a estas regulaciones y están poniendo de forma libre y gratuita la información disponible que estos poseen.

Comentarios cerrados
Inicio