El primer superordenador a exaescala tiene un fallo de hardware cada día

El primer superordenador a exaescala tiene un fallo de hardware cada día

Tech

Se puede acceder a Frontier en línea, pero actualmente no está operativo, su director ha confirmado que hay averías del sistema cada pocas horas, aunque sostiene que es algo típico.



Frontier es único. Consta de 9.408 nodos HPE Cray EX235a, cada uno de los cuales tiene una CPU AMD Trento 7A53 Epyc de 64 núcleos y 512 GB de memoria DDR4. Además, tiene cuatro GPUs AMD Instinct MI250X, cada una de las cuales tiene 128 GB de HBM2e. El sistema tiene un total de 602.112 núcleos de CPU, 8.138.240 núcleos de GPU y 4,6 petabytes (PB) de memoria DDR4 y HBM2e.

Tras finalizar la prueba HPL en mayo con una puntuación de 1,102 ExaFlops/s, Frontier pasó a formar parte del TOP500. Desde entonces, el Laboratorio Nacional de Oak Ridge, en Tennessee, ha estado preparando el superordenador para la investigación que tendrá lugar en enero.

Es posible que haya problemas con el hardware que hagan que se retrase el lanzamiento de Frontier. En Inside HPC se publicó una entrevista con el director del programa de Oak Ridge, Justin Whitt. En el transcurso de la conversación, afirmó que los problemas cotidianos del sistema que Frontier estaba experimentando eran inherentes a un sistema enorme.

Hizo la observación de que el tiempo entre fallos del sistema para un sistema de esta escala se mide en horas, no en días. “Hay que conocer estas deficiencias y asegurarse de que no hay tendencias preocupantes. “Un día en el que no haya un error “sería maravilloso”, dijo Whitt.

Whitt afirmó que los recientes problemas de hardware no fueron causados por el nuevo AMD Instinct MI250X. Sólo un número limitado de socios puede adquirir un AMD MI250X. 220 CUs, 14.080 núcleos, 1700 MHz, 500 W.

Whitt declaró que las GPU eran sólo uno de los muchos problemas. “Hay una buena distribución de los factores de fallo de las piezas comunes. Actualmente, no tengo ninguna preocupación respecto a los productos de AMD”. Añadiendo,

“Hemos experimentado problemas tempranos de naturaleza similar con otros dispositivos, por lo que esto no es un hecho excepcional”.

Whitt declaró que la escala inigualable de Frontier hacía que la puesta a punto fuera “un poco más difícil”, pero la empresa insistió en que, a pesar de los retrasos, seguían en camino de completar el proyecto en 2018-2019.

Te puede interesar...


Amazon anuncia un nuevo Prime Day para el 11 y 12 de octubre

Las mejores ofertas y cupones de AliExpress (actualizado)

Las mejores ofertas de El Corte Inglés (actualizado)

Listado de las Ofertas y Descuentos de GeekBuying (Actualizado)

Ofertas y cupones actualizadas de MyProtein

Tesla muestra el Model S Plaid, el coche de producción más rápido jamás fabricado

Instagram está creando un prototipo clon de BeReal

Un despiste de Valve confirma que el motor gráfico Source 2 cada vez está más cerca del CS:GO
Fuente: este post proviene de WikiVersus, donde puedes consultar el contenido original.
¿Vulnera este post tus derechos? Pincha aquí.
Creado:
¿Qué te ha parecido esta idea?

Esta idea proviene de:

Y estas son sus últimas ideas publicadas:

¿Qué es el proceso trimming de una unidad SSD? El trim o trimming de una unidad SSD es un proceso que ayuda a mantener el rendimiento de una unidad de estado sólido a lo largo del tiempo. El trim o r ...

Etiquetas:

Recomendamos