Nvidia montou o sétimo supercomputador mais rápido do mundo em um mês

Selene, como fora batizado pela Nvidia, demandou seis humanos e um robô

Selene Nvidia

Selene é um supercomputador único. Ele usa a arquitetura DGX SuperPOD acelerada por GPU da Nvidia, disponível comercialmente, em vez dos designs pesados ​​de CPU personalizados que dominam a maior parte da lista Top 500. Ele ocupa o segundo lugar na lista de supercomputadores mais eficientes do Green 500.

Em números, o Selene usa 560 CPUs AMD Epyc 7742 (64 núcleos cada) e 2240 GPUs Nvidia A100. Seu desempenho teórico máximo é de pouco menos de 35 mil teraflops.

Os supercomputadores anteriores da Nvidia levavam meses para construir e eram extremamente difíceis de manter e atualizar. Quando se tratou de projetar o Selene, eles tentaram torná-lo o mais simples e modular possível. Cada um dos 280 nós do Selene é um pod DGX padronizado contendo oito GPUs Nvidia A100 e duas CPUs AMD Epyc. Um punhado de cápsulas estão empilhadas em um arquivo glorificado (apenas para ser honesto), que são enfileiradas em grupos de dezesseis para formar um SuperPOD.

A homogeneidade do Selene é o que permitiu que ele fosse montado tão rapidamente. Era principalmente uma questão de mover cada pod DGX para o local certo, conectá-lo e verificar se funcionava. Conectar um supercomputador é sempre uma tarefa complicada (particularmente com dois metros de distância), mas a Nvidia usou os switches InfiniBand da Mellanox para reduzir o número de cabos necessários e, ao mesmo tempo, aumentar a largura de banda.

https://www.youtube.com/watch?v=vY61ExKhnfA&feature=emb_title

O Selene é resfriado por SuperPOD. Todos os SuperPODs residem em um armazém gigante com ar-condicionado. Eles são levantados do chão com ventiladores embaixo para empurrar o ar frio para os pods DGX. A minúscula equipe de montagem da Nvidia só precisava instalar o piso e vedar os SuperPODs para controlar o fluxo de ar.

A Nvidia foi criativa com o equipamento de monitoramento do Selene. Eles compraram um pequeno robô chamado Trip, que pode ser controlado remotamente e girado para observar o que está acontecendo dentro do Selene. Eles também construíram um bot para o Slack que envia notificações quando o hardware está se comportando mal ou quando um cabo se solta.

Selene está atualmente trabalhando em cerca de mil tarefas, principalmente voltadas para o desenvolvimento de IA e treinamento de redes neurais. Seus ciclos sobressalentes são dedicados à pesquisa de coronavírus.

Fonte: TechSpot

Foto de Marcelo Roncate
Foto de Marcelo Roncate O autor:

Redator desde 2019. Entusiasta de tecnologia e criptomoedas.