Nvidia HGX-2, il deep learning per gli hyperscaler

Nvidia lancia HGX-2, un sistema da due Petaflop pensato come una piattaforma su cui realizzare server "su misura" per AI e HPC

Per chi aveva ancora dubbi sul fatto che Nvidia stia puntando decisamente a guidare il mercato attuale dell'hardware per le applicazioni anche massive di deep learning e machine learning, il debutto del nuovo sistema Nvidia HGX-2 dovrebbe rappresentare un chiarimento definitivo. Non solo per le caratteristiche del sistema ma anche per il modo in cui sarà portato sul mercato.

Nvidia HGX-2 è un server progettato per gestire applicazioni sia di intelligenza artificiale sia di High Performance Computing, due ambiti che di norma richiedono soluzioni diverse perché necessitano di calcoli con precisioni differenti. Nel dettaglio: alta precisione per l'elaborazione scientifica e le simulazioni, precisione minore per l'addestramento degli algoritmi di AI e l'inferencing.

Nvidia ha affrontato la questione partendo dalle tecnologie sviluppate per il precedente server HGX-1 ma facendo loro fare un bel salto in avanti. Il "mattone" fondamentale per la realizzazione di Nvidia HGX-2 è una board che comprende ben otto GPU Tesla V100 collegate fra loro e verso l'esterno da sei switch NVLink a 18 porte. Un sistema base Nvidia HGX-2 è costituito da due di queste board, quindi offre 16 GPU Tesla V100 con una potenza complessiva di calcolo pari a 2 Petaflop.

Nella strategia definita per HGX-2, Nvidia non intende produrre server completi da veicolare agli utenti finali. Collaborerà invece con altri partner hardware perché questi realizzino sistemi ad hoc basati sulla nuova architettura, sistemi che quasi certamente saranno poi venduti ai grandi hyperscaler, ai centi di ricerca e alle aziende "top" come base per la realizzazione di servizi cloud e applicazioni di AI o di HPC.

In questo senso un elemento chiave di HGX-2 è il disaccoppiamento fra i nodi con le CPU e le board con le GPU, che dialogheranno fra loro via PCIe. In questo modo, spiega Nvidia, lo sviluppo tecnologico della parte CPU è slegato da quello delle GPU. Inoltre diventa possibile sviluppare sistemi mirati in cui il rapporto tra il numero di CPU e di GPU è più o meno elevato a seconda delle necessità. Nelle applicazioni di AI e deep learning si usa ad esempio avere un rapporto basso, mentre nel calcolo ad alte prestazioni si preferisce un maggiore equilibrio tra CPU e GPU.