Le promesse del rack-scale computing

I workload AI del futuro richiedono ai data center una dinamicità che i modelli architetturali classici non possono più dare. Così il rack si appresta a diventare l'unità di elaborazione base.

Oggi si parla sempre più spesso di rack-scale computing, intendendo con questo termine un modello architetturale in cui il "computer" - inteso come unità base dell'elaborazione - non è più il singolo server ma un intero rack. È come aggiungere un livello di astrazione "sopra" i server fisici, ponendo il rack (con tutto quello che contiene) come "mattoncino" base delle architetture IT. Non è una idea del tutto nuova - se ne parla da una decina d'anni - ma si sta affermando perché appare in grado di supportare al meglio i workload a cui oggi tutti sono più interessati, ossia quelli collegati all'Intelligenza Artificiale.

Nelle architetture IT classiche si ragiona "per server": dato un workload, si stima come deve essere configurato un cluster di server per supportarlo. Dopodiché si pensa a come gestirne i dati (tema storage e database), la connettività (tema networking), i componenti a supporto (tema alimentazione e condizionamento). Ma questa allocazione delle risorse è assai poco dinamica, mentre nel rack-scale computing i componenti di un rack (processori, GPU, storage, RAM, connessioni di rete...) possono essere associati fra loro dinamicamente, secondo i principi delle composable infrastructure, in base alle specifiche necessità dei workload a cui vengono assegnati.

Il miglior utilizzo delle risorse e la loro allocazione dinamica sono due vantaggi evidenti in particolare per i workload ad alta intensità di dati. In questa categoria rientrano l'addestramento dei modelli di AI, la simulazione, gli analytics in tempo reale, gli ambienti containerizzati massivi. Tutti carichi di lavoro che sfruttano a dovere la condivisione di storage e memoria ad alte prestazioni, la riconfigurazione dinamica delle risorse, l'eliminazione (o quasi) della latenza nelle comunicazioni tra server.

Ma se il rack-scale computing è così vantaggioso e se ne parlava già anni fa, perché non si è affermato subito? In parte perché una volta non se ne sentiva una vera e forte esigenza, ma soprattutto perché introduce alcune complessità tecniche che non si possono sottovalutare.

Il principale ostacolo è legato alla latenza: tutto il concetto del rack-scale computing non sta in piedi se le interconnessioni tra i componenti di un rack non garantiscono una latenza trasmissiva abbastanza bassa. Senza questa, non si possono supportare i workload più esigenti con un livello di performance adeguato e, soprattutto, costante e prevedibile. Inoltre, ottimizzare il comportamento su larga scala dei workload più esigenti - come sono oggi quelli collegati all'AI - resta un compito non banale, che richiede una buona dose di ingegnerizzazione del traffico dati intra-rack e meccanismi di Quality of Service.

In questo non aiuta il fatto che l'ecosistema delle nuove tecnologie "rack-scale" sia ancora piuttosto proprietario. In parte è inevitabile: nel rack-scale computing il singolo rack è un sistema molto complesso di componenti eterogenei che devono comunque interoperare tra loro senza problemi, per ambiti applicativi molto articolati. Una vera interoperabilità multi-vendor è difficile da ottenere e soprattutto da garantire, e se i grandi hyperscaler hanno le competenze e le risorse per costruirsi le proprie soluzioni, le aziende preferiscono evitare rischi affidandosi quasi sempre ad ambienti mono-vendor.

Le direttrici di sviluppo

Il modello del rack-scale computing può risultare nuovo per molte aziende potenziali utenti, in realtà però è già in rapida evoluzione. La direttrice di sviluppo forse più importante riguarda il fabric di interconnessione intra-rack, che si baserà sempre più su tecnologie a larga banda e bassa latenza, come Compute Express Link, e collegamenti intra-rack in fibra ottica. Questo tra l'altro permette di aumentare il livello di disaggregazione delle risorse in un rack: latenze trasmissive paragonabili, o addirittura superiori, a quelle intra-server abilitano il collegamento diretto tra componenti (CPU, GPU, DRAM) sempre più granulari.

La prospettiva è che si sviluppino sempre più tecnologie di interconnessione "rack-native", ossia pensate in modo specifico per trasformare il singolo rack in un dominio di rete ad alte prestazioni, autonomo e programmabile, con bande molto più elevate dell'ambito networking tradizionale, latenze molto più basse e chipset e SoC progettati per gestire direttamente funzioni come la segmentazione delle comunicazioni intra-rack e l'ottimizzazione del traffico dati.

Tutto questo servirà anche all'integrazione diretta, nel fabric del rack, dei chip e SoC che possono supportare meglio i workload AI: non solo processori e GPU ma anche TPU, DPU, FPGA e altra microelettronica custom. Idealmente, questi componenti non sono più limitati al server che li ospita ma costituiscono un pool di risorse da allocare dinamicamente, workload per workload.

Dal che si intuisce un'altra direttrice di sviluppo del rack-scale computing: la ricerca di una automazione pressoché totale. Non si possono gestire in modo classico rack che, di fatto, sono ciascuno una sorta di cluster dinamico di micro-componenti eterogenei. L'obiettivo è poter considerare un futuro rack ad alta densità, anche con potenze nell'ordine dei Megawatt, come una appliance autonoma. Un passo tecnologicamente non da poco, e una bella rivoluzione concettuale per chi fa IT management.