▾ G11 Media: | ChannelCity | ImpresaCity | SecurityOpenLab | Italian Channel Awards | Italian Project Awards | Italian Security Awards | ...

F5 e Nvidia, nuove funzionalità per accelerare l’inferenza AI

BIG-IP Next for Kubernetes, accelerato con le DPU BlueField, migliora il throughput, riduce il costo per token e abilita un’infrastruttura AI multi-tenant sicura trasformando le AI factory

Tecnologie AI

Per accelerare e ottimizzare le infrastrutture di inferenza AI, F5 amplia le funzionalità nell’ambito della collaborazione con Nvidia. L’integrazione combina F5 BIG-IP Next for Kubernetes con le DPU Nvidia BlueField-3, creando un livello infrastrutturale intelligente e basato sulla telemetria che aumenta la capacità di elaborazione dei token grazie a un migliore utilizzo delle GPU, riduce la latenza e abilita piattaforme AI multi-tenant sicure su larga scala.

Nei sistemi di intelligenza artificiale, i token rappresentano come noto l’unità di misura dell’output dell’AI: parole, simboli o frammenti di dati generati ed elaborati durante l’inferenza. Il volume e la velocità di generazione dei token determinano in ultima analisi l’esperienza utente, l’efficienza dell’infrastruttura e i ricavi per acceleratore.

Con le aziende e i fornitori di GPUaaS che cercano di trarre profitto rapidamente dall’AI e passare dalla sperimentazione a servizi in grado di generare ricavi, l'efficienza dell'infrastruttura è diventata un parametro chiave. Il successo è sempre più misurato non solo in base alla capacità delle GPU implementate, ma anche in termini di economia dei token, capacità di elaborazione di questi ultimi, tempo al primo token (TTFT), costo per token e ricavi per acceleratore GPU. La soluzione congiunta di F5 e Nvidia è progettata per rispondere direttamente a questi indicatori.

Il passaggio da un'inferenza incentrata sulle applicazioni a flussi di lavoro di AI guidati dagli agenti richiede nuovi approcci architetturali per ottimizzare i throughput dei token e ridurre i costi. BIG-IP Next for Kubernetes sfrutta ora le statistiche Nvidia NIM, i segnali di runtime Dynamo e la telemetria delle GPU per prendere decisioni di instradamento basate sull'inferenza prima dell'esecuzione. Abbinando in tempo reale i carichi di lavoro agli acceleratori più appropriati, la soluzione aumenta l'utilizzo sostenuto riducendo al contempo latenza e rielaborazioni.

BIG-IP Next for Kubernetes potenziato dalle DPU Nvidia BlueField-3, si sottolinea, ha registrato fino al 40% di incremento della capacità di elaborazione dei token, un “Time To Forst Token” (TTFT) più veloce del 61% e una riduzione del 34% della latenza complessiva delle richieste.


Trasferendo le operazioni di rete, TLS/crittografia, bilanciamento del carico ottimizzato per l’AI e gestione del traffico alle DPU Nvidia BlueField-3, BIG-IP Next for Kubernetes preserva la capacità della CPU dell’host e libera le GPU per fare ciò per cui sono state progettate: inferenze sostenute e ad alta velocità su larga scala. Il risultato è un utilizzo delle GPU più efficiente, la riduzione dei ritardi di attesa e un aumento della resa dei token, consentendo un costo per token inferiore all'interno di un'infrastruttura a ingombro fisso. È importante sottolineare che non sono state necessarie modifiche ai modelli, rendendo questi vantaggi immediatamente applicabili all'infrastruttura esistente delle AI factory. Per le aziende e i fornitori NeoCloud che competono nell'economia dei token, questa è la differenza tra un'infrastruttura che limita l’output dell’AI e una che la accelera.

L'infrastruttura AI non riguarda più solo l'accesso alle GPU o la scalabilità delle loro implementazioni. Si è evoluta fino a puntare sulla massimizzazione del ritorno economico per acceleratore. In collaborazione con Nvidia, stiamo consentendo alle AI factory di trattare la produzione di token come un indicatore di business misurabile. BIG-IP Next for Kubernetes fornisce l'intelligenza e la governance necessarie per aumentare la resa delle GPU, ridurre il costo per token e scalare con sicurezza le piattaforme AI condivise”, commenta Kunal Anand, Chief Product Officer di F5.

L'infrastruttura di calcolo accelerata di Nvidia, abbinata alla piattaforma F5 di distribuzione e sicurezza delle applicazioni ottimizzata per l'AI, offre una economia dei token di livello superiore per l'AI Factory, garantendo inferenze scalabili ed economiche senza modificare alcun modello. Insieme, F5 e Nvidia permettono alle aziende di scalare l'inferenza dell'AI Factory in modo efficiente ed economico”, aggiunge Kevin Deierling, SVP, Networking di Nvidia.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato
Iscriviti alla nostra Newsletter Gratuita. Iscriviti
GoogleNews Rimani sempre aggiornato, seguici su Google News! Seguici
Abbonati alla rivista ImpresaCity Magazine e ricevi la tua copia.

Notizie correlate

Iscriviti alla nostra newsletter

Soluzioni B2B per il Mercato delle Imprese e per la Pubblica Amministrazione

Iscriviti alla newsletter

www.impresacity.it - 8.5.0 - 4.6.4