F5 e Nvidia, nuove funzionalità per accelerare l’inferenza AI

BIG-IP Next for Kubernetes, accelerato con le DPU BlueField, migliora il throughput, riduce il costo per token e abilita un’infrastruttura AI multi-tenant sicura trasformando le AI factory

Tecnologie AI

Per accelerare e ottimizzare le infrastrutture di inferenza AI, F5 amplia le funzionalità nell’ambito della collaborazione con Nvidia. L’integrazione combina F5 BIG-IP Next for Kubernetes con le DPU Nvidia BlueField-3, creando un livello infrastrutturale intelligente e basato sulla telemetria che aumenta la capacità di elaborazione dei token grazie a un migliore utilizzo delle GPU, riduce la latenza e abilita piattaforme AI multi-tenant sicure su larga scala.

Nei sistemi di intelligenza artificiale, i token rappresentano come noto l’unità di misura dell’output dell’AI: parole, simboli o frammenti di dati generati ed elaborati durante l’inferenza. Il volume e la velocità di generazione dei token determinano in ultima analisi l’esperienza utente, l’efficienza dell’infrastruttura e i ricavi per acceleratore.

Con le aziende e i fornitori di GPUaaS che cercano di trarre profitto rapidamente dall’AI e passare dalla sperimentazione a servizi in grado di generare ricavi, l'efficienza dell'infrastruttura è diventata un parametro chiave. Il successo è sempre più misurato non solo in base alla capacità delle GPU implementate, ma anche in termini di economia dei token, capacità di elaborazione di questi ultimi, tempo al primo token (TTFT), costo per token e ricavi per acceleratore GPU. La soluzione congiunta di F5 e Nvidia è progettata per rispondere direttamente a questi indicatori.

Il passaggio da un'inferenza incentrata sulle applicazioni a flussi di lavoro di AI guidati dagli agenti richiede nuovi approcci architetturali per ottimizzare i throughput dei token e ridurre i costi. BIG-IP Next for Kubernetes sfrutta ora le statistiche Nvidia NIM, i segnali di runtime Dynamo e la telemetria delle GPU per prendere decisioni di instradamento basate sull'inferenza prima dell'esecuzione. Abbinando in tempo reale i carichi di lavoro agli acceleratori più appropriati, la soluzione aumenta l'utilizzo sostenuto riducendo al contempo latenza e rielaborazioni.

BIG-IP Next for Kubernetes potenziato dalle DPU Nvidia BlueField-3, si sottolinea, ha registrato fino al 40% di incremento della capacità di elaborazione dei token, un “Time To Forst Token” (TTFT) più veloce del 61% e una riduzione del 34% della latenza complessiva delle richieste.

Trasferendo le operazioni di rete, TLS/crittografia, bilanciamento del carico ottimizzato per l’AI e gestione del traffico alle DPU Nvidia BlueField-3, BIG-IP Next for Kubernetes preserva la capacità della CPU dell’host e libera le GPU per fare ciò per cui sono state progettate: inferenze sostenute e ad alta velocità su larga scala. Il risultato è un utilizzo delle GPU più efficiente, la riduzione dei ritardi di attesa e un aumento della resa dei token, consentendo un costo per token inferiore all'interno di un'infrastruttura a ingombro fisso. È importante sottolineare che non sono state necessarie modifiche ai modelli, rendendo questi vantaggi immediatamente applicabili all'infrastruttura esistente delle AI factory. Per le aziende e i fornitori NeoCloud che competono nell'economia dei token, questa è la differenza tra un'infrastruttura che limita l’output dell’AI e una che la accelera.

“L'infrastruttura AI non riguarda più solo l'accesso alle GPU o la scalabilità delle loro implementazioni. Si è evoluta fino a puntare sulla massimizzazione del ritorno economico per acceleratore. In collaborazione con Nvidia, stiamo consentendo alle AI factory di trattare la produzione di token come un indicatore di business misurabile. BIG-IP Next for Kubernetes fornisce l'intelligenza e la governance necessarie per aumentare la resa delle GPU, ridurre il costo per token e scalare con sicurezza le piattaforme AI condivise”, commenta Kunal Anand, Chief Product Officer di F5.

“L'infrastruttura di calcolo accelerata di Nvidia, abbinata alla piattaforma F5 di distribuzione e sicurezza delle applicazioni ottimizzata per l'AI, offre una economia dei token di livello superiore per l'AI Factory, garantendo inferenze scalabili ed economiche senza modificare alcun modello. Insieme, F5 e Nvidia permettono alle aziende di scalare l'inferenza dell'AI Factory in modo efficiente ed economico”, aggiunge Kevin Deierling, SVP, Networking di Nvidia.

In questo articolo abbiamo parlato di:

Tag correlati

Esplora altri articoli su questi argomenti

ai nvidia f5 ai factory neocloud token gpuaas

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato

Fonti di ricerca preferite

Aggiungici alle tue fonti su Google

Google News

Rimani sempre aggiornato, seguici

ImpresaCity Magazine

Abbonati e ricevi la tua copia cartacea

Notizie correlate

7 - F5 e Nvidia, nuove funzionalità per accelerare l’inferenza AI

3 - Nutanix, con Agentic AI si sfrutta al massimo il potenziale delle AI Factory

3 - NTT Data, arrivano le AI factory enterprise su Nvidia

3 - Red Hat, percorso rapido per un’AI scalabile in produzione con AI Factory con Nvidia

3 - Hitachi punta alla Physical AI

3 - La grande scommessa dei neocloud

3 - Dell Technologies, l’AI guarda anche all’edge

3 - Dove va l’AI secondo Nvidia

3 - Dell, nuove soluzioni per la AI Factory

2 - L’inferenza AI trasforma anche l’application delivery

2 - F5: l’AI entra nei processi enterprise e cambia l'IT

2 - Il data center? Meglio piccolo e a casa propria.

Speciali Tutti gli speciali

Speciale

Speciale ERP e gestionali - Verso una nuova intelligenza

Speciale

Speciale Cybersecurity aziendale

Speciale

Speciale Cloud - Ibrido e multicloud in primo piano

Speciale

Zero is the New Trust

Speciale

Speciale IT in azienda 2026

Calendario Tutto

Mag 28

AWS Summit 2026 - Milano

Giu 03

Webinar Red Hat - The GenAI Optimization Triangle: Balancing Cost, Latency, and Accuracy on Kubernetes

Giu 11

MSP DAY 2026

Giu 12

Webinar Red Hat - L'Open Source tra innovazione architetturale, conformità normativa e Trusted Software Supply Chain

Giu 16

OT Cyber Security: dalla teoria alla fabbrica

Giu 17

Nutanix .NEXT On Tour Roma

Ott 07

Fortinet Security Day - Roma

Ott 21

CES Unveiled Milan

Ott 28

Fortinet Security Day - Milano

Magazine Tutti i numeri

Leggi il Magazine

G11 Media Networks

ImpresaCity e' un canale di BitCity, testata giornalistica registrata presso il tribunale di Como ,
n. 21/2007 del 11/10/2007- Iscrizione ROC n. 15698

G11 MEDIA S.R.L. Sede Legale Via NUOVA VALASSINA, 4 22046 MERONE (CO) - P.IVA/C.F.03062910132 Registro imprese di Como n. 03062910132 - REA n. 293834 CAPITALE SOCIALE Euro 30.000 i.v.

F5 e Nvidia, nuove funzionalità per accelerare l’inferenza AI

Tag correlati

Notizie correlate

7 - F5 e Nvidia, nuove funzionalità per accelerare l’inferenza AI

3 - Nutanix, con Agentic AI si sfrutta al massimo il potenziale delle AI Factory

3 - NTT Data, arrivano le AI factory enterprise su Nvidia

3 - Red Hat, percorso rapido per un’AI scalabile in produzione con AI Factory con Nvidia

3 - Hitachi punta alla Physical AI

3 - La grande scommessa dei neocloud

3 - Dell Technologies, l’AI guarda anche all’edge

3 - Dove va l’AI secondo Nvidia

3 - Dell, nuove soluzioni per la AI Factory

2 - L’inferenza AI trasforma anche l’application delivery

2 - F5: l’AI entra nei processi enterprise e cambia l'IT

2 - Il data center? Meglio piccolo e a casa propria.

Speciali Tutti gli speciali

Speciale ERP e gestionali - Verso una nuova intelligenza

Speciale Cybersecurity aziendale

Speciale Cloud - Ibrido e multicloud in primo piano

Zero is the New Trust

Speciale IT in azienda 2026

Calendario Tutto

Magazine Tutti i numeri

Iscriviti alla nostra newsletter

G11 Media Networks