Red Hat AI su AWS Trainium e chip AI Inferentia offrirà maggiore scelta, flessibilità ed efficienza per i carichi di lavoro AI di produzione
Red Hat amplia la collaborazione con Amazon Web Services (AWS) con l’obiettivo di potenziare l’intelligenza artificiale generativa di livello aziendale su AWS con Red Hat AI e AWS AI silicon. In questo modo, Red Hat fornisce ai responsabili delle decisioni IT la flessibilità necessaria per eseguire inferenze AI efficienti e ad alte prestazioni su larga scala, indipendentemente dall’hardware sottostante.
L’ascesa della gen AI e la conseguente necessità di un’inferenza scalabile stanno spingendo le organizzazioni a rivalutare la propria infrastruttura IT. Questa tendenza sottolinea la necessità di disporre di soluzioni ottimizzate in grado di migliorare la potenza di elaborazione, ridurre al minimo i costi e consentire cicli di innovazione più rapidi per applicazioni AI ad alte prestazioni. La collaborazione di Red Hat con AWS offre alle aziende una strategia gen AI a tutto tondo, combinando le funzionalità complete della piattaforma Red Hat con l’infrastruttura cloud AWS e i chipset AI AWS Inferentia2 e AWS Trainium3.
Nel dettaglio, la collaborazione tra Red Hat e AWS punta a rendere più semplice, performante e conveniente l’adozione dell’intelligenza artificiale generativa nelle aziende, integrando in modo più profondo le tecnologie dei due vendor. Al centro dell’accordo c’è la possibilità di eseguire il Red Hat AI Inference Server – basato sul progetto open source vLLM – sui chip dedicati di AWS, come Inferentia2 e Trainium. Questa combinazione consente di supportare qualsiasi modello generativo con prestazioni più elevate, minore latenza e costi inferiori, arrivando secondo le stime a un miglior rapporto prezzo/prestazioni fino al 40% rispetto alle istanze EC2 basate su GPU.
Un altro tassello rilevante riguarda Red Hat OpenShift: grazie allo sviluppo congiunto dell’AWS Neuron Operator, i clienti possono ora eseguire più agevolmente carichi di lavoro AI all’interno di OpenShift, OpenShift AI e OpenShift Service on AWS, sfruttando nativamente gli acceleratori AWS. L’integrazione si traduce anche in un accesso più semplice a risorse AI di fascia alta, oggi molto richieste, mentre la nuova collezione Ansible certificata amazon.ai permette di orchestrare in modo automatizzato i servizi AI su AWS.
La collaborazione si estende inoltre alla comunità open source. Red Hat e AWS stanno ottimizzando un plugin per i chip AWS AI all’interno del progetto vLLM, con l’obiettivo di accelerare inferenza e addestramento dei modelli. vLLM – alla base anche di llm-d, il progetto dedicato alle inferenze su larga scala – è già diventato una funzionalità supportata commercialmente in Red Hat OpenShift AI 3. Insieme, le due aziende mirano quindi a offrire un ecosistema più maturo, aperto e scalabile per portare l’AI generativa in produzione con maggiore efficienza.
“Abilitando il nostro Red Hat AI Inference Server di livello enterprise basato sull’innovativo framework vLLM con i chip AWS AI, consentiamo alle aziende di implementare e scalare i carichi di lavoro AI con maggiore efficienza e flessibilità. Facendo tesoro della tradizione open source di Red Hat, questa collaborazione mira a rendere l’AI generativa più accessibile ed economica in tutti gli ambienti cloud ibridi”. commenta Joe Fernandes, vice president e general manager, AI Business Unit di Red Hat.
“Le aziende richiedono soluzioni che offrano prestazioni eccezionali, efficienza dei costi e libertà di scelta operativa per i carichi di lavoro AI mission-critical. AWS ha progettato i chip Trainium e Inferentia per rendere l’inferenza e l’addestramento dell’AI ad alte prestazioni più accessibili ed economici. La nostra collaborazione con Red Hat fornisce ai clienti un percorso supportato per l’implementazione della gen AI su larga scala , combinando la flessibilità dell’open source con l’infrastruttura AWS e acceleratori AI appositamente progettati per accelerare il time-to-value dalla fase pilota alla produzione”, aggiunge Colin Brace, vice president, Annapurna Labs di AWS.