Il futuro dell'AI si gioca sul'efficienza

Gartner stima che da qui al 2030 l'efficienza dei processi di inferenza sui grandi LLM migliorerà drasticamente, portando quasi a zero il costo dei servizi mainstream

Una delle tesi portate avanti da chi spinge fortemente la diffusione della GenAI i tutte le imprese, per una vasta gamma di applicazioni, è che nel prossimo futuro l'efficienza dei sistemi di intelligenza artificiale migliorerà nettamente, portando quindi ad una maggiore sostenibilità - tanto economica quanto ambientale - dell'AI. Anche gli analisti di Gartner, che notoriamente non è mai tenera quando si tratta dell'hype collegato all'AI, sposano ora questa tesi.

Gartner spiega infatti che entro il 2030 eseguire operazioni di inferenza su un LLM da mille miliardi di parametri costerà meno di un decimo di quanto non costasse nel 2025, grazie alla maggiore efficienza di calcolo portata da un complesso di alcuni fattori tecnologici: miglioramenti nelle infrastrutture e nei chip, innovazioni nella progettazione dei modelli di AI, sviluppo di processori ad hoc per l'inferenza, creazione di device specifici per casi d'uso verticali all'edge delle reti.

Il salto in efficienza descritto da Gartner è molto rilevante. Lo si nota meglio se lo si confronta con lo scenario tecnologico del 2022, ossia dell'anno in cui si è cominciato a parlare concretamente di GenAI. Rispetto a quel periodo, sottolinea Gartner, nel 2030 gli LLM saranno anche cento volte più efficienti nelle implementazioni definite di frontiera, ossia quelle che utilizzeranno tutte le tecnologie migliori della microelettronica in quel momento. Gartner indica che ci saranno importanti miglioramenti in efficienza anche in scenari meno ottimistici, ossia in quelli in cui gli AI provider useranno anche una cobinazione di chip e altri semiconduttori meno evoluti. Il costo rispetto agli scenari di frontiera sarà comunque sensibilmente più elevato.

Attenzione, però: per Gartner la riduzione drastica nei costi dell'inferencing è un fenomeno che interessa principalmente gli AI provider e che non si rifletterà tutto e direttamente sulle aziende utenti. Questo per un paio di ragioni. La prima è che l'infrastruttura necessaria alla gestione dei modelli "di frontiera" è comunque complessa e non alla portata di tutti, e i provider hanno infatti investito molto per portarsela in casa. E, a quanto promettono, contineranno a farlo.

La seconda ragione è che le applicazioni e i servizi di GenAI di frontiera saranno comunque sempre più articolati e richiederanno quindi processi di inferenza più complicati, che prevederanno la generazione di molti più token (Gartner stima da 5 a 30 volte di più). Il passaggio dalla GenAI generica all'AI agentica è il catalizzatore principale di questa maggiore complessità inferenziale. Il risultato è che il costo per token dei processi inferenziali effettivamente diminuirà, ma le applicazioni richiederanno sempre più token e quindi più che compenseranno questo risparmio.

Da qui al 2030 si verrà quindi a creare uno scenario sostanzialmente polarizzato. Le funzioni e le applicazioni mainstream della GenAI arriveranno a costare molto poco se non proprio (quasi) nulla - intendiamoci, dal punto di vista dei costi "grezzi", non del cartellino del prezzo - perché non richiederanno la generazione di molti token. L'inferenza di frontiera, specie per l'AI agentica, invece continuerà a costare molto, anche più di adesso. Con il vantaggio però di supportare casi d'uso sempre più "pregiati".

Alle aziende utenti resta il non semplice compito di adattare di conseguenza il proprio profilo d'uso dell'AI, per ottimizzare il più possibile i costi. I task di routine e quelli che si eseguono più di frequente dovranno essere dirottati verso i modelli più efficienti, puntando in particolare sui modelli linguistici di piccole dimensioni e su quelli specializzati per settori verticali. L'utilizzo degli LLM di frontiera dovrà essere davvero giustificato, riservandolo ai task che richiedono "ragionamenti" davvero complessi e ad applicazioni e servizi a maggior valore aggiunto.