Fast File and Object Storage: una piattaforma per la nuova era dei dati

Le nuove piattaforme FFO nascono per unire la velocità del file storage con la scalabilità dello storage a oggetti, una esigenza nata insieme ai nuovi modelli applicativi

Autore: Umberto Galtarossa

Il decennio attuale sta per trasformarsi nella nuova era dei dati non strutturati. Secondo Gartner, la crescita è infatti arrivata al 30% annuo, il che significa che entro il 2026 ci troveremo a un volume di dati non strutturati quasi quadruplo rispetto a oggi. Una crescita del genere rappresenta già di per sé una sfida. Ma i dati non strutturati sono anche di varie dimensioni e possono essere memorizzati come file o come oggetti, con rigidi requisiti di prestazioni da parte dello storage. Ciò ha portato a una nuova categoria di storage che prevede l'unificazione dello storage veloce per file e oggetti. Sono le piattaforme definite FFO (Fast File and Object Storage) o anche UFFO (Unified FFO).

Da dove nasce, più in dettaglio, questa esigenza di una nuova categoria di storage? Lo scenario generale vede una crescita dei dati non strutturati, che possono comprendere enormi quantità – anche miliardi – di oggetti o file di piccolissime dimensioni. I dati non strutturati possono includere anche numeri limitati di file od oggetti di grandi dimensioni, come video o immagini. Ci possono essere anche combinazioni dei due casi: i dati di backup, per esempio, possono contenere un'ampia gamma di dataset di varie tipologie e dimensioni.

Un altro fattore alla base del Fast File e Object storage riguarda le prestazioni oggi giudicate necessarie nell'accesso a questi dati non strutturati. Abbiamo assistito ad esempio a un'esplosione delle attività di analytics e machine learning provocata dalla necessità di distillare valore da enormi quantità di dati grezzi. Le piattaforme tradizionali non sempre offrono i livelli di performance e di scalabilità utili in questi scenari applicativi.

Altre casistiche di utilizzo in rapida diffusione riguardano le immagini digitali, come i sistemi PACS (Picture Archiving and Communication Systems) nel settore della sanità. Un esempio in questo contesto è offerto dall'impiego di tecniche di machine learning per la diagnostica oncologica da parte della società statunitense Paige, tecniche che richiedono una capacità storage su scala petabyte con alti livelli di velocità di accesso e throughput per eseguire il riconoscimento automatizzato di campioni di tessuto tra milioni di immagini. Questa applicazione impone di accedere rapidamente a dati disponibili sotto forma di file e di oggetti.

C'è poi l'ambito dei backup e della protezione dei dati, che produce grandi quantità di file di svariato genere. Se i backup potevano essere affidati un tempo allo storage esistente più lento, oggi esiste invece la necessità di accedere rapidamente a quegli stessi backup per completare al più presto il ripristino in caso di attacco ransomware.

File e oggetti veloci: perché la "e"?

Per decenni lo storage a file è stata un'opzione mainstream, con i sistemi NAS scale-out che in tempi più recenti sono cresciuti di capacità e prestazioni per supportare i dati non strutturati. Ma lo storage a oggetti è importante e decisamente affermato, sospinto dal web e dalla diffusione del cloud. File e oggetti possono contenere le stesse tipologie di dati, ma i file system utilizzano un sistema basato su directory gerarchiche, mentre lo storage a oggetti utilizza una struttura 'flat' dove agli oggetti viene assegnato un identificatore univoco.

Storicamente, l'oggetto è sempre stato il tipo di storage meno performante e ha dato vita a una categoria di prodotti decisamente separata. Ma le cose stanno cambiando, visto che i clienti hanno sempre più spesso bisogno di interrogare grandi quantità di dati non strutturati che possono esistere sotto forma di oggetti oltre che di file. Per questo abbiamo assistito all'arrivo di soluzioni storage ad alte prestazioni che combinano l'accesso ai file e agli oggetti.

La creazione dei dati non strutturati e la loro destinazione alla fine del loro ciclo di vita può riguardare diversi luoghi e diverse tipologie di dati. In questo ci si stacca dal vecchio mondo dei database che supportavano i sistemi ERP, una soluzione che nasceva internamente all'azienda e rimaneva chiusa nei confini interni della stessa.Umberto Galtarossa, Partner Technical Manager di Pure Storage

I prodotti FFO di oggi hanno la capacità di gestire sia i formati di file NFS (Network File System) che SMB (Server Message Block), entrambi Posix-compliant e orientati alla modalità di scrittura di molte applicazioni enterprise esistenti.

Ma il Fast File and Object storage può gestire anche dati non strutturati nei formati di accesso a oggetti che scaturiscono dalla loro origine nel cloud, come Amazon S3 Fast file and object storage che è adatto anche per lavorare con i cloud ibridi, dove i dati non strutturati possono spostarsi tra risorse on-site e risorse cloud.

Cosa cercano i clienti in un prodotto FFO?

Per prima cosa la capacità. Il prodotto deve poter scalare secondo le necessità, e per molti workload enterprise che si avvalgono di dati non strutturati questo può significare interi petabyte. I dataset non strutturati possono essere davvero enormi: si pensi a grandi quantità di immagini, o al volume aggregato delle varie tipologie di file presenti nei backup di un'azienda.

In secondo luogo, deve poter fornire accesso a file e object storage supportando protocolli come NFS e SMB nel primo caso e S3 nel secondo.

In terzo luogo, deve essere costruito per fornire accesso rapido e throughput elevato. La bassa latenza – specialmente in lettura – è richiesta per lo storage che deve supportare applicazioni AI/ML o di imaging medicale, ad esempio. Ciò significa scegliere storage all-flash, che offre la rapidità di accesso dello stato solido con profili di costo nella lettura sequenziale che si avvicinano a quelli dei normali dischi.

La bassa latenza di accesso deve tuttavia essere accompagnata da un throughput elevato. Lo storage di dati non strutturati – magari quando si tratta di ripristinare i backup in seguito a un attacco ransomware – ha bisogno di accesso simultaneo rapido a numerosissimi file o oggetti e si misura in TB/ora. I clienti enterprise dovrebbero orientarsi verso throughput che si avvicinino ai 300 TB/ora.

Dunque, stiamo entrando nella nuova era del data storage. Questo significa soluzioni Fast File and Object storage create per grandi volumi di dati non strutturati con prestazioni significative, pensate per i formati di dati destinati a dominare le casistiche di utilizzo per l'analytics, la gestione di video e immagini e la protezione dei dati.

Umberto Galtarossa è Partner Technical Manager di Pure Storage


Visualizza la versione completa sul sito

Informativa
Questo sito o gli strumenti terzi da questo utilizzati si avvalgono di cookie necessari al funzionamento ed utili alle finalità illustrate nella cookie policy. Se vuoi saperne di più o negare il consenso a tutti o ad alcuni cookie, consulta la cookie policy. Chiudendo questo banner, acconsenti all’uso dei cookie.