NVIDIA Blackwell cos’è, perché tutti lo cercano e perchè si infiamma la corsa delle GPU per i data center.
Dopo l’annuncio al GTC dello scorso marzo e le presentazioni succedute in questi mesi, si avvicinano le prime consegne degli ordini relativi ai sistemi NVIDIA basati su architettura Blackwell, diretta evoluzione di quel Hopper che ha dominato la scena negli ultimi anni nel mercato data center, arrivando a registrare tempi di attesa sugli ordini di oltre 11 mesi, per ragioni imputabili solo in parte al drammatico chip shortage a cui abbiamo assistito fino al 2022.
In uno scenario che vede NVIDIA ormai fare concorrenza soprattutto a sé stessa, Blackwell presenta numeri estremamente interessanti, soprattutto nella fase di inferenza, che riguarda nello specifico il funzionamento dei modelli AI, una volta che sono stati addestrati.
In questo frangente, secondo le prime dimostrazioni di NVIDIA, Blackwell risulterebbe circa 30 volte più performante e 25 volte meno energivoro rispetto al suo predecessore, per quanto riguarda il lavoro di inferenza sui modelli linguistici di grandi dimensioni (LLM) e in vari ambiti che vedono coinvolta l’elaborazione AI, non soltanto generativa.
NVIDIA ha scelto questo nome per onorare la memoria di David Harold Blackwell, un grande matematico del passato, noto anche per essere stato il primo uomo di colore ad entrare nella National Academy of Sciences, la Hall of Fame degli scienziati.
Nel momento in cui scriviamo, secondo alcune indiscrezioni, pubblicate da The Information, le prime consegne, almeno per quanto riguarda i processori B200, potrebbero tardare rispetto alle previsioni autunnali a causa di un possibile difetto di progettazione, che avrebbe costretto NVIDIA ad una nuova serie di test di produzione con la fonderia TMSC, responsabile della nuova tecnologia a 4nm. Al momento NVIDIA non ha né confermato né smentito tale ipotesi, che non varia in maniera sostanziale la straordinaria richiesta per i processori Blackwell.
NVIDIA Blackwell: una GPU sempre più richiesta da tutti i principali AI cloud provider
Anche se i tempi e le modalità contrattuali rimangono, per ovvie ragioni, oggetto di una certa riservatezza, dall’autunno dovrebbero iniziare le prime consegne dei sistemi basati su B100, B200 e GB200, come NVIDIA DGX Cloud.
I principali big tech, come Amazon, Google, Microsoft e Meta, in previsione di un continuo incremento di lavoro per i data center, stanno investendo su vari fronti. Da un lato, sullo sviluppo di processori proprietari, senza rinunciare alle performance oggi offerte da NVIDIA, indiscusso leader tecnologico sia a livello hardware che a livello software.
Tra i tech brand in lista d’attesa per Blackwell vi sarebbero infatti: Amazon Web Services, Microsoft Azure, Google Cloud, Oracle Cloud Infrastructure, Meta, Tesla, IBM Cloud, CoreWeave, Cisco Systems, Dell Technologies, Hewlett Packard Enterprise, Lenovo, Supermicro, ASRock Rack, Asus, Eviden, Foxconn, Gigabyte e diversi altri, a cui si aggiunge una nutrita lista di cloud sovrani in tutto il mondo. I sistemi Blackwell rientrano inoltre nel mirino delle attenzione dei brand che sviluppano software per la simulazione scientifica e ingegneristica, come Ansys, Cadence e Synopsys.
Tutti i nomi più influenti in ambito tecnologico, al di là delle consuete parole di circostanza, hanno ufficialmente riconosciuto la fondamentale importanza delle loro partnership con NVIDIA.
Sundar Pichai, CEO di Alphabet e Google, ha dichiarato: “Scalare servizi come Google Search e Gmail a miliardi di utenti ci ha insegnato molto sulla gestione dell’infrastruttura di elaborazione. […] non vediamo l’ora di portare le rivoluzionarie funzionalità della GPU Blackwell ai nostri clienti e team cloud di Google, incluso Google DeepMind, per accelerare le scoperte future”.
Gli fa eco Mark Zuckerberg, CEO of Meta: “La AI è già alla base di tutto, dagli LLM ai nostri suggeritori di contenuti, agli annunci, ai sistemi di sicurezza, e diventerà sempre più importante in futuro. Non vediamo l’ora di utilizzare Blackwell per addestrare i nostri modelli open source Llama open source e creare la prossima generazione di Meta AI”.
Il CEO di Microsoft, Satya Nadella, pone l’enfasi sui data center di Azure: “Integrando il processore GB200 Grace Blackwell nei nostri data center in tutto il mondo, rendiamo reale la promessa di portare l’intelligenza artificiale in tutte le organizzazioni”.
Lapidario e al solito efficace Elon Musk, CEO di Tesla e xAI: “Al momento non c’è nulla di meglio di NVIDIA per la AI”.
NVIDIA: grazie a Blackwell crescono ulteriormente le aspettative, numeri sempre più da record
Le indiscusse performance delle GPU NVIDIA per i data center hanno costituito una straordinaria fortuna per il colosso diretto da Jensen Huang, che continua a girare il mondo con la sua inconfondibile giacca in pelle nera, presenziando ai vari eventi corporate dei partner che hanno scelto di implementare Hopper nei loro sistemi di calcolo.
Lo stesso è destinato ad accadere con Blackwell, anche se Nvidia difficilmente rilascia dati di dettaglio in merito ai numeri di vendita, limitandosi agli estremi di carattere economico-finanziario iscritti nei bilanci di esercizio.
Tornando ad Hopper, mediando le stime di vari analisti, possiamo desumere che nel 2023 Nvidia abbia venduto circa 3,8 milioni di GPU per data center (2,65 milioni del 2022), per un fatturato complessivo di 60,9 miliardi di dollari, che le ha consentito di segnare uno storico sorpasso su Intel.
Si tratta dell’ennesima testimonianza di come il mercato e la tecnologia dei processori stia prendendo direzioni molto differenti rispetto a quelle ipotizzabili soltanto qualche anno fa.
E non soltanto grazie all’hype dell’intelligenza artificiale generativa, che se mai ha costituito la classica ciliegina su una torta già pronta per essere servita da tempo. Esistono varie tecnologie computazionali, ma è fuori discussione che l’economia delle GPU per data center sia una nuova corsa all’oro dell’IT e attualmente NVIDIA, per rendere l’idea, detiene circa il 98% delle quote di mercato.
Secondo i dati riportati da HPCwire, sulla base di uno studio di TechInsights, nel solo settore delle GPU per data center, NVIDIA nel 2023 ha venduto per 36,2 miliardi di dollari, una cifra impressionante, se si considera che il fatturato specifico del 2022 ammontava a meno di un terzo (10,9 miliardi di dollari).
La corsa ai processori per i data center AI: tutti sviluppano le loro tecnologie, ma NVIDIA continuerà a dominare la scena tecnologica
Mai come in questo momento si sta assistendo ad una varietà tecnologica per quanto riguarda i processori nel mercato data center. Se per quanto riguarda le CPU “generaliste”, lo scontro rimane incentrato soprattutto tra Intel e AMD, per quanto riguarda la domanda relativa alla AI, l’architettura delle GPU pone NVIDIA una posizione dominante. Secondo le impressioni di analisti come James Sanders (Techinsights), il tech brand diretto da Jensen Huang continuerà a costituire per lungo tempo un assoluto punto di riferimento, anche se gli hyperscaler stanno lavorando a ritmi sempre più sostenuti nello sviluppo di chip AI proprietari di varia natura.
Secondo Sanders, l’enorme aumento della richiesta computazionale attesa nei prossimi anni farà sì che “ci sia spazio per tutti” e che in ogni caso, NVIDIA non riuscirebbe mai a mantenere la quasi totalità del mercato GPU per i data center, anche se aumenterà in maniera significativa la propria produzione di processori.
Secondo i dati 2023 collezionati da TechInsights in merito alle vendite di sistemi GPU per data center, AMD si collocherebbe al secondo posto (500mila unità vendute), mentre il terzo gradino del podio spetterebbe a Intel (400mila unità vendute).
AMD ha sorpreso la scena al Computex, annunciando i nuovi sistemi MI325X, MI350 e MI400, ma NVIDIA ha prontamente replicato, annunciando a sorpresa il successore di Blackwell: Rubin. Appare evidente come la scelta di annunciare un’architettura GPU ancor prima di aver distribuito sul mercato la precedente costituisca un messaggio molto chiaro diretto agli investitori, in merito alla propria solidità tecnologica, destinata a dominare nel tempo.
Intel conferma un momento difficile su vari fronti, confermate da numeri molto complicati nel mercato azionario. Il problema non si limita certamente all’ambito dei data center e non appare per nulla casuale il recente annuncio di circa 15mila tagli di personale in “attività non essenziali”, esternalizzandole di fatto a TMSC per contenere i costi interni. Per quanto riguarda le GPU per data center, la società diretta da Pat Gelsinger procederà con l’architettura Gaudì 3, in attesa di forzare un nuovo rilancio con Falcon Shore a partire dal 2025.
Oltre a fare incetta di sistemi NVIDIA, Google continua lo sviluppo di altre tecnologie, come le sue celebri TPU, i processori Tensor Core pensati nello specifico per la AI, che continuano a costituire un mercato estremamente redditizio per le casse di Big G, che entro l’anno introdurrà nei propri data center anche Trillium (sesta generazione TPU) e la nuova CPU Axion, puntando sempre più sugli aspetti legati all’ottimizzazione dei consumi energetici.
Con numeri al momento meno impattanti, anche Meta, Amazon (Graviton, Trainium, Inferentia) e Microsoft (Maia 100, Cobalt 100) stanno procedendo nello sviluppo di processori custom proprietari per la AI.
Data Center AI: l’attenzione si sposta verso l’inferenza dei modelli AI. Blackwell promette performance da record, con un occhio alla sostenibilità
I primi progetti basati su Blackwell sono le GPU B100 e B200, chiamate a succedere rispettivamente a H100 e H200, basati sulla precedente architettura GPU Hopper. Blackwell utilizza la nuova tecnologia a 4nm di TMSC
NVIDIA ha inoltre annunciato il superchip Grace Blackwell GB200, che combina due GPU B200 e GPU Grace a 72 core arm-based ed è pensato nello specifico per configurare data center ad alta scalabilità, in grado di svolgere un’ampia gamma di elaborazioni sul fronte della AI.
Dal punto di vista hardware, l’architettura Blackwell si basa sulla tecnologia costruttiva a 4nm di TSMC, fonderia taiwanese che continua a rimanere il punto di riferimento assoluto quando si tratta di mettere le mani sul silicio. Il passaggio ai 4nm consente a NVIDIA di ottenere performance superiori a fronte di consumi decisamente più limitati.
Il “segreto” dell’efficienza e delle performance di Blackwell risiederebbe proprio nel superamento del tradizionale design chiplet, tuttora utilizzato da Intel e AMD, con due die dotati di un collegamento chip-to-chip da 10 TB/s, che consente di fatto a due unità di lavorare come una singola GPU. Una singola GPU Blackwell può attualmente contare su 208 miliardi di transistor (fino a +160% rispetto a Hopper).
Tali aspetti risultano ulteriormente enfatizzati grazie al nuovo sistema di raffreddamento a liquido introdotto da NVIDIA per le GPU Blackwell. Secondo quanto mostrato da una demo su un test di inferenza di un LLM (large language model), un sistema liquid cooled con 18 GB200 ha offerto una performance circa 30 volte maggiore rispetto a un sistema air cooled con 64 unità H100.
NVIDIA promette quindi progressi significativi nell’inferenza, nell’efficienza energetica e nel rapporto prezzo/performance. Per quanto riguarda l’alimentazione, un singolo sistema ibrido GB200 in formato rack raffreddato a liquido, saranno necessari ben 1200W.