banner

Blog

Dec 18, 2023

L'infrastruttura di machine learning in espansione di Facebook

Qui a The Next Platform, tendiamo a tenere d'occhio il modo in cui i principali hyperscaler evolvono la loro infrastruttura per supportare carichi di lavoro su vasta scala e sempre più complessi.

Non molto tempo fa i servizi principali erano transazioni e operazioni relativamente standard, ma con l’aggiunta dell’addestramento e dell’inferenza rispetto a complessi modelli di deep learning – qualcosa che richiede un approccio a due mani all’hardware – lo stack hardware su vasta scala ha dovuto accelerare il passo verso stare al passo con le nuove esigenze di prestazioni ed efficienza del machine learning su larga scala.

Pur non innovando sul lato hardware personalizzato allo stesso modo di Google, Facebook ha condiviso alcuni notevoli progressi nella messa a punto dei propri data center. Dalla sua esclusiva dorsale di rete divisa, al sistema di visualizzazione basato su rete neurale, agli aggiornamenti su larga scala delle sue server farm e al suo lavoro di affinamento dell'uso della GPU, c'è molto su cui concentrarsi dal punto di vista dell'infrastruttura. Per noi, uno degli sviluppi più lungimiranti di Facebook è la progettazione dei propri server che ora servono oltre 2 miliardi di account a partire dalla fine del 2017, in particolare il suo ultimo approccio basato su Open Compute ricco di GPU.

Il sistema "Big Basin" dell'azienda presentato al Summit OCP lo scorso anno è il successore della macchina "Big Sur" di prima generazione che il gigante dei social media ha presentato alla conferenza Neural Information Processing Systems nel dicembre 2015. Come abbiamo notato al momento del rilascio in un Un'immersione profonda nell'architettura, la macchina Big Sur è piena di otto acceleratori Tesla M40 di Nvidia, che si inseriscono negli slot PCI-Express 3.0 x16 e che ha 12 GB di memoria frame buffer GDDR5 per le applicazioni CUDA, e due Xeon "Haswell" Processori E5 in uno chassis abbastanza alto. Da allora, il design è stato esteso per supportare le ultime GPU Nvidia Volta V100.

Facebook afferma inoltre che rispetto a Big Sur, la nuova piattaforma V100 Big Basin consente guadagni molto migliori in termini di prestazioni per watt, beneficiando dell'aritmetica in virgola mobile a precisione singola per GPU "che aumenta da 7 teraflop a 15,7 teraflop e di memoria ad elevata larghezza di banda ( HBM2) che fornisce una larghezza di banda di 900 GB/s (3.1x di Big Sur)." Il team di ingegneri nota che con questa nuova architettura è stata raddoppiata anche la mezza precisione per migliorare ulteriormente la produttività.

"Big Basin può addestrare modelli che sono il 30% più grandi grazie alla disponibilità di un maggiore throughput aritmetico e di un aumento di memoria da 12 GB a 16 GB. L'addestramento distribuito è inoltre migliorato con la comunicazione inter-GPU NVLink a larghezza di banda elevata", aggiunge il team .

Facebook afferma che il passaggio a "Big Basin" ha portato a un miglioramento del 300% nel throughput rispetto a Big Sur su ResNet-50, ad esempio, e che, sebbene siano soddisfatti di questi risultati, stanno ancora valutando nuovi progetti e tecnologie hardware.

Per ora, tuttavia, la loro infrastruttura di machine learning è composta solo da CPU e GPU standard. Anche se non sorprende che non abbiano intrapreso la strada di Google per costruire i propri ASIC personalizzati per il deep learning su larga scala, date le differenze negli obiettivi aziendali, è sicuro dire che Facebook per il momento si sta attenendo alle sue armi Nvidia e Intel come altri hyperscaler cercano di diversificare sul fronte della CPU con Epyc di AMD.

In una descrizione dettagliata che Facebook ha appena rilasciato della sua attuale infrastruttura hardware, il gigante sociale delinea come supporta otto principali tipi di rack di elaborazione e archiviazione che si associano a servizi specifici.

"I nuovi servizi tendono ad essere mappati sui tipi di rack esistenti finché non raggiungono il livello di garantire la propria progettazione di rack", notano i progettisti dell'infrastruttura, indicando l'esempio seguente dello chassis 2U che contiene tre guide con due diversi tipi di server. Uno ha una CPU a socket singolo supportata per il livello Web, che è un carico di lavoro stateless orientato al throughput e può essere eseguito in modo efficiente su una CPU a basso consumo come Xeon D con meno memoria e flash. L'altra opzione a slitta è un server CPU dual-socket più grande con un processore Broadwell o Skylake più robusto e molta più DRAM per affrontare carichi di lavoro più pesanti dal punto di vista computazionale e della memoria.

CONDIVIDERE