banner

Notizia

Dec 24, 2023

Il machine learning guida il cambiamento del disaster recovery su Facebook

Gli hyperscaler hanno miliardi di utenti che accedono ai loro servizi gratuitamente, ma la cosa divertente è che questi utenti si comportano come se pagassero per questo e si aspettano che questi servizi siano sempre disponibili, senza scuse.

Anche le organizzazioni e i consumatori si affidano a Facebook, Google, Microsoft, Amazon, Alibaba, Baidu e Tencent per servizi a pagamento e si aspettano ragionevolmente che i loro dati siano sempre immediatamente accessibili e sicuri, che i servizi siano sempre disponibili, che i loro dati siano sempre accessibili e sicuri. i risultati della ricerca compaiono sempre pochi millisecondi dopo l'immissione delle query e i consigli che arrivano sono personalizzati per loro. Questi hyperscaler hanno costruito reti di enormi data center, in tutto il mondo, per garantire che i dati e i servizi siano vicini ai loro clienti e che la latenza non diventi un problema.

Considerato tutto ciò, il ripristino di emergenza diventa una parte fondamentale dell'azienda. Le aziende iperscalabili devono assicurarsi che le attività possano continuare come al solito anche in caso di guasto di un data center. Utilizzano più zone di disponibilità situate all'interno di regioni geografiche per garantire che sia possibile accedere a dati, servizi e carichi di lavoro tramite altri data center se uno di essi non è disponibile. Gli hyperscaler come Microsoft, che rende Azure disponibile in 140 paesi, dispongono anche di altri piani di ripristino di emergenza, dalla gestione dei ruoli tra domini di errore al failover automatizzato del traffico utente in un'altra area se l'area dell'utente non riesce a consentire agli utenti di replicare geograficamente Azure Archiviazione in regioni secondarie.

Per Facebook, con i suoi 2,1 miliardi di utenti e data center globali in luoghi che vanno da Santa Clara, California e Ashburn, Virginia a Lulea, Svezia e Odense, Danimarca, il ripristino di emergenza non è solo cruciale per le sue operazioni, ma è qualcosa che i giganti società di social networking funziona costantemente.

"La capacità di gestire senza problemi la perdita di una parte del calcolo globale, dell'archiviazione e dell'impronta di rete di Facebook è stato un obiettivo di lunga data di Facebook Infrastructure", ha scritto un gruppo di ingegneri di Facebook in un recente articolo sull'infrastruttura dell'azienda. "Internamente, il nostro team di disaster recovery esegue regolarmente esercitazioni per identificare e rimediare agli anelli più deboli della nostra infrastruttura globale e degli stack software. Le azioni dirompenti includono la messa offline di un intero data center con poco o nessun preavviso per confermare che la perdita di uno qualsiasi dei nostri dati globali datacenter comportano un'interruzione minima del business."

Garantire un'elevata disponibilità, pur essendo sempre fondamentale per le operazioni, lo è diventato ancora di più poiché il ruolo dell'intelligenza artificiale (AI) e dell'apprendimento automatico è diventato ancora più prevalente nelle operazioni dell'azienda. Facebook sta sfruttando l'apprendimento automatico in una vasta gamma di servizi, dalle classifiche nel feed di notizie e ricerche alla visualizzazione di annunci mirati a utenti specifici e Facer per il riconoscimento facciale, nonché traduzione linguistica, riconoscimento vocale e operazioni interne come Sigma per il rilevamento di anomalie. L’azienda utilizza inoltre molteplici modelli di machine learning, tra cui reti neurali profonde, regressione logistica e macchine vettoriali di supporto. Esistono framework di deep learning come Caffe2 e PyTorch e funzionalità interne di machine learning come servizio come FBLearner Feature Store, FBLearner Flow e FBLearner Prediction.

Come abbiamo notato in The Next Platform, gran parte dell'infrastruttura di machine learning distribuita e scalabile di Facebook si basa su sistemi progettati internamente, come il server GPU Big Basin, e fa molto affidamento sia sulle CPU di Intel che sulle GPU di Nvidia per l'addestramento. e inferenza. Secondo gli autori dell'articolo, la crescita delle capacità di apprendimento automatico in tutte le operazioni di Facebook ha dato un valore ancora maggiore al ripristino di emergenza.

"Sia per la parte di formazione che per quella di inferenza dell'apprendimento automatico, l'importanza della preparazione alle catastrofi non può essere sottovalutata", hanno scritto. "Sebbene l'importanza dell'inferenza per guidare diversi progetti chiave non sia sorprendente, esiste una dipendenza potenzialmente sorprendente da una formazione frequente prima di notare un degrado misurabile in diversi prodotti chiave."

CONDIVIDERE