Infrastrutture critiche e data center: come assicurare la continuità durante le crisi

Data center: dall’inizio della pandemia si sono registrate poche gravi interruzioni e gli impatti sulle prestazioni sono stati minimi, considerando le variazioni di flusso di traffico internet dovuti a maggiore domanda del traffico “residenziale” e maggiori picchi di domanda nelle ore diurne [...]
Federica Maria Rita Livelli

Business Continuity & Risk Management Consultant

data center
  1. Home
  2. Sicurezza e Privacy
  3. Infrastrutture critiche e data center: come assicurare la continuità durante le crisi

Recentemente l’Uptime Institute ha pubblicato un interessante report dal titolo “Pandemic Planning and Response: a guide for critical infrastrutcures”. Uptime Institute certifica, in tutto il mondo, data center tecnologicamente avanzati, i.e. strutture progettate e gestite secondo i principi di Business Continuity, Security e Resilience e Risk Management. Trattasi di infrastrutture critiche ben dimensionate, ma anche scalabili, e con elevati livelli di sicurezza — fisica, logica e operativa — affidabile ed efficiente nell’erogazione dei servizi che oggi più che mai, in questo momento contingente, devono essere garantiti.

Nessuno risulta immune alla pandemia in atto, tanto meno lo sono le infrastrutture critiche, i data center e le strutture che le ospitano, che devono essere altrettanto pronte a reagire all’impatto del Covid-19, adottando misure e sviluppando strategie e procedure per affrontare l’emergenza contingente e prepararsi a eventuali future pandemie.

I data center al tempo del Covid-19: cosa preoccupa il settore

Il settore delle infrastrutture critiche e dei data center sembra essere riuscito a gestire in modo efficace, nonostante il personale ridotto, le varie manutenzioni differite, il distanziamento sociale e nuovi modelli di domanda. Tuttavia, gli operatori del settore sono preoccupati dal fatto che, al momento, è difficile prevedere come si evolverà la situazione; inoltre le diverse strutture, localizzate in diversi Paesi, si trovano ad affrontare situazioni contingenti differenti: Paesi che stanno revocando i lockdown, mentre altri devono ancora raggiungere il picco della pandemia.

Secondo un sondaggio effettuato da Uptime Institute su oltre 200 operatori critici di infrastrutture IT/data center in tutto il mondo, circa un terzo degli operatori ha affermato che il livello ridotto del personale operativo dell’infrastruttura IT/data center costituisce il rischio maggiore in termini di svolgimento delle operazioni.

Fonte: Uptime Institute – “Pandemic Planning and Response: a guide for critical infrastrutcures”.

Di fatto, a fronte della problematica di personale insufficiente, si registra un aumento della probabilità di guasti e incidenti presso i data center. Inoltre, anche in fase pre-pandemia, il 60% degli operatori di data center aveva segnalato tra le maggiori preoccupazioni la difficoltà nel reperire/trattenere personal qualificato.

Ne deriva che, durante la pandemia, gli operatori del settore sono focalizzati nel garantire la continua operatività e la capacità di far fronte a problematiche relative alle attrezzature, a fronte di una minore manutenzione (i.e. diminuzione del 15%) e non reperibilità di componenti critici (6%). La pandemia, per il 45% degli intervistati, sembra anche aver impattato negativamente sulla progettazione dei data center e aver causato ritardi di costruzione.

Fonte: Uptime Institute – “Pandemic Planning and Response: a guide for critical infrastrutcures”.

Dall’inizio della pandemia si sono registrati poche gravi interruzioni e gli impatti sulle prestazioni sono stati minimi, considerando le variazioni di flusso di traffico internet dovuti a maggiore domanda del traffico “residenziale” e maggiori picchi di domanda nelle ore diurne.

Vale la pena evidenziare come gli operatori abbiano, per la maggior parte, rinviato alcune manutenzioni programmate, pur consapevoli del fatto che, nonostante il monitoraggio continuo e la gestione da remoto, potrebbero aumentare le probabilità di rischio di ulteriori guasti. Ai fini di ridurre il personale in loco, la maggior parte dei siti utilizza personale qualificato “a chiamata”.

Quali strategie adottare

Gli operatori che gestiscono le strutture ospitanti le infrastrutture critiche digitali si trovano ogni giorno – ed ora più che mai – ad affrontare sfide quotidiane.

Fortunatamente, il focus degli operatori/proprietari dei data center è sempre stato quello di garantire qualità della performance, efficienza e affidabilità e le passate esperienze di eventi dirompenti – quali incendi, blackout, eventi atmosferici estremi ed altri eventi potenzialmente distruttivi – hanno indotto a dotarsi di piani di emergenza che possono facilmente adattarsi alle sfide di una pandemia come quella che stiamo vivendo. Piani che si prefiggono di salvaguardare la salute e la sicurezza del personale, dei vari partner e clienti, garantire la continuità operativa e la conformità alle linee guida e alle regolamentazioni cogenti emanate dalle varie istituzioni di salute pubblica e governative.

Pianificazione di una risposta multi-level

La priorità è avere in essere un piano pandemico e, qualora non fosse disponibile, si può attivare, come sopra accennato, qualsiasi altro piano di emergenza utilizzato per affrontare emergenze similari. La buzzword del momento è:

  • Condividere il piano con tutto il personale, gli stakeholder, rivenditori/fornitori e clienti strategici.
  • Implementare un sistema tale che possa essere monitorato, testato, aggiornato e modificato in modo ricorrente.
  • Strutturare il piano in modo tale da garantire risposte modulari multiple, i.e. stabilendo le azioni da intraprendere ad ogni livello e le circostanze che attivano il livello successivo di criticità. Normalmente, si considerano piani di emergenza strutturati su tre, quattro o cinque livelli, partendo dal livello “pre-pandemico/normale” che implica l’adozione di alcune precauzioni fino a raggiungere il livello del “worst case scenario” con il lockdown e il trasferimento delle applicazioni ed operazioni critiche presso i siti di back-up. Ogni livello del piano deve essere azionato secondo procedure specifiche ed in particolari condizioni. Pertanto, è necessario identificare le condizioni di evocazione del piano, chi è responsabile dell’escalation e specificare le azioni necessarie in termini di procedure di accesso alla struttura, attività on-site, personale e sanificazione.

Inoltre, indipendentemente dal livello di risposta, secondo i principi di Business Continuity, è necessario specificare:

  • Gli asset IT critici.
  • Il massimo tempo di interruzione accettabile, la ridondanza e l’RTO (Tempo di recupero).
  • Procedure di risposta alle interruzioni e/o al malfunzionamento
  • Numero minimo di personale necessario (per tipologia di ruolo) e identificazione di personale “chiave” e di back-up.
  • Misure di protezione per il personale (i.e. misurazione della temperatura, contact tracing, monitoraggio dei sintomi, dispositivi di sicurezza, ecc.).
  • Procedure di accesso al sito.
  • Livelli minimi riferiti alle attività critiche on-site (i.e. manutenzione delle attrezzature).
  • Stabilire vari scenari di indisponibilità del personale e, per ogni scenario possibile, effettuare una Business Impact Analysis (BIA) in termini di attività critica e non critica, impatti sul livello di servizio in modo tale da: programmare turnazioni e ridurre il livello di personale presente on-site; attivare il remote-working in base ai requisiti stabiliti e assegnazione dei ruoli; implementare procedure di isolamento e di distanziamento sociale.

Ovviamente, il piano deve tenere in considerazione anche la possibilità del verificarsi di insorgenza di onde multiple di ritorno dell’avvenimento infausto (i.e. il caso pandemia) anche dopo poche settimane dall’insorgenza della prima “ondata” di diffusione e in modalità più impattante, considerando il fatto che le forniture e le finanze saranno pesantemente compromesse, il personale stremato dalla situazione e la manutenzione posticipata. Sarà altresì necessario strutturare piani di emergenza a lungo termine, atti a contrastare situazioni di emergenza, come la indisponibilità di fornitori (che, nel mentre, non sono riusciti a “sopravvivere”) o, come nel caso di pandemia, la mancanza di vaccini o il persistere nel lungo periodo della necessità di prodotti di sanificazione, di controllo degli accessi, di identificazione e training di personale di back-up,).

Data center: la priorità è proteggere il business

La protezione del business implicherà un continuo confronto con le compagnie assicuratrici, con la funzione HR e con i consulenti legali in modo tale da individuare approcci più idonei in termini di livello di rispetto degli accordi commerciali; modalità di comunicazione, e, nel caso di pandemia, della pulizia delle strutture, rilevazione della temperatura del personale, contact tracing, modalità di spostamento delle applicazioni critiche presso siti alternativi.

Sarà altrettanto strategico, per la salvaguardia del business, considerare di posticipare o addirittura annullare progetti od attività di manutenzione che potrebbero avere impatti sul flusso di cassa o mettere a dura prova fornitori, partner e personale o, nel caso di pandemia, contribuire al diffondersi del virus.

Limitare e monitorare gli spostamenti/viaggi

In caso di pandemia, le restrizioni in termini di spostamenti saranno conformi alle ordinanze varate a livello governativo, e implicheranno:

  • Limitazione o interdizione dei viaggi di lavoro se non strettamente necessari
  • Limitazione o interdizione degli spostamenti tra un data center e l’altro

Essere pronti a gestire altri eventi dirompenti

Durante una pandemia, il management deve considerare tutte le misure necessarie per prevenire e, all’occorrenza, gestire tutte quelle situazioni che potrebbero ulteriormente compromettere la continuità dei servizi.

Di seguito le varie azioni da considerare:

  • Piani di backup/Disaster Recovery – Revisionare i piani soprattutto in riferimento a quelle attività che si basano maggiormente su internet, i.e. e-commerce, remote monitoring, telecommuting, dal momento che impattano altamente sulla ampiezza della banda, sulla rete elettrica ecc.
  • Supply Chain – Effettuare un’analisi dei propri fornitori al fine di comprendere i potenziali rischi di disruption a breve e lungo termine (in materia, soprattutto, di componenti di ricambio critici e prodotti di consumo di sanificazione o dispositivi di protezione atti a contrastare il diffondersi della pandemia), monitorando le aree in cui sono localizzati i vari fornitori e, al contempo, individuare fornitori alternativi per evitare l’interruzione delle forniture.
  • Personale – Assicurarsi personale qualificato e prevenire l’indisponibilità di personale giocando di anticipo con implementazione di campagne di assunzione e formazione continua e stabilire partnership con fornitori e rivenditori per garantirsi personale di back-up debitamente qualificato e formato; prevedere l’utilizzo di procedure automatizzate e di monitoraggio da remoto per limitare al minimo la presenza di personale in loco.
  • Visitatori – Si consiglia di: eseguire il pre-screening di tutti i visitatori programmati prima del loro arrivo in loco, incluso l’invio di un questionario via e-mail 48 ore prima della loro visita; richiedere la compilazione del questionario prima della conferma dell’appuntamento; verificare che tutte le rilevazioni rimangano invariate fino all’arrivo e che i controlli della temperatura, prima di entrare nella struttura, avvengano tramite termometri con rilevamento senza contatto. Inoltre, sarà necessario vietare ingresso al sito a tutti i visitatori non programmati e, se possibile, garantire un ingresso separato e sicuro per tutte le parti coinvolte in progetti di costruzione essenziali in loco e in modo tale da evitare ogni tipo di interazione il personale addetto alle operazioni di servizio.
  • Manutenzione differita/ritardata – Le attività di manutenzione devono essere classificate in base alla priorità, privilegiando quelle più critiche in modo tale da ovviare il verificarsi di maggiori rischi e, in caso ciò non fosse possibile, cercare di utilizzare la modalità di “rotazione” dei componenti “ridondanti” e confrontarsi con i produttori di componenti/attrezzature in modo tale da conoscere l’impatto della non avvenuta manutenzione su determinate attrezzature.
  • Sicurezza del Monitoraggio da remoto – Verificare l’implementazione del sistema di BMS (sistema di gestione degli edifici) in modo tale da permettere il monitoraggio, la misurazione e la gestione continua dell’IT e delle apparecchiature di supporto delle infrastrutture, i.e. sistemi di alimentazione e di raffreddamento, unitamente al test di tutte le connessioni di VPN di cui è stato dotato il personale, per poter lavorare da remoto, in modo tale da garantire un accesso affidabile per il monitoraggio da remoto dei data center.

Piano di comunicazione

Le organizzazioni devono, inoltre, mantenere una comunicazione aperta e continua con il personale, i clienti e le terze parti pertinenti, su base giornaliera e, se necessario, anche due volte al giorno. La programmazione di briefing, ad hoc, può risultare appropriata e necessaria al variare delle condizioni. Si consiglia, altresì, di condividere gli aggiornamenti delle notizie e rendere disponibili le informazioni pubbliche e autorevoli in modo tale da mantenere informato il personale sullo stato attuale della pandemia e sulle migliori pratiche per garantire un ambiente di lavoro sano e sicuro. Inoltre, l’organizzazione dovrebbe, ove necessario, fornire un supporto psicologico e di counseling per ridurre lo stress emotivo del personale che deve far fronte a turnazioni “stressanti” in termini di ore e ravvicinate nel tempo, che potrebbero aumentare il rischio di errore umano e causare incidenti oltre ad aumentare l’incidenza di “burnout” del personale.

Data center, pianificazione a lungo termine

Le organizzazioni devono essere pronte ad ogni evenienza futura; pertanto tutte le azioni necessarie devono essere debitamente pianificate e revisionate per essere conformi alle cosiddette “good practice” e prevedere, altresì, investimenti in personale, ridondanza delle strutture, gestione da remoto e automazione delle attività.

Si ritiene che il Covid-19 si convertirà in una malattia endemica, i.e. si verificherà su base annuale, come gli altri tipi di influenza o si verificherà sotto forma di “ondate” in alcune zone del pianeta. Pertanto, le organizzazioni, oltre ad affrontare le sfide della crisi globale contingente, dovranno prepararsi ad implementare piani pandemici a lungo termine.

I piani di Business Continuity dovranno: essere debitamente aggiornati, in modo tale da poter affrontare le nuove sfide attraverso misure preventive di salute (i.e. quando sarà possibile assicurare la vaccinazione del personale chiave all’inizio di ogni periodo di diffusione dell’influenza); contemplare misure atte a gestire le problematiche relative agli edifici ospitanti i data center, i.e. revisionare la resilienza digitale, la ridondanza dei siti, gli accordi commerciali in essere con i venditori, ecc.

Inoltre, i futuri contratti commerciali dovranno contemplare le procedure da adottare in caso di insorgenza di nuove pandemie in modo tale da evitare penali ed altre problematiche. Sarà altrettanto necessario essere particolarmente agili e reattivi nel revisionare le policy e le procedure in essere con l’evolversi della situazione per essere pronti ad affrontare qualsiasi ulteriore evento critico non prevedibile, che potrebbe impattare negativamente sulle cosiddette strutture “mission critical IT”.

Un connubio di revisione dei piani di Business Continuity e Disaster Recovery sarebbe altamente auspicabile, in un’ottica di garanzia di resilienza dei data center cercando – ove possibile – di rendere più snelle ed agili le procedure e permettere l’impiego di personale meno qualificato. Risulterà altrettanto strategico per le organizzazioni prevedere il reclutamento di staff specializzato per far fronte alla indisponibilità di personale per malattia o assenza e, qualora non fosse possibile, provvedere a tale mancanza anche attraverso il training ad hoc di altro personale in forza per essere pronti ad affrontare le emergenze e garantire personale di back up.

Fondamentale sarà garantire il censimento dei pezzi di ricambio e delle forniture disponibili in loco e, contemporaneamente, considerare di differenziare e indentificare fornitori e fornitori alternativi in modo da ovviare alla supply chain disruption.

È probabile che, nelle aree geografiche pesantemente colpite dalla pandemia, le misure, le procedure ed i piani implementati per la gestione delle strutture ospitanti i data center durante il Covid-19, genereranno un aumento dei costi di gestione; pertanto sarà necessario effettuare una loro valutazione in termini di costi/benefici.

Conclusioni

La pandemia contingente ha ulteriormente enfatizzato la necessità di garantire la continuità operativa delle infrastrutture critiche/data center, unitamente alla necessità di essere quanto mail resiliente, agili e flessibili. Inoltre, come afferma W. Lee Hoowel, Managing Director del World Economic Forum, “La lezione più importante è quella di evitare di esaminare i rischi in isolamento. Al contrario, i leader dovrebbero adottare un insieme mentale di sistemi di pensiero, basandosi su un processo a più livelli per determinare i rischi” e garantire, di conseguenza, la continuità operativa di ogni contesto organizzativo, incluse le infrastrutture resilienti/data center in modo tale da superare le sfide contingenti che si trovano ad affrontare, comprese le pandemie.

 

 

FacebookTwitterLinkedInWhatsApp

Commenta per primo

Lascia un commento

L'indirizzo email non sarà pubblicato.


*