Che cosa si intende per "salute dei dati", o Data Health?
In tutto il mondo le organizzazioni fanno sempre più affidamento sui dati. Tuttavia, c'è differenza fra essere circondato dai dati nell'attività di ogni giorno e utilizzare i dati per prendere decisioni quotidiane che riguardano l'azienda. L'unico modo per raggiungere gli obiettivi aziendali più importanti è agire sulla base di dati affidabili di alta qualità, cioè dati sani. Oggi, però, viviamo nell'era dei Big Data: più aumenta la quantità di dati gestiti, più diventa difficile preservare la salute dei dati.
La maggior parte di noi intuisce che, per essere sani, i dati devono essere puliti, completi e conformi ai requisiti legali e normativi. Purtroppo, queste caratteristiche, da sole, non garantiscono che i dati siano pronti per essere utilizzati a supporto delle decisioni aziendali. La maggior parte delle organizzazioni non riesce a capire quanto siano sani i suoi dati... e non è saggio fare affidamento su dati la cui salute non è verificabile. Parte del problema è che, mentre tutti pensano di sapere che cosa sia la salute dei dati, faticano invece a definire o valutare questo aspetto.
Cominciamo quindi con una chiara definizione di salute dei dati.
Definizione di salute dei dati
Il termine Data Health descrive la condizione dei dati di un'azienda e misura quanto sono utili per prendere decisioni efficaci e tempestive, supportando gli obiettivi di business. Per sapere se i dati di un'organizzazione sono sani, bisogna essere in grado di provare che sono validi, completi e di qualità sufficiente per produrre analisi su cui le figure decisionali possono fare affidamento per le loro decisioni.
La visione della salute dei dati secondo Talend unisce tecnologie e comportamenti per misurare e gestire i dati al fine di migliorarne la reperibilità, la comprensibilità e il valore. Avere dati sani significa che tutti, all'interno dell'organizzazione, possono accedere alle informazioni di cui hanno bisogno, quando ne hanno bisogno, e utilizzarle senza preoccuparsi della loro validità.
Come nella cura della salute personale, anche la salute dei dati richiede monitoraggi e interventi lungo tutto il ciclo di vita. Bisogna pensare alla salute dei dati in un'ottica di prevenzione, cura e collaborazione comunitaria:
- Prevenzione: individuare preventivamente le problematiche dei dati
- Terapie efficaci: curare sistematicamente i problemi e i rischi di affidabilità dei dati
- Cultura collaborativa: stabilire una disciplina di cura collaborativa dei dati
Disponendo di metriche sulla salute dei dati che dimostrano il valore dei dati per l'azienda, un'organizzazione può migliorare le attività operative praticamente sotto ogni aspetto:
- migliorare le analisi di vendite e marketing
- gestire la governance dei dati e la conformità
- migliorare i processi aziendali
- trasformare l'esperienza del cliente
- promuovere un coinvolgimento a 360 gradi
- abilitare machine learning e IA
Senza dati sani, tutti questi processi andranno nel verso storto. Non si riuscirà a contattare i clienti giusti, accorciare i cicli di vendita né migliorare i processi se i dati disponibili su cui si basa il proprio lavoro sono imprecisi, non controllati od obsoleti. Dati non affidabili costano alle aziende tempo e qualità nei processi decisionali, con conseguente aumento dei costi e impatto negativo sui ricavi. Sviluppando l'attività verso l'utilizzo dei Big Data, la salute dei dati diventa sempre più importante. Per le aziende che lavorano con i Big Data, è fondamentale misurare la salute dei dati.
Come si può capire se i dati sono sani?
Misurare la salute dei dati
La qualità dei dati è un elemento chiave per la loro salute. La Data Management Association del Regno Unito definisce sei aspetti per la misurazione della qualità dei dati:
- Precisione — La misura in cui i dati descrivono correttamente l'oggetto o l'evento nel mondo reale
- Esempio: il calcolo dello stipendio dei dipendenti è basato sulle ore di lavoro effettive?
- Completezza — La percentuale di dati contenuti in un dataset rispetto al potenziale del 100%
- Esempio: gli indirizzi contengono dati in tutti i campi necessari per garantire la consegna di una spedizione postale? Il codice di avviamento postale è presente? Il nome della nazione?
- Coerenza/Omogeneità — Assenza di differenze quando si confrontano due o più rappresentazioni di un oggetto rispetto a una definizione
- Esempio: una tabella contiene dati indicati come appartenenti a una specifica divisione, ma quella divisione è stata eliminata in seguito a una riorganizzazione.
- Puntualità — La misura in cui i dati rappresentano la realtà dal momento in cui viene richiesto
- Esempio: se le decisioni sui budget vengono prese basandosi sulle statistiche di vendita, con quali tempistiche i dati di vendita vengono messi a disposizione delle figure decisionali?
- Unicità — Nessun elemento, o istanza di un'entità, viene registrato più di una volta in base all'identificazione di tale elemento
- Esempio: quando un sistema aggiorna un record, siamo sicuri che non venga creato un duplicato del record originale con informazioni più aggiornate?
- Validità o conformità — La misura in cui i dati sono conformi alla sintassi (formato, tipo o intervallo) della loro definizione
- Esempio: l'indirizzo stradale Via dei Dati 1000 è valido (anche se non è detto che sia corretto), mentre l'indirizzo Via dei Dati /03H8 non lo è.
I team di gestione dei dati fanno le loro valutazioni sul livello di qualità dei dati necessario per qualificare la salute dei dati e devono essere in grado di certificare tale livello di qualità agli utilizzatori dei dati, in modo che questi possano utilizzare i dati con piena fiducia. Non dimentichiamo però che dati idonei ma non disponibili o affidabili sono comunque inadeguati per supportare le decisioni aziendali. Non si tratta quindi di dati sani.
Poiché la salute dei dati misura il valore dei dati per l'azienda, la trasparenza e l'affidabilità sono tanto importanti quanto la qualità. Se le figure decisionali non possono accedere prontamente ai dati di cui hanno bisogno, l'organizzazione potrebbe tranquillamente fare a meno dei dati. D'altro canto bisogna considerare anche la riservatezza dei dati sensibili. In questo caso è meglio isolare alcuni dati rendendoli inaccessibili a utenti che non hanno le autorizzazioni necessarie. Una piattaforma tecnologica avanzata per la governance dei dati accessibile a esperti con il ruolo di data steward può aiutare ad aumentare al tempo stesso la precisione e la sicurezza dei dati.
Le metriche di salute dei dati possono comprendere parametri ulteriori quali ragionevolezza e integrità. Qualunque siano i parametri, il punto è poter fare affidamento sui dati affinché siano utili in tutta l'organizzazione. Più alto è il punteggio dei dati per i vari parametri elencati, più sani potranno essere considerati i dati.
Valutazione della salute dei dati
Una volta stabilito che cosa misurare, come si valuta il benessere dei propri dati?
Un sistema olistico per la salute dei dati si basa su metriche universali della qualità dei dati. Con metriche standard diventa possibile valutare l'affidabilità e la fruibilità dei dati. Come detto in precedenza, non è sufficiente per coloro che preparano i dati sapere che i dati rispettano gli standard di qualità. Gli utenti finali possono prendere decisioni con fiducia solo in presenza di metriche che dimostrano la qualità dei dati.
Il Data Health Survey condotto da Talend nel 2021 ha rivelato che meno della metà dei dirigenti è certa che la propria azienda utilizzi standard per la qualità dei dati. Circa un terzo ha dichiarato che non esistono standard documentati, mentre un altro 19% ha detto di non esserne sicuro. Alla domanda se ritenessero necessari standard di qualità universali e trasversali a tutti i settori, il 95% dei dirigenti ha risposto positivamente.
Considerando il volume di dati che un'organizzazione normalmente gestisce su piattaforme SaaS, database e server web accessibili al pubblico, è impossibile chiedere a qualcuno di esaminare ogni record di tutti i set di dati. L'approccio migliore è adottare una piattaforma di gestione dei dati con funzionalità di integrazione e governance dei dati.
Il software può essere utilizzato sia per analizzare lo stato di salute dei dati, sia per curare i dati "malati". Idealmente bisognerebbe essere in grado di vedere istantaneamente quali dati sono affidabili e avere a disposizione gli strumenti per correggere i dati che non lo sono. La piattaforma dovrebbe risolvere i problemi di salute dei dati offrendo accesso in modalità self-service, strumenti pervasivi per la qualità dei dati e funzionalità di governance che abbraccino tutti i flussi e le sorgenti di dati.
Quanto sono sani tuoi dati?
Hai fiducia nella capacità della tua organizzazione di fornire dati pronti per i processi decisionali? Hai dubbi sulle statistiche di salute dei dati? Talend ti può aiutare. Comincia con un checkup gratuito: esporta un sottoset dei tuoi dati e inseriscilo nel Talend Trust Assessor. Questo servizio gratuito effettua una valutazione rapida di validità, completezza e unicità dei dati. Per vedere come funziona, provalo prima con il nostro set di dati dimostrativo.