Tra le tecnologie abilitanti dell’industria 4.0, i Big Data Analytics esprimono pienamente il concetto di valore del digitale, grazie alla capacità di rendere fruibile la straordinaria risorsa costituita dall’enorme quantità di dati strutturati e non strutturati che le aziende sono in grado di acquisire e archiviare ogni giorno.
Prima di esplorare una rassegna di ambiti di business in cui le applicazioni della data science possono generare un evidente e tangibile valore aggiunto nei processi, vediamo in cosa consistono i Big Data e quali sono le tipologie di analisi che possono renderli un’arma vincente nelle strategie di trasformazione digitale delle aziende.
Che cosa sono i Big Data? Una definizione
Raccogliere e analizzare i dati non costituisce di per sé una novità. È qualcosa che si fa sostanzialmente da sempre, spesso inconsapevolmente. Nel concetto di Big Data, a fare la differenza, come l’etimologia stessa del termine suggerisce, è proprio la grandezza del fenomeno, che rende del tutto improbabile un approccio manuale e del tutto auspicabile l’impiego di tecniche basate su discipline matematico-statistiche con il supporto computazionale dell’informatica.
Prima di entrare nel merito della genesi dei Big Data, è interessante citare alcune definizioni che costituiscono tuttora un vero punto di riferimento per inquadrare il significato di una tecnologia che di fatto trova il senso soltanto nel momento in cui viene applicata.
Sono passati ormai vent’anni da quando Gartner, nel 2001, coniava la seguente definizione di Big Data: “risorse informative a elevato volume, velocità e varietà che richiedono forme di elaborazione delle informazioni economiche e innovative per potenziare la comprensione, la presa di decisioni e l’automazione dei processi”.
Dieci anni più tardi, nel 2011, è McKinsey ad offrire il proprio punto di vista, identificato i Big Data come “un insieme di dati il cui volume è così grande da superare la capacità dei convenzionali strumenti nel raccoglierli, immagazzinarli, gestirli e analizzarli”. Rispetto alla prima interpretazione di Gartner, focalizzata sugli obiettivi dell’analisi dei dati, McKinsey rileva soprattutto l’aspetto gestionale, relativo all’esistenza di un data management evoluto per poter far fronte ad un volume a tutti gli effetti travolgente di informazioni.
Perché i Big Data sono importanti?
Nell’attuale società dell’informazione, ogni giorno, miliardi di persone interagiscono con dispositivo interconnesso, capace di acquisire ed archiviare una mole di dati in esponenziale crescita. Da questi dati emergono aspetti comportamentali decisivi per le aziende, in funzione di moltissimi indirizzi strategici. Per un’azienda l’analisi dei dati consente di trovare delle indicazioni e delle risposte utili a ridurre tempi e costi generali, sviluppare nuovi prodotti, ottimizzare le offerte esistenti in funzione delle esigenze del target ed in generale ottenere un supporto decisionale qualsiasi sia il processo interessato dall’interazione tra il brand e il proprio pubblico di riferimento.
Oggi ritroviamo moltissime applicazioni in grado di rendere i Big Data dei preziosissimi alleati per attuare una strategia di miglioramento continuo alle aziende che decidono di investire nella loro analisi. Vediamo ora quali sono i principali ambiti di business che tuttora godono dei vantaggi possibili grazie ad una consapevole strategia di Big Data Analytics e, più in generale, da un approccio davvero data-driven alle loro attività core.
Alcuni esempi di Big Data
Oggi è possibile ottenere una enorme quantità di dati in moltissimi modi: in streaming, grazie ai sistemi IoT (Internet of Things) e ai loro dispositivi informatici interconnessi, che raccolgono ed elaborano in tempo reale un flusso continuo di dati.
Altrettanto determinante è il ruolo di internet e dei social media, dove le persone trascorrono ormai una grande quantità del loro tempo, scambiando dati sotto forma di testo, immagini, video, vocali, audio e dello stesso periodo di tempo nell’eseguire una determinata esperienza digitale. Esistono inoltre una serie di dati relativi all’interazione tra un utente ed un servizio / prodotto. Nel caso di un’azienda tale concetto diventa centrale nelle strategie e nelle applicazioni CRM.
Il mercato dei dati pone quale elemento di grande attualità il tema della privacy, alla base di normative come il GDPR, che dovranno necessariamente evolvere le proprie disposizioni per garantire una coerenza con il quadro mutevole che provano a regolamentare.
I primi anni del GDPR sono in ogni caso più che sufficienti per darci una percezione della portata del problema e di quante implicazioni l’acquisizione e la conservazione dei dati personali vadano considerate anche nelle operazioni in teoria più banali.
Il mercato dei dati ha un valore enorme e le sue prospettive di crescita paiono non conoscere limiti. E lo stesso si può dire per i modi con cui la gestione dei Big Data può creare valore aggiunto almeno nei seguenti ambiti di business.
Manifattura 4.0
L’impiego di modelli predittivi basati sul machine learning può gestire i Big Data provenienti dai sensori di un impianto per mettere a punto una strategia di manutenzione predittiva, capace di prevedere i guasti e i dannosi fermo macchina che ne deriverebbero. Tale approccio consente inoltre notevoli risparmi rispetto alla manutenzione preventiva, in quanto permette di effettuare soltanto gli interventi effettivamente utili a mantenere l’impianto nelle migliori condizioni funzionali. La manutenzione è soltanto uno degli aspetti in cui l’Industria 4.0 può beneficiare del contributo dei Big Data, ma le possibilità applicative sono moltissime, si pensi soltanto alla capacità di ottimizzare una supply chain, piuttosto che efficientare il ciclo di vita di un prodotto.
Retail Marketing
La disponibilità in tempo reale dei dati di interazione del cliente con il negozio e i canali di comunicazione del brand può generare in automatico degli incentivi all’acquisto, come la generazione di coupon promozionali personalizzati, grazie alla capacità di prevedere una preferenza sulla base di uno storico comportamentale. Il real time marketing è fondamentale per rifunzionalizzare il retail in tempi dove l’acquisto tende a diventare un fattore sempre meno esclusivo, a vantaggio delle fornitura di servizi, il cui contributo alla causa deve almeno giustificare i costi, tutt’altro che trascurabili, dei locali e del personale impiegato a gestirlo.
Digital Marketing e Vendite
I settori marketing e vendite, ed in misura più ampia anche i reparti destinati al customer care, possono trarre enorme giovamento dall’analisi dei dati per costruire strategie su misura per ogni cliente, nella direzione di acquisire più clienti, di renderli più profittevoli e di fidelizzarli nel lungo periodo. Le informazioni provenienti dai dati di relazione con il cliente vengono solitamente gestite grazie ai software CRM (Client Relationship Management) e costituiscono una base utile ad efficientare un’ampia gamma di processi, tra cui il miglioramento dei prodotti e dei servizi che costituiscono l’offerta.
Guida autonoma
In futuro saremo sempre meno coinvolti nel condurre i veicoli durante i nostri spostamenti, ed avremo sempre più tempo per vivere a bordo dell’abitacolo, svolgendo anche altre funzioni, tra cui il lavoro e le relazioni sociali. Tutto ciò è possibile grazie alla capacità del veicolo di apprendere ed elaborare in tempo reale una enorme quantità di dati ambientali.
Finanza e Investimenti
Il fintech è un ambito di azione privilegiato dei Big Data Analytics, in quanto le analisi predittive sui titoli sono in grado di ottimizzare la gestione di un portfolio di investimenti. Ciò si manifesta secondo varie dinamiche, che vanno dalla capacità di prevedere il rendimento di un titolo sulla base della capacità di valutare in tempo reale l’andamento del suo mercato di riferimento, oltre a tutte le condizioni specifiche delle aziende a cui si riferisce. Questo consente a banche e società di investimento di offrire una gamma di soluzioni e prodotti finanziari capace di adattarsi in maniera sempre più capillare alle esigenze dei risparmiatori e degli investitori che si rivolgono a loro.
Sicurezza transazioni bancarie
Grazie a sistemi di intelligenza artificiale, i sistemi per la gestione dei pagamenti sono in grado di rivelare in tempo reale delle possibili anomalie rispetto alle procedure di routine, che potrebbero corrispondere ad un tentativo di frode da parte di un malintenzionato. Tali sistemi si basano sull’analisi di uno streaming di dati rilevato dai POS e, in caso di anomalie, sono in grado di attivare automaticamente le procedure anti-frode, che, in una condizione praticamente immediata, sono in grado di far procedere l’operazione richiesta o arrestarla preventivamente.
Assicurazioni
Oltre alle applicazioni bancarie, anche le assicurazioni rappresentano un settore storicamente confidente con l’analisi dei dati, soprattutto per quanto concerne la valutazione del rischio, parametro fondamentali per generare le condizioni ed i premi delle polizze.
La possibilità di adottare un modello previsionale completo, capace di descrivere e predire sulla base di un grande volume ed una grande varietà di dati specifici del cliente consente di offrire prodotti personalizzati. Grazie al data enrichment dei processi tradizionali le compagnie assicurative possono: relazionarsi in maniera più trasparente con i clienti, conoscere meglio le loro abitudini e le loro esigenze, suggerendo soluzioni ad hoc per ottimizzare i premi finali. Allo stesso modo, è possibile sfruttare la conoscenza che deriva dai dati per realizzare nuovi modelli di distribuzione e nuovi strumenti di marketing, oltre ad innovare in maniera sempre più profonda il modello di business (polizze peer-to peer, on demand, ecc.)
Salute
In relazione al contesto assicurativo, è evidente come il ramo delle polizze salute possa costituire uno degli esempi applicativi dei Big Data nel settore sanitario, che si spingono ben oltre gli aspetti di tutela. I Big Data sono infatti fondamentali nei processi diagnostici e previsionali del rischio malattia. Grazie ai dispositivi wearable, i sistemi informatici sono in grado di monitorare i principali parametri vitali degli utenti, generando possibili campanelli d’allarme qualora i modelli predittivi si accorgessero di possibili combinazioni pericolose derivanti dalle variabili rilevate. Il monitoraggio della salute è soltanto uno dei moltissimi campi in cui l’analisi dei dati oggi contribuisce a migliorare l’efficienza delle applicazioni sanitarie.
Educazione
I Big Data servono anche per imparare, e a farlo sempre meglio. Un esempio è costituito dai processi di datificazione e digitalizzazione, secondo la relazione formulata da Ben Williamson nel 2017. La datificazione esprime la trasformazione dell’educazione in dati digitali, con la traduzione in dato strutturato di test, report, streaming di corsi online, ecc. ai fini di produrre analisi e risultati conoscitivi organizzati sotto forma di pratici diagrammi, grafici e tabelle. La digitalizzazione si occupa più nello specifico di codificare le politiche educative in algoritmi ed applicazioni. Inutile sottolineare come una maggior conoscenza dei processi educativi in atto costituisca la base per il miglioramento continuo e per attuare strategie di innovazione profonda basate su nuovi metodi di apprendimento, capaci di sfruttare sempre più a fondo le potenzialità del digitale.
Logistica e distribuzione
L’analisi dei dati è la base per il miglioramento dell’efficienza delle catene di approvvigionamento dell’industria e della grande distribuzione. Un esempio tangibile è dato dall’applicazione per ottimizzare le forniture dei supermercati, riducendo al minimo le esigenze di magazzino per lo stoccaggio dei prodotti e i rischi di sovrastima e sottostima degli approvvigionamenti. I modelli previsionali sono sempre più accurati in quanto si basano sullo storico dei dati dei consumi in relazione a tantissime variabili, capaci di considerare anche le condizioni eccezionali, come i consumi a ridosso dei festivi o nel caso di particolari condizioni metereologiche.
Pubblica Amministrazione
I Big Data al servizio del cittadino meriterebbero letteralmente un libro a parte, tante e quali sono le loro implicazioni. L’analisi dei dati costituisce infatti un fattore abilitante fondamentale del paradigma della smart city, che si basa su un sistema di servizi interconnessi e monitorati con logiche IoT. Servizi quali parcheggi automatici, monitoraggio dei parametri ambientali e gestione delle reti generano enormi flussi di dati, dalla cui analisi dipende il progressivo miglioramento dell’ecosistema urbano.
Le 5 V dei Big Data
La prima manifestazione moderna di analisi dei dati coincide probabilmente con Enigma, la macchina messa a punto da Turing per decifrare i messaggi utilizzati dai nazisti per ordinare le operazioni militari. La complessità dei dati da trattare ha richiesto la costruzione di un elaboratore, finanziato dal governo britannico.
Enigma non è un esempio calzante con la definizione attuale di Big Data, ma esprime il contesto in cui i dati sono stati analizzati fino a tempi relativamente recenti, quando Doug Laney, nel 2001, ha teorizzato il modello delle 3V, aprendo di fatto nuovi orizzonti di fruizione dei dati, capaci di andare ben oltre le pubbliche funzioni della difesa o della gestione dei dati relativi alla popolazione.
Le tre V cui fa riferimento Laney compongono un modello sintetico per definire nuovi dati, sulla base di un contesto che vede un aumento esponenziale delle fonti informative:
Volume
Ogni giorno le interazioni previste dalle attività dell’uomo (lavoro, studio, salute, tempo libero, ecc.) generano una grande mole di dati. Il Volume si riferisce in termini quantitativi alla massa di informazioni che non è possibile raccogliere con tecnologie tradizionali. Anche se non ha del tutto senso riferirsi a parametri esclusivamente quantitativi, convenzionalmente si intende un Big Data in due condizioni: quando si supera la soglia dei 50 Terabyte o quando si assiste ad un incremento annuo di volume dei dati superiore al 50% rispetto all’anno precedente. Per offrire un ordine di grandezza del fenomeno, dal 2010 al 2020 il volume di dati è aumentato di circa 40 volte a livello globale, e le previsioni verso il 2030 sono di crescita esponenziale.
Velocità
Il proliferare di sistemi IoT, dotati di apposita sensoristica, rende possibile acquisire ed elaborare il dato direttamente nel luogo in cui si genera. L’enorme volume di dati cui si faceva riferimento al punto precedente è quindi un flusso continuo di informazioni disponibile in tempo reale o nella condizione di “near real time”. Tale velocità va garantita anche dalle applicazioni che analizzano i dati, per assistere in tempo reale le operazioni che ne conseguono e le decisioni da prendere in un determinato contesto.
Varietà
Alla varietà del dato corrisponde una varietà delle fonti informative, in una relazione di dipendenza che cresce di pari passo in una direzione eterogenea. Oltre ai sistemi tradizionali e ai gestionali d’azienda, oggi sono sempre più attive fonti quali la sensoristica IoT, i social network, gli open data, in grado di garantire enormi flussi di dati sia strutturati che non strutturati. Dal punto di vista aziendale il dato può essere generato internamente o acquisito esternamente.
A queste 3V originali, facenti capo al modello proposto da Doug Laney, si sono ben presto aggiunte altre due V, la cui attualità è in gran parte dovuta alle modalità di utilizzo in azienda del valore informativo costituito dai dati.
Variabilità
Parliamo di un concetto differente rispetto alla già citata varietà e si riferisce alla materia stessa del dato, disponibile in diversi formati. Entrano dunque in gioco concetti come l’interoperabilità, in grado di rendere il dato fruibile a diverse applicazioni di analisi, come quelle utilizzate dalla varie line of business (LoB) aziendali.
Veridicità
Chi si occupa di machine learning, sa benissimo quanto sia critica la selezione del dato. Un dato “cattivo” può infatti portare il sistema di apprendimento automatico a produrre esiti predittivi del tutto fuorvianti, rendendo di fatto inutile e controproducente lo sforzo effettuato. In altri termini, se il dato non è sincero nei confronti di quanto accade nel suo scenario di riferimento, è impossibile che possa generare una valore previsionale credibile nelle simulazioni effettuate. Nel caso dei Big Data, questo semplice concetto viene semplicemente elevato all’ennesima potenza.
Prendendo spunto dalle precisazioni fornite dagli Osservatori del Politecnico di Milano, che svolgono una puntuale azione di ricerca e monitoraggio dei trend 4.0 relativi al mercato italiano, possiamo aggiungere una sesta V, che sintetizza le precedenti nel contesto di valore. In letteratura, soprattutto per quanto concerne i testi di marketing, può talvolta accadere di incontrare il valore al posto della veridicità, anche se a nostro avviso si tratta di una classificazione piuttosto impropria, soprattutto dal punto di vista applicativo.
Valore (Dati, Informazioni, Conoscenza)
Se il dato diventa una fonte di inestimabile valore, raccogliere dati non equivale all’effettiva disponibilità di informazioni e non consente di generare automaticamente conoscenza. Dati, informazioni e conoscenza sono termini in ovvia relazione tra loro, ma la loro affinità non basta a valorizzare le loro differenze.
Lungo una reale o presunta catena di valore, il dato esprime una rappresentazione di un’entità, di un fenomeno, di una transizione, piuttosto che di un avvenimento. L’informazione deriva da un processo, anche semplice, di analisi del dato, con vari livelli di significato, che lo rendono fruibile soltanto a chi lo ha generato, piuttosto che ad un pubblico indifferenziato. La conoscenza deriva infine dall’utilizzo delle informazioni per prendere decisioni ed effettuare azioni.
La distinzione tra dati, informazioni e conoscenza spiega di fatto la necessità di ricorrere a strumenti di Analytics per tradurre il valore grezzo del dato non elaborato in un valore raffinato ed utile a supportare il raggiungimento di determinati obiettivi, in ambiti di business anche molto differenti tra loro.
Prima di entrare nel merito delle metodologie dei Big Data Analytics, concludiamo l’ampia premessa con la definizione delle due principali tipologie di dati, che corrispondono alla materia prima da cui parte tutto il processo di conoscenza: i dati strutturati e i dati non strutturati.
Dati strutturati e dati non strutturati
Si parla di dati strutturati nel caso in cui viene rispettato un set di regole predeterminato, utile a definirne la tipologia: data, nome, numero, indirizzo, ecc. e le relazioni che intercorrono tra i vari campi dati. Grazie alla loro struttura possono essere costituiti all’interno di un database (es. schema a righe e colonne) da cui richiamare i dati durante i processi di elaborazione.
Si parla invece di dati non strutturati quando non si assiste a questa predefinizione. Il caso più ricorrente è il file: video, audio, e-mail, ecc. spesso caratterizzati da un volume molto elevato, che devono essere in qualche modo resi fruibili alle analisi. Per far sì che tale condizione si avveri, sono state sviluppate sia tecnologie in grado di agevolare l’archiviazione di un grande volume e varietà di dati (es. Hadoop, MongoDB, ecc.) che tecnologie in grado di estrarre informazioni utili a generare conoscenza a partire dai dati non strutturati:
- Data mining: tecnologie in grado di effettuare elaborazioni in grande scala;
- Elaborazione del linguaggio naturale (NLP; Natural Language Processing): tecnica basata sul deep learning, capace di estrarre informazioni dal dato che corrisponde al linguaggio umano. Grazie al NLP è ad esempio possibile acquisire in maniera intelligente contenuti quali le e-mail, piuttosto che le interazioni sui social media;
- Algoritmi di riconoscimento immagine (image recognition): sistemi di apprendimento automatico utili ad identificare e classificare persone, animali ed oggetti ritratti in scenari simili o differenti a quelli previsti nelle eventuali simulazioni;
- Algoritmi “speech to text”: capaci di processare l’audio e convertirlo in un testo su cui è possibile effettuare delle ricerche. Da non confondersi con le applicazioni “text to speech” utilizzate per l’implementazione dei chatbot;
- Tecniche di intelligenza artificiale: tutte le applicazioni algoritmiche non citate in precedenza che si rivelano utili a estrarre informazioni e conoscenza dai dati non strutturati.
Alla luce di queste valutazioni, è ancora una volta opportuno precisare come più la materia prima (dato strutturato o non strutturato, e relativa tipologia) sia fondamentale il fattore qualitativo, sia nell’acquisizione che nella categorizzazione dei dati da sottoporre agli strumenti di analisi. Soltanto un dato di qualità può generare valore in termini di conoscenza.
In che modo vengono utilizzati i Big Data (Big Data Analytics)
Quando un’azienda intraprende un percorso di trasformazione digitale con un approccio data-driven implementato in maniera consapevole, è in grado di ottenere un’ampia varietà di vantaggi, aggiungendo reale valore ai propri processi, tra cui:
- Ridurre i costi delle operazioni;
- Ridurre il time to market dei nuovi prodotti e servizi;
- Incrementare il coinvolgimento dei clienti;
- Fidelizzare e rendere più profittevoli i clienti;
- Identificare nuovi mercati e piani di business per conquistarli;
- Incrementare le vendite
Benissimo. La logica data-driven, descritta in maniera divulgativa, è ormai qualcosa alla portata di un bambino ancora digiuno di conoscenza tecnologica. Ma come è possibile tradurre in pratica tutto ciò a partire dai dati a disposizione? La gestione dei Big Data trova riscontro in una serie di metodologie, spesso utilizzate simultaneamente per raggiungere determinati obiettivi.
Si tratta di un insieme di metodi e tecniche ispirate dalla scienza dei dati e dall’intelligenza artificiale, capaci di analizzare un’enorme complessità per renderla semplice e fruibile a supporto delle decisioni e delle operazioni concrete. Grazie a queste tecniche, è possibile trarre enorme giovamento sia dall’analisi dei dati strutturati che dei dati non strutturati.
Le principali metodologie e gli Advanced Analytics
Nello specifico, esistono delle tecnologie in grado di gestire dei dati destrutturati per processarli in tempo reale, analizzandoli con varie metodologie, più o meno innovative.
Il denominatore comune delle metodologie di analisi è costituito dalla capacità di estrarre in maniera autonoma le informazioni a partire da un dataset. Le quattro classici di Analytics utilizzate nell’analisi dei dati sono le seguenti:
- Analisi descrittiva: costituita dagli strumenti che consentono di rappresentare e descrivere la realtà di uno scenario o di un processo funzionale al business. Ciò accade mediante a strumenti che facilitano la comprensione di un volume di dati molto ampio, ad esempio grafici, diagrammi e strumenti visuali interattivi, in grado di esprimere a vari livelli una sintesi della complessità originale;
- Analisi diagnostica: impiega tecniche di correlazione e data discovery per cercare di risalire alle cause di un determinato evento. L’analisi diagnostica è utile per conoscere meglio la natura di determinati fenomeni, ancor prima di intervenire a livello decisionale. Anche questo caso ci si avvale il più possibile di strumenti di data visualization in grado di sintetizzare la complessità delle informazioni estratte dai dati.
- Analisi predittiva: basata sui modelli predittivi, si traduce in soluzioni capaci di effettuare un’analisi dei dati utile a generare insight capaci di disegnare scenari futuri sulla base di uno storico informativo. È il campo d’azione privilegiato dal data mining e del machine learning, una tecnica di intelligenza artificiale che mira ad analizzare un problema specifico analizzando uno storico di dati acquisiti in un dato scenario, per effettuare previsioni riferite al medesimo contesto. Mettere a punto un modello di machine learning equivale ad una vera e propria arte, in quanto comporta conoscenze matematiche, informatiche, oltre a possedere una sensibilità spiccata nei confronti dello scenario di riferimento, indispensabile per garantire l’affidabilità del modello a lungo termine. Le variabili del sistema sono infatti in continuo mutamento e analizzare un dato riferito ad uno scenario non coerente produrrebbe inevitabilmente delle valutazioni predittive non attendibili.
- Analisi prescrittiva: consiste in un’evoluzione dell’analisi predittiva, rispetto alla quale si aggiunge un ulteriore livello di ambizione analitico. Vengono infatti implementati dei modelli di ottimizzazione, che riescono a formare delle ipotesi relative agli scenari futuri, sia nella direzione di supportare le decisioni degli operatori, sia nell’automatizzare le azioni proposte secondo i risultati delle analisi svolte. Quest’ultimo caso viene altrimenti definito automated analytics, o analisi automatica.
Sulla base delle quattro metodologie di analisi dei Big Data è possibile derivare ulteriori approcci, capaci di combinarne gli effetti in funzione degli obiettivi da raggiungere. È il caso degli Advanced Analytics, che comprendono le tecniche dell’analisi predittiva, prescrittiva e automatica per effettuare analisi di livello avanzato, in modo da ottimizzare gli aspetti di velocità e complessità che sempre più spesso deriva da fonti di informazione incredibilmente varie e multidisciplinari.
I professionisti dei Big Data
Per affrontare in maniera efficace sia la fase strategica che la fase operativa relativa ai Big Data, le aziende devono integrare in organico o avvalersi di consulenze altamente specializzate, che fanno capo ad un vero ecosistema professionale, data la varietà delle figure che vengono coinvolte.
Le esigenze spaziano infatti dal saper far emergere le esigenze aziendali all’offrire soluzioni concrete e strumentali in funzione degli obiettivi di business.
Tra le figure ricorrenti nell’ambito dei Big Data ritroviamo:
- Chief Data Officer: executive a diretto contatto con il top management e le linee di business dell’azienda. Il suo ruolo fondamentale consiste nel tradurre le aspettative e gli obiettivi di business in investimenti e strategie di gestione dei dati (data governance);
- Data Governance Program Leader: è uno specialista in grado di definire piani e programmi della data governance, a partire dalle indicazioni strategiche elaborate dal CDO;
- Information Architect: è uno specialista in grado di implementare a livello informatico l’automazione della data governance, in maniera coerente con i piani e i programmi previsti;
- Business Data Steward: si occupa nello specifico delle varie interfacce tra i sistemi di data governance e le esigenze strategiche ed operative degli utenti coinvolti nelle varie linee di business. Monitorando tutti gli aspetti chiave a livello di analytics e processi, è in grado di verificare la coerenza del sistema di gestione dei dati e di individuare le soluzioni metodologiche ed operative utili ad una strategia di miglioramento continuo dell’azienda;
- Data Analyst: come il nome stesso suggerisce, è una figura orientata all’analisi dei dati, a partire dalla loro interpretazione nel contesto di riferimento, indispensabile per valutarne l’effettiva utilità e la necessaria qualità.
- Data Scientist: figura in grado di gestire i Big Data e trarne informazioni rilevanti, occupandosi delle fasi di sviluppo, training e testing dei modelli di apprendimento automatico. Si tratta di una professione estremamente ricercata, che potrebbe rivelarsi in assoluto tra le più profittevoli nel futuro prossimo;
- Data engineer: figura squisitamente tecnica e operativa sul dato, per gestire le fasi di raccolta, archiviazione ed integrazione, garantendo ad esempio la disponibilità nel formato corretto, piuttosto che la risoluzione di problemi derivanti dall’utilizzo di determinati software e applicativi;
- Analytics Translator: è un facilitatore che si occupa di rendere i risultati dei data scientist fruibili ad un pubblico non tecnico. Traduce di fatto i casi d’uso in linguaggio analitico per suggerire una corretta interpretazione dei risultati delle analisi.
- Data Science Manager: può coincidere con una elevata seniorship del Data Scientist, identificando la figura deputata a gestire l’intero processo di gestione e analisi dei dati in azienda. Tra i suoi compiti figura l’onboarding dei nuovi Data Scientist e la loro formazione lungo il percorso di crescita che li attende in azienda.
Le competenze del Data Scientist
Riferendoci al Data Scientist quale figura generalista nel contesto Big Data, è utile rilevarne le principali competenze, per avere un quadro della complessità che la gestione dei dati e delle informazioni comporta.
Le sue attività spaziano dalla mappatura, organizzazione e controllo delle fonti di dati aziendali fino alla modellizzazione dei dati grazie agli algoritmi matematico-statistici in grado di garantire valore in ogni area di business. Una figura end-to-end, che oltre ad essere inserito nelle dinamiche aziendali, ai fini di comprenderne il business, deve possedere conoscenze più o meno specialistiche nelle seguenti discipline:
- Statistica: attività sui dati: validazione, data cleaning, data profiling, impiego di linguaggi statistici e dei principali strumenti utilizzati: regressione, clustering, ottimizzazione, ecc.
- Informatica: conoscenze base e/o avanzate dei linguaggi di programmazione e dei software utilizzate nella gestione dei Big Data;
- Matematica: conoscenza della teoria e delle tecniche di analisi dei dati, di creazione dei modelli e relativa capacità di interpretare i risultati ottenuti dalle procedure analitiche;
- Comunicazione: capacità di rappresentare e divulgare i risultati delle analisi per renderli fruibili agli stakeholder non tecnici nelle linee di business, affinché possano comprendere ed interpretare le informazioni in maniera efficace per lo svolgimento delle loro attività;
- Project Management: nel raggiungimento della seniorship, è fondamentale maturare una capacità di gestione dei progetti, per coordinare tutte le vasi previste, avvalendosi delle metodologie più comunemente utilizzate per gestire in maniera efficace le risorse a disposizione. In tal senso risultano particolarmente apprezzate le cosiddette soft skill, ossia la sensibilità nei confronti del problema e la capacità di gestire in maniera proficua le relazioni all’interno del team di lavoro affidato.
Data Science vs Business Intelligence
Una ulteriore precisazione, utile a comprendere in maniera ancor più mirata le differenze tra le tecnologie orientate all’analisi dei dati, è relativa alla differenza tra Data Science e Business Intelligence, due discipline che si incontrano molto di frequente quando si parla di dati in una dimensione aziendale.
Anche se entrambe si concentrano sulla stessa materia prima: il dato.
La Business Intelligence ha una derivazione più classica e si basa sull’osservazione dei dati storici dell’azienda per scoprire schemi nascosti. Parliamo di una disciplina che fonda le sue radici nell’Ottocento, quando Herman Hollerith (futuro fondatore della IBM) nel 1880 mise a punto un sistema automatizzato per accelerare la classificazione e l’organizzazione dei dati del censimento americano.
La Data Science ha origini decisamente più recenti e risulta fondamentalmente più complessa e dinamica nell’approccio, in quanto acquisisce ed analizza il pregresso e il presente per generare conoscenze predittive.
La Business Intelligence lavora molto bene a partire da grandi volumi di dati strutturati, mentre la Data Science è prevalentemente orientata alla ricerca di nuovi algoritmi per estrarre informazioni dai dati. Per certi versi può essere intesa quale un’evoluzione in chiave più moderna della Business Intelligence tradizionale.