Due possibili approcci all’analisi dei dati

Due possibili approcci all’analisi dei dati

I dati sono una risorsa fondamentale nelle aziende attuali. Tramite la loro analisi e lavorazione, le figure manageriali possono ricavare importanti informazioni, da utilizzare per definire le strategie aziendali, capire i punti di forza o di debolezza e prendere decisioni più consapevoli seguendo un approccio data-driven, come spiegato in questo articolo.   La moltitudine di dati a disposizione, se da un lato rappresenta pressoché infine possibilità di analisi, dall’altro richiede strategia, preparazione e figure professionali dedicate come i data analyst e i data scientist. In generale è possibile seguire due approcci per l’analisi dei dati:

  • Approccio dichiarativo – descrittivo: l’analisi dei dati è guidata da esperti dello specifico settore aziendale che andranno ad esplicitare nel dettaglio quali dati estrarre e come combinarli.
  • Approccio predittivo: i dati vengono trattati con algoritmi matematici e di machine learning che si concentrano solamente sulla distribuzione matematico-statistica dei dati, non sul particolare significato che rivestono in quel business.

Approccio dichiarativo e descrittivo all’analisi dei dati

In questo approccio è fondamentale la collaborazione tra le figure funzionali esperte del business e le figure tecniche che si occuperanno di implementare le analisi su supporti informatici. L’esperto del business avrà il compito di dichiarare quali dati estrarre descrivendo:

  • il perimetro dei dati da analizzare, specificando i filtri e le condizioni che le informazioni di output devono rispettare;
  • le dimensioni sulle quali aggregare i dati. Facciamo un esempio per spiegare questo punto: supponiamo di avere un database in cui sono archiviate le fatture emesse dall’azienda. In fase di analisi dei dati è raro che si vogliano ottenere informazioni su una specifica fattura. Più comune è invece individuare delle dimensioni come il tempo, la categoria dei prodotti venduti o la regione di residenza dei clienti per le quali aggregare le misure di interesse come l’importo della fattura;
  • le trasformazioni da effettuare: molto spesso si ha infatti la necessità di combinare i dati di partenza tramite formule matematiche ed economiche ben precise. L’esperto del business deve trasferire la sua conoscenza settoriale al data analyst in modo che egli possa implementare tali formule nel sistema informatico.

Molto spesso questa tipologia di analisi viene eseguita tecnicamente su un database relazionale tramite il linguaggio di programmazione SQL. Questo linguaggio permette di interrogare i database dove i dati sono archiviati, utilizzando delle specifiche istruzioni per eseguire le operazioni richieste nell’analisi dei dati di interesse.

Caratteristiche del linguaggio SQL

Riprendendo i tre punti del paragrafo precedente, tramite il linguaggio SQL sarà possibile definire il perimetro dei dati tramite le istruzioni Join e Where, raggruppare e aggregare i dati tramite l’istruzione Group by ed effettuare le trasformazioni tramite le numerose funzioni che mette a disposizione.

A differenza degli altri linguaggi di programmazione come Java o C, l’SQL si presta particolarmente a questo tipo di attività per la sua natura english-like. Le query (vale a dire il codice SQL scritto per interrogare il database) sono scritte con una sintassi semplice e chiara, concentrandosi su cosa bisogna estrarre, demandando invece il come al particolare motore di database scelto (come Oracle, Sql Server, Access, MySQL). A questo link puoi trovare un corso sull’SQL e i database relazionali.

Approccio predittivo all’analisi dei dati

Negli ultimi anni si sono sviluppati approcci diversi all’analisi dei dati che non richiedono di esplicitare direttamente le condizioni di analisi. Tali metodi sono basati su algoritmi di machine learning che lavorano sulla struttura matematica dei dati, senza entrare nello specifico del loro significato funzionale. In questo articolo trovi un approfondimento sul machine learning https://www.oracle.com/it/data-science/machine-learning/what-is-machine-learning/.

Esistono varie tipologie di algoritmi di machine learning che permettono di eseguire analisi differenti;

  • suddividere i dati in cluster
  • etichettare i record in base alle variabili di input
  • individuare dati anomali dall’alto potere informativo
  • effettuare interpolazioni di dati per predire il valore futuro di una variabile, secondo casistiche non ancora note

Per queste tipologie di analisi i linguaggi di programmazione più utilizzati oggi sono Python ed R, il primo più diffuso in ambito aziendale, il secondo in ambito accademico.