Tool per la visualizzazione in data science

Tool per la visualizzazione in data science

5 Marzo 2022 ai 0
3 tool per la visualizzazione in data science

Ogni data scientist conosce la grandissima importanza della visualizzazione e deve avere a disposizione i relativi Tool per la visualizzazione. Le visualizzazioni, anche in altri campi del sapere, consentono di mettere in collegamento idee complesse in modo efficiente.

Questo nell’analisi dati vale ancora di più, perché spesso il data scientist si rivolge a persone che non si occupano della sua stessa materia, ma comunque sono titolati a prendere decisioni importanti e data-driven per l’azienda.

Per questo un buon tool per la visualizzazione deve essere in grado di fornire una reportistica chiara, ma anche di aggiornarsi con dati live, in tempo reale (senza richiedere minuti preziosi per apprendere il suo funzionamento).

Vediamo quindi qualche tool semplice e molto utile per la visualizzazione, che ogni data scientist dovrebbe conoscere almeno per sommi capi. 

1) Tool per la visualizzazione Tableau

Qui non abbiamo solo un ottimo strumento per i data scientist, ma anche per i product manager, gli ingegneri, gli analisti di business e i data analyst. Parliamo di un tool abbastanza costoso, quindi non esattamente alla portata di tutti. 

Però, se riesci a metterci le mani sopra, Tableau è una piattaforma di analisi molto facile da usare e in cui la visualizzazione è molto chiara, non solo per chi lavora con i dati.

Funzioni

Tableau consente di navigare tra i dati caricati da un file CSV, ma permette anche di interrogare live un database SQL. Ciò significa che Tableau può diventare una web console, con dati costantemente aggiornati. Con Tableau Prep puoi modellare, combinare e costruire i dati.

Una volta importati i tuoi dati, puoi concentrarti sull’analisi esplorativa. È possibile notare le tendenze statisticamente rilevanti oppure visualizzare a colpo d’occhio le correlazioni. Piuttosto che raggruppare i tuoi dati per tipo in un dataframe con pandas, puoi ad esempio inserirli su una mappa con le varie regioni o Stati a cui il tuo dataset si riferisce.

Molto utile per la visualizzazione, e meglio di un comune diagramma!

Costruire un modello

A parte la regressione, le tendenze e le previsioni, puoi servirti anche di un algoritmo di clustering, che è costruito sulla base di k-means. Il criterio usato da Tableau per il clustering è quello di Calinski-Harabasz, con alcuni escamotage grafici che lo rendono più chiaro nella visualizzazione, senza sacrificare la complessità del problema.

Puoi usarlo ad esempio per vedere la somma dei quadrati tra i gruppi e la somma dei quadrati all’interno del gruppo, oppure per vedere la separazione tra i cluster, così come la somiglianza dei singoli punti del cluster. 

Report del Tool per la visualizzazione

In diversi tipi di aziende, lo strumento che crea dei buoni report è di solito uno strumento che ha molta fortuna.

Avrai intuito ora perché il successo di Tableau è stato così grande. Questo tool, oltre a creare degli ottimi report, consente anche di esplorare le visualizzazioni prima di creare il report, e vedere quale visualizzazione si addice di più al tuo tipo di dati. 

Facciamo un esempio concreto: se vuoi riportare l’errore medio assoluto di un modello, di solito riporti semplicemente un valore numerico. Invece, con Tableau puoi raggruppare l’errore in base a categorie che decidi tu, e puoi vedere su quali gruppi avrai bisogno di migliorare.

Avere una dashboard interattiva con questi dati è impagabile per un’azienda che deve vedere i dati in maniera esplorativa, per poi decidere dove conviene prendere contromisure, e quali aspetti hanno la priorità. 

La possibilità di filtrare le varie voci è la ciliegina sulla torta, che si aggiunge alla facilità di aggregazioni delle varie voci.

Costi del Tool per la visualizzazione

Lo svantaggio principale di Tableau sono i costi elevati, che lo rendono uno strumento migliore per l’azienda medio-grande, in grado di fare investimenti più elevati.

2) Google Data Studio

google data studio

Un’alternativa gratuita a Tableau è Google Data Studio, forse anche più facile da usare. Permette inoltre una maggiore personalizzazione per quanto riguarda i grafici, dato che consente di ridimensionarli e modificare la loro posizione facilmente all’interno di una dashboard.

È un tool facile da avviare, basta caricare i dati con un metodo supportato, come l’upload di file, BigQuery, oppure nel caso di SQL Cloud SQL, MySQL, e molti altri. 

La dashboard è live e altamente personalizzabile, con diversi filtri e la possibilità di creare mappe.

In particolare le mappe sono interessanti, perché passando su di esse con il mouse si vedrà comparire l’indicazione relativa ai dati qui contenuti.

Ovviamente, i file pandas sono supportati.

Report

Google Data Studio consente di creare degli ottimi report, che possono essere live, dotati di filtri, e possono soprattutto garantire una facile aggregazione di metriche e di feature.

3) Tool per la visualizzazione Pandas Profiling

Non si può concludere questo elenco senza menzionare Pandas profiling. Questo tool ha tutto ciò che manca agli altri due, ovvero la possibilità di tenere tutti sul nostro Jupyter Notebook.

Con pandas Profiling possiamo semplicemente importare tutto con Python, e con poche righe di codice inserire un dataframe. Basta poco e il gioco è fatto! 

from pandas_profiling import ProfileReport
df.profile_report(style={‘full_width’:True})

Questo strumento consente una panoramica del dataframe, un’analisi delle variabili, oltre a mostrare le correlazioni di variabili e i valori mancanti. È possibile anche vedere statistiche descrittive, istogrammi, valori comuni e valori estremi, ma soprattutto è possibile un’alta cardinalità.

L’unica pecca di questa libreria è che può essere piuttosto lenta se hai un grande dataset, ma c’è un trucco molto valido in questo caso:

profile = ProfileReport(large_dataset, minimal=True)

Questo trucchetto rimuoverà i calcoli che richiedono più tempo, come le correlazioni. Se invece le vuoi vedere, puoi usare solo un campione del tuo dataset.

Nel complesso, Pandas Profiling ha il grande vantaggio di essere gratuito, facile da usare (basta una  riga di codice) e con degli ottimi grafici EDA.

Infine, ultimo ma non meno importante, può essere eseguito all’interno di un Jupyter Notebook.

Conclusione

Tutti questi strumenti discussi possono aiutarti nella tua carriera da data analyst, perché sono funzionali, facili da usare e con molte potenzialità.

Per farti una certa esperienza, ti consiglio di provare tutti e 3: Tableau, Google Data Studio e Pandas Profile Report.

 

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *