Come creare visualizzazioni dati in Python in un attimo: QuickDA
Tutti conosciamo l’importanza delle immagini giuste, quando si tratta le visualizzazioni dati in Python. Anche una persona non del settore, quando vede una buona visualizzazione di una grande mole di dati, è in grado di trarre conclusioni e di prendere decisioni data-driven.
A questo servono i data engineer!
Ma diciamoci la verità: quanto tempo ci vuole per creare una visualizzazione dati che dica ciò che deve dire in modo chiaro?
Di solito, moltissimo.
Eppure a volte la creazione di una visualizzazione dati serve solo per un’occhiata veloce, per passare poi allo step successivo.
Per questa esigenza di brevità è nata QuickDA, una libreria python per dati strutturati, che consente di eseguire un’analisi esplorativa dei dati in modo efficiente con dei risultati di immediata visualizzazione. Vediamo come usare QuickDA per alcune visualizzazioni base, che hanno in comune una cosa: richiedono di scrivere una sola riga di codice!
Potrebbero interessarti anche:
I 5 modi più veloci per caricare dati in Python
Il modo migliore per creare app data-driven
Installazione di QuickDA
Per installare QuickDA, andate nel vostro terminale e incollate “pip install quickda”. Tutto qui.
Ora importiamo tutto ciò di cui abbiamo bisogno:
# Importing libraries
from quickda.explore_data import *
from quickda.clean_data import*
from quickda.explore_numeric import *
from quickda.explore_categoric import *
from quickda.explore_numeric_categoric import *
from quickda.explore_time_series import *
Vediamo alcune visualizzazioni che si possono fare a questo punto.
Come promesso, cercheremo di mantenerci su una sola riga di codice.
Creare visualizzazioni dati in Python per funzioni numeriche
Creiamo insieme la prima visualizzazione multipla per dati numerici. Ecco il codice:
eda_num(dati)
Vedrai spalancarsi davanti a te, con una sola riga di codice, diverse visualizzazioni di dati. Quello che QuickDA è in grado di darvi sono principalmente boxplot e istogrammi per ogni caratteristica.
Certo, è un’operazione facilissima, però a volte in questa fase non si sa ancora cosa sviluppare per ogni caratteristica, e spesso sono sufficienti due o tre visualizzazioni dati.
Fortunatamente, QuickDA è in grado di creare visualizzazioni per dati selezionati con il seguente codice:
eda_num(data[['column_1', 'columns_2', 'column_n']])
Attenzione a usare le doppie parentesi, perché QuickDA non può interpretare le serie di Pandas.
Se usi questa funzione, ti appariranno un istogramma e un boxplot solo per le caratteristiche selezionate.
Matrice di correlazione
Hai bisogno di una matrice di correlazione? Nessun problema. Puoi digitare il seguente codice e controllare quanto sono correlate le tue caratteristiche.
eda_num(dati, metodo="correlazione")
Lo stile è quello di una heatmap, che non piace proprio a tutti, però fa il suo lavoro e ti mostra evidenziate in rosso le caratteristiche correlate tra loro.
Creare visualizzazioni dati in Python per caratteristiche categoriche
Ora, controlliamo come creare alcune visualizzazioni per le caratteristiche categoriche. Per questo, devi selezionare quale caratteristica volete studiare.
eda_cat(dati, x='nome_colonna')
Se provi a inserire questa riga di codice, ti comparirà una visualizzazione molto chiara per la caratteristica che hai scelto, e a fianco il conteggio di ogni valore e una tabella con la descrizione numerica.
Molto comodo. Se invece vuoi vedere come i dati sono distribuiti per ogni genere, ti basterà aggiungere un valore y.
eda_cat(data, x='column_name', y='column_name')
Valutare l’importanza delle caratteristiche
Le caratteristiche possono predire determinati eventi, e questo lo sappiamo bene. Un altro aspetto positivo di QuickDA è darci un’idea immediata dell’importanza delle singole caratteristiche. È una caratteristica molto utile per l’apprendimento automatico, perché può aiutare a eliminare le caratteristiche non rilevanti.
eda_numcat(data, method='pps', x='target_feature')
Correlazione
Abbiamo già visto come QuickDA possa consentirci di visualizzare chiaramente la correlazione:
eda_numcat(data, x='x_value', y='y_value',
hue='color_setup', method='relationship')
Ti mostrerà uno scatterplot in stile Matplotlib con il doppio colore per valori x e y.
Serie temporali
Se hai iniziato a mettere alla prova le righe che ho fornito finora, avrai notato che QuickDA usa diverse librerie per le visualizzazioni: c’è Seaborn, Matplotlib, e per le serie temporali Plotly Express.
Ecco come visualizzare una serie temporale:
eda_timeseries(df_clean, x='x_value', y='y_value')
Tabella Pivot
Esatto, QuickDA consente anche di creare una visualizzazione di dati nello stile di una tabella pivot, in modo relativamente semplice. Se ti occupi di analisi dati, già conosci l’importanza analitica che può avere una tabella pivot, utilissima se devi fare report, ad esempio.
Ecco come averla facilmente con QuickDA:
eda_numcat(data, x=['column_1, column_2'], y=None, method='pivot')
Conclusione
QuickDA è davvero molto comodo per le visualizzazioni lampo di dati già strutturati in Python. A volte un tool semplice come questo fa risparmiare ore intere, che prima spendevamo per una delle attività che richiedono più tempo ed energie: la reportistica.
Spesso un po’ di rapidità serve, e ci consente di concentrare le energie su quello che è più importante: l’analisi dei dati!
correlazione dataset intelligenza artificiale librerie python machine learning python quickda serie temporali tabella pivot