Quanta matematica serve per diventare un data science?

Quanta matematica serve per diventare un data science?

27 Gennaio 2021 ai 0

Quanta matematica serve per diventare un data scientist? Le conoscenze matematiche sono essenziali nella scienza dei dati e nell’apprendimento automatico.

Introduzione

Se sei un aspirante di data science, hai senza dubbio in mente le seguenti domande:

Posso diventare uno scienziato dei dati con poco o nessun background matematico?

Quali abilità matematiche essenziali sono importanti nella scienza dei dati?

Ci sono così tanti buoni pacchetti che possono essere utilizzati per la creazione di modelli predittivi o per la produzione di visualizzazioni dei dati. Alcuni dei pacchetti più comuni per l’analisi descrittiva e predittiva includono:

Grazie a questi pacchetti, chiunque può costruire o produrre una visualizzazione dei dati.  Tuttavia, una conoscenza di base molto solida in matematica è essenziale per mettere a punto i modelli per perfezionare i modelli per produrli affidabili e con prestazioni ottimali. Una cosa è costruire un modello, un’altra è interpretare il modello e trarre conclusioni significative che possono essere utilizzate per il processo decisionale basato sui dati. È importante che prima di utilizzare questi pacchetti, tu abbia una comprensione delle basi matematiche di ciascuno, in questo modo non stai usando questi pacchetti semplicemente come strumenti a scatola nera.

Quanta matematica serve: Creazione di un modello di regressione multipla

Supponiamo che stiamo per costruire un modello multi-regressione. Prima di farlo, dobbiamo porci le seguenti domande:

  • Quanto è grande il mio set di dati?
  • Quali sono le mie variabili di caratteristica e la variabile target?
  • Quali caratteristiche predittive sono maggiormente correlate alla variabile target?
  • Quali caratteristiche sono importanti?
  • Dovrei ridimensionare le mie caratteristiche?
  • Come dovrei partizionare il mio set di dati in set di formazione e test?
  • Cos’è l’analisi delle componenti principali (PCA)?
  • Dovrei usare PCA per rimuovere le funzionalità ridondanti?
  • Come valuto il mio modello? Devo usare il punteggio R2, MSE o MAE?
  • Come posso migliorare il potere predittivo del modello?
  • Dovrei usare modelli di regressione regolarizzati?
  • Quali sono i coefficienti di regressione?
  • Che cosa è l’intercetta?
  • Devo usare modelli di regressione non parametrica come la regressione KNeighbors o supportare la regressione vettoriale?
  • Quali sono gli iperparametri nel mio modello e come possono essere ottimizzati per ottenere il modello con prestazioni ottimali?

Senza una solida base di matematica, non saresti in grado di rispondere alle domande sollevare precedentemente. La linea di fondo è che nella scienza dei dati e nell’apprendimento automatico, le abilità matematiche sono importanti quanto le capacità di programmazione. In qualità di aspirante alla scienza dei dati, è quindi essenziali investire tempo per studiare i fondamenti teorici e matematici della scienza dei dati e dell’apprendimento automatico. La tua capacità di costruire modelli affidabili ed efficienti che possono essere applicati a problemi del mondo reale dipende dalle tue abilità matematiche. Per vedere come vengono applicate le competenze matematiche nella creazione di un modello di regressione di apprendimento automatico, vedere questo articolo: Tutorial sul processo di apprendimento automatico.

Parliamo ora di alcune delle competenze matematiche essenziali, necessarie nella scienza dei dati e nell’apprendimento automatico.

Quanta matematica serve per la scienza dei dati e l’apprendimento automatico

Statistiche e probabilità

Statistiche e probabilità viene utilizzato per la visualizzazione delle caratteristiche preelaborazione dei dati, trasformazione delle caratteristiche, imputazione dei dati, riduzione della dimensionalità, ingegneria delle caratteristiche, valutazione del modello, ecc.

Ecco gli argomenti con cui devi avere familiarità: mediana, moda, deviazione standard / varianza, coefficiente di correlazione e matrice di covarianza, distribuzioni di probabilità (binomiale, di Poisson, normale), valore p, teorema di Baye (precisione, richiamo, valore predittivo positivo, valore predittivo negativo, matrice di confusione, Curva ROC), teorema del limite centrale, punteggio R_2, errore quadratico medio (MSE), test A / B, simulazione Monte Carlo.

Calcolo multi-variabile

La maggior parte dei modelli di apprendimento automatico sono costruiti con un set di dati con diverse funzionalità e predittori.

Ecco gli argomenti con cui devi avere familiarità: Funzioni di più variabili; Derivate e gradienti; Funzione Step, funzione Sigmoid, funzione Logit, funzione ReLU (Rectified Linear Unit); Funzione di costo; Tracciamento di funzioni; Valori minimi e massimi di una funzione.

Algebra lineare

L’algebra lineare è l’abilità matematica più importante nell’apprendimento automatico. Un set di dati è rappresentato come una matrice. L’algebra lineare viene utilizzata nella pre-elaborazione dei dati, trasformazione dei dati, riduzione della dimensionalità e valutazione del modello.

Ecco gli argomenti con cui devi avere familiarità: Vettori; norma di un vettore; matrici; trasposizione di una matrice; l’inverso di una matrice; il determinante di una matrice; traccia di una matrice; prodotto Dot; Autovalori e Autovettori.

Metodi di ottimizzazione

La maggior parte degli algoritmi di apprendimento automatico esegue la modellazione predittiva riducendo al minimo una funzione obiettivo, apprendendo in tal modo i pesi che devono essere applicati ai dati di test per ottenere le etichette previste.           

Ecco gli argomenti con cui devi avere familiarità: Funzione costo; funzione obbiettivo; Funzione di verosimiglianza; funzione di errore; Algoritmo di discesa del gradiente e le sue varianti (ad esempio Algoritmo di discesa del gradiante stocastico).

Sommario e conclusione

In sintesi, abbiamo discusso le competenze matematiche e teoriche essenziali necessarie nella scienza dei dati e nell’apprendimento automatico. Esistono diversi corsi online gratuiti che ti insegneranno le competenze matematiche necessarie di cui hai bisogno nella scienza dei dati e nell’apprendimento automatico. In qualità di aspirante alla scienza dei dati, è importante tenere presente che le basi teoriche della scienza dei dati sono molto cruciali per la creazione di modelli efficienti e affidabili. Pertanto, dovresti investire abbastanza tempo per studiare la teoria matematica alla base di ogni algoritmo di apprendimento automatico.

 

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *