Classificazione dei Dati col metodo Supervisionato /2

Classificazione dei Dati col metodo Supervisionato /2

25 Agosto 2020 ai 1

In questo articolo discuteremo di tecniche di classificazione supervisionate più complesse. Il processo di classificazione è una delle tecniche in cui classifichiamo i dati in un determinato numero di classi. Durante la classificazione, disponiamo i dati in un numero fisso di categorie in modo che possano essere utilizzati nel modo più efficace ed efficiente.

Dobbiamo fornire un numero sufficientemente grande di esempi al fine di generalizzare i criteri di classificazione. Se il numero di campioni è insufficiente, l’algoritmo subirà un processo di overfitting dei dati di allenamento. Questo significa che l’algoritmo non si adatterà bene ai dati sconosciuti perchè è stato addestrato in modo molto simile ai pattern osservati nel modello di addestramento. Questo è uno dei problemi più comuni del machine learning e ne abbiamo parlato in un altro articolo.

Abbiamo a che fare con molti dati grezzi nel mondo reale. Gli algoritmi di apprendimento automatico prevedono che i dati vengano formattati in un certo modo prima di iniziare il processo di formazione. Al fine di preparare i dati per l’inserimento mediante algoritmi di apprendimento automatico, dobbiamo pre-elaborarli e convertirli nel formato corretto.

Esistono diversi modi per farlo, vediamo come.

Logistic Regression classifier

La regressione logistica è una tecnica utilizzata per spiegare la relazione tra variabili di input e variabili di output. Si presume che le variabili di input siano indipendenti e la variabile di output viene definita variabile dipendente. La variabile dipendente può accettare solo un insieme fisso di valori. Questi valori corrispondono alle classi del problema di classificazione.
Il nostro obiettivo è identificare la relazione tra le variabili indipendenti e le variabili dipendenti stimando le probabilità utilizzando una funzione logistica. Questa funzione logistica è una curva sigmoidea utilizzata per costruire la funzione con vari parametri. È strettamente correlato all’analisi del modello lineare generalizzato, in cui si cerca di adattare una linea a un gruppo di punti per ridurre al minimo l’errore. Invece di usare la regressione lineare, usiamo la regressione logistica. La regressione logistica di per sé non è in realtà una tecnica di classificazione, ma la usiamo in modo da facilitare la classificazione. È usato molto comunemente nell’apprendimento automatico a causa della sua semplicità.

Naïve Bayes classifier

Naïve Bayes è una tecnica utilizzata per costruire classificatori utilizzando il teorema di Bayes. Il teorema di Bayes descrive la probabilità che un evento si verifichi in base a diverse condizioni correlate a questo evento. Creiamo un classificatore Naïve Bayes assegnando etichette di classe alle istanze del problema. Queste istanze di problemi sono rappresentate come vettori dei valori delle caratteristiche. L’assunto qui è che il valore di una data caratteristica è indipendente dal valore di qualsiasi altra caratteristica. Questo è chiamato presupposto di indipendenza, che è la parte ingenua di un classificatore Naïve Bayes. Data la variabile di classe, possiamo solo vedere come una data caratteristica influisce, indipendentemente dal suo effetto su altre caratteristiche. Ad esempio, un animale può essere considerato un ghepardo se viene avvistato, ha quattro zampe, ha una coda e corre a circa 70 MPH. Un classificatore Naïve Bayes ritiene che ciascuna di queste caratteristiche contribuisca indipendentemente al risultato. Il risultato si riferisce alla probabilità che questo animale sia un ghepardo. Non ci preoccupiamo delle correlazioni che possono esistere tra modelli di pelle, numero di zampe, presenza di una coda e velocità di movimento.

Confusion matrix

Una matrice di confusione è una figura o una tabella utilizzata per descrivere le prestazioni di un classificatore. Di solito viene estratto da un set di dati di prova di cui è nota la verità fondamentale. Confrontiamo ogni classe con ogni altra classe e vediamo quanti campioni sono classificati erroneamente. Durante la costruzione di questa tabella, in realtà ci imbattiamo in diverse metriche chiave che sono molto importanti nel campo del machine learning. Consideriamo un caso di classificazione binaria in cui l’output è 0 o 1:

  • Veri positivi: questi sono i campioni per i quali abbiamo previsto 1 come output e anche la verità è 1.
  • Veri negativi: questi sono i campioni per i quali abbiamo previsto 0 come output e anche la verità è 0.
  • Falsi positivi: questi sono i campioni per i quali abbiamo previsto 1 come output, ma la verità è 0. Questo è anche noto come errore di tipo I.
  • Falsi negativi: questi sono i campioni per i quali abbiamo previsto 0 come output, ma la verità è 1. Questo è anche noto come errore di tipo II.

A seconda del problema in questione, potremmo dover ottimizzare il nostro algoritmo per ridurre il tasso di falsi positivi o falsi negativi. Ad esempio, in un sistema di identificazione biometrica, è molto importante evitare falsi positivi, perché le persone sbagliate potrebbero avere accesso a informazioni sensibili.

Support Vector Machines

Un Support Vector Machine (SVM) è un classificatore definito utilizzando un iperpiano di separazione tra le classi. Questo iperpiano è la versione N-dimensionale di una linea.
Con i dati di addestramento etichettati e un problema di classificazione binaria, SVM trova l’iperpiano ottimale che separa i dati di addestramento in due classi. Consideriamo un caso bidimensionale con due classi di punti. Dato che è 2D, dobbiamo trattare solo punti e linee su un piano 2D. Questo è più facile da visualizzare rispetto a vettori e iperpiani in uno spazio ad alta dimensione. Naturalmente, questa è una versione semplificata del problema SVM, ma è importante comprenderlo e visualizzarlo prima di poterlo applicare ad altre dimensione di dati.

 

Una risposta.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Newsletter Mensile

Iscriviti alla nostra newsletter mensile per restare sempre aggiornato e in contatto con noi.

Puoi sempre cancellare la tua email quando lo desideri, ma siamo davvero molto discreti (abbiamo poco tempo).

Link Privacy Policy