Classificazione dei Dati col metodo Supervisionato
In questo articolo discuteremo delle tecniche di classificazione dei dati col metodo supervisionato. Il processo di classificazione è una delle tecniche in cui classifichiamo i dati in un determinato numero di classi. Durante la classificazione, disponiamo i dati in un numero fisso di categorie in modo che possano essere utilizzati nel modo più efficace ed efficiente.
Nell’apprendimento automatico (machine learning), la classificazione risolve il problema dell’identificazione della categoria a cui appartiene un una serie di dati. Costruiamo il modello di classificazione basato sul set di dati di addestramento contenente i dati e le etichette corrispondenti. Ad esempio, supponiamo che vogliamo verificare se l’immagine fornita contenga il volto di una persona o meno. Costruiremmo un set di dati di addestramento contenente classi corrispondenti a queste due tipi: volto e non-volto. Formiamo quindi il modello in base ai campioni di addestramento che abbiamo. Questo modello addestrato viene quindi utilizzato per deduzione.
Un buon sistema di classificazione dei dati col metodo Supervisionato semplifica la ricerca e il recupero dei dati. Questo è ampiamente utilizzato nel riconoscimento facciale, nell’identificazione di spam, nei motori di raccomandazione e così via. Gli algoritmi per la classificazione dei dati forniranno i giusti criteri per separare i dati nelle classi.
Dobbiamo fornire un numero sufficientemente grande di esempi al fine di generalizzare i criteri di classificazione. Se il numero di campioni è insufficiente, l’algoritmo subirà un processo di overfitting dei dati di allenamento. Questo significa che l’algoritmo non si adatterà bene ai dati sconosciuti perchè è stato addestrato in modo molto simile ai pattern osservati nel modello di addestramento. Questo è uno dei problemi più comuni del machine learning e ne abbiamo parlato in un altro articolo.
Abbiamo a che fare con molti dati grezzi nel mondo reale. Gli algoritmi di apprendimento automatico prevedono che i dati vengano formattati in un certo modo prima di iniziare il processo di formazione. Al fine di preparare i dati per l’inserimento mediante algoritmi di apprendimento automatico, dobbiamo pre-elaborarli e convertirli nel formato corretto.
Esistono diversi modi per farlo, vediamo come.
Parleremo di diverse tecniche di pre-elaborazione dei dati, vediamo come.
Binarization
Questo processo viene utilizzato quando vogliamo convertire i nostri valori numerici in valori booleani. Usiamo il metodo integrato per binarizzare i dati di input usando un valore di soglia specifico.
Mean Removal
La rimozione della media è una tecnica di pre-elaborazione comune utilizzata nell’apprendimento automatico. Di solito è utile per rimuovere la media dal nostro vettore di caratteristiche, in modo che ogni caratteristica sia centrata a zero. Lo facciamo per rimuovere i bias dalle funzionalità nel nostro vettore di dati.
Scaling
Nel nostro vettore di dati, il valore di ciascuna caratteristica può variare tra molti valori casuali. Così diventa importante scalare queste caratteristiche in modo che sia un campo uniforme per l’algoritmo di apprendimento su cui allenarsi. Non vogliamo che nessuna caratteristica sia grande o piccola artificialmente a causa della natura delle misurazioni. Ogni riga viene ridimensionata in modo che il valore massimo sia 1 e il minimo 0 e tutti gli altri valori siano relativi a questi valori.
Normalization
Usiamo il processo di normalizzazione per modificare i valori nel vettore in modo da poterli misurare su una scala comune. Nell’apprendimento automatico, utilizziamo molte forme diverse di normalizzazione. Alcune delle forme più comuni di normalizzazione mirano a modificare i valori in modo che si sommino a 1. La normalizzazione L1, che si riferisce alle deviazioni minime assolute, funziona assicurandosi che la somma dei valori assoluti sia 1 in ogni riga. La normalizzazione L2, che si riferisce ai minimi quadrati, funziona assicurandosi che la somma dei quadrati sia 1.
In generale, la tecnica di normalizzazione L1 è considerata più robusta della tecnica di normalizzazione L2. La tecnica di normalizzazione L1 è robusta perché è resistente ai valori anomali nei dati.
Molte volte, i dati tendono a contenere valori anomali e non possiamo farci nulla. Vogliamo utilizzare tecniche che possano ignorarle in modo sicuro ed efficace durante i calcoli. Se stiamo risolvendo un problema in cui i valori anomali sono importanti, forse la normalizzazione L2 diventa una scelta migliore.
Label Encoding
Quando eseguiamo la classificazione, di solito abbiamo a che fare con molte etichette. Queste etichette possono essere sotto forma di parole, numeri o qualcos’altro. Le funzioni di machine learning in sklearn si aspettano che siano numeri. Quindi, se sono già numeri, possiamo usarli direttamente per iniziare l’allenamento. Ma di solito non è così.
Nel mondo reale, le etichette sono sotto forma di parole, perché le parole sono leggibili dall’uomo. Etichettiamo i nostri dati di allenamento con parole in modo che la mappatura possa essere tracciata. Per convertire le etichette delle parole in numeri, dobbiamo utilizzare un codificatore di etichette. La codifica delle etichette si riferisce al processo di trasformazione delle etichette delle parole in forma numerica. Ciò consente agli algoritmi di operare sui nostri dati.
apprendimento apprendimento supervisionato binarization classificazione dataset intelligenza artificiale label encoding mean removal normalization processing data scaling supervised Supervised Learning
Una risposta.
[…] è una delle tecniche in cui classifichiamo i dati in un determinato numero di classi. Durante la classificazione, disponiamo i dati in un numero fisso di categorie in modo che possano essere utilizzati nel modo […]