Matematica Statistica e la Non Intelligenza Artificiale

Matematica Statistica e la Non Intelligenza Artificiale

7 Ottobre 2019 ai 0

Quando si parla di #AI, l’utente non esperto tende, ad immaginare qualcosa di simile al famoso film Terminator. Quello che accade nella realtà è del tutto diverso e nella maggior parte dei casi si tratta di calcoli matematici che prendono il nome di Statistica. La statistica è la disciplina che riguarda la raccolta, l’organizzazione, la visualizzazione, l’analisi, l’interpretazione e la presentazione dei dati.

Da questo punto di vista l’intelligenza artificiale ha il grande merito di aver riportato alla luce l’importanza della statistica nella vita di tutti i giorni, la quale viene sovente mascherata sotto l’ombrello dell’AI con campagne di marketing mirate a stupire ed impressionare gli ignari clienti, ma la nascita della moderna statistica si può far coincidere con il lavoro di Blaise Pascal e Pierre de Fermat, attorno al 1650.

Meme ironico https://redd.it/dr6d5p

Nell’era della Data Science, il modo di guardare alla statistica come se fosse una cassetta degli attrezzi si sta velocemente dimostrando inefficiente: i dati sono complessi e arrivano dalle fonti più disparate. Inoltre, vengono usati per produrre innovazione tecnologica, quindi abbiamo bisogno di essere ancora più consapevoli del valore delle risultanze prodotte. Diventa necessario adottare un approccio problem-driven (guidato dal problema), nel quale l’applicazione di specifici strumenti statistici è soltanto una delle componenti dell’indagine. Il primo passo è specificare correttamente il problema da indagare, le indagini statistiche devono sempre partire da una domanda.

Il ciclo virtuoso parte con la definizione del problema (domanda) poi si passa alla pianificazione: cosa e come dobbiamo misurare? Definito anche questo punto, si può procedere con l’effettiva raccolta e gestione delle informazioni. Poi, si effettua l’analisi, organizzando e costruendo tavole, grafici, individuando schemi ricorrenti e formulando ipotesi. Infine, si arriva alla conclusione con l’interpretazione e la comunicazione delle risultanze.

Nel 1907 Francis Galton, scienziato, cugino di Charles Darwin e ideatore, tra l’altro, del sistema di identificazione tramite le impronte digitali, scrisse a una rivista una lettera nella quale raccontava questa esperienza, che definiva Vox populi, saggezza della folla. Alla fiera di Port aveva visto che si poteva partecipare a una lotteria per indovinare il peso della carne ricavata dalla macellazione di un bue. La gente pagava 6 pence e scriveva la sua scommessa su un biglietto. Entrato in possesso delle 787 stime di peso, Galton ricavò il valore medio di 547 chili e scoprì che questo risultato era straordinariamente vicino ai 543 chili del risultato ufficiale della macellazione. Definì questo processo decisionale “saggezza della folla”. Galton fece quello che oggi potremmo chiamare riassunto dei dati: prese una massa di numeri e li ridusse a uno soltanto.

Meme ironico https://redd.it/dsy5za

Se lanci 2 volte una moneta, quali sono le probabilità di avere 2 volte testa? Si tratta di saper calcolare la probabilità e di ricordare che a ogni lancio la possibilità è 1 su 2, quindi su due lanci diventa 1 su 4. La probabilità non ha memoria. La frequenza attesa di questo evento è 1 volta su 4. La misura della probabilità è complicata, non abbiamo a disposizione uno strumento come una bilancia o un metro.

La prima domanda da farsi è: che cosa significa probabilità? Ne esistono di due tipi:
• classica: il numero di eventi favorevoli dell’evento, diviso per il numero totale degli eventi possibili. Per esempio, quante possibilità ci sono di ottenere un 6 lanciando un dato? 1 possibilità su 6.
• enumerativa: abbiamo 3 calzini bianchi e 4 neri in un cassetto, che probabilità abbiamo di tirar su un calzino bianco? 3 su 7.

Un caso significativo di come i dati possono essere erroneamente correlati è ben spiegato nel seguente tutorial scritto da Nassim Nicola Taleb:

Un altro aneddoto interessante fa capire quanto siano importanti i dati che non vediamo e il perchè sia fondamentale lavorare con un occhio critico perfino con i propri collaboratori:

Durante la seconda guerra mondiale, gli alleati mapparono i fori di proiettile negli aerei colpiti dalla contraerea nazista. La deduzione logica degli ingegneri e dei costruttori fu quella di rinforzare le aree maggiormente colpite, al fine di blindare ulteriormente i velivoli, dando loro maggiore resistenza al fuoco nemico. Un matematico, di nome AbrahamWald, giunse però a tutt’altra conclusione: i puntini rossi, che vediamo nell’immagine, rappresentano solo i danni subiti dagli aerei che tornarono alla base, e non di quelli abbattuti. Secondo lo studioso infatti, le aree che dovevano esser rinforzate erano quelle in cui non c’erano puntini rossi, poiché se fossero state colpite l’aereo e il suo pilota non avrebbero più fatto ritorno a casa. Questo fenomeno si chiama “Pregiudizio di Sopravvivenza”. Avviene quando guardiamo le cose che sono sopravvissute quando invece dovremmo concentrarci su quelle che non ce l’hanno fatta…

Fusoliera Aereo – Seconda Guerra Mondiale

La cosa importante quindi è ricordare che la statistica poggia sui dati, e che i dati devono essere rilevati con cura non solo per ottenere analisi affidabili ma anche per poter sviluppare correttamente algoritmi di AI efficaci. Statistiche “povere” creano confusione e imprecisione, è quindi indispensabile attenersi a pratiche corrette e consolidate.

« L'assenza della prova non è la prova dell'assenza » Nassim Nicholas Taleb

 

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Newsletter Mensile

Iscriviti alla nostra newsletter mensile per restare sempre aggiornato e in contatto con noi.

Puoi sempre cancellare la tua email quando lo desideri, ma siamo davvero molto discreti (abbiamo poco tempo).

Link Privacy Policy