I migliori Dataset pubblici per l’apprendimento automatico
I migliori Dataset pubblici per l’apprendimento automatico per Machine Learning e Data Science.
I finder di set di dati
Google Dataset Search: Similarmente al funzionamento di Google Scholar, Dataset Search ti permette di trovare i set di dati ovunque siano ospitati, che si tratti del sito di un editore, di una libreria digitale o della pagina Web di un autore. È un fenomenale ricercatore di set di dati e contiene oltre 25 milioni di set di dati.
Kaggle: Kaggle fornisce un vasto contenitore di set di dati, sufficiente sia per l’appassionato che all’esperto.
UCI Machine Learning Repository: Il Machine Learning Repository di UCI, fornisce una risorsa aggiornata per i set di dati opensource.
VisualData : Scopre i set di dati di visione artificiale per categoria.
CMU Libraries: Set di dati di alta qualità grazie alla collezione di Huajin Wang, presso CMU.
The Big Bad NLP Database: Questo fantastico elenco di set di dati, ne contiene per varie attività di elaborazione del linguaggio naturale, creati e curati dalla Quantum Stat.
Set di dati Generali
Set di dati geografici
Google-Landmarks-v2: Un set di dati migliorato per il riconoscimento e il recupero dei punti di riferimento. Questo set di dati contiene oltre 5 milioni di immagini com oltre 200.000 punti di riferimento da tutto il mondo, provenienti e annotate dalla comunità Wiki Commons.
Set di dati di apprendimento automatico
Mall Customers Dataset (Set di dati clienti centro commerciale): Il set di dati dei clienti del centro commerciale contiene informazioni circa le persone che visitano il centro commerciale in una determinata città. Il set di dati è composto da varie colonne come sesso, ID cliente, età, reddito annuo e punteggio di spesa. Viene generalmente utilizzato per segmentare i clienti in base a età, reddito e interessi.
IRIS Dataset: Il set di dati di IRIS è un set di dati semplice e adatto ai principianti che contiene informazioni sul petalo del fiore e sulla larghezza del sepalo. I dati sono divisi in tre classi, con 50 righe in ciascuna classe. Viene generalmente utilizzato per la classificazione e la modellazione di regressione.
MNIST Dataset: Questo è un database di cifre scritte a mano. Contiene 60.000 immagini di addestramento e 10.000 immagini di prova. Questo è un set di dati perfetto per iniziare a implementare la classificazione delle immagini in cui è possibile classificare una cifra da 0 a 9.
Altri migliori Dataset pubblici
Boston Housing Dataset: Contiene informazioni raccolte dal Us Census Service riguardanti l’area di Boston. È stato ottenuto dall’archivio StatLib ed è stato ampiamente utilizzato in tutta la letteratura per confrontare gli algoritmi.
Fake News Detection Dataset (Set di dati Rilevamento notizie false): È un file CSV che ha 7796 righe con quattro colonne. Ci sono quattro colonne: notizie, titolo, testo della notizia, risultato.
Wine quality dataset (Set di dati qualità vino): Il set di dati contiene diverse informazioni chimiche sul vino. Il set di dati è adatto per attività di classificazione e regressione.
SOCR data – Heights and Weights Dataset (Set di dati di altezze e pesi): Questo è un set di dati di base per i principianti. Contiene solo l’altezza e il peso di 25.000 diversi esseri umani con una età di 18 anni. Questo set di dati può essere utilizzato per costruire un modello in grado di prevedere l’altezza o il peso di un essere umano.
Titanic Dataset: Il set di dati contiene informazioni come nome, età, sesso, numero di fratelli a bordo e altre informazioni su 891 passeggeri nel set di addestramento e 418 passeggeri nel set del test.
Credit Card Fraud Detection Dataset (Set di dati rilevamento frodi con carta di credito): Il set di dati contiene transazioni effettuate con carte di credito; sono etichettati come fraudolente o regolari. Questo è importante per le aziende che dispongono di sistemi di transazione per creare un modello per il rilevamento di attività fraudolente.
I migliori Dataset pubblici di visione artificiale
xView: xView è uno dei set di dati più grandi disponibili pubblicamente di immagini aeree. Contiene immagini di scene complesse in tutto il mondo, annotate utilizzando riquadri di delimitazione.
ImageNet: Il più grande set di dati di immagini per la visione artificiale. Fornisce un database di immagini accessibile che è organizzato gerarchicamente, secondo WordNet.
Kinetics-700: Un set di dati su larga scala di URL video da Youtube. Comprese le azioni incentrate sull’uomo. Contiene oltre 700.000 video.
Google’s Open Images (Immagini aperte di Google): Un vasto set di dati di Google AI contenente oltre di 10 milioni di immagini.
Cityscapes Dataset (Set dati paesaggi urbani): Questo è un set di dati open source “a fonte aperta” per i progetti di visione artificiale. Contiene annotazioni a livello di pixel di alta qualità di sequenze video scattate in 50 diverse strade della città. Il set di dati è utile nella segmentazione semantica e nell’addestramento di reti neurali profonde per comprendere la scena urbana.
IMDB-Wiki dataset: Il set di dati IMDB-Wiki è uno dei set di dati open source più estesi per le immagini dei volti etichettati per sesso ed età. Le immagini sono raccolte da IMDB e Wikipedia. Ha più di cinque milioni di immagini etichettate.
Color Detection Dataset (Set dati rilevamento colori): Il set di dati contiene un file CSV con 865 nomi di colore con i corrispondenti valori RGB (rosso, verde e blu) del colore. Ha anche il valore esadecimale del colore.
Stanford Dogs Dataset: Contiene 20.580 immagini e 120 diverse categorie di razze di cani.
I migliori Dataset pubblici su Analisi sulle Interazioni tra utenti
Lexicoder Sentiment Dictionary: Questo set di dati è specifico per l’analisi delle interazioni. Il set di dati contiene oltre 3000 parole negative e oltre 2000 parole di sentimento positivo.
IMDB reviews (IMDB recensioni): Un interessante set di dati con oltre 50.000 recensioni di film di Kaggle.
Stanford Sentiment Treebank: Set di dati interazioni standard con annotazioni.
Twitter US Airline Sentiment: Dati Twitter sulle compagnie aeree statunitensi da febbraio 2015, classificati come tweet positivi, negativi e neutri.
Set di dati (NLP) elaborazione linguaggio naturale
The Big Bad NLP Database: Questo fantastico elenco di set di dati, ne contiene per varie attività di elaborazione del linguaggio naturale, creati e curati dalla Quantum Stat.
HotspotQA Dataset: Set di dati di risposta alle domande con domande multiple, con un’intensa supervisione a supporto dei fatti per abilitare sistemi di risposta alle domande più spiegabili.
Amazon Reviews (Recensioni Amazon): Un vasto set di dati di Amazon, contenente oltre 45 milioni di recensioni Amazon.
Rotten Tomatoes Reviews (Recensioni Rotten Tomatoes): Archivio di oltre 480.000 recensioni critiche (fresche o marce).
SMS Spam Collection in English: Set di dati costituito da 5.574 messaggi di spam SMS in inglese.
Enron Email Dataset: Contiene circa 0.5 milioni di email di oltre 150 utenti.
Recommender System Dataset: Contiene vari set di dati di siti Web popolari come recensioni di libri Goodreads, recensioni di prodotti Amazon, dati di bartending, dati di social media e altri che vengono utilizzati nella creazione di un sistema di raccomandazione.
UCI Spambase Dataset: Classificare le e-mail come spam o non spam è un’attività prevalente e utile. Il set di dati contiene 4601 messaggi di posta elettronica e 57 meta-informazioni sui messaggi di posta elettronica. Puoi creare modelli per filtrare lo spam.
IMDB reviews: L’ampio set di dati di recensioni di film è costituito da recensioni di film dal sito web di IMDB con oltre 25.000 recensioni per la formazione e 25.000 per il set di test.
I migliori Dataset pubblici per la Guida Autonoma
Waymo Open Dataset: Questa è una fantastica risorsa di set di dati della gente di Waymo. Include un vasto set di dati di guida autonoma, sufficiente per addestrare reti profonde da zero.
Berkeley DeepDrive BDD100K: Uno dei più grandi set di dati per auto a guida autonoma, contenente oltre 2000 ore di esperienza di guida tra New York e la California.
Bosch Small Traffic Light Dataset: Set di dati per piccoli semafori per l’apprendimento profondo.
LaRa Traffic Light Recognition: Un altro set di dati per semafori. Questo set di dati è raccolto da Parigi.
WPI datasets: Set di dati per semafori, rilevamento pedoni e corsia.
Comma.ai: Contiene dettagli come la velocità, l’accelerazione, l’angolo di sterzata e le coordinate GPS di un’auto.
MIT AGE Lab: Un campione delle oltre 1.000 ore di set di dati di guida multi-sensore raccolti presso AgeLab.
LISA: LAboratory for Intelligent & Safe Automobiles, UC San Diego Datasets: Questo set di dati include segnali stradali, rilevamento dei veicoli, semafori e modelli di traiettoria.
Cityscape Dataset: Si tratta di un ampio set di dati con scene di strada in 50 città diverse.
Set di dati Clinici
COVID-19 Dataset: L’Istituto di ricerca Allen of AI ha rilasciato un vasto set di dati di ricerca di oltre 45.000 articoli accademici sul COVID-19.
MIMIC-III: Set di dati disponibile apertamente sviluppato dal Laboratorio MIT per Fisiologia Computazionale, comprendente dati sanitari autonomi, associati a 40.000 pazienti in terapia intensiva. Include dati demografici, segni vitali, test di laboratorio farmaci e altro.
Set di dati per sistemi di raccomandazione
MovieLens: Contiene i set di dati di valutazione dal sito web MovieLens.
Jester: Contiene 4,1 milioni di valutazioni continue (da -10,00 a +10,00) di 100 battute da 73.421 utenti. Viene utilizzato principalmente per il filtro collaborativo.
Million Song Dataset (Set Dati da un milione di brani): Può essere usato sia per il filtraggio collaborativo sia per quello basato sul contenuto.