I migliori Dataset pubblici per l’apprendimento automatico

I migliori Dataset pubblici per l’apprendimento automatico

21 Dicembre 2020 ai 0

I migliori Dataset pubblici per l’apprendimento automatico per Machine Learning e Data Science.

I finder di set di dati

Google Dataset Search: Similarmente al funzionamento di Google Scholar, Dataset Search ti permette di trovare i set di dati ovunque siano ospitati, che si tratti del sito di un editore, di una libreria digitale o della pagina Web di un autore. È un fenomenale ricercatore di set di dati e contiene oltre 25 milioni di set di dati.

Kaggle: Kaggle fornisce un vasto contenitore di set di dati, sufficiente sia per l’appassionato che all’esperto.

UCI Machine Learning Repository: Il Machine Learning Repository di UCI, fornisce una risorsa aggiornata per i set di dati opensource.

VisualData : Scopre i set di dati di visione artificiale per categoria.

CMU Libraries: Set di dati di alta qualità grazie alla collezione di Huajin Wang, presso CMU.

The Big Bad NLP Database: Questo fantastico elenco di set di dati, ne contiene per varie attività di elaborazione del linguaggio naturale, creati e curati dalla Quantum Stat.

Set di dati Generali

Set di dati geografici

Google-Landmarks-v2: Un set di dati migliorato per il riconoscimento e il recupero dei punti di riferimento. Questo set di dati contiene oltre 5 milioni di immagini com oltre 200.000 punti di riferimento da tutto il mondo, provenienti e annotate dalla comunità Wiki Commons.

Set di dati di apprendimento automatico

Mall Customers Dataset (Set di dati clienti centro commerciale): Il set di dati dei clienti del centro commerciale contiene informazioni circa le persone che visitano il centro commerciale in una determinata città. Il set di dati è composto da varie colonne come sesso, ID cliente, età, reddito annuo e punteggio di spesa. Viene generalmente utilizzato per segmentare i clienti in base a età, reddito e interessi.

IRIS Dataset: Il set di dati di IRIS è un set di dati semplice e adatto ai principianti che contiene informazioni sul petalo del fiore e sulla larghezza del sepalo. I dati sono divisi in tre classi, con 50 righe in ciascuna classe. Viene generalmente utilizzato per la classificazione e la modellazione di regressione.

MNIST Dataset: Questo è un database di cifre scritte a mano. Contiene 60.000 immagini di addestramento e 10.000 immagini di prova. Questo è un set di dati perfetto per iniziare a implementare la classificazione delle immagini in cui è possibile classificare una cifra da 0 a 9.

Boston Housing Dataset: Contiene informazioni raccolte dal Us Census Service riguardanti l’area di Boston. È stato ottenuto dall’archivio StatLib ed è stato ampiamente utilizzato in tutta la letteratura per confrontare gli algoritmi.

Fake News Detection Dataset (Set di dati Rilevamento notizie false): È un file CSV che ha 7796 righe con quattro colonne. Ci sono quattro colonne: notizie, titolo, testo della notizia, risultato.

Wine quality dataset (Set di dati qualità vino): Il set di dati contiene diverse informazioni chimiche sul vino. Il set di dati è adatto per attività di classificazione e regressione.

SOCR data – Heights and Weights Dataset (Set di dati di altezze e pesi): Questo è un set di dati di base per i principianti. Contiene solo l’altezza e il peso di 25.000 diversi esseri umani con una età di 18 anni. Questo set di dati può essere utilizzato per costruire un modello in grado di prevedere l’altezza o il peso di un essere umano.

Titanic Dataset: Il set di dati contiene informazioni come nome, età, sesso, numero di fratelli a bordo e altre informazioni su 891 passeggeri nel set di addestramento e 418 passeggeri nel set del test.

Credit Card Fraud Detection Dataset (Set di dati rilevamento frodi con carta di credito): Il set di dati contiene transazioni effettuate con carte di credito; sono etichettati come fraudolente o regolari. Questo è importante per le aziende che dispongono di sistemi di transazione per creare un modello per il rilevamento di attività fraudolente.

Set di dati di visione artificiale

xView: xView è uno dei set di dati più grandi disponibili pubblicamente di immagini aeree. Contiene immagini di scene complesse in tutto il mondo, annotate utilizzando riquadri di delimitazione.

ImageNet: Il più grande set di dati di immagini per la visione artificiale. Fornisce un database di immagini accessibile che è organizzato gerarchicamente, secondo WordNet.

Kinetics-700: Un set di dati su larga scala di URL video da Youtube. Comprese le azioni incentrate sull’uomo. Contiene oltre 700.000 video.

Google’s Open Images (Immagini aperte di Google): Un vasto set di dati di Google AI contenente oltre di 10 milioni di immagini.

Cityscapes Dataset (Set dati paesaggi urbani): Questo è un set di dati open source “a fonte aperta” per i progetti di visione artificiale. Contiene annotazioni a livello di pixel di alta qualità di sequenze video scattate in 50 diverse strade della città. Il set di dati è utile nella segmentazione semantica e nell’addestramento di reti neurali profonde per comprendere la scena urbana.

IMDB-Wiki dataset: Il set di dati IMDB-Wiki è uno dei set di dati open source più estesi per le immagini dei volti etichettati per sesso ed età. Le immagini sono raccolte da IMDB e Wikipedia. Ha più di cinque milioni di immagini etichettate.

Color Detection Dataset (Set dati rilevamento colori): Il set di dati contiene un file CSV con 865 nomi di colore con i corrispondenti valori RGB (rosso, verde e blu) del colore. Ha anche il valore esadecimale del colore.

Stanford Dogs Dataset: Contiene 20.580 immagini e 120 diverse categorie di razze di cani.

Set di dati su Analisi sulle Interazioni tra utenti

Lexicoder Sentiment Dictionary: Questo set di dati è specifico per l’analisi delle interazioni. Il set di dati contiene oltre 3000 parole negative e oltre 2000 parole di sentimento positivo.

IMDB reviews (IMDB recensioni): Un interessante set di dati con oltre 50.000 recensioni di film di Kaggle.

Stanford Sentiment Treebank: Set di dati interazioni standard con annotazioni.

Twitter US Airline Sentiment: Dati Twitter sulle compagnie aeree statunitensi da febbraio 2015, classificati come tweet positivi, negativi e neutri.

Set di dati (NLP) elaborazione linguaggio naturale

The Big Bad NLP Database: Questo fantastico elenco di set di dati, ne contiene per varie attività di elaborazione del linguaggio naturale, creati e curati dalla Quantum Stat.

HotspotQA Dataset: Set di dati di risposta alle domande con domande multiple, con un’intensa supervisione a supporto dei fatti per abilitare sistemi di risposta alle domande più spiegabili.

Amazon Reviews (Recensioni Amazon): Un vasto set di dati di Amazon, contenente oltre 45 milioni di recensioni Amazon.

Rotten Tomatoes Reviews (Recensioni Rotten Tomatoes): Archivio di oltre 480.000 recensioni critiche (fresche o marce).

SMS Spam Collection in English: Set di dati costituito da 5.574 messaggi di spam SMS in inglese.

Enron Email Dataset: Contiene circa 0.5 milioni di email di oltre 150 utenti.

Recommender System Dataset: Contiene vari set di dati di siti Web popolari come recensioni di libri Goodreads, recensioni di prodotti Amazon, dati di bartending, dati di social media e altri che vengono utilizzati nella creazione di un sistema di raccomandazione.

UCI Spambase Dataset: Classificare le e-mail come spam o non spam è un’attività prevalente e utile. Il set di dati contiene 4601 messaggi di posta elettronica e 57 meta-informazioni sui messaggi di posta elettronica. Puoi creare modelli per filtrare lo spam.

IMDB reviews: L’ampio set di dati di recensioni di film è costituito da recensioni di film dal sito web di IMDB con oltre 25.000 recensioni per la formazione e 25.000 per il set di test.

Set di dati Guida Autonoma

Waymo Open Dataset: Questa è una fantastica risorsa di set di dati della gente di Waymo. Include un vasto set di dati di guida autonoma, sufficiente per addestrare reti profonde da zero.

Berkeley DeepDrive BDD100K: Uno dei più grandi set di dati per auto a guida autonoma, contenente oltre 2000 ore di esperienza di guida tra New York e la California.

Bosch Small Traffic Light Dataset: Set di dati per piccoli semafori per l’apprendimento profondo.

LaRa Traffic Light Recognition: Un altro set di dati per semafori. Questo set di dati è raccolto da Parigi.

WPI datasets: Set di dati per semafori, rilevamento pedoni e corsia.

Comma.ai: Contiene dettagli come la velocità, l’accelerazione, l’angolo di sterzata e le coordinate GPS di un’auto.

MIT AGE Lab: Un campione delle oltre 1.000 ore di set di dati di guida multi-sensore raccolti presso AgeLab.

LISA: LAboratory for Intelligent & Safe Automobiles, UC San Diego Datasets: Questo set di dati include segnali stradali, rilevamento dei veicoli, semafori e modelli di traiettoria.

Cityscape Dataset: Si tratta di un ampio set di dati con scene di strada in 50 città diverse.

Set di dati Clinici

COVID-19 Dataset: L’Istituto di ricerca Allen of AI ha rilasciato un vasto set di dati di ricerca di oltre 45.000 articoli accademici sul COVID-19.

MIMIC-III: Set di dati disponibile apertamente sviluppato dal Laboratorio MIT per Fisiologia Computazionale, comprendente dati sanitari autonomi, associati a 40.000 pazienti in terapia intensiva. Include dati demografici, segni vitali, test di laboratorio farmaci e altro.

Set di dati per sistemi di raccomandazione

MovieLens: Contiene i set di dati di valutazione dal sito web MovieLens.

Jester: Contiene 4,1 milioni di valutazioni continue (da -10,00 a +10,00) di 100 battute da 73.421 utenti. Viene utilizzato principalmente per il filtro collaborativo.

Million Song Dataset (Set Dati da un milione di brani): Può essere usato sia per il filtraggio collaborativo sia per quello basato sul contenuto.

 

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Newsletter Mensile

Iscriviti alla nostra newsletter mensile per restare sempre aggiornato e in contatto con noi.

Puoi sempre cancellare la tua email quando lo desideri, ma siamo davvero molto discreti (abbiamo poco tempo).

Link Privacy Policy