Magazine

Home » Magazine » I migliori Dataset pubblici per l’apprendimento automatico

I migliori Dataset pubblici per l’apprendimento automatico

I migliori Dataset pubblici per l’apprendimento automatico per Machine Learning e Data Science.

I finder di set di dati

Google Dataset Search: Similarmente al funzionamento di Google Scholar, Dataset Search ti permette di trovare i set di dati ovunque siano ospitati, che si tratti del sito di un editore, di una libreria digitale o della pagina Web di un autore. È un fenomenale ricercatore di set di dati e contiene oltre 25 milioni di set di dati.

Kaggle: Kaggle fornisce un vasto contenitore di set di dati, sufficiente sia per l’appassionato che all’esperto.

UCI Machine Learning Repository: Il Machine Learning Repository di UCI, fornisce una risorsa aggiornata per i set di dati opensource.

VisualData : Scopre i set di dati di visione artificiale per categoria.

CMU Libraries: Set di dati di alta qualità grazie alla collezione di Huajin Wang, presso CMU.

The Big Bad NLP Database: Questo fantastico elenco di set di dati, ne contiene per varie attività di elaborazione del linguaggio naturale, creati e curati dalla Quantum Stat.

Set di dati Generali

Set di dati geografici

Google-Landmarks-v2: Un set di dati migliorato per il riconoscimento e il recupero dei punti di riferimento. Questo set di dati contiene oltre 5 milioni di immagini com oltre 200.000 punti di riferimento da tutto il mondo, provenienti e annotate dalla comunità Wiki Commons.

Set di dati di apprendimento automatico

Mall Customers Dataset (Set di dati clienti centro commerciale): Il set di dati dei clienti del centro commerciale contiene informazioni circa le persone che visitano il centro commerciale in una determinata città. Il set di dati è composto da varie colonne come sesso, ID cliente, età, reddito annuo e punteggio di spesa. Viene generalmente utilizzato per segmentare i clienti in base a età, reddito e interessi.

IRIS Dataset: Il set di dati di IRIS è un set di dati semplice e adatto ai principianti che contiene informazioni sul petalo del fiore e sulla larghezza del sepalo. I dati sono divisi in tre classi, con 50 righe in ciascuna classe. Viene generalmente utilizzato per la classificazione e la modellazione di regressione.

MNIST Dataset: Questo è un database di cifre scritte a mano. Contiene 60.000 immagini di addestramento e 10.000 immagini di prova. Questo è un set di dati perfetto per iniziare a implementare la classificazione delle immagini in cui è possibile classificare una cifra da 0 a 9.

Altri migliori Dataset pubblici

Boston Housing Dataset: Contiene informazioni raccolte dal Us Census Service riguardanti l’area di Boston. È stato ottenuto dall’archivio StatLib ed è stato ampiamente utilizzato in tutta la letteratura per confrontare gli algoritmi.

Fake News Detection Dataset (Set di dati Rilevamento notizie false): È un file CSV che ha 7796 righe con quattro colonne. Ci sono quattro colonne: notizie, titolo, testo della notizia, risultato.

Wine quality dataset (Set di dati qualità vino): Il set di dati contiene diverse informazioni chimiche sul vino. Il set di dati è adatto per attività di classificazione e regressione.

SOCR data – Heights and Weights Dataset (Set di dati di altezze e pesi): Questo è un set di dati di base per i principianti. Contiene solo l’altezza e il peso di 25.000 diversi esseri umani con una età di 18 anni. Questo set di dati può essere utilizzato per costruire un modello in grado di prevedere l’altezza o il peso di un essere umano.

Titanic Dataset: Il set di dati contiene informazioni come nome, età, sesso, numero di fratelli a bordo e altre informazioni su 891 passeggeri nel set di addestramento e 418 passeggeri nel set del test.

Credit Card Fraud Detection Dataset (Set di dati rilevamento frodi con carta di credito): Il set di dati contiene transazioni effettuate con carte di credito; sono etichettati come fraudolente o regolari. Questo è importante per le aziende che dispongono di sistemi di transazione per creare un modello per il rilevamento di attività fraudolente.

I migliori Dataset pubblici di visione artificiale

xView: xView è uno dei set di dati più grandi disponibili pubblicamente di immagini aeree. Contiene immagini di scene complesse in tutto il mondo, annotate utilizzando riquadri di delimitazione.

ImageNet: Il più grande set di dati di immagini per la visione artificiale. Fornisce un database di immagini accessibile che è organizzato gerarchicamente, secondo WordNet.

Kinetics-700: Un set di dati su larga scala di URL video da Youtube. Comprese le azioni incentrate sull’uomo. Contiene oltre 700.000 video.

Google’s Open Images (Immagini aperte di Google): Un vasto set di dati di Google AI contenente oltre di 10 milioni di immagini.

Cityscapes Dataset (Set dati paesaggi urbani): Questo è un set di dati open source “a fonte aperta” per i progetti di visione artificiale. Contiene annotazioni a livello di pixel di alta qualità di sequenze video scattate in 50 diverse strade della città. Il set di dati è utile nella segmentazione semantica e nell’addestramento di reti neurali profonde per comprendere la scena urbana.

IMDB-Wiki dataset: Il set di dati IMDB-Wiki è uno dei set di dati open source più estesi per le immagini dei volti etichettati per sesso ed età. Le immagini sono raccolte da IMDB e Wikipedia. Ha più di cinque milioni di immagini etichettate.

Color Detection Dataset (Set dati rilevamento colori): Il set di dati contiene un file CSV con 865 nomi di colore con i corrispondenti valori RGB (rosso, verde e blu) del colore. Ha anche il valore esadecimale del colore.

Stanford Dogs Dataset: Contiene 20.580 immagini e 120 diverse categorie di razze di cani.

I migliori Dataset pubblici su Analisi sulle Interazioni tra utenti

Lexicoder Sentiment Dictionary: Questo set di dati è specifico per l’analisi delle interazioni. Il set di dati contiene oltre 3000 parole negative e oltre 2000 parole di sentimento positivo.

IMDB reviews (IMDB recensioni): Un interessante set di dati con oltre 50.000 recensioni di film di Kaggle.

Stanford Sentiment Treebank: Set di dati interazioni standard con annotazioni.

Twitter US Airline Sentiment: Dati Twitter sulle compagnie aeree statunitensi da febbraio 2015, classificati come tweet positivi, negativi e neutri.

Set di dati (NLP) elaborazione linguaggio naturale

The Big Bad NLP Database: Questo fantastico elenco di set di dati, ne contiene per varie attività di elaborazione del linguaggio naturale, creati e curati dalla Quantum Stat.

HotspotQA Dataset: Set di dati di risposta alle domande con domande multiple, con un’intensa supervisione a supporto dei fatti per abilitare sistemi di risposta alle domande più spiegabili.

Amazon Reviews (Recensioni Amazon): Un vasto set di dati di Amazon, contenente oltre 45 milioni di recensioni Amazon.

Rotten Tomatoes Reviews (Recensioni Rotten Tomatoes): Archivio di oltre 480.000 recensioni critiche (fresche o marce).

SMS Spam Collection in English: Set di dati costituito da 5.574 messaggi di spam SMS in inglese.

Enron Email Dataset: Contiene circa 0.5 milioni di email di oltre 150 utenti.

Recommender System Dataset: Contiene vari set di dati di siti Web popolari come recensioni di libri Goodreads, recensioni di prodotti Amazon, dati di bartending, dati di social media e altri che vengono utilizzati nella creazione di un sistema di raccomandazione.

UCI Spambase Dataset: Classificare le e-mail come spam o non spam è un’attività prevalente e utile. Il set di dati contiene 4601 messaggi di posta elettronica e 57 meta-informazioni sui messaggi di posta elettronica. Puoi creare modelli per filtrare lo spam.

IMDB reviews: L’ampio set di dati di recensioni di film è costituito da recensioni di film dal sito web di IMDB con oltre 25.000 recensioni per la formazione e 25.000 per il set di test.

I migliori Dataset pubblici per la Guida Autonoma

Waymo Open Dataset: Questa è una fantastica risorsa di set di dati della gente di Waymo. Include un vasto set di dati di guida autonoma, sufficiente per addestrare reti profonde da zero.

Berkeley DeepDrive BDD100K: Uno dei più grandi set di dati per auto a guida autonoma, contenente oltre 2000 ore di esperienza di guida tra New York e la California.

Bosch Small Traffic Light Dataset: Set di dati per piccoli semafori per l’apprendimento profondo.

LaRa Traffic Light Recognition: Un altro set di dati per semafori. Questo set di dati è raccolto da Parigi.

WPI datasets: Set di dati per semafori, rilevamento pedoni e corsia.

Comma.ai: Contiene dettagli come la velocità, l’accelerazione, l’angolo di sterzata e le coordinate GPS di un’auto.

MIT AGE Lab: Un campione delle oltre 1.000 ore di set di dati di guida multi-sensore raccolti presso AgeLab.

LISA: LAboratory for Intelligent & Safe Automobiles, UC San Diego Datasets: Questo set di dati include segnali stradali, rilevamento dei veicoli, semafori e modelli di traiettoria.

Cityscape Dataset: Si tratta di un ampio set di dati con scene di strada in 50 città diverse.

Set di dati Clinici

COVID-19 Dataset: L’Istituto di ricerca Allen of AI ha rilasciato un vasto set di dati di ricerca di oltre 45.000 articoli accademici sul COVID-19.

MIMIC-III: Set di dati disponibile apertamente sviluppato dal Laboratorio MIT per Fisiologia Computazionale, comprendente dati sanitari autonomi, associati a 40.000 pazienti in terapia intensiva. Include dati demografici, segni vitali, test di laboratorio farmaci e altro.

Set di dati per sistemi di raccomandazione

MovieLens: Contiene i set di dati di valutazione dal sito web MovieLens.

Jester: Contiene 4,1 milioni di valutazioni continue (da -10,00 a +10,00) di 100 battute da 73.421 utenti. Viene utilizzato principalmente per il filtro collaborativo.

Million Song Dataset (Set Dati da un milione di brani): Può essere usato sia per il filtraggio collaborativo sia per quello basato sul contenuto.

data science, database, dataset, dati, machine learning, ml

Condividi questo articolo

NetAi è una società 100% italiana di consulenza informatica, fondata con l’obiettivo principale di sviluppare software di integrazione e implementare algoritmi di intelligenza artificiale per migliorare e ottimizzare i processi aziendali.

Autore

Categorie articoli

Seguici anche su Telegram!

Per iscriverti al nostro canale ufficiale

CLICCA QUI

Newsletter

Iscriviti alla nostra newsletter!

Siamo poco invasivi, il tempo lo utilizziamo molto bene.

Inizia a Ottimizzare con l’AI

I migliori Dataset pubblici per l’apprendimento automatico

Tabella dei contenuti

I finder di set di dati

Set di dati Generali

Set di dati geografici

Set di dati di apprendimento automatico

Altri migliori Dataset pubblici

I migliori Dataset pubblici di visione artificiale

I migliori Dataset pubblici su Analisi sulle Interazioni tra utenti

Set di dati (NLP) elaborazione linguaggio naturale

I migliori Dataset pubblici per la Guida Autonoma

Set di dati Clinici

Set di dati per sistemi di raccomandazione

Condividi questo articolo

Integrare la Generative AI in azienda

I database vettoriali pesano più degli originali?

Function Calling

Naive Bayes Classifier (Classificatore Bayesiano)

Come faccio a capire se l’AI porterà veramente valore aggiunto alla mia azienda?

Seguici anche su Telegram!

Rendi i tuoi processi aziendali più efficienti e competitivi