Conjuntos de dados públicos para Machine Learning

Os conjuntos de dados (datasets) são parte importante do desenvolvimento, teste e execução de modelos de aprendizado de máquina ou Machine Learning (ML). Sabemos que, se forem necessários dados específicos de um tópico, criá-los ou coletá-los será um processo demorado na maioria dos casos. É por isso que os conjuntos de dados públicos podem ajudar a melhorar a produtividade, reduzindo a necessidade de criá-los do zero. 

Nos anos recentes, múltiplas organizações criaram e compartilharam milhares de conjuntos de dados públicos para ajudar com os avanços na indústria tecnológica. Entre os datasets públicos mais populares estão ImageNet e MNST. Na atualidade, conjuntos de dados públicos estão disponíveis para uso em verticais como classificação de imagens, reconhecimento facial, clima, detecção de objetos e muito mais. 

Com certeza, os conjuntos de dados públicos podem ser úteis no desenvolvimento de modelos de ML que abordam problemas como doenças cardíacas, secas, diabetes e a pobreza. Porém, é necessário entender os desafios que podem se apresentar, inclusive ao nível ético. Tomemos, por exemplo, o reconhecimento facial: catalogar rostos de pessoas é uma invasão de privacidade no domínio público. 

Na seção abaixo, 25 conjuntos de dados ou datasets públicos são listados:

Nome Criador Descrição
AWS Vários Hospedado publicamente
Google Vários Hospedado publicamente
Kaggle Kaggle Hospedado publicamente
Microsoft Muitas Hospedado publicamente
Notre Dame Universidade de Notre Dame Rostos 3D
VisualData.io VisiualData.io Visão computacional
ACS Censo dos EUA Dados demográficos detalhados dos Estados Unidos
ApolloScape Baidu Condução autônoma
Berkeley DeepDrive UC Berkeley Conjunto de dados de vídeo
Data USA Deloitte e outros Dados com questões dos Estados Unidos
Diabetes UCI Dados de pacientes com Diabetes
El Niño Dataset UCI Leituras oceanográficas e meteorológicas
Feret DOD/NIST Segurança pública
HAR Dataset UCI Reconhecimento de atividades humanas – sentar-se, ir de bicicleta, estar em pé…
Heart Disease UCI Dados individuais – idade, sexo, …
ImageNet Universidade de Stanford Banco de dados de imagens
Movieslens GroupLens Classificações de filmes
Million Song Kaggle Música
Netflix Prize Netflix Classificações de filmes
Open Images Google Imagens
Overhead Imagery Research Dataset ORID Imagens aéreas
SAT-4 Airborne Dataset ASU Imagens de paisagens
Serre Lab Brown University Ações humanas como sorrir, rir, conversar, fumar…
SIFT10M Dataset UCI O método de algoritmo de “pesquisa do vizinho mais próximo”
SpaceNet SpaceNet Imagens de satélite de alta resolução
Scroll to Top