Os conjuntos de dados (datasets) são parte importante do desenvolvimento, teste e execução de modelos de aprendizado de máquina ou Machine Learning (ML). Sabemos que, se forem necessários dados específicos de um tópico, criá-los ou coletá-los será um processo demorado na maioria dos casos. É por isso que os conjuntos de dados públicos podem ajudar a melhorar a produtividade, reduzindo a necessidade de criá-los do zero.
Nos anos recentes, múltiplas organizações criaram e compartilharam milhares de conjuntos de dados públicos para ajudar com os avanços na indústria tecnológica. Entre os datasets públicos mais populares estão ImageNet e MNST. Na atualidade, conjuntos de dados públicos estão disponíveis para uso em verticais como classificação de imagens, reconhecimento facial, clima, detecção de objetos e muito mais.
Com certeza, os conjuntos de dados públicos podem ser úteis no desenvolvimento de modelos de ML que abordam problemas como doenças cardíacas, secas, diabetes e a pobreza. Porém, é necessário entender os desafios que podem se apresentar, inclusive ao nível ético. Tomemos, por exemplo, o reconhecimento facial: catalogar rostos de pessoas é uma invasão de privacidade no domínio público.
Na seção abaixo, 25 conjuntos de dados ou datasets públicos são listados:
Nome | Criador | Descrição | ||
AWS | Vários | Hospedado publicamente | ||
Vários | Hospedado publicamente | |||
Kaggle | Kaggle | Hospedado publicamente | ||
Microsoft | Muitas | Hospedado publicamente | ||
Notre Dame | Universidade de Notre Dame | Rostos 3D | ||
VisualData.io | VisiualData.io | Visão computacional | ||
ACS | Censo dos EUA | Dados demográficos detalhados dos Estados Unidos | ||
ApolloScape | Baidu | Condução autônoma | ||
Berkeley DeepDrive | UC Berkeley | Conjunto de dados de vídeo | ||
Data USA | Deloitte e outros | Dados com questões dos Estados Unidos | ||
Diabetes | UCI | Dados de pacientes com Diabetes | ||
El Niño Dataset | UCI | Leituras oceanográficas e meteorológicas | ||
Feret | DOD/NIST | Segurança pública | ||
HAR Dataset | UCI | Reconhecimento de atividades humanas – sentar-se, ir de bicicleta, estar em pé… | ||
Heart Disease | UCI | Dados individuais – idade, sexo, … | ||
ImageNet | Universidade de Stanford | Banco de dados de imagens | ||
Movieslens | GroupLens | Classificações de filmes | ||
Million Song | Kaggle | Música | ||
Netflix Prize | Netflix | Classificações de filmes | ||
Open Images | Imagens | |||
Overhead Imagery Research Dataset | ORID | Imagens aéreas | ||
SAT-4 Airborne Dataset | ASU | Imagens de paisagens | ||
Serre Lab | Brown University | Ações humanas como sorrir, rir, conversar, fumar… | ||
SIFT10M Dataset | UCI | O método de algoritmo de “pesquisa do vizinho mais próximo” | ||
SpaceNet | SpaceNet | Imagens de satélite de alta resolução |