Conjuntos de dados públicos para Machine Learning

Os conjuntos de dados (datasets) são parte importante do desenvolvimento, teste e execução de modelos de aprendizado de máquina ou Machine Learning (ML). Sabemos que, se forem necessários dados específicos de um tópico, criá-los ou coletá-los será um processo demorado na maioria dos casos. É por isso que os conjuntos de dados públicos podem ajudar a melhorar a produtividade, reduzindo a necessidade de criá-los do zero.

Nos anos recentes, múltiplas organizações criaram e compartilharam milhares de conjuntos de dados públicos para ajudar com os avanços na indústria tecnológica. Entre os datasets públicos mais populares estão ImageNet e MNST. Na atualidade, conjuntos de dados públicos estão disponíveis para uso em verticais como classificação de imagens, reconhecimento facial, clima, detecção de objetos e muito mais.

Com certeza, os conjuntos de dados públicos podem ser úteis no desenvolvimento de modelos de ML que abordam problemas como doenças cardíacas, secas, diabetes e a pobreza. Porém, é necessário entender os desafios que podem se apresentar, inclusive ao nível ético. Tomemos, por exemplo, o reconhecimento facial: catalogar rostos de pessoas é uma invasão de privacidade no domínio público.

Na seção abaixo, 25 conjuntos de dados ou datasets públicos são listados:

Nome	Criador	Descrição
AWS	Vários	Hospedado publicamente
Google	Vários	Hospedado publicamente
Kaggle	Kaggle	Hospedado publicamente
Microsoft	Muitas	Hospedado publicamente
Notre Dame	Universidade de Notre Dame	Rostos 3D
VisualData.io	VisiualData.io	Visão computacional
ACS	Censo dos EUA	Dados demográficos detalhados dos Estados Unidos
ApolloScape	Baidu	Condução autônoma
Berkeley DeepDrive	UC Berkeley	Conjunto de dados de vídeo
Data USA	Deloitte e outros	Dados com questões dos Estados Unidos
Diabetes	UCI	Dados de pacientes com Diabetes
El Niño Dataset	UCI	Leituras oceanográficas e meteorológicas
Feret	DOD/NIST	Segurança pública
HAR Dataset	UCI	Reconhecimento de atividades humanas – sentar-se, ir de bicicleta, estar em pé…
Heart Disease	UCI	Dados individuais – idade, sexo, …
ImageNet	Universidade de Stanford	Banco de dados de imagens
Movieslens	GroupLens	Classificações de filmes
Million Song	Kaggle	Música
Netflix Prize	Netflix	Classificações de filmes
Open Images	Google	Imagens
Overhead Imagery Research Dataset	ORID	Imagens aéreas
SAT-4 Airborne Dataset	ASU	Imagens de paisagens
Serre Lab	Brown University	Ações humanas como sorrir, rir, conversar, fumar…
SIFT10M Dataset	UCI	O método de algoritmo de “pesquisa do vizinho mais próximo”
SpaceNet	SpaceNet	Imagens de satélite de alta resolução

Post Views: 167

Conjuntos de dados públicos para Machine Learning

Categories

Algoritmos e IA: Uma Análise do GA

Modelos de IA generativa: LaMDA

Modelos de IA generativa: ChatGPT

Web Crawlers nos Motores de Busca

Modelos de Inteligência Artificial Generativa

Visualização Interativa na Era dos Dados: Plotly