Conjuntos de datos disponibles públicamente


168

Uno de los problemas comunes en la ciencia de datos es reunir datos de varias fuentes en un formato de alguna manera limpio (semi-estructurado) y combinar métricas de varias fuentes para hacer un análisis de nivel superior. Al observar el esfuerzo de otras personas, especialmente otras preguntas en este sitio, parece que muchas personas en este campo están haciendo un trabajo repetitivo. Por ejemplo, analizar tweets, publicaciones de Facebook, artículos de Wikipedia, etc. es parte de muchos problemas de big data.

Se puede acceder a algunos de estos conjuntos de datos mediante las API públicas proporcionadas por el sitio del proveedor, pero por lo general, algunas API o información valiosa faltan y todos tienen que hacer los mismos análisis una y otra vez. Por ejemplo, aunque la agrupación de usuarios puede depender de diferentes casos de uso y la selección de características, tener una agrupación base de usuarios de Twitter / Facebook puede ser útil en muchas aplicaciones de Big Data, que no es proporcionada por la API ni disponible públicamente en conjuntos de datos independientes .

¿Existe algún índice o sitio de alojamiento de conjuntos de datos disponible públicamente que contenga conjuntos de datos valiosos que puedan reutilizarse para resolver otros problemas de big data? Me refiero a algo como GitHub (o un grupo de sitios / conjuntos de datos públicos o al menos una lista completa) para la ciencia de datos. Si no es así, ¿cuáles son las razones para no tener una plataforma para la ciencia de datos? El valor comercial de los datos, necesita actualizar con frecuencia conjuntos de datos, ...? ¿No podemos tener un modelo de código abierto para compartir conjuntos de datos diseñados para científicos de datos?


18
Esta pregunta podría ser más apropiada en los datos abiertos dedicados.SE . Dicho esto, cruzo los dedos por dat , que aspira a convertirse en un "Git para datos".
ojdo

2
@ojdo Gracias, nunca escuché sobre opendata.SE antes, también encontré esta pregunta interesante (y muy similar) allí.
Amir Ali Akbari


No he encontrado ningún buen conjunto de datos completo y gratuito para aplicaciones típicas de Business Intelligence. El conjunto de datos de demostración de Microsoft Contoso BI para la industria minorista de la descarga oficial del Centro de descarga de Microsoft funciona con algunos productos de Microsoft (consulte AndyGett en SharePoint y otro software empresarial ), pero no veo ningún volcado de sql o csv, ni ninguna información de licencia .
nealmcb

1
¿Te has unido al Open Data Stack Exchange? opendata.stackexchange.com
sss4r

Respuestas:


88

De hecho, existe una lista muy razonable de conjuntos de datos disponibles al público, respaldados por diferentes empresas / fuentes.

Algunos de ellos están a continuación:

Ahora, dos consideraciones sobre su pregunta. Primero, sobre las políticas de intercambio de bases de datos. Por experiencia personal, hay algunas bases de datos que no se pueden poner a disposición del público, ya sea por restricciones de privacidad (como para alguna información de redes sociales) o por información gubernamental (como las bases de datos del sistema de salud).

Otro punto se refiere al uso / aplicación del conjunto de datos. Aunque algunas bases pueden reprocesarse para adaptarse a las necesidades de la aplicación, sería genial tener una buena organización de los conjuntos de datos por propósito. La taxonomía debe incluir análisis de gráficos sociales, minería de conjuntos de elementos, clasificación y muchas otras áreas de investigación que pueda haber.


64

37

Hay muchos conjuntos de datos disponibles abiertamente, uno que muchas personas suelen pasar por alto es data.gov . Como se mencionó anteriormente, Freebase es genial, también lo son todos los ejemplos publicados por @Rubens




25

Para los datos de series de tiempo en particular, Quandl es un recurso excelente: un directorio fácilmente navegable de (principalmente) series de tiempo limpias.

Una de sus características más interesantes son los precios de las acciones de datos abiertos , es decir, datos financieros que se pueden editar al estilo wiki, y no están gravados por las licencias.


20

Enigma es un repositorio de conjuntos de datos públicos disponibles. Su plan gratuito ofrece búsqueda de datos públicos, con 10 mil llamadas API por mes. No se enumeran todas las bases de datos públicas, pero la lista es suficiente para casos comunes.

Lo utilicé para la investigación académica y me ahorró mucho tiempo.


Otra fuente interesante de datos es el proyecto @unitedstates , que contiene datos y herramientas para recopilarlos, sobre los Estados Unidos (miembros del Congreso, formas geográficas ...).


18

Me gustaría señalar el Censo de datos abiertos . Es una iniciativa de Open Knowledge Foundation basada en contribuciones de defensores de datos abiertos y expertos de todo el mundo.

El valor del Censo de datos abiertos es un esfuerzo abierto, impulsado por la comunidad y sistemático para recopilar y actualizar la base de datos de conjuntos de datos abiertos a nivel mundial en el país y, en algunos casos, como EE. UU., A nivel de la ciudad .

Además, presenta una oportunidad para comparar diferentes países y ciudades en áreas de interés seleccionadas.


18

También hay otro recurso provisto por The Guardian, el British Daily en su sitio web. Los conjuntos de datos publicados por Guardian Datablog están todos alojados. Conjuntos de datos relacionados con las cuentas de los clubes de la Premier League de fútbol, ​​la inflación y los detalles del PIB del Reino Unido, los datos de los premios Grammy, etc. Los conjuntos de datos están disponibles en

Algunos recursos más. Algunos de los conjuntos de datos están en formato R o existen comas R para importar datos directamente a R.


17

Búsqueda personalizada de Google

Puede usar la Búsqueda personalizada de Google para conjuntos de datos:

Búsqueda personalizada de Google: conjuntos de datos

Incluye 230 fuentes y meta-fuentes de conjuntos de datos, incluidos todos los mencionados en esta pregunta. Por favor, siéntase libre de excluir .gov y cualquier otro sitio web de los resultados agregando "-.gov" o "-site.com" a la línea de búsqueda. Otros operadores de búsqueda de Google funcionan.

No dude en ponerse en contacto conmigo si tiene ideas sobre qué sitios web agregar.

IOGDS

El siguiente servicio clasifica más de 1,000,000 de conjuntos de datos públicos:

IOGDS: Búsqueda internacional de conjuntos de datos de gobierno abierto


¿Cuáles son los parámetros para el enlace de búsqueda personalizado que proporcionó? ¿Busca en una lista de sitios web, palabras clave, etc.?
Amir Ali Akbari

@AmirAliAkbari Busca en fuentes como Data.gov, Quandl y otros grandes almacenes de datos.
Anton Tarasenko

16

Respuesta tardía, pero aquí hay una lista ecléctica de más de 100 conjuntos de datos interesantes

La publicación del blog es divertida y fácil de leer (no tengo afiliación). Vale la pena escanear y raspar algunos desde la parte superior:

  • Últimas palabras de cada interno de Texas ejecutado desde 1984

  • 10,000 imágenes anotadas de gatos

  • 2,2 millones de partidas de ajedrez




15

El Gobierno del Reino Unido proporciona una excelente fuente de datos no personales recopilados en todos los departamentos gubernamentales: http://data.gov.uk


14

Soy nuevo en este foro. Tocando tarde esta pregunta. He estado manteniendo (soy cofundador de) un catálogo de portales de datos disponibles públicamente. Ahora hay más de 1000 en la lista y cubren portales a nivel internacional, federal, estatal, municipal y académico en todo el mundo.

http://www.opengeocode.org/opendata/


14

Me sorprende que uno no haya mencionado esto, ya que parece bastante obvio: http://www.kaggle.com tiene constantemente conjuntos de datos nuevos y muy interesantes. La información se considera un activo, por lo que a menudo las empresas no quieren divulgar esos datos (más las preocupaciones de privacidad). Kaggle le brinda datos y esperan que resuelva los problemas comerciales con ellos a cambio.


14

1
¿Puede proporcionarnos alguna información sobre ambos conjuntos de datos / enlaces? De hecho, esto aliviará la carga de quienes buscan tipos específicos de conjuntos de datos. Echa un vistazo a otras publicaciones para ver qué tipo de información faltan tus referencias.
Rubens

11

Como mencionó, la API es la parte difícil, no los datos. Quandl parece resolver este problema al proporcionar más de 10 millones de conjuntos de datos disponibles públicamente en una API RESTful fácil. Si la programación no es su fuerte, hay una herramienta gratuita para facilitar la carga de datos en Excel. Además, si lo hace disfrutar de la programación, hay varias bibliotecas nativas en R, Python, Java y más .





9

Otra fuente de datos que no vi en la lista es el Proyecto GDELT . Desde el sitio:

El Proyecto GDELT monitorea las transmisiones, publicaciones impresas y web de todo el mundo desde casi todos los rincones de cada país en más de 100 idiomas e identifica a las personas, ubicaciones, organizaciones, recuentos, temas, fuentes y eventos que impulsan a nuestra sociedad global cada segundo de cada día, creando una plataforma abierta y gratuita para la informática en todo el mundo.



6

Creé un repositorio github para esto. Los conjuntos de datos no son grandes, pero son ejemplos mínimos destinados a practicar y explorar técnicas de modelado predictivo que luego pueden extenderse a grandes conjuntos de datos.

Biblia de problemas de aprendizaje automático (MLPB)

Lo bueno / único de este repositorio es que cada problema está etiquetado con etiquetas como [multiclase], [datos no balanceados], [regresión], etc., lo que facilita encontrar ciertos tipos de problemas / conjuntos de datos.



6

Además de todos estos conjuntos de datos, si está interesado en datos relacionados con la India. El sitio público oficial del gobierno indio es

Proporciona conjuntos de datos de diferentes departamentos del gobierno indio que se pueden usar bien para el análisis de Big Data y el aprendizaje automático.



4

Simplemente cargamos el paquete MASS en R y accedemos a múltiples marcos de datos o conjuntos de datos.

install.packages ("MASS") requiere ("MASS")


3

3 conjuntos de datos de https://www.jc-bingo.com/about

  • visitor-assets.csv Intereses de visitantes agregados compilados en base a registros de acceso web de 1 semana. Incluye la dirección IP del visitante, la cadena de agente de usuario, el país del visitante, los idiomas y los temas a los que se accede. 19,926 registros, 2.9 Mb.
  • user-agents.csv Agentes de usuarios visitantes reales ordenados por popularidad. 4.826 registros, 716 Kb.
  • bots.csv Direcciones IP de robot y cadenas de agente de usuario extraídas de los registros de acceso web. 1.293 registros, 122 Kb.

3

Obviamente, existe un gran conjunto de bases de datos públicas.

Uno aún no mencionado, es de la FAO (Organización de las Naciones Unidas para la Agricultura y la Alimentación), accesible en:

http://www.fao.org/faostat/

Contiene datos sobre la producción de alimentos para países de todo el mundo.