Reflexionando sobre el Open Data

En los últimos tiempos hemos sido testigos de un crecimiento acelerado de portales basados en Datos Abiertos, también conocidos como Open Data, así como a la aparición de nuevas tecnologías aplicadas en la reutilización y visualización de los mismos. Parece como si, de repente, la publicación de datos se hubiese puesto de moda no sólo para aumentar la transparencia, sino también para aumentar la cooperación entre las administraciones e incentivar la participación ciudadana. Sin embargo, quizás nadie se haya parado a pensar si realmente los datos de estas fuentes de información están verdaderamente preparados para el uso analítico que se va a hacer de los mismos. ¿Son del todo fiables los datos publicados?, ¿son válidos para ser utilizados como base de futuros estudios?.

Un portal de Open Data no debe limitarse a publicar de manera masiva grandes conjuntos de datos con poca o ninguna relación entre ellos y sin ningún orden mínimamente coherente. No se trata de recopilar información de todo tipo y publicarla en una página web con cientos de miles de datasets. Debemos llegar más allá y para eso necesitamos garantizar que se cumplen unos requisitos mínimos de idoneidad antes de publicar la información.

Open Data vs Reutilización de datos

Por ello, a través de este artículo he querido exponer, los tres pilares básicos que considero debemos tener en cuenta antes de decidir qué información reúne los requisitos básicos para publicarla en nuestro portal de Open Data. Aquellos datos que no cumplan estos tres conceptos, no deberían ser válidos para formar parte de nuestro conjunto de datos disponibles.

Uno de los objetivos principales del Open Data es facilitar la reutilización de datos

El primer aspecto importante a tener en cuenta es el nivel de detalle de la información. Disponer de datos al nivel más bajo de desagregación (entendiéndose como bajo, con las características básicas que lo definen presentes en su recolección; lugar, ámbito geográfico, fecha, estado,…), es muy importante, ya que siempre es posible agrupar para hacer análisis más generales pero no lo inverso.  Se trata de hacer prevalecer los microdatos frente a los macrodatos. Por ejemplo, si los datos son recogidos a través de una encuesta a nivel de calle, ¿por qué limitarnos a publicar los resultados a nivel nacional en lugar de hacerlo a nivel municipal y dejar al usuario que los agregue a provincia, comunidad autónoma o por país si así lo desea? Hoy en día, la mayor parte de las administraciones estatales que recopilan y posteriormente publican la información (véase el Instituto Nacional de Estadística, el Ministerio de Sanidad,…) lo hacen a un nivel muy agregado con la consecuente pérdida de análisis. Recordemos que uno de los objetivos principales del Open Data es facilitar la reutilización de datos, añadiéndoles valor para los usuarios finales. ¿Cuántas veces habremos tenido que renunciar a publicar estudios más concretos y concisos de un determinado indicador porque una de las variables que intervienen en su cálculo se encuentra a un nivel superior de desagregación? En esos casos, nos vemos obligados a obtener un resultado cuyo nivel de agregación coincide con el más agregado de las variables presentes en la fórmula.

Un elevado nivel de agregación nos limitará las futuras oportunidades de reutilización

Al ciudadano le preocupa cada vez más lo que sucede a su alrededor, pero no le basta con meros datos agregados. Por ejemplo, en lo que respecta a datos económicos, no todos los municipios son iguales y por tanto, proporcionar un resultado a nivel nacional no basta. Algunos tienen más densidad de población, otros son más turísticos, costeros, industriales; las combinaciones que podemos emplear para compararlos son infinitas. En definitiva, un elevado nivel de agregación nos limitará las futuras oportunidades de reutilización y por tanto, probablemente carecerá de interés para la mayoría de los analistas.

Otro de los aspectos importantes es su periodicidad. Resulta esencial disponer de datos publicados de una forma continua, no necesariamente en tiempo real pero sí sin intermitencias en la dimensión temporal que se haya escogido para su publicación, que nos permita hacer un análisis continuo de su evolución en el tiempo. indicador complejoEn estudios donde se utilizan indicadores complejos (aquellos en los que intervienen dos o más variables en su cálculo provenientes de una o más fuentes) es importante utilizar datos que correspondan al mismo periodo temporal, evitando así las estimaciones o proyecciones con el fin de obtener unos resultados más aproximados a la realidad. Es decir, por lo general salvo algunas excepciones (cálculo de varianzas, etc,…) no es lógico combinar variables de diferentes años para realizar el cálculo de un indicador anual.

Desde luego, siempre resulta muy interesante disponer de datos para poder hacer multitud de análisis y cuantos más mejor, independientemente de qué organismo u organismos han sido los encargados de recolectarlos, pero lo es aún más, tener la certeza de que se trata de fuentes fiables capaces de generar datos bien estructurados y normalizados que nos permitan realizar análisis comparativos más complejos y llegar aún más lejos en nuestros resultados. En este punto, debemos distinguir entre las fuentes primarias que generan la información y las fuentes secundarias que las recolectan para a su vez volverlas a publicar en su correspondiente portal. En ocasiones, veremos cómo los datos publicados por la fuente primaria no siempre coinciden con los correspondientes datos de la fuente secundaria. Hay que considerar  cada cuanto tiempo la fuente secundaria recolecta la información (diariamente, mensualmente…) cada cuánto la vuelven a publicar (en el mismo momento que la reciben, una vez al final del año, tras aplicar procesos de consolidación,…) así como su fiabilidad (¿se trata de una organización pública o de un portal cualquiera encontrado por internet?).

La situación ideal sería recolectar los datos directamente de las fuentes primarias

Para que puedan ser reutilizables, los datos no sólo deben ser veraces sino además estar disponibles. Este es uno de los motivos por los que siempre es recomendable utilizar datos con un alto grado de actualización. Evidentemente, la situación ideal sería recolectar los datos directamente de las fuentes primarias pero por lo general esto no se hace, bien porque consume muchos recursos (muchas fuentes primarias), bien porque la información no está estandarizada (cada fuente tiene su propia estructura) o bien porque simplemente no la publican.

aspectos claros del open data

La conclusión a la que quiero llegar con esta reflexión es que el diseño y mantenimiento de un portal Open Data no es una tarea sencilla limitada a la publicación de vastos conjuntos de datos en un portal web. Los datos deben estar bien estructurados, fiables, con alto nivel de detalle y muy actualizados para que puedan ser válidos a los procesos de reutilización y análisis posteriores. De otro modo, no tendrían valor para los usuarios finales.

Comentarios (0)

Usuario no registrado

Lo sentimos pero la introducción de comentarios está restringido a los usuarios registrados en el portal.