Calidad en la Reutilización de la Información Pública

5estrellasAunque muchas administraciones, ciudades y empresas hacen públicos sus datos, no toda la información tiene el mismo grado de reutilización. Las administraciones se autodenominan «transparentes» cuando dejan su información en sitios web. Por otro lado, uno de los elementos claves de las smartcities es hacer que sus sensores, información sobre su gestión y datos que aportan los ciudadanos sean accesibles. Las empresas que tienen como objetivo mejorar su responsabilidad social corporativa ofrecen a sus clientes los datos de inversión y buenas prácticas. Pero hacer los datos públicos no implica directamente que sean útiles.

¿A quién le puede servir una gran cantidad de PDFs de actas sin catalogar, o imágenes digitales con información presupuestaria situadas en un directorio accesible en la web? Es información pública y abierta, pero es muy poco reutilizable. Este es el elemento clave si realmente se desea que la información pueda ser útil: la reutilización. Para reutilizar, se necesita que los datos sean en el mayor grado posible, identificables, manejables y comparables. Para ello, la información debe estar perfectamente catalogada, debe conocerse el significado que tiene cada término, se debe poder consultar de manera precisa, y debe permitir comparar los datos con otras fuentes de datos similares. La idea de lograr el máximo nivel de reutilización en los datos con formatos abiertos, siguiendo las recomendaciones de la W3C (consorcio internacional para desarrollar estándares Web), se denomina linked data. Por lo tanto, open linked data, es el uso de tecnología consensuada para conseguir hacer que los datos estén en formatos abiertos y con el máximo nivel de reutilización.

Con el objetivo de poder definir el grado de reutilización de los datos que las empresas, organizaciones y administración ponen accesibles en la web, en 2010 Tim Berners-Lee (director del W3C) publicó el documento denominado “Is your Linked Open Data 5 Stars?”. Esta clasificación se hizo para fomentar la calidad de los datos publicados por los gobiernos e instituciones, según su grado de reutilización. Es decir, un dato de mayor calidad, implica que está en un formato más adecuado para poder ser reutilizado. Se presenta un sistema de evaluación de la información, con el que se espera mejorar la correcta publicación de los datos en formatos abiertos enlazables.

El requisito principal de todos los datos que entran en esta clasificación, es que tengan libre acceso, de ahí que se hable de “Open Linked data”. El sistema de puntuación funciona con estrellas: a mayor calidad, más estrellas. Los niveles son los siguientes:

1 Estrella: La información está publicada en la Web en cualquier formato. De este modo podemos considerar que publicamos en Opendata; sin embargo la información no está estructurada, por lo que es difícil de reutilizar. Pongamos como ejemplo un fichero PDF o una imagen escaneada. Se debe señalar que esta información no es legible directamente por un ordenador. Un sistema software, por regla general, no puede interpretar la información de una redacción en un fichero PDF ni acceder a un dato que aparezca en una imagen.

Las ventajas como consumidor: Se puede acceder, imprimir, guardar y compartir la información libremente.
Las ventajas para el publicador: Es simple publicar esta información y no requiere ningún esfuerzo para añadir información útil para que sea reutilizable.

2 Estrellas: La información es accesible de manera que es «legible» por un ordenador, y se encuentra estructurada (con alguna división interna, por campos, niveles, indexada, etc). Esto significa que un programa software es capaz de acceder a un dato concreto dentro de un documento que esté en la web (por ejemplo una celda de Excel). Para extraer la información del documento se depende de un software propietario. Un ejemplo puede ser una tabla Excel, o una base de datos en Oracle.
Se debe indicar que existen grados en estas 2 estrellas: una columna de una hoja Excel puede no tener cabecera (por lo que no se sabe qué son esos datos) o puede tener un nombre sin significado (Campo239).

Las ventajas como consumidor: Se mantienen las ventajas que teníamos con una estrella, pero además podemos utilizar los datos con la ayuda del software propietario para agregar, visualizar o modificar la información.
Ventajas para el publicador: Es sencillo publicar, porque suele ser la forma habitual en la que mantienen esta información (en sus propios ordenadores). No han tenido que realizar ningún proceso de transformación de los datos.

3 Estrellas: La información se encuentra accesible y estructurada de manera que sea legible por un ordenador, pero no está en un formato propietario, sino en software libre. Por ejemplo, en lugar de una tabla en Excel tendríamos una hoja de cálculo en Openoffice o un CSV (ficheros de texto, donde cada campo se separa por comas).

Las ventajas para el consumidor: Todas las que ofrece la publicación de dos estrellas, pero además se puede manipular la información sin estar condicionados a ningún software en particular.
Ventajas para el publicador: Sigue siendo sencillo publicar. El único inconveniente, es que posiblemente necesite algún complemento para trasladar la información, si no se encuentra en estándares propietarios, a otros que no lo sean.

4 Estrellas: Cumple con lo establecido en las tres estrellas y además se utilizan estándares y formatos abiertos recomendados por el W3C (RDF/OWL y SPARQL). El paso de 3 estrellas a 4 estrellas es muy significativo, y hace que la información sea realmente reutilizable por las personas y por aplicaciones web que directamente pueden consultar esta información. Tras este paso se puede decir que los datos se encuentran en la Web, en lugar de sobre la Web. Se utilizan los mecanismos propios de la Web y el conjunto de herramientas que proporciona la W3C para este propósito.
Una administración o una empresa con 4 estrellas en el nivel de reutilización es la que realmente tiene una política de datos abiertos adecuada. Es la que apuesta sin duda por hacer útiles sus datos a los ciudadanos o clientes, y tendrá un plan estratégico sobre apertura de datos.
Cada elemento de información de Internet (pongamos como ejemplo, una adjudicación concreta de una obra a un proveedor), se identifica unívocamente con una dirección URI de Internet (http://datos.AytoVillaArriba.es/obras/2013#Obra7342334). Esta URI puede contener (como ejemplo) toda la información de una obra en un ayuntamiento perfectamente catalogada y con todos los campos identificados (descripción de la adjudicación, cantidad de licitación, fecha de adjudicación, identificación del proveedor, etc). Estos esquemas de datos, donde cada término, valores que pueden tomar, y enlaces con otros términos están perfectamente definidos se denominan ontologías.

Las ventajas para el consumidor: Además de las que teníamos con 3 estrellas, ahora la información es perfectamente identificable y se pueden enlazar datos de otros lugares, ya sea localmente o desde la web (por ejemplo, puede enlazarse a otra URI de otro servidor, donde se encuentre identificado al proveedor). Se puede reutilizar toda la información o fragmentos de los datos como una entidad con peso por sí misma. Esta representación es proclive a que librerías y herramientas software puedan ser reutilizadas entre diferentes conjuntos de datos. Al utilizar URIs como esquema de nombramiento se puede compartir y utilizar recursos de diferentes servidores (denominados datasets). Como inconveniente, es necesario que los consumidores conozcan estos estándares de la W3C de representación de la información. Lo ideal es que los suministradores de información, abran sus datos en estos formatos estándar de la W3C (RDF/OWL) y también coloquen la misma información en formatos más simples (html, Excel, CSV, PDF, etc). El paso desde formatos RDF/OWL a estos últimos es muy simple.

Como publicador también hay que adaptarse a la metodología. Es necesario dividir la información en pequeños fragmentos, lo que puede conllevar un esfuerzo considerable si no hay cultura de base de linked data. Si se quiere usar un modelo de URIs correcto para representar los datos, se debe realizar un proceso de definición preciso de cada unidad de representación que compone el recurso de información (definir qué es una unidad de licitación, qué es y qué formato tiene la fecha de adjudicación, etc). La parte positiva es que podemos tener un control totalmente preciso sobre la información que exponemos al poder ser dividida en elementos perfectamente identificables.

Tener los datos identificados unívocamente en todo el sistema de URIs con un nivel de detalle en cada unidad de información es indispensable para compartir y reutilizar la información. Es el paso que abre la posibilidad de tener datos enlazados, es decir, Linked Data.

5 Estrellas: Cumple con todo lo citado anteriormente, pero además se enlazan datos de otras entidades, utilizando esquemas de datos consensuados. Siguiendo el ejemplo, puede que el Ayto de Villa Arriba haya definido un modelo preciso y bien definido de la información que va a tener sus adjudicaciones de obra (es decir, tenga bien especificada una ontología sobre obras). Tendría entonces las 4 estrellas. En cambio, si el Ayto de Villa Abajo tiene otro esquema de datos diferente (es decir, otra ontología también perfectamente definida siguiendo las recomendaciones de la W3C, pero con nombres de términos diferentes), no se podrían hacer consultas en común. Lo ideal es que se intenten seguir y reutilizar esquemas de definición de datos consensuados o propuestos por organismos superiores (supongamos que una comunidad autónoma ha definido el esquema de los datos de forma concreta para las adjudicaciones de obra de los ayuntamientos). Si se hace de esta forma, se puede decir que se han conseguido las 5 estrellas.

Las ventajas para el consumidor: El consumidor puede aprovechar las posibilidades de interconexión para descubrir nuevos datos interesantes relacionados. Se pueden hacer consultas a varios lugares de información (a diferentes conjuntos de datos situados en diferentes servidores) que interrelacionen los datos. Por ejemplo, se pueden hacer consultas complejas como que se muestren todas las adjudicaciones en la comunidad autónoma a «Construcciones Pepe» en los últimos tres meses, o el gasto total en obras de acerado en ayuntamientos de más de 5000 habitantes.

Como publicador, este nuevo cambio hace que estos datos que se hacen públicos sean más fáciles de descubrir. También añade un valor al conjunto de datos publicados, ya que se incluye información relacionada de otros publicadores. Pero claro, para hacer esto posible, organismos superiores administrativos deben tener una política bien definida, y hay que invertir recursos en enlazar nuestra información con la información de otros o siguiendo los esquemas consensuados que se proponen. Este es el espíritu y objetivo final de open linked data.

Fuentes de este documento:

Los 5 niveles de reutilización de los datos abiertos de Bernes-Lee

Debate sobre los datos en y sobre la web

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.