Hemos escuchado mil veces la expresión «vivimos en la era de la información». Los científicos suelen definir la información como un «conjunto de datos procesados». En la actualidad los datos son muy importantes en cualquier área del conocimiento. Por ejemplo, hoy en día se escucha mucho el término Big Data aplicado a cualquier rama de conocimiento, desde la medicina para detectar y prevenir enfermedades, hasta la cultura, para recomendar películas a las personas asociadas a una plataforma digital. Los datos pueden ser de muchos tipos, pero todos ellos se suelen distribuir y agrupar de igual forma, en conjuntos de datos. Los conjuntos de datos abiertos nos ofrecerán una gran libertad en cuanto a su uso y distribución, lo que hará que aumente el valor de estos.
¿A qué llamamos conjunto de datos?
Un conjunto de datos o dataset puede ser definido como «una colección de datos que han sido recolectados con un objetivo específico». Por su uso mayoritario en las ciencias de la computación, muchas veces los conjuntos de datos se definen como «colecciones de datos recolectados con el objetivo de ser procesados por un ordenador». Los dataset pueden estar formados por uno o varios archivos relacionados entre ellos o incluso ser sistemas más elaborados, como una bases de datos.
¿Qué es un conjunto de datos abierto?
Los conjuntos de datos abiertos nacen de un concepto aún mayor: el Open Data. Open data es un movimiento que busca promover el uso de licencias libres sobre los datos, con una filosofía parecida a la de otros movimientos, como puede ser la Open Sciencie o el Open Source. El Open Data busca liberar conjuntos de datos con licencias que permitan el uso de estos por cualquier persona. Los beneficios que persigue el movimiento Open Data serán principalmente:
- No tener límite a la hora de usar los datos, siendo libre cualquier persona u organización de usar, distribuir, combinar, modificar y en algunos casos hacer un uso comercial de estos.
- Ofrecer una forma de contribución, para que otras personas puedan ampliar ese conjunto, dándole valor o completando la información de este. Por ejemplo, un conjunto de datos generado en el hospital de Granada al liberarlo, se ofrece la posibilidad de que ese conjunto de datos sea ampliado, completado o enriquecido por otros centros sanitarios que recolecten datos de la misma naturaleza.
- Proporcionan una libertad de uso que permite utilizar los datos tanto con el objetivo para el que fueron recolectados como con cualquier otro. Además, son ajenos a cualquier plataforma, por lo que podrás usarlos con la herramienta con la que te sientas más cómodo.
- Ser transparente a la hora de justificar el porque se toman varias decisiones en un determinado ámbito basándose en los datos recolectado. Por ejemplo, Si un determinado ayuntamiento decidiera cortar la circulación en alguna vía esa decisión debería estar apoyada por datos que la abalen. Ese conjunto de datos sería un candidato perfecto para ser liberado y podría incluir: cantidad de peatones que pasan por esa vía a lo largo del día, cantidad de vehículos que pasan por esa vía y todo esto recolectado históricamente.
Los conjuntos de datos abiertos son importantes no solo por el uso que se le vaya a dar a los datos, si no en muchos casos, por la naturaleza de estos. Muchas organizaciones gubernamentales ofrecen repositorios con muchos de sus datos. Un ejemplo es la Organización Mundial de la Salud. Imagina el beneficio que ofrece que datos sobre enfermedades, factores de riesgo, o tratamientos relacionados con la salud, puedan ser usados por cualquier persona ajena a la OMS que investigue en el mismo área para contribuir a nuevos descubrimientos en la medicina.
¿Qué debería cumplir un conjunto de datos abierto?
Cualquier recurso abierto debería seguir unos principios en su creación y desarrollo para facilitar el uso de este. Con este objetivo en 2016 la revista científica Scientific Data publicó en el artículo «The FAIR Guiding Principles for scientific data management and stewardship«, el cual incluía una serie de guías para facilitar y mejorar el manejo y publicación de datos. Este sistema se fue estandarizando después de que en la convención del G20 de 2016 se recomendase su uso. Tras esto, diversas organizaciones de prestigio comenzaron a recomendar su uso.
Las siglas de FAIR corresponden a Findable (fácil de encontrar), Accessible (Accesible), Interoperable y Reusable (Reutilizable):
- Findability: Los datos deben ser fáciles de encontrar, tanto por personas como por máquinas. Para esto deben de tomarse medidas como usar identificadores únicos para los conjuntos y los datos, además de acompañar a los datos con información clara y explícita. Esta información clara y explícita asociada se le denominan metadatos.
- Accessible: Se debe facilitar el acceso a los datos. Aquí se debe contemplar el uso de sistemas de envío y comunicación estandarizados.
- Interoperable: Debe facilitarse el uso de los datos en diferentes aplicaciones o flujos de trabajo. Para esto deben usarse formatos abierto e incluir referencias si estas son necesarias. Uno de los formatos abiertos más usado para los conjuntos de datos es csv.
- Reusable: Los datos, deben poder reutilizarse. Esto hará que a partir de unos datos se puedan conseguir mejores resultados en base al trabajo colaborativo. Un claro ejemplo es la investigación. En el ámbito de la informática se usan conjuntos de datos para entrenar modelos predictivos. Imagina que a partir de unos datos se consigue un modelo predictivo que obtiene resultados correctos en un 80% de los casos. Liberar los conjuntos de datos puede producir que personas puedan, a partir de tu investigación, obtener mejores resultados y contribuir al progreso de la investigación.
Deja una respuesta