Aviso: Este es un post antiguo, puede que su información esté desactualizada. Si está buscando algo sobre un evento actual, tenga en cuenta que puede que este no sea el que busca.
Durante el pasado fin de semana (20-23) celebramos el 3er Open Data Day Granada con un hackathon en el que la idea principal era usar datos libres para llevar a cabo diferentes proyectos. El evento, que consiguió reunir en torno a 30 personas (de las cuales había un gran número de personas no relacionadas con el campo de la informática), comenzó el viernes por la mañana en la ETSIIT con charlas sobre transparencia en la información y la exposición de las ideas con las que se iban a trabajar en los 3 grupos de desarrollo organizados, continuó por la tarde en las instalaciones del CITIC con diversos talleres de herramientas que podrían ser de utilidad para desarrollo de los proyectos.
El evento dio comienzo con la presentación del mismo por parte de JJ Merelo, en la que transmitió su idea de que significa que los datos sean transparentes hoy en día y como la información representa el poder, para finalizar diciendo que “la información es poder dormir mejor”.
Seguidamente empezó a hablar también sobre transparencia y los datos abiertos, pero además desde el punto de vista del “gobierno abierto”, un tipo de gobierno basado en transparencia gubernamental, participación ciudadana en el debate público, rendición de cuentas por parte de los políticos para el cumplimiento de las leyes y el acceso a la tecnología e innovación que serán las que faciliten que todo esto se haga posible.
Después de un descanso, se inició la exposición de las ideas en las que se trabajaría durante el fin de semana, abriendo con Incho Cordero y el periodismo de datos. La motivación de su idea esta basada en los recientes resultados publicados del Índice Transparencia de los Ayuntamientos en el que ayuntamiento de Granada obtenía la peor nota de toda España, hecho que se pone de manifiesto cuando vemos que enlaces de licitaciones públicas que encontramos en la página del ayuntamiento no funcionan.
La siguiente idea es presentada por Pablo García y Antonio Fernández, y consiste en trabajar en el Proyecto PETRA para la predicción del estado del tráfico mediante los datos abiertos que proporciona la DGT. Explicando como mediante el proyecto Sipesca quieren desarrollar un sistema de información autónomo mediante el cual puedan recolectar, siempre de forma anónima, los datos de transito de las vías mediante conexión WiFi, Bluetooth y RFID con dispositivos que se encuentren en los vehículos o transeúntes, para así poder predecir posibles usos de las vías.
La última idea en ser presentada corría a cargo de Mario Heredia, en la que basándose en su experiencia de trabajo como parte del equipo de desarrollo de la plataforma de transparencia de la Universidad de Granada (http://transparente.ugr.es/ – http://opendata.ugr.es/), propuso varias ideas de trabajo para desarrollar como son: analizar matriculaciones en las diferentes ramas de conocimiento, estudiar el porcentaje de mujeres y hombres en las diferentes titulaciones o comparar los datos publicados por las universidades que contaran con un portal de transparencia; una vez obtenidos estos datos y después de ser analizados, se intentaría llegar a una conclusión sobre los mismos.
Una vez que todas las ideas fueron expuestas, llegó el momento de hacer una pausa durante unas horas que los asistentes aprovecharon para intercambiar ideas mientras tomaban un relajado almuerzo. Ya por la tarde comenzaron los talleres, siendo el primero de ellos llevado a cabo por Pablo Hinojosa y consistente en explicar de forma simplificada el trabajo con Git, un sistema de control de versiones que facilita enormemente el trabajo colaborativo, además de ser muy eficiente y que tiene una gran confiabilidad. Comenta como su funcionamiento aunque desde un entorno de línea de comandos es muy amigable debido a la cantidad de información que obtenemos ante cualquier incidencia, además de explicar las distintas etapas del trabajo con Git para que cualquier que quiera usarlo no tenga miedo por no tener un gran conocimiento informático previo.
El siguiente taller se explica como hacer scraping de datos (que consiste en extraer información), además de formas de extraer datos de un archivo en formato PDF y diferentes fuentes de datos comunes. Para el scraping nos presenta herramientas como HTTrack que nos permiten obtener todo el contenido de una página web directamente, además de explicar que dicho scraping también se puede hacer desarrollando aplicaciones en lenguajes como Perl o Python. Seguidamente presenta aplicaciones como Tabula, con las que se puede extraer información de archivos PDF, aunque alguna veces el resultado no es especialmente bueno porque este formato tiene una edición más bien cerrada. Por último, da a conocer programas como Pentaho, que nos permitirán procesar fuentes de datos comunes para procesar su información y obtener un valioso conocimiento de los datos que lo forman.
Para finalizar el programa del primer día, otra vez JJ Merelo cierra con un taller sobre plataformas para visualizado de datos y la importancia que tiene este aspecto a la hora de presentar el resultado. Son 3 las soluciones que expone, la primera CartoDB, una plataforma que nos permite montar un servicio en la nube y mapas web con los datos que se podrán visualizar desde cualquier navegador, además, esta tiene la particularidad de ser una empresa open source española. La siguiente plataforma es Google Fusion Tables, un servicio de Google que nos permite almacenar datos en tablas y luego nos permitirá visualizar esos datos en forma de distintos tipos de gráficos: líneas, barras, circulares, etc, además de poder visualizarlos también en mapas geográficos basados en Google Maps. La última alternativa presentada fue ShinyApps, una plataforma como servicio que permite almacenar aplicaciones web Shiny, un framework para aplicaciones echas en R, uno de los lenguaje de programación más usados en investigaciones estadísticas y el ámbito matemático, así que es una solución que nos permite realizar también trabajos de visualizar de datos en gráficos o mapas, pero con una complejidad mayor.
Ya con todos los retos expuestos y los talleres concluidos, se organizaron los diferentes equipos para comenzar el trabajo de resolver los problemas planteados. Se empezaron a crear repositorios en GitHub, documentos online de Google Docs, grupos en Telegram, cualquier cosa que pudiera ayudar a organizar el trabajo en una fase tan temprana del proyecto.
Grupo 1:
Grupo 2: Repositorio GitHub
Grupo 3: Repositorio GitHub
Si algo caracteriza a un hackathon es el corto periodo de tiempo en el que se desarrolla la actividad, por lo que todo el proceso de trabajo tiene que ser muy ágil, así que para ir informando de en qué estaban trabajando varios de los participantes usaron los hashtag #OpenDataDay y #SmartCityHack en Twitter, como podemos ver aquí o aquí. En lo que sí estaban de acuerdo la mayoría, es que la cantidad de información era de tal magnitud, que difícilmente podrían tener un proyecto terminado en un fin de semana, pero serviría de inicio para lo que podían ser interesantes proyectos.
Llega el día de la presentación de los resultados y los grupos se vuelven a reunir en el CITIC para terminar sus presentaciones. El primer equipo, que iba a investigar los contratos de contratación menores del Ayuntamiento de Granada, expone para empezar las dificultades que han tenido para extraer la información con la disponían para trabajar ya que en su mayoría provenía de archivos PDF, además comentan como anécdota que curiosamente había recursos con datos que desaparecieran de repente mientras estaban trabajando, lo que motivaría más todavía este tipo de proyectos de investigación por la transparencia. Terminan comentando las conclusiones que han sacado de las cifras de los contratos con los que han trabajado.
Siguen las presentaciones, y es el turno del grupo de trabajo del Proyecto PETRA. Comienzan comentando la metodología de trabajo que han seguido para continuar hablando sobre el trabajo que han desarrollado: scraping de datos de los recursos de la DGT, conocimiento de datos Bluetooth y el estudio de APIs de tráfico. La anécdota de este grupo fue cuando contaron que habían realizado una videoconferencia con otro grupo de trabajo de un hackathon de Lituania y como pudieron tener una pequeña conversación sobre sus proyectos. Para la visualización de sus datos usaron Google Fusion Tables, cuyo resultando mostraron durante la exposición.
La última exposición, fue la llevada a cabo por los participantes que se habían unido por un fin de semana a nosotros, al equipo desarrollador de la plataforma de transparencia de la UGR, llevado a cabo desde la propia Oficina de Software Libre de la Universidad de Granada. Al final nuestro reto fue el de realizar comparaciones entre los datos abiertos que ponen a disposición de todo el mundo las diferentes universidades públicas andaluzas, lo que nos llevó a exponer el primer problema que encontramos, la poca homogeneidad en el tipo de datos disponibles en cada una de las plataformas, porque mientras que unas plataformas te daban datos de poco interés analítico; como es el caso de la publicación de los índices de satisfacción del alumnado, no daban otros que consideraríamos más interesante, como pueden ser los índices de rendimiento académico; había otras que ni siquiera publicaban los datos como tal, publicaban gráficos referentes a los datos. También intentamos realizar una pequeño análisis económico relacionado con los datos de matriculación, pero la información disponible era bastante escasa, por lo que terminamos llegando a la conclusión de que hay universidades que van el buen camino en cuanto a transparencia, pero a otras les queda un largo camino que recorrer.
Y con esto finalizó el evento, en el que según la opinión de los participantes había sido un gran experiencia (aunque también un gran esfuerzo por tantas horas de trabajo). Este ha sido solo el primer evento del año, esperamos poder hacer muchos más y contar con vuestra asistencia. Así que muchas gracias a todos y esperamos veros en el próximo!
Deja una respuesta