José Luis Zechinelli Martini es doctor en Ciencias de la Computación y maestro en Sistemas de Información y Comunicaciones por la Universidad Joseph Fourier (Universidad de Grenoble Alpes). Ingeniero en Sistemas Computacionales por la Universidad de las Américas Puebla.Es investigador en el marco del proyecto de cooperación GALILEAN sobre arquitecturas cloud “Just in Time” para procesamiento masivo de datos. Su investigación se centra en los problemas asociados a la integración de colecciones de Big Data en diferentes infraestructuras y la especificación de lenguajes de consulta espaciotemporales y de visualización para recuperar datos multimedia y multiformes de servicios distribuidos.
En la actualidad, recopilar grandes cantidades de datos es fácil y económico, incluso en tiempo real. Esta accesibilidad se extiende a campos como las Ciencias de la Vida y la Tierra, donde se puede recopilar información sobre nuestro planeta y su biodiversidad desde diversas fuentes. Sin embargo, la calidad y fiabilidad de estos datos varía, lo que influye en nuestra comprensión del mundo. Los métodos tradicionales para manejar los datos, como el proceso Extracción, Transformación y Carga (ETL), no siempre son suficientes para satisfacer las necesidades de estos campos científicos. En cambio, los "data lakes" o lagos de datos—repositorios donde se almacenan datos en bruto—están ganando popularidad. Estos pueden almacenar enormes cantidades de datos sin procesar procedentes de fuentes digitales, redes sociales y observaciones de campo.
En las Ciencias de la Vida y la Tierra, plataformas digitales especializadas llamadas "dataversos" almacenan y analizan datos. Estas plataformas aseguran que los datos estén bien organizados, facilitando a los investigadores su búsqueda y uso. Los dataversos apoyan la ciencia abierta al fomentar la colaboración entre diferentes disciplinas, lo cual es crucial para avanzar en nuestra comprensión del mundo.
Un aspecto clave en el uso de datos en estas ciencias es el mantenimiento de metadatos—información que captura las condiciones bajo las cuales se realizan los experimentos. Esto ayuda a preservar la historia del experimento y asegura que otros puedan replicar los hallazgos. Otro factor esencial es adoptar un enfoque de ciencia abierta, que promueva no solo el intercambio de datos, sino también el intercambio de conocimientos, procesos de toma de decisiones y experiencia.
El proyecto LETITIA (1), apoyado por la Federación de Informática de Lyon, involucra a científicos de México (UDLAP), Uruguay (Universidad de la República), Brasil (Universidad de São Paulo, Universidad Federal de Paraná y Universidad Federal de Río Grande del Norte), y Francia (Laboratorios LIRIS y ERIC). El objetivo es crear un lago de datos para las Ciencias de la Vida y la Tierra, donde los datos y metadatos de diversos experimentos puedan ser recopilados, integrados y analizados. Este lago de datos permite a investigadores y público en general explorar y curar datos, facilitando el intercambio y aprovechamiento del conocimiento acumulado.
El proyecto LETITIA visualiza la construcción y mantenimiento de un lago de datos que integre continuamente nuevos datos experimentales. Estos datos curados se comparten luego a través de dataversos, proporcionando un recurso completo y accesible para la comunidad científica.
El lago de datos se está probando en escenarios del mundo real a través de colaboraciones con experta(o)s en sismología y biodiversidad de Brasil (2). El enfoque está en dos experimentos piloto:
Detección de Terremotos: El primer experimento involucra la clasificación de señales sísmicas recogidas de varias estaciones de observación. El objetivo es distinguir entre terremotos "naturales" y aquéllos causados por la actividad humana en el norte de Brasil.
Estudio de la Vida Marina: El segundo experimento se centra en la "carabela portuguesa" (Physalia physalis), un organismo marino en la costa brasileña. La(o)s investigadores clasifican las observaciones de esta especie y modelan su comportamiento.
En ambos casos, la(o)s investigadores utilizarán métodos estadísticos para descubrir nuevos patrones en los datos, ayudando a resolver problemas existentes o generar nuevas preguntas de investigación. También desarrollarán modelos predictivos para comprender mejor estos fenómenos naturales. Los datos recopilados, junto con los resultados e interpretaciones, se almacenarán en el lago de datos, asegurando que puedan ser utilizados para investigaciones y descubrimientos futuros. Este enfoque profundizará nuestra comprensión del planeta y sus complejos sistemas.
Los lagos de datos y los dataversos son herramientas poderosas para gestionar y compartir datos científicos en las Ciencias de la Vida y la Tierra. Al mantener datos de alta calidad y adoptar una perspectiva de ciencia abierta, la(o)s investigadores pueden mejorar su comprensión de fenómenos complejos y contribuir al conocimiento global.