En todo proyecto basado en machine learning (aprendizaje máquina), una de las primeras etapas y a su vez la más crítica es la correcta recopilación y categorización de datos. En el caso de PREIGNEO, esta recopilación se divide en dos ejes fundamentales: por una parte, descargar las imágenes del satélite Sentinel-2 que puedan ser de interés, y por otra, determinar aquellas zonas con riesgo de incendio que sean susceptibles de ser consideradas como ejemplos positivos para el entrenamiento.
Los datos de los satélites Sentinel-2 son accesibles públicamente a través del programa Copernicus de la Agencia Espacial Europea (ESA). Se dispone de una plataforma para poder descargar las imágenes en función de una zona concreta, así como en el periodo temporal que se desee. Estas imágenes ofrecen hasta 12 bandas de información, incluyendo tanto el espectro visible (RGB) como bandas del espectro infrarrojo, a partir de las cuales se pueden generar diversos índices de vegetación. En nuestro caso, se realizará un estudio de varios años, centrado sobre todo en los meses más susceptibles de sufrir incendios debido a las altas temperaturas. Para procesar todas estas imágenes, se hará uso del software propio ofrecido por la ESA para este tipo de procesamientos, denominado SNAP (Sentinel Application Platform). Este software, nos permitirá, entre otras cosas, calcular el índice NDVI de todos los píxeles de interés para su posterior análisis.
Por otra parte, y gracias a INFOEX, podemos obtener una catalogación de aquellas zonas declaradas como Zonas de Alto Riesgo (ZAR), de acuerdo a la legislación reguladora de Prevención de los Incendios Forestales en la Comunidad Autónoma de Extremadura. Dentro de estas zonas, se ha seleccionado concretamente la zona noreste de Extremadura, centrada en la comarca de La Vera y las comarcas limítrofes a Talayuela, debido a su gran interés estratégico tanto por el turismo como por la cantidad de explotaciones agrarias situadas en dicha zona.
Una vez descargadas las imágenes de satélite, categorizados los datos en ejemplos positivos (Zona de Alto Riesgo) y negativos (fuera de esta zona), será necesario también aplicar un filtrado a los datos, de manera que evitemos aquellas imágenes tomadas en días con una nubosidad alta, o incluso descartar regiones de las imágenes que no sean de interés, como pueden ser edificaciones, charcas o lagunas, ríos, caminos y carreteras, etc. En este momento ya estaríamos en disposición de comenzar el análisis de los datos.
Recordamos también que en la cuenta de twitter del proyecto PREIGNEO se pueden encontrar noticias relacionadas con el proyecto y con otras cuestiones innovadoras relacionadas con el sector agroganadero.