Resumen de Generación de métodos basados en inteligencia artificial para el análisis de datos medioambientales: aplicaciones prácticas

Ayuda

Resumen de Generación de métodos basados en inteligencia artificial para el análisis de datos medioambientales: aplicaciones prácticas

Beatriz Díaz Gómez

español
En los últimos tiempos se ha puesto de manifiesto la gran importancia del análisis de datos con vistas a la búsqueda de modelos y a la diferencia de información nueva y relevante, En concreto, en ciencias medioambientales estas tareas de análisis son de especial importancia debido a la paulatina degradación ambiental que sufre nuestro entorno y que requiere actuaciones urgentes y de gran precisión.

La investigación que se presenta en este trabajo de tesis es el fruto de la integración de dos áreas de conocimiento bien conocidas; las áreas de inteligencia artificial y de ciencias medioambientales, con el objetivo de diseñar y desarrollar métodos de análisis y de inferecnia de modelos que permitan explorar nuevos aspectos de los problemas medioambientales a partir de un conjunto de observaciones. Habitualmente estos problemas presentan una gran complejidad que limita, en muchos casos, la eficacia de las técnicas estadísticas de inferencia para la extracción de información o conocimiento. La metodología propuesta pretende ser una ayuda útil y complementaria a los estudios estadísticos. La memoria presenta otdas las fases del diseño y del desarrollo de un sistema de extracción de conocimiento en bases de datos (Knowledge Discovery Database - KDD) que ha sido implementado teniendo en cuenta características propias de los datos y muestreos medioambientales. Entre las aportaciones principales se encuentra una sistema de inferencia de modelos que utiliza un procedimiento de aprendizaje automático, en concreto aprendizaje basado en ejemplos. El sistema genera modelos fácilmente interpretables ya que el conocimiento viene representado por un conjunto de reglas Si-entonces. En este sistema de inferencia de modelos se ha implementado un algoritmo genético como método de búsqueda de los mejores conjuntos de reglas que permite evitar la explotación sesgada del espacio de posibles soluciones (modelos) que presentan otros procedimientos de búsqueda. Además como parte del sistema KDD desarrollado, se ha implementado una herramienta de ayuda a la recogida georeferenciada de datos en tiempo que los almacena, en tiempo real, en una base de datos relacional con un formato que permite el tratamiento posterior de la información almacenada con un Sistema de Información Geográfica.

El conjunto de herramientas desarrolladas se aplican a un problema medioambiental; el control de malas hierbas en sistemas agrícolas, unade las líneas centrales de la denominada agricultura de precisión, área que desde las perspectivas ecológica y económica busca una gestión óptima de los productos agroquímicos empleados en los tratamientos fitosanitarios. En concreto el análisis que se presenta en la memoria va encaminado a la obtención, a partir de un conjunto de datos, de modelos basados en reglas que expliquen, en función de parámetros ambientales y para un mismo campo, la existencia de una mayor cantidad de malas hierbas en unas zonas del cultivo frente a otras. El conocimiento incluido en los modelos extraídos aporta información de utilidad que puede plasmarse en un mapa de riesgo que permita asesorar en la aplicación precisa de herbicida sólo en las zonas del cultivo que lo requieran y en una dosis ajustada a cada situación de infestación. Los datos utilizados para la obtención de los modelos provienen de varias parcelas de cereal de invierno situadas en la Comunidad de Madrid y en la provincia de Barcelona y de dos tipos de mala hierba (Avena sterilis L. y Lolium rigidum G.). Asimismo, los conjuntos de reglas obtenidos con la metodología propuesta se han contrastado con los modelos genarados, para el mismo conjunto de datos, con algoritmos comerciales como C&RT y C5.0, dando como resultado una mejora en la calidad de los modelos inducidos con los métodos desarrollados, es decir que nuestros modelos describen con mayor exactitud y confianza las observaciones de partida.
English
Recently, data analysis has made a great impact in the search for models and the inference of new and relevant information. These analytical tasks are especially important in the environmental sciences because of the slow ecological degradation of our environment, which needs to be addressed by urgent action based and high-precision analyses.

The Ph.D. work presented here is based on the combination of two well known areas of knowledge: Artificial Inteligence and Environmental Science. The goal of this study was to design and develop methods for analyzing data and inferring modeis that allow people to explore new aspects of these environmental problems based on observations. Commonly, these problerns are very complex, and in many cases this complexity makes it difficult to use techniques of statistical inference for knowledge discovery. The proposed methodology is intended to be a useful and complementary aid to the use of statistical studies. The text describes every stage of desiguand development of a system of Knowledge Discovery Database (KDD). The implementation of the system was based on the characteristic features of environmental data and samples. The main novel contribution is a system to infer models using a Machine Learning procedure, specifically, examples-based learning. The modeis generated by the system are easily interpretable, because the knowledge is expressed as a set of If—Then rules. The Machine Learning procedure that searches for best rale sets is a genetic algorithm, which avoids the biased exploration of possible solutions (models), which is common to other search methods. In addition, as part of the developed KDD system, a tool has been implemented that aids in fleid sampling tasks, allowing people to gather and stone georefenced data in real time in a spatial database, which can then be managed by a Geographic Information System.

The set of developed tools was used to study a specific environmental problem: site specific weed management of agriculture systems, which is a main line of nesearch in Precision Agniculture (PA). From a ecologícal and economical perspective, PA looks for an optimal management of the chemicals used for weed and crop management. The analysis presented here is directed toward the discovery, based on sets of data, of rule-based models that explain in terms of environmental parameters the uneven distribution of weeds in winter cereal crop fields.

The knowledge gained from the discovered models gives information that can be used to create risk maps. These maps would allow a selective and appropriate application of herbicide only to those cultivated areas where weeds might appear.

Data for this study came from several fields of cereal located in the province of Madrid and the province of Barcelona, both of which had infestations of A vena sterilis L. In the Barcelona fleid Lolium rigidum G was also present.

Moreover, the discovered rule sets using the proposed methodology were compared with models generated by comercial algorithms (CPRT y C5. O) using the same data sets. This comparison demonstrated that the tool presented in this research discovered models with higher quality (accuracy and/or confidence) than did the comercial tools.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Coordinado por: