Resumen de Outlier identification in industrial processes: a new method

Ayuda

Resumen de Outlier identification in industrial processes: a new method

Manuel Castejón Limas, Joaquín Bienvenido Ordieres Meré, Ana González Marcos, Alpha Verónica Pernía Espinoza

español
La incorporación de las Tecnologías de la Información a los procesos industriales abre la puerta a la mejora de la calidad de los mismos a través de nuevos métodos de análisis y modelización. La ingente cantidad de información disponible gracias al registro en una base de datos de las señales del proceso permiten adentrarnos en su estructura intrínseca sin las mermas redundantes de la desconsideración de efectos ni las suposiciones de linealidad usuales.

No obstante, las herramientas de minería de datos disponibles, son susceptibles de errar en sus resultados por la presencia en las bases de datos de trabajo de valores cuyo comportamiento se aleja de los patrones observados. Resulta prudente, como paso previo a la modelización del proceso, discriminar entre aquellas muestras "excéntricas" que se apartan del comportamiento general, de aquellas otras útiles para la elaboración de un modelo. En este artículo se presentan los resultados obtenidos por un algoritmo de creación propia, capaz de identificar datos excéntricos en conjuntos de datos de carácter industrial.

El algoritmo se encuentra implementado en un lenguaje de programación gratuito y de libre acceso (R) y su aplicación ha resultado útil no sólo en la mejora de los modelos matemáticos de predicción de diferentes industrias, sino también en la determinación de las causas que originaron la presencia de datos excéntricos en la muestra.

A lo largo del artículo se hilvana la relación que existe entre las técnicas de identificación de casos atípicos, los algoritmos de análisis cluster y de análisis discriminante: cómo los primeros son imprescindibles para el propósito planteado, y cómo los segundos proporcionan una interpretación de los resultados obtenidos.
English
The application of IT technologies in the industrial field has opened the door to the quality improvement by means of the use of modern analysis methods. The colossal amount of information available by virtue of the databases where process signals are recorded, afford us to break into the intrinsic structure of the process without the redounding quality shrink due to second order effects or linearity assumptions.

Nevertheless, available data mining tools, are error-prone before databases with samples whose behavior is not akin to the observed patterns. Seems interesting, as a previous phase in modeling, to identify amongst those outlying samples that differ from the general behavior, from those useful in order to build a representative model.

In this paper, we show the results obtained by our new algorithm, capable of identifying outliers in industrial data sets.

The algorithm has been implemented in a free programming environment (R) and its results have proven useful not only in the improvement of the quality of the prediction models, but also in the determination of the origins of the outliers in the data.

In the following pages, we show the existing relationships amongst the outlier identification techniques, the cluster and discriminant analysis algorithms, how the formers are indispensable for the planned pursuit, and how the latter provide a mean of interpretation for the obtained results

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Coordinado por: