Publication:
The Mahalanobis distance for functional data with applications in statistical problems

Loading...
Thumbnail Image
Identifiers
Publication date
2015-03
Defense date
2015-06-16
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
Functional data refer to data which consist of curves evaluated at a finite subset of some interval in the real line. In this thesis, we deal with this type of data, focusing on the notion of functional distance. In the literature, there is few references to the role played by distances between functional data. Recently, Ferraty and Vieu [20] have proposed some semi-metrics well adapted for sample functions. However, common distances frequently used for multivariate data analysis such as the Mahalanobis distance proposed by Mahalanobis [39], have not been extended to the functional framework. This issue motivated this thesis and its main contribution is to enlarge the number of available functional distances by introducing a new semi-distance that generalizes the usual Mahalanobis distance. The use of functional distances is important in many different problems, including supervised classification and hypothesis testing. Then the other contributions in this dissertation is to propose new procedures based on the combination of those methods with the functional Mahalanobis semi-distance as in the multivariate context. The thesis is organized as follows. In Chapter 1 we review the formal definition of functional data as well as the notion of functional principal components which is an important tool for some of the concepts that will be seen in this dissertation. We also offer a brief historical summary of distances in the multivariate context and how the concept of distance has been extended to FDA. Finally, we recall some functional methods for which the notion of distance can be very useful, e.g., supervised and unsupervised classification, hypothesis testing, prediction and the concept of density function for functional data. In Chapter 2, we present a new semi-distance for functional observations that generalizes the Mahalanobis distance for multivariate datasets to the functional framework. We also shown the main characteristics of the functional Mahalanobis semi-distance. In order to illustrate the applicability of this measure of proximity between functional observations, we develop new versions of several well known functional classification procedures using the functional Mahalanobis semi-distance. We illustrate the performance of the new semi-distance with simulated and two real data examples indicating that the classification methods used in conjunction with the functional Mahalanobis semi-distance give better results than other well-known functional classification procedures. In Chapter 3, we derive two-sample Hotelling's T ² statistics for testing the equality of means in two samples independently drawn from two functional distributions. The statistics that we propose are based on the functional Mahalanobis semi-distance and, under certain conditions, their asymptotic distributions are chi-squared, regardless the distribution of the functional random samples. We provide the link between the two sample Hotelling's T ² statistics based on the functional Mahalanobis semi-distance and statistics based on the functional principal components semi-distance. The behavior of all these statistics is analyzed by means of an extensive Monte Carlo study and the analysis of a real data set collected in climatology. The results appear to indicate that the two-sample Hotelling's T ² statistics outperform in terms of power those based on the functional principal components semi-distance. Finally, Chapter 4 is dedicated to some summary and some possible future research lines of the work presented in this thesis.
El término de datos funcionales hace referencia a datos que en esencia son curvas, pero que están evaluadas en un subconjunto finito de algún intervalo de la recta real. Esta tesis trata sobre datos funcionales, centrándose en la noción de distancia funcional. En la literatura, las distancias entre datos funcionales no han sido muy tratadas. Recientemente, Ferraty y Vieu [20] han propuesto algunas semi-distancias adaptadas para muestras de funciones. Sin embargo, distancias comúnmente utilizadas para el análisis de datos multivariantes, tales como la distancia de Mahalanobis propuesta por Mahalanobis [39], no han sido extendidas al marco funcional. Esta tesis está motivada por esta cuestión y su principal contribución es ampliar el número de distancias funcionales disponibles introduciendo una nueva semi-distancia que generaliza la distancia de Mahalanobis. El uso de distancias funcionales es importante en algunos problemas estadísticos, incluyendo clasificación supervisada y contrastes para diferencias de medias. Las restantes contribuciones de esta tesis consisten en proponer nuevos procedimientos basados en la combinación de estos métodos con la semi-distancia de Mahalanobis funcional. La tesis tiene la siguiente estructura. En el Capítulo 1 se revisa la definición formal de datos funcionales, así como la noción de componentes principales funcionales que es una herramienta importante para algunos de los conceptos desarrollados en los capítulos de contribución. Se ofrece también un breve resumen histórico de distancias en el contexto multivariante, y cómo el concepto de distancias ha sido extendido al análisis de datos funcionales. Finalmente, se recuerdan algunos métodos funcionales para los cuales la noción de distancias puede ser muy útil, por ejemplo, clasificación supervisada y no supervisada, contrastes para diferencias de medias, predicción y el concepto de función de densidad para datos funcionales. En el Capítulo 2, se presenta una nueva semi-distancia para observaciones funcionales que generaliza la distancia de Mahalanobis para conjuntos de datos multivariantes. También se muestran las principales características de la semi-distancia de Mahalanobis funcional. Con el fin de ilustrar la aplicabilidad de esta medida de proximidad entre observaciones funcionales, se desarrollan nuevas versiones de varios procedimientos clásicos de clasificación funcional utilizando la semi-distancia de Mahalanobis funcional. Se ilustra el comportamiento de esta nueva semi-distancia con datos simulados y dos conjuntos de datos reales, lo que nos indica que los métodos de clasificación utilizados conjuntamente con la semi-distancia de Mahalanobis funcional proporcionan mejores resultados que otros procedimientos conocidos. En el Capítulo 3 se derivan los estadísticos T ² de Hotelling para testear la igualdad de medias en dos muestras independientes procedentes de dos distribuciones funcionales. Los estadísticos que se proponen están basados en la semi-distancia de Mahalanobis funcional y, bajo determinadas condiciones, sus distribuciones asintóticas son chi-cuadrado, sin tener en cuenta la distribución de partida de las muestras aleatorias funcionales. Se proporciona el vínculo entre los estadísticos T ² obtenidos y estadísticos basados en la semi-distancia de componentes principales funcionales. El comportamiento de todos estos estadísticos se analiza mediante un extenso estudio de Monte Carlo y el análisis de un conjunto de datos reales recogidos en climatología. Los resultados parecen indicar que los estadísticos T ² de Hotelling para la comparación de dos muestras superan en términos de potencia a aquellos basados en la semi-distancia de componentes principales funcionales. Finalmente, el Capítulo 4 contiene un resumen y algunas posibles líneas de investigación futuras del trabajo presentado en esta tesis.
Description
.
Keywords
Functional data, Functional distance, Functional Mahalanobis semi-distance
Bibliographic citation
Collections