Publication:
Dependence for functional data

Loading...
Thumbnail Image
Identifiers
Publication date
2014-04
Defense date
2014-04-28
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
Measuring dependence is a basic question when dealing with functional observations. It is of great interest to know the effect that one or more functional variables can have on other ones, and even predict values of one variable from another. Although, in the functional context, this theory has not been as extensively studied,some techniques to measure dependence in functional data have already been implemented, providing a single value which represents the degree of relation between the sets of curves. However,these measures ar eusually not robust, which makes them less stable in the presence of outliers. Therefore, it is interesting to develop robust techniques that ensure high stability of the statistics. This thesis is motivated by the above issues and aims to provide measures of dependence for sets ofcurves that are more robust than those used so far. Hence, we extend non-parametric bivariate coefficients,such as Kendall’s τ and Spearman’s coefficient,to functions,i.e.to situations where the observed data are curves generated by a stochastic process. These coefficients are based on the natural data ordering, but when we work in the context of functional data,there is no such thing as a natural order between functions, meaning that we need to provide for an ordering of curves. Thus, our first task is to consider suitable ways to sort the observations. For this, we use different functional preorders, which allow us to define the coefficients in a way similar to the bivariate case. The aforementioned coefficients provide an univariate measure of the dependence between two sets of curves, which leads us to propose in the final chapter a new functional correlation coefficient that yields a representative curve of dependence between two sets of functional data. This coefficient is based on the cross-correlation function studied in the literature of functional data,which is the classic Pearson coefficient between the values of the curves indifferent time instants. We adapt theconcept of MAD and comedian to measure dependence between two sets of functions and, through them, introduce a robust alternative to the cross-correlation function, which we will call correlation median for functions. The thesis is organized as follows.In Chapter 1 we start defining what is understood as complex data in this work and show several examples. These data will be treated as functional data. Then,a review of the different approaches to analyze functional data is provided. We also offer a brief review of some of the most common measures of dependence between random variables, focusing on those where we make our contribution. This chapter also analyzes some techniques that have been extended to the functional context for calculating the dependence between two sets of curves in order to compare our results. Finally, we study the principal ordering measures for functional data which are necessary to sort the curves, and thus define the coefficients in the functional setting. In Chapter 2 we define the Kendall τ coefficient for functional observations based on the concept of functional concordance, also new in this dissertation. We study its statistical properties and provide some applications to real data, including as set portfolios infinance and microarray time series in genetics. In Chapter 3 we present a notion of Spearman’s coefficient for functional data that extends the classic bivariate concept to situations where the observed data are points belonging to curves generated by a stochastic process. Since Spearman’s coefficient for bivariate samples is based on the natural data ordering in dimension one, we need to consider a data order in the functional context. The development uses a pre-order inspired in the depth definition,but considering a down-up ordering in stead of a center-outward ordering of the sample, allowing us to introduce the notion of grade for functions to properly define the Spearman coefficient. We show some of the main characteristics of Spearman’s coefficient for functions and propose an independence test with a bootstrap methodology. We illustrate the performance of the new coefficient with both simulated and real data. The results of Chapter 4 concern a new functional correlation coefficient that is more robust than the cross-correlation function. The pair (median, MAD)is known to be a robust alternative to the pair (mean, standard deviation). Using the idea underlying the calculation of the MAD, Falk [19] defined a robust estimator for the covariance called comedian. In this chapter we adapt these concepts, the MAD and the comedian,to functional data. These measures allow us to define a robust alternative to the cross-correlation function studied in the literature of functional data, which we will call the correlation median for functions. Since the most natural extension of median in the functional context has been performed through depth measurements,the functional MAD and comedian will also b econstructed via depth. These concepts are illustrated with simulated and real data. Finally,in Chapter 5, we present some general conclusions and summarize the main contributions of the dissertation. --------------------------------------------------------------------------
Medir la dependencia es un aspecto muy importante cuando tratamos con observaciones funcionales. Es de gran interés conocer el efecto que una o más variables funcionales pueden tener sobre otras, e incluso predecir valores de una por medio de los valores de otra. Aunque en el contexto funcional esta teoría no ha sido tan ampliamente estudiada, existen algunas técnicas para medir la dependencia en datos funcional es que ya han sido implementadas, proporcionando un solo valor, que representa el grado de relación entre los conjuntos de curvas. Sin embargo, estas medidas introducidas en la literatura no son generalmente robustas ante la presencia de observaciones atípicas. Por lo tanto, es de interés desarrollar técnicas robustas que nos garanticen una alta estabilidad de los estadísticos. Esta tesis está motivada por las cuestiones antes mencionadas y su principal objetivo es proporcionar medidas de dependencia para conjuntos de curvas que sean más robustas que las usadas hasta ahora. Básicamente el trabajo se enfoca en extender algunos coeficientes bivariantes no paramétricos, tales como el coeficiente τ de Kendall y el coeficiente de Spearman al campo funcional, es decir, a situaciones donde los datos observados son puntos pertenecientes a curvas generadas por algún proceso estocástico subyacente. Estos coeficientes se basan en el orden natural de lo sdatos, pero cuando se trabaja en el contexto funcional hay una dificultad mayor y es que allí no hay un orden natural entre funciones. Esto motiva la búsqueda de metodologías para comparar funciones, algunas de ellas ya han sido estudiadas por diversos autores, pero en algunos casos concretos se propone en la tesis nuevas ordenaciones que son más adecuadas para extender los coeficientes de dependencia al escenario de funciones. Por lo tanto, el primer objetivo es investigar las formas adecuadas para ordenar las observaciones. Para ello, se utilizan diferentes preórdenes funcionales que permitirán definir los nuevos coeficientes de una forma similar al caso bivariante. Los coeficientes que se han mencionado definen una medida de respuesta escalar de dependencia entre dos conjuntos de curvas. Además, en la tesis también se propone en el último capítulo un nuevo coeficiente de correlación que proporciona una curva representativa de la dependencia entre dos conjuntos de datos funcionales. Este coeficiente está basado en la función de correlación cruzada estudiada en la literatura de datos funcionales cuya definición no es más que elclásico coeficiente de correlación de Pearson entre los valores de las curvas en diferentes instantes de tiempo. En este trabajo también se extienden los conceptos de desviación absoluta de lamediana MAD y la comedian, para medir dependencia entre dos conjuntos de funciones y a través de estos dos conceptos en sus versiones funcionales se introduce una alternativa robusta de la función de correlación cruzada, que se llamará correlación mediana para funciones. La tesis está desarrollada con la siguiente estructura: En el Capítulo 1 se introduce lo que se ententerá, en este trabajo, como un dato complejo y se ilustran algunos ejemplos de ellos en diferentes contextos. Estos datos serán tratados como datos funcionales. Por lo tanto, en este capítulo se hace una breve revisión de algunos enfoques para analizar este tipo de datos. Se describen, además, algunas de las medidas más comunes de dependencia entre variables aleatorias, haciendo´énfasis en aquellas en las que esta tesis contribuye a la literatura por su extensión a variables funcionales. En este capítulo también se hace una revisión de algunas técnicas de medición de la dependencia que ya han sido extendidas al contexto funcional, con el objetivo de comparar los resultados obtenidos. Finalmente, se analizan las principales metodologías de ordenación para datos funcionales que son necesarias para ordenar las curvas y definir los coeficientes en el ambiente funcional. En el Capítulo 2 se introduce una versión novedosa del coeficiente τ de Kendall para observaciones funcionales. Este coeficiente se construye a través de un concepto llamado concordancia, cuya versión para funciones se desarrolla en el capítulo. Se estudian sus propiedades estadísticas y se proporcionan algunas aplicaciones a datos reales,incluyendo carteras de activos en finanzas y microarray de series de tiempo en genética. En el Capítulo 3 se presenta la noción del coeficiente de Spearman para datos funcionales que extiende el concepto clásico bivariante a situaciones donde los datos observados son puntos pertenecientes a curvas generadas por un proceso estocástico. Como el coeficiente de Spearman para muestras bivariantes está basado en la ordenación natural de los datos en dimensión uno, es necesario un orden para los datos en el contexto funcional. Este desarrollo utiliza un pre-orden inspirado en la definición de profundidad, pero considerando una ordenación de abajo hacia arriba en lugar del orden del centro hacia afuera de la muestra. El orden de funciones induce la noción de grados para curvas que permiten definir naturalmente el coeficiente de Spearman. Se presentan algunas de las principales características del coeficiente de Spearman para funciones y se propone un test de independencia con una metodología bootstrap y se ilustra su buen funcionamiento con datos simulados y reales. Los resultados del Capítulo 4 se refieren a un nuevo coeficiente de correlación funcional más robusto que la función de correlación cruzada. La pareja (mediana, MAD) es bien conocida como una alternativa robusta a la pareja (media, desviación estándar). Utilizando la idea subyacente al cálculo de la MAD, Falk [19] definió un estimador robusto para la covarianza llamado comedian. En este capítulo se adaptan estos conceptos, MAD y comedian, a datos funcionales. Estas medidas permiten definir una alternativa robusta a la función de correlación cruzada estudiada en la literatura de datos funcionales, que se llamará correlación mediana para funciones. Como la extensión más natural para la mediana en el contexto funcional se ha realizado a través de las medidas de profundidad, la MAD y la comedian funcional se construirán también a través de la noción de profundidad. Estos conceptos también se ilustran con datos simulados y reales. Finalmente, en el Capítulo 5, se presentan algunas conclusiones generales y se resumen las principales contribuciones de la tesis.
Description
Keywords
Functional data, Dependence
Bibliographic citation
Collections