INTRODUCCIÓN
El diseño de muestreo que se usa en la mayoría de los inventarios forestales nacionales incluye componentes sistemáticos basados en redes bi-dimensionales. No obstante, debido a la alta diversidad de coberturas forestales, regiones biogeográficas o provincias administrativas, el espaciamiento de las mallas puede variar desde 1 × 1 km hasta 50 × 50 km. Muchos países usan muestreo por conglomerados, en los que múltiples parcelas (de 3 a 8) se establecen en proximidad espacial bajo cierto arreglo geométrico. Los ciclos de los inventarios son típicamente de 5 o 10 años, aunque el Inventario Nacional de Ecosistemas Forestales Chileno emplea un ciclo de cuatro años (Hernández et al. 2016). Este patrón cíclico de medición permite visitar las mismas unidades de muestreo cada 5 o 10 años (o cada cuatro en el caso de inventario chileno).
En México, el proyecto del Inventario Nacional Forestal y de Suelos (INFyS), desde una perspectiva a largo plazo, inició en 2004. Al considerar la experiencia internacional, se definió un diseño de muestreo estratificado sistemático por conglomerados, los cuales están equidistantes a 5 × 5 km, 10 × 10 km o 20 × 20 km, en función del tipo de vegetación (CONAFOR 2012). El conglomerado o unidad de muestreo primaria es conceptualmente una parcela circular de una hectárea (56,42 m de radio) en la que se evalúan cuatro sub-parcelas de 400 m2 cada una, dispuestas geométricamente en forma de una “Y” invertida con respecto al norte (CONAFOR 2012, 2018).
A la fecha, bajo el auspicio del proyecto INFyS, coordinado por la Comisión Nacional Forestal, en México se han realizado dos evaluaciones completas en todos los ecosistemas forestales; el primer ciclo de medición se llevó a cabo de 2004 a 2007 -21.743 conglomerados─, y el segundo, comprendió de 2009 a 2014 ─22.409 conglomerados─ (CONAFOR 2018, Ricker et al. 2020). La información dasométrica y ambiental correspondiente al primer ciclo de medición se obtuvo de manera gradual en diferentes regiones del país. No obstante, y como parte de una planeación estratégica a largo plazo, a partir del segundo ciclo de medición, el muestreo de campo considera la medición anual de únicamente el 20 % del total de conglomerados de los diferentes tipos de vegetación forestal del país, de manera que cada cinco años se tenga la cobertura de todo el territorio nacional (CONAFOR 2012, 2018).
En el INFyS, la estructura espacial y temporal de las mediciones conduce al concepto de muestreo panelizado o muestreo de panel rotante; en donde, un panel es un grupo de unidades de la población muestreadas en la misma ocasión (McDonald 2003). Los paneles se miden en secuencia, uno a la vez. Después de que los cinco paneles se han completado el proceso es repetido (Reams et al. 2005). Entonces, la medición de las mismas unidades en estudios de muestras panelizadas, trae consigo correlación temporal, la cual debe ser incorporada en el proceso de estimación.
Aun cuando el diseño de panel rotante del INFyS, conceptualmente, se puede estudiar mediante la teoría del muestreo con reemplazamiento parcial en múltiples ocasiones, el cual es una extensión del muestreo con reemplazo parcial en dos ocasiones (Van Deusen 1989, Köhl et al. 2015), en México, las investigaciones sobre el proceso de estimación para medias anuales de parámetros forestales agregados que consideren la estructura panelizada y correlativa de las observaciones prácticamente son incipientes. Combinar todas las observaciones de un ciclo completo y estimar solo una media de algún parámetro forestal de interés, produce una estimación insesgada del punto central del ciclo y no necesariamente de la ocasión más reciente; aunque en este escenario, el gran tamaño de muestra conduce a resultados precisos. Asimismo, un estimador basado en promedio móvil con pesos iguales, aunque intuitivo y fácil de aplicar, es sesgado para la estimación del parámetro de interés del año más reciente; además ponderaciones iguales pueden enmascarar las tendencias temporales.
La estimación de los parámetros forestales en los años más recientes y la estimación del cambio de tales parámetros a través del tiempo son de interés en un sistema de evaluación y monitoreo forestal implementado mediante muestras panelizadas. Para tal efecto, se pueden emplear por lo menos dos métodos, el primero, llamado estimación por mínimos cuadrados generalizados (MCG) (Arner et al. 2004) considera la estructura de correlación temporal ─producto de la remedición─ y estima el vector de medias correspondientes a varios años de interés incluyendo el más reciente, el segundo por su parte, se basa en ignorar dicha correlación y aplicar directamente en cada año los estimadores de muestreo replicado (MRE) (Gregoire y Valentine 2007). MCG se caracteriza por combinar directamente la información de todos los años, por lo que la estimación para el año actual considera de antemano la información previa. El estimador MCG genéricamente se puede usar para el muestreo con reemplazamiento parcial en dos y en múltiples ocasiones. La combinación de MCG y MRE genera el estimador compuesto univariado (ECU), el cual presenta propiedades estadísticas deseables, en cuanto a sesgo y varianza, y su aplicación queda justificada por la ganancia en precisión cuando la estimación simultánea de las medias correspondientes a las diferentes ocasiones de medición es requerida.
Al considerar que el INFyS es un proyecto a largo plazo implementado por el Gobierno Mexicano y dada la estructura de muestreo de panel rotante con que los datos se registran en los distintos ecosistemas forestales de México (alrededor de 26.000 conglomerados distribuidos en bosques, selvas y vegetación de zonas áridas), el ECU se puede aplicar conforme los datos de campo se van tomando a lo largo del tiempo, no es necesario esperar hasta que un ciclo de medición se complete. La información disponible hoy día con casi tres ciclos de medición y la aplicación de ECU permitirán evaluar la tendencia de los parámetros forestales en las diferentes regiones geográficas de México.
A fin de gestionar los ecosistemas forestales de manera sostenible y hacer un seguimiento del progreso hacia los objetivos y metas internacionales comúnmente acordados, tales como los objetivos de desarrollo sostenible (ODS) y las contribuciones determinadas a nivel nacional (NDC) ─que tienen como objetivo lograr las metas del Acuerdo de París sobre el cambio climático─, muchos países del mundo incluyendo América Latina y el Caribe han implementado sistemas de monitoreo forestal a lo largo plazo (Ramírez et al. 2021), entonces, queda de manifiesto que se requieren métodos estadísticos robustos y precisos que optimicen el uso de la información forestal multianual obtenida en campo y permitan a la vez estimar las tendencias de los parámetros forestales de interés, el carbono almacenado aéreo y subterráneo en los distintos ecosistemas terrestres es un ejemplo de ello.
Con base en lo anterior, la presente investigación tiene como objetivo estudiar desde el punto de vista teórico, a través de simulaciones estadístico-computacionales, las propiedades estadísticas de los estimadores mínimos cuadrados generalizados, muestreo replicado y estimador combinado univariado al considerar como parámetro forestal de interés el área basal media anual (m2 ha-1). La hipótesis de trabajo fue que los tres estimadores son insesgados e igualmente precisos.
MÉTODOS
Notación para los estimadores estadísticos
La notación usada en los estimadores y sus respectivas varianzas, así como en los criterios de comparación, es una adaptación de la simbología utilizada por Gregoire y Valentine (2007). Entonces, A: área forestal de la región de interés (ha); U k : k-ésimo elemento en la población; m: número de parcelas o conglomerados (puntos de muestreo); n s : número de sub-parcelas efectivamente evaluadas en campo en la parcela o conglomerado s, n s : 1, 2, 3, 4 ; a k : área de la sub-zona de inclusión del elemento U k (400 m2); a k * = n s a k : área de la zona de inclusión del elemento U k ; P s : s-ésimo conglomerado o parcela, s = 1, 2, …,m y finalmente y k : valor del atributo de interés asociado a U k (área basal, volumen, biomasa, carbono).
Estimador MRE general (Gregoire y Valentine 2007)
La probabilidad de inclusión de U k , π k = a k * / A, permite en cada localización de muestreo una estimación Horvitz-Thompson (HT) del total para cualquier característica y medida en el elemento U k muestreado, es decir, la estimación de T y a partir de P s es T yπs = A U k ∈P s y k / a k * , donde la expresión y k / a k * es el valor de y k expandido a una unidad de área base.
La instalación de múltiples conglomerados independientes P s en A, seguido por la estimación HT de T y con los datos de cada P s , se llama Muestreo Replicado (Barabesi y Fattorini 1998). Por lo tanto, el estimador de T y basado en un muestreo replicado de m conglomerados P s se presenta en la expresión [1]:
La varianza de [1], de acuerdo a Schreuder et al. (1993) y Gregoire y Valentine (2007), se estima insesgadamente conforme a [2]:
Al considerar conocida el área de la región de estudio, A, un estimador de y (por unidad de superficie) y su varianza, resultan en [3] y [4], respectivamente:
donde,
Estimador MCG (Arner et al. 2004)
En la evaluación de recursos forestales se han desarrollado los siguientes métodos para la estimación de la cuantía del recurso en el tiempo: 1) mismas unidades de muestreo se evalúan en cada ocasión (parcelas permanentes), 2) nuevas unidades de muestreo se seleccionan en cada ocasión (parcelas temporales) y 3) una mezcla de unidades permanentes y temporales. El tercer método se conoce como muestreo con reemplazamiento parcial (MRP) y se ha recomendado como una herramienta flexible para reunir los requerimientos de precisión del estado forestal actual y las estimaciones de la tendencia en una forma costo-efectiva (Köhl et al. 2015).
La aplicación más sencilla del estimador MCG es cuando se tiene MRP en dos ocasiones. Este esquema de muestreo se representa en la figura 1, en donde t 1 y t 2 corresponden a la primera y segunda ocasión de medición, respectivamente. En el eje de las abscisas se tiene la escala temporal (usualmente en años) y en el eje de las ordenadas los grupos generales de las parcelas. El grupo general señala el tipo de parcelas que se miden a través del tiempo, es decir, temporales o permanentes. Así, el grupo 1 ( g 1 ) identifica a las unidades de muestreo temporales evaluadas en la ocasión 1 (tiempo 1), el grupo 2 ( g 2 ) a las parcelas permanentes medidas en la ocasión de medición 1 (tiempo 1) y en la ocasión de medición 2 (tiempo 2) y el grupo 3 ( g 3 ) a las temporales estudiadas en la ocasión 2 (tiempo 2). Un grupo específico o sub-panel de parcelas ( m ij ) queda definido por la intersección de un grupo general ( g i ) y la ocasión de medición ( t j ). En este contexto, cada sub-panel se reconoce por dos subíndices, el primero se refiere al grupo general y el segundo a la ocasión de medición; de esta manera el sub-panel m 32 corresponde a las parcelas del grupo 3 medidas en la ocasión 2 (tiempo 2). Todos los sub-paneles en t j integran un panel.
Siguiendo a Gregoire y Valentine (2007), es posible identificar un estimador MRE tipo [3] para cada grupo específico de la figura 1. Entonces, para un MRP en dos ocasiones, surgen los estimadores [5], [7], [9] y [11], así como sus respectivas varianzas, dadas en [6], [8], [10] y [12]. De esta manera, se tiene lo siguiente:
Grupo específico 1 (sub-panel 1): m 11 parcelas temporales medidas en la ocasión 1.
Grupo específico 2 (sub-panel 2): m 21 parcelas permanentes medidas en la ocasión 1.
Grupo específico 3 (sub-panel 3): m 22 parcelas permanentes medidas en la ocasión 2.
Grupo específico 4 (sub-panel 4): m 32 parcelas temporales medidas en la ocasión 2.
donde,
El estimador MCG (Van Deusen 1989, Scott et al. 1999, Arner et al. 2004), que simultáneamente genera las medias actuales y pasadas, puede fácilmente obtenerse integrando en forma matricial las expresiones [5] a la [12]. En este sentido, el modelo lineal general se integra conforme a [13]
donde,
/: Vector de medias estimadas mediante 𝑀𝑅𝐸 correspondientes a cada grupo específico, D: Matriz de ceros y unos que indica la ocasión de medición, λ y,MCG : Vector de medias poblacionales, ε y,MRE :Vector de errores aleatorios con N ~ 0,Ʃ .
Por lo tanto, de acuerdo con Rasch and Schott (2018) el estimador MCG factible es expresado en [14] y su varianza en [15]:
De manera particular, [13] correspondiente a MRP en dos ocasiones se expresa conforme a [13´]:
con matriz de varianzas-covarianzas estimada según [13´´]:
donde,
La representación matricial anterior puede interpretarse como una adaptación del modelo de medias en cada punto del tiempo con matriz de varianzas-covarianzas no estructurada considerado por Funatogawa y Funatogawa (2018). La teoría del muestreo con reemplazo parcial en dos ocasiones (forma matricial) puede ser adaptada para diseños de muestreo multi-temporales panelizados con mayor grado de complejidad como aquellos estudiados por Arner et al. (2004). En tal caso, la definición de grupos específicos es el punto clave para determinar el sistema de ecuaciones y la matriz de varianzas-covarianzas.
Estimador MRE particular
El atributo de interés se puede estimar en cada ocasión, incluyendo el año más reciente, mediante una adaptación del estimador MRE expresado en [3] en cuanto a que se consideran todas las observaciones de cada panel, resultando así la expresión [16]:
cuya varianza estimada se obtiene de acuerdo a [17]:
donde,
Estimador ECU
Sea θ j 1 el estimador de la j-ésima media anual proveniente de MCG y sea θ j 2 el correspondiente estimador de MRE. Al combinar θ j 1 y θ j 2 , ambos no independientes, se forma el estimador compuesto univariado θ j 3 , dado en [18], el cual contiene las propiedades estadísticas de los dos (Czaplewski 2010):
Siendo k un factor de ponderación que considera las varianzas y covarianzas de los estimadores no independientes y cuya expresión se muestra en [19]:
donde,
La varianza de [18] también toma en cuenta el factor de ponderación y se estima mediante la siguiente expresión [20]:
Claramente, las expresiones [19] y [20] se simplifican cuando los estimadores /son independientes.
Base de datos de una pseudo-población artificial
Para evaluar la insesgadez y varianza de los estimadores MCG, MRE y ECU se utilizó una pseudo-población artificial de conglomerados, la cual se generó al combinar las bases de datos forestales de Durango, Hidalgo, Jalisco, Michoacán, Estado de México, Chihuahua y Quintana Roo, México. Esta información fue proporcionada por la Comisión Nacional Forestal y proviene de muestras panelizadas correspondientes al ciclo 1 (ocasiones de medición 2004, 2005, 2006, 2007) y al ciclo 2 (2009, 2010, 2011 y 2012). La población estuvo integrada por 7.597 conglomerados panelizados reales, es decir, grupos específicos distribuidos en cada una de las ocho ocasiones de medición. De esta población se obtuvieron 100 muestras aleatorias panelizadas (repeticiones) sin remplazo de tamaño 1.000 (Condición 1, con 13 % de intensidad de muestreo) y 1.500 (Condición 2, con 20 % de intensidad de muestreo). Estas condiciones de estudio se definieron con base en los siguientes criterios: 1) número de conglomerados panelizados promedio por estado (1.085) y el número de sub-paneles requerido para garantizar estimabilidad de los parámetros del modelo. El total de repeticiones se determinó con base en la recomendación dada por Kangas (2006), quien considera al menos 100 réplicas para estimaciones de varianza por re-muestreo y por el uso de la distribución normal en los intervalos de confianza para la media. Esta forma de crear la población garantiza que se obtengan tendencias y varianzas realistas de las variables de interés (Johnson et al. 2003). Estudios que usan grandes bases de datos de inventario para evaluar propiedades de estimadores son comunes, por ejemplo, Hou et al. (2020) al estudiar métodos de estimación anual en el contexto del FIA de Estados Unidos de Norteamérica usaron alrededor de 41.000 conglomerados.
Como parámetro de interés se seleccionó el área basal promedio por hectárea (ABHA), que además de ser una variable cuyo valor se obtiene fácilmente a nivel de árbol, tiene bajo error de medición y está fuertemente correlacionada con el volumen, biomasa y carbono aéreo. Con base en la gran pseudo-población artificial de conglomerados, los valores poblacionales de ABHA θ j (y sus coeficientes de variación en %) fueron los siguientes: 12,81 (70,38); 12,46 (65,22); 11,42 (62,03); 11,13 (78,71); 12,51 (64,75); 13,17(66,36); 13,26 (63,77) y 13,08 (68,20) (m2 ha-1) para 2004, 2005, 2006, 2007, 2009, 2010, 2011 y 2012, respectivamente.
Comparación de estimadores
Considerando las ocho ocasiones de medición, los estimadores MCG, MRE y ECU quedaron definidos de la siguiente manera:
Estimador MCG θ j 1 . Estimador MCG factible del área basal por hectárea en cada j-ésima ocasión de medición. Corresponde al j-ésimo elemento del vector /
Estimador MRE θ j 2 . Estimador MRE del área basal por hectárea en cada j-ésima ocasión de medición. Corresponde al j-ésimo estimador MRE dado por /
Estimador ECU θ j 3 . Estimador ECU del área basal por hectárea en cada j-ésima ocasión de medición. Corresponde al j-ésimo estimador ECU dado por /
El análisis conjunto de las 100 muestras aleatorias, en cada condición, permitió observar el comportamiento de los estimadores estudiados bajo el concepto de muestreo repetido. Para determinar el mejor estimador l, ∀ l=1,2,3 en cada condición estudiada se usó el Sesgo de Estimación Relativo (SER), expresión [21], y la Raíz del Cuadrado Medio del Error Relativo (RCMER), expresión [22], conforme a Gregoire y Valentine (2007):
donde,
donde,
El numerador del SER es una medida de distancia entre el valor esperado del estimador y la media verdadera de la población y, por lo tanto, puede tomar valores negativos cuando el promedio sea menor que el parámetro (sub-estimación) y valores positivos en otro caso (sobre-estimación).
La población forestal artificial se integró por 8 paneles (años de medición) y cada panel presentó 5 sub-paneles (cuadro 1), por lo que la matriz-diseño D se integró por 40 filas (sub-paneles) y ocho columnas (paneles) (figura 2). A partir del cuadro 1 es posible también construir el vector de medias estimadas MRE y el vector MCG (figura 2), así como la matriz de varianzas y covarianzas, cuya diagonal principal contiene las varianzas de MRE para cada sub-panel y fuera de la diagonal principal las covarianzas de MRE los para sub-paneles remedidos.
El análisis estadístico de la información se realizó en SAS Versión 9.3 mediante el PROC IML (SAS® v9.3 2011) y el análisis gráfico a través R software (R Core Team 2020).
Los sub-paneles se forman por el grupo general y ocasión de medición (dígito entre paréntesis seguido por el año). De esta forma el sub-panel 10,2 indica el grupo general 10 del 2005.
RESULTADOS
Estimación del área basal en la condición uno (tamaño 1.000)
Tanto en las ocasiones de medición del ciclo 1 (2004 a 2007) como del ciclo 2 (2009 a 2012), el estimador MCG resultó ligeramente sesgado; excepto en 2006 y 2007, MCG proporcionó sub-estimaciones del área basal por hectárea. El mayor sesgo de estimación relativo de MCG se obtuvo en 2004 con un valor superior a -5 %, mientras que el menor se logró en 2006 con casi el 0,9 %. La mayor variabilidad de MCG se obtuvo en 2004 con un valor alrededor del 1,30 (m2 ha-1)2 y la menor en 2005 con una cifra superior al 0,10 (m2 ha-1)2. La raíz del cuadrado medio del error relativo para MCG más grande resultó en 2004, con un poco más del 10 % y, la más pequeña en 2006, con casi el 4 % (cuadro 2).
En todos los años de la condición uno, el estimador MRE fue en esencia insesgado; el máximo sesgo de estimación relativo resultó cerca de -0,7 % en 2011 y el mínimo de 0,03 % en 2007; inclusive, en 2007 y 2012 las estimaciones y los parámetros fueron muy similares. El estimador MRE condujo a estimaciones altamente variables en 2004 y muy homogéneas en 2005, con valores respectivos que superaron el 2,10 (m2 ha-1)2 y el 0,10 (m2 ha-1)2. De igual manera, en estas mismas ocasiones de medición se obtuvieron los valores extremos de la raíz del cuadrado medio del error relativo con casi 11,35 % y 2,70 %, respectivamente (cuadro 2).
El ECU se caracterizó por presentar resultados de área basal por hectárea prácticamente insesgados; de hecho, el mayor sesgo relativo de estimación fue de -3 % en 2004 y, el menor de 0,35 % en 2006. Resulta interesante que ECU también proporcionó la mayor varianza en 2004 con un valor superior al 1,15 (m2 ha-1)2 y la menor en 2005 con aproximadamente el 0,10 (m2 ha-1)2. El máximo valor de la raíz del cuadrado medio del error relativo para ECU resultó de casi 9 % en 2004 y el mínimo con escasa diferencia de 3,6 % en 2005 (cuadro 2).
Una inspección detallada de las figuras 3 y 4 ratifica que para una misma ocasión de medición, el estimador MCG sub-estimó o sobre-estimó ligeramente los valores poblacionales, es decir, presentó desvíos leves por debajo o por arriba del parámetro; también confirma que MRE proporcionó estimaciones insesgadas de área basal por hectárea, esto es, que al localizarse equitativamente por arriba y por debajo de la línea horizontal, su promedio fue en esencia el valor poblacional; asimismo, corrobora que MCG en general presentó menor variabilidad en las estimaciones respecto a MRE; y reafirma que el ECU tiende a recuperar la menor dispersión de MCG y la insesgadez de MRE. Resulta muy interesante notar que ECU generó un sesgo de estimación relativo intermedio entre MCG y MRE, y presentó, en general, una raíz del cuadrado medio del error menor que ambos (cuadro 2).
CV: Coeficiente de variación poblacional, MCG: Mínimos Cuadrados Generalizados, MRE: Muestreo Replicado, ECU: Estimador Combinado Univariado, SER: Sesgo de Estimación Relativo, RCMER: Raíz del Cuadrado Medio del Error Relativo.
Estimación del área basal en la condición dos (tamaño 1.500)
Aunque en menor magnitud en comparación con la condición 1, en todas las ocasiones de medición, el estimador MCG resultó levemente sesgado; el máximo sesgo de estimación relativo ocurrió en 2007 con casi el 4,7 % y en el menor en 2011 con cerca de -1,5 %. Nuevamente, a excepción de 2006 y 2007, MCG sub-estimó el área basal por hectárea. La varianza máxima de MCG se obtuvo en 2004 con casi 0,45 (m2 ha-1)2 y la mínima en 2005 con tan solo 0,05 (m2 ha-1)2. La RCMER más grande, con alrededor de 6,6 %, sucedió en 2004, mientras que la más pequeña, con aproximadamente 2,6 % en 2011 (cuadro 3).
Una vez más y de manera notable, el estimador MRE se mostró insesgado; el máximo sesgo de estimación relativo ocurrió en 2010 y no logró superar el 0,7 %; del mismo modo, en 2011 y 2012, las estimaciones de MRE fueron las mismas que el parámetro. La varianza máxima de MRE se obtuvo en 2004 con casi 1,45 (m2 ha-1)2 y la mínima en 2005 con tan solo 0,07 (m2 ha-1)2. La raíz del cuadrado medio del error relativo más grande se obtuvo en 2004 con cerca de 9,5 % y la más pequeña en 2005 con un porcentaje ligeramente mayor de 2,10 % (cuadro 3).
CV: Coeficiente de variación poblacional, MCG: Mínimos Cuadrados Generalizados, MRE: Muestreo Replicado, ECU: Estimador Combinado Univariado, SER: Sesgo de Estimación Relativo, RCMER: Raíz del Cuadrado Medio del Error Relativo.
El ECU también resultó insesgado; el sesgo de estimación relativo máximo se obtuvo en 2004 con un valor cercano a -2,75 % y el mínimo en 2010 con una cifra que superó el -1,05 %. La varianza máxima de ECU se logró en 2004 con casi 0,50 (m2 ha-1)2 y la mínima en 2005 con apenas 0,05 (m2 ha-
1)2. La raíz del cuadrado medio del error relativo de mayor magnitud se obtuvo en 2004 con 6 % y la de menor en 2005 con un porcentaje que rebasó ligeramente el 2,3 % (cuadro 3).
El análisis de los tres estimadores, considerando las 100 repeticiones en la condición dos en una misma ocasión de medición, pone de manifiesto de manera contundente que el estimador MCG nuevamente sub-estimó o sobre-estimó levemente los valores poblacionales; también que MRE, al presentar resultados que oscilan alrededor de la media verdadera (línea horizontal), proporcionó estimaciones insesgadas de área basal por hectárea; y que MCG presentó menor variabilidad en las estimaciones respecto a MRE; así mismo que ECU recupera la menor dispersión de MCG y la insesgadez de MRE (figuras 5 y 6).
Al igual que en la condición uno, en la condición dos, el ECU, como estimador que combina las bondades estadísticas de MCG y MRE, se caracterizó por presentar un sesgo de estimación relativo intermedio entre los dos y, en general, por presentar una raíz del cuadrado medio del error menor que ambos (cuadro 3).
Si bien es cierto que MCG subestima ligeramente el parámetro, también en cierto que, a excepción del 2005 y 2010 de la condición uno, siempre presenta una varianza menor comparada con MRE. La proporción de la varianza de MCG respecto a MRE fue alrededor del 70 % en la condición uno y cerca del 50 % en la condición dos.
Por otra parte, y como era de esperarse, el comportamiento de los intervalos de confianza estimados correspondientes a MCG, MRE y ECU resultó similar al desempeño de la variabilidad de las estimaciones puntuales, es decir, la amplitud de los mismos resultó mayor para MRE, menor en MCG e intermedia para ECU (figuras 3, 4, 5 y 6). Como una consecuencia de esta situación, al considerar las 100 repeticiones, el porcentaje de intervalos de confianza que contuvieron la media verdadera siempre resultó mayor en MRE, menor en MCG e intermedio en ECU (cuadro 4). Aun cuando este porcentaje, en promedio se mantuvo constante para MRE en ambas condiciones de estudio, MCG y ECU se vieron beneficiados al incrementar el tamaño de muestra en 500 conglomerados; de este modo, el porcentaje de intervalos de confianza que incluyeron el parámetro aumentó en promedio ocho y cinco puntos porcentuales, al pasar de la condición uno a la dos, para MCG y ECU, respectivamente (cuadro 4). En la condición uno, el menor porcentaje de intervalos que atrapan al parámetro ocurrió en 2005, con 44 % (MCG) y 59 % (ECU); mientras que en la condición dos sucedió en 2007 con 52 % (MCG) y 72 % (ECU); lo cual puede atribuirse a los altos valores del sesgo y varianza relativamente baja (cuadro 2 y cuadro 3). En estas condiciones críticas, ECU parece ser el estimador más apropiado.
MCG: Mínimos Cuadrados Generalizados, MRE: Muestreo Replicado, ECU: Estimador Combinado Univariado.
(MCG) y 59 % (ECU); mientras que en la condición dos sucedió en 2007 con 52 % (MCG) y 72 % (ECU); lo cual puede atribuirse a los altos valores del sesgo y varianza relativamente baja (cuadro 2 y cuadro 3). En estas condiciones críticas, ECU parece ser el estimador más apropiado.
DISCUSIÓN
Al considerar todas las ocasiones de medición, el promedio de los parámetros de área basal es de 12,5 m2 ha-1, cifra congruente con aquella que se obtiene mediante las estimaciones de CONAFOR para estratos arbolados en los años 2004 a 2007 y en 2009 a 2014, la cual resulta de 12,2 m2 ha-1 (CONAFOR 2012, 2018). Entonces, las estimaciones puntuales generadas por los diferentes métodos en la presente investigación se juzgan estadísticamente sólidas.
La menor varianza de MCG comparada con MRE permite afirmar que las estimaciones de área basal por hectárea mediante MCG se encuentran concentradas alrededor de su promedio, mientras que los estimados de MRE presentan desviaciones notables con respecto a su valor esperado. Además, MCG tiene como ventaja la estimación simultánea de las medias en el periodo de estudio, incluyendo los años más recientes (Arner et al. 2004).
Los resultados de la investigación ponen de manifiesto que, por una parte, ECU reduce el sesgo de MCG, y por la otra, disminuye la varianza de MRE. De esta manera, ECU se considera como un estimador insesgado (o cuasi-insesgado) de varianza mínima en las distintas ocasiones de medición (Czaplewski 2010). De hecho, excepto en 2005 y 2010 de la condición uno, así como en 2005 de la condición dos, la raíz del cuadrado medio del error relativo de ECU es menor que MCG y MRE.
Un estimador del parámetro poblacional actual de fácil aplicación es el denominado Media Móvil (MM) (Moving Average = MA), el cual está dado por la suma ponderada de las estimaciones en las distintas ocasiones de medición que integran el ciclo (Johnson et al. 2003, Patterson y Reams 2005). Un caso particular de este estimador es aquel que considera pesos iguales, que aunque tiene menor varianza que los estimadores anuales, resulta sesgado del parámetro poblacional para el año actual (McRoberts et al. 2005), y entonces, puede ser pensado como un estimador insesgado para el parámetro de la población a la mitad del ciclo de rotación. Con el fin de evitar el sesgo del estimador promedio móvil con pesos iguales, algunos investigadores han sugerido asignar mayores pesos a los años más recientes. Por ejemplo, para un ciclo de cinco años se pueden usar pesos de 0,1; 0,1; 0,2; 0,3 y 0,3 y para una rotación de cuatro años los pesos pueden ser 0,2; 0,2; 0,3 y 0,3 (Eskelson et al. 2009). La asignación arbitraria de estos pesos pone en desventaja el estimador MM frente al ECU.
Es menester mencionar que el estimador compuesto analizado en esta investigación tiene un desempeño aceptable debido a que los estimadores que lo integran refieren la información en el mismo año; no obstante, un estimador compuesto evaluado por Kangas et al. (2020), aunque de varianza pequeña, resultó sesgado para biomasa en la ocasión más reciente debido a que se integró por dos estimadores independientes en tiempos muy diferentes (1999 y 2010).
En general, los valores de la raíz del cuadrado medio del error relativo ─ estadística que integra el sesgo y la varianza─ de ECU en la condición dos son en promedio alrededor del 75 % respecto a los correspondientes en la condición uno en cada ocasión. Este hecho puede ser atribuido al mayor tamaño de muestras panelizadas usado en la condición dos. Entonces, ECU se considera atractivo tanto desde un punto teórico como práctico.
El ligero desvío de la estimación respecto al parámetro en MCG puede deberse a que la matriz de varianzas-covarianzas está integrada por la información muestral de todos los sub-paneles correspondientes a las diferentes ocasiones de medición, mientras que en MRE la información que se utiliza en el proceso de estimación es solo de la ocasión de medición de interés. También la reducción de la varianza de MCG es producto de la combinación de la información de los sub-paneles en el proceso de estimación. Por otra parte, en muestras grandes y si la matriz de varianzas-covarianzas muestral es un estimador consistente de la matriz de varianzas-covarianzas verdadera, entonces, MCG factible es un estimador asintóticamente equivalente a MCG (Greene 2018).
En los tres estimadores y en las dos condiciones estudiadas, se observa que la varianza correspondiente a la ocasión 2004 siempre es mayor que el resto de las ocasiones, esto se debe al número reducido de observaciones utilizadas en el proceso de estimación. En la condición uno, el número total promedio de pares 2004-2009 (2004-2010,2004-2011 y 2004-2012) fue de 26 y en la condición dos fue de 39. Por el contrario, el número total promedio de pares 2005-2009 (2005-2010,2005-2011,2005-2012) fue de 428 en la condición uno y de 640 en la condición dos.
Aun con el tamaño de muestra reducido en 2004 en la condición uno, los valores de la raíz del cuadrado medio del error relativo correspondientes a MCG y MRE parecen bastante razonables, alrededor del 10,5 %. En los siguientes años, para esta misma condición, la reducción de dicha estadística es significativa, en algunos casos por más del 50 %, lo cual puede deberse a que el muestreo de campo realizado en el proyecto del INFyS se ha consolidado metodológicamente con el paso del tiempo.
Si bien en el presente estudio únicamente se evalúa el área basal por hectárea, se espera un comportamiento similar para el volumen, biomasa o carbono por hectárea. Esto se justifica porque en general, las tres variables están correlacionadas.
Los resultados del presente estudio se basan en estimadores que usan datos de campo únicamente, no obstante, el estimador compuesto puede integrar estimadores que combinen datos de terreno con datos de sensores remotos, por lo que el error relativo de muestreo puede disminuir significativamente (Köhl et al. 2011). En este sentido, se puede considerar el Estimador de Regresión Generalizado Modificado, propuesto por Wojcik (2022), cuyas propiedades estadísticas pueden mejorarse sustancialmente al incorporar Modelos Mixtos Lineales Generalizados.
El ECU es un estimador que combina MCG y MRE, de manera tal que para su aplicación se requiere de la matriz de varianzas-covarianzas de las medias a nivel de sub-paneles y de la matriz de ceros y unos, que indican la ocasión de medición (Fuller 2009). La complejidad relativa de estas matrices se justifica por la ganancia de precisión en la estimación simultánea de las medias correspondientes a las diferentes ocasiones de medición. Además, este estimador se puede aplicar conforme los datos se van tomando a través del tiempo, no es necesario esperar hasta que un ciclo de medición se complete.
En fechas recientes, las restricciones presupuestales del INFyS han impedido completar en su totalidad ciclos al 20 % originalmente propuesto. No obstante, aun cuando se tengan paneles de menor tamaño, con el ECU se pueden obtener resultados útiles y consistentes para permitir actualizar las cifras nacionales con una alta confiabilidad y a un menor costo. Este aspecto resulta importante, sobre todo pensando que el reporte de muchos de los compromisos adquiridos por México en términos de emisiones de CO2 depende fuertemente de los resultados del INFyS.
CONCLUSIONES
En las dos condiciones de estudio y para cada una de las ocho ocasiones de medición se observó que la estimación de área basal por hectárea mediante MCG fue ligeramente sesgada comparada con la estimación de MRE. Dado que el sesgo relativo de MCG en ningún caso superó el 5,5 % se consideró insignificante. Aun cuando MCG subestimó ligeramente el parámetro, en general presentó una varianza menor comparada con MRE.
El sesgo de estimación relativo correspondiente a MRE nunca fue superior al 1 %. Así, las estimaciones de área basal por hectárea obtenidas mediante MRE se consideraron insesgadas. En promedio, la varianza de MRE fue casi el doble de la varianza de MCG.
El ECU generó en cada una de las ocasiones de medición un sesgo relativo intermedio entre MCG y MRE; asimismo, además de reducir el sesgo respecto al MCG también presentó menor varianza comparado con MRE.
El ECU, como estimador que combina las bondades estadísticas de MCG y MRE, se caracterizó en general por presentar la raíz del cuadrado medio del error menor que ambos.
En estas condiciones el estimador más apropiado fue el ECU, el cual combina MCG y MRE utilizando como factores de ponderación el inverso de sus varianzas; entonces, puede considerarse insesgado (o cuasinsesgado) de mínima varianza. Esta característica, lo hace atractivo tanto desde un punto teórico como práctico. Adicionalmente, el costo relativo de poder implementar el ECU es mucho menor cuando se compara con el costo total de la toma de datos y verificación de puntos de muestreo en campo.