Ayuda
Ir al contenido

Dialnet


Cluster no jerárquicos versus cart y biplot

  • Autores: Gonzalo Isaac Carrasco Oberto
  • Directores de la Tesis: Purificación Vicente Galindo (dir. tes.), Carmen Patino Alonso (codir. tes.)
  • Lectura: En la Universidad de Salamanca ( España ) en 2020
  • Idioma: español
  • Tribunal Calificador de la Tesis: Mitzi Isabel Cubilla Montilla (presid.), Antonio Blázquez Zaballos (secret.), Claudio Castro López (voc.)
  • Programa de doctorado: Programa de Doctorado en Estadística Multivariante Aplicada por la Universidad de Salamanca
  • Materias:
  • Texto completo no disponible (Saber más ...)
  • Resumen
    • Machine Learning, como métodos no supervisados (simétricos utilizando la terminología estadística) basados en algoritmos cuyo objetivo directo es agrupar las unidades taxonómicas a clasificar, bajo diferentes criterios; sin embargo, en la era actual en la que cada día es más frecuente el manejo de grandes masas de datos y de un elevado número de variables, estos métodos son insuficientes.

      El Algoritmo K-means de Forgy, propuesto en 1965, y modificado por Mcqueen en 1967, sigue siendo el método más utilizado, probablemente porque es fácil de implementar y de interpretar sus resultados, es rápido y eficiente en términos de coste computacional, es sensible a la existencia de outliers, converge pero encuentra mínimos locales de la función de coste, es sensible a la inicialización, no existe una solución única para un número K de clusters.

      Las limitaciones del K-means han dado lugar a distintas alternativas que tratan de mejorar diferentes aspectos tales como: Fuzzy C-means (Dunn, 1974) donde no se considera la pertenencia de forma dicotómica sino en términos probabilísticos; K-medoids (PAM) (Kaufman & Rousseeuw, 1990) más robusto al ruido y a valores grandes de los datos, donde cada cluster está representado por una observación presente en el cluster (medoid), mientras que en K-means cada cluster está representado por su centroide.

      Las soluciones para datos de grandes dimensiones, generalizan el Algoritmo PAM, generando Medoids óptimos Globales con el algoritmo CLARA (Kaufman & Rousseeuw, 1990) y parten de submuestras aleatorias iniciales diferentes en varias iteracciones, en la propuesta CLARANS (Ng & Han, 2002).

      El cluster HJ-BIPLOT es una representación gráfica multivariante donde los clusters se definen, maximizando la Inercia Entre clusters y minimizando la Inercia Dentro de cada clúster, mientras que el Clusplot es una representación gráfica donde los cluster se generan utilizando el algoritmo PAM, Tomando como base la información que arroja la representación geométrica multidimensional HJ-Biplot (Galindo, 1986) de los diferentes clusters posibles, es viable elegir aquellos que sean conceptualmente interpretables.

      Mientras que en el modelo CART los clusters solo son compatibles con estructuras dicotómicas, en el CLUSTER HJ-BIPLOT los clusters pueden tener cualquier estructura.

      En el caso de tener una estructura respuesta multivariante y muchas variables explicativas, se pueden generar clusters que capturan la estructura de la respuesta a partir de clases latentes y seleccionan las variables que intervienen en la creación de los clusters, a partir de coeficientes de predictividad que son la base del algoritmo TAID (Castro, 2005), el cual genera árboles ternarios sobre los que se definen los clusters.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno