Ayuda
Ir al contenido

Dialnet


H-RADIC: A Fault Tolerance Framework for Virtual Clusters on Multi-Cloud Environments

  • Autores: Ambrosio Royo, Jorge Villamayor, Marcela Castro León, Dolores Isabel Rexachs del Rosario, Emilio Luque Fadón
  • Localización: Journal of Computer Science and Technology, ISSN-e 1666-6038, Vol. 18, Nº. Extra 3, 2018 (Ejemplar dedicado a: Special Issue JCC&BD 2018; e27)
  • Idioma: inglés
  • Títulos paralelos:
    • H-RADIC: Una Solución de Tolerancia a Fallos para Clústeres Virtuales en Ambientes Multi-Nube
  • Enlaces
  • Resumen
    • español

      Aunque las plataformas en la nube parecen ser muy confiables, varios incidentes de disponibilidad han demostrado que no son tan confiables. ¿Cómo podemos asegurarnos que una aplicación paralela termina su ejecución cuando el sitio en la nube ha sido afectado por una falla? Este articulo presenta HRADIC, un enfoque basado en la arquitectura RADIC, esta ejecuta aplicaciones paralelas en al menos 3 diferentes sitios o clústeres virtuales, todos protegidos por RADIC, donde el estado de la ejecución de cada sitio es guardado periódicamente en otro de los sitios y de ahí es recuperado en el caso de una falla. El articulo detalla la configuración de la arquitectura y los resultados de los experimentos usando 3 clústeres ejecutando aplicaciones NAS en paralelo, protegidas con DMTCP (una herramienta para realizar múltiples checkpoints). Nuestros experimentos muestran que al agregar un protector del clúster es posible implementar un nivel más en la jerarquía de RADIC, donde el primer nivel funciona como observador. Los experimentos muestran que la implementación de este protector esta fuera del camino critico de la ampliación y depende solamente de la utilización de recursos.

    • English

      Even though the cloud platform promises to be reliable, several availability incidents prove that it is not. How can we be sure that a parallel application finishes it´s execution even if a site is affected by a failure? This paper presents H-RADIC, an approach based on RADIC architecture, that executes parallel applications protected by RADIC in at least 3 different virtual clusters or sites. The execution state of each site is saved periodically in another site and it is recovered in case of failure. The paper details the configuration of the architecture and the experiment´s results using 3 clusters running NAS parallel applications protected with DMTCP, a very well-known distributed multi-threaded checkpoint tool. Our experiments show that by adding a cluster protector it will be possible to implement the next level in the hierarchy, where the first level in the RADIC hierarchy works as an observer at a site level. In adition, the experiments showed that the protection implementation is out of the critical path of the application and it depends on the utilized resources.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno