Las máquinas paralelas de gran escala se diseñan tradicionalmente para proporcionar una plataforma de computación para muchos problemas científicos, que requieren un inmensa potencia de cálculo. Las aplicaciones científicas paralelas abarcan muchos campos como el modelado climático, la dinámica de fluidos y el plegado de proteínas. Durante la última década una estrategia común para construir máquinas paralelas de altas prestaciones ha consistido en arquitecturas basadas en miles, o incluso decenas demiles, de procesadores conectados a través de una red de interconexión de alta velocidad. En un entorno como ése, la comunicación colectiva juega un papel clave en las prestaciones de las aplicaciones y el soporte eficiente del software del sistema.
La red de interconexión Quadrics posee muchas características destacadas que la han convertido en una excelente red para máquinas paralelas de gran escala. Sin embargo, el hecho de que las tendencias actuales en supercomputación se muevan hacia las computadoras masivamente paralelas, con muchos miles de componentes, ha convertido la fiabilidad en un reto. En ese escenario, las comunicaciones colectivas en la red Quadrics se degradan significativamente en presencia del fallo de, incluso, un solo nodo.
Esta tesis presenta un mecanismo eficiente y escalable para superar las limitaciones de la comunicación colectiva en la red de interconexión Quadrics en presencia de fallos. Para ello, la factibilidad del mecanismo propuesto es demostrada formalmente. Presentamos el diseño de un nuevo algoritmo de encaminamiento con soporte hardware para multicasts, que está en la base de nuestra propuesta, árboles multicast con soporte hardware. El mecanismo propuesto es implementado y evaluado experimentalmente.
Nuestros resultados experimentales muestran que los árboles multicast con soporte hardware proporcionan una solución eficiente y escalable para la comunicación colectiva e
© 2001-2024 Fundación Dialnet · Todos los derechos reservados