Scalability and Quality of Experience of WebRTC media servers for Large-Scale, Low-Latency Streaming

Iván Chicano Capelo

Ayuda

Scalability and Quality of Experience of WebRTC media servers for Large-Scale, Low-Latency Streaming

Autores: Iván Chicano Capelo
Directores de la Tesis: Micael Gallego Carrillo (dir. tes.), Francisco Gortázar Bellas (dir. tes.)
Lectura: En la Universidad Rey Juan Carlos ( España ) en 2026
Idioma: inglés
Tribunal Calificador de la Tesis: Juan Carlos Guerri Cebollada (presid.), Jesus Gonzalez Barahona (secret.), Álvaro Alonso González (voc.)
Programa de doctorado: Programa de Doctorado en Tecnologías de la Información y las Comunicaciones por la Universidad Rey Juan Carlos
Enlaces
- Tesis en acceso abierto en: TESEO
Resumen
- Low-Latency Live Streaming (LLLS) has become a cornerstone for interactive applications such as virtual events, gaming, and real-time collaboration. Web Real-Time Communication (WebRTC), originally designed for peer-to-peer communication, is increasingly adopted for LLLS due to its sub-second latency and native browser support. However, scaling WebRTC to thousands of concurrent viewers while preserving the Quality of Experience (QoE) of the users remains challenging.
  
  Hypothesis: This thesis posits that WebRTC can be used for massive LLLS scenarios while keeping the QoE of the users at acceptable levels, by analyzing the scalability limits of WebRTC media servers and using this knowledge to effectively interconnect media servers in order to distribute the load efficiently.
  
  bjectives: Three research objectives were established: (i) to study and propose load testing strategies for WebRTC applications, (ii) to study QoE degradation in WebRTC media servers under high load, and (iii) to study scaling strategies for LLLS with WebRTC by interconnecting media servers.
  
  Methodologies and tools: To achieve the first two objectives, two tools were developed: OpenVidu Loadtest Tool (OVLT) for large-scale capacity testing and OpenVidu QoE and Load Testing Tool (OQLT) for integrated QoE evaluation using Video MultiMethod Assessment Fusion (VMAF) (video) and Virtual Speech Quality Objective Listener (ViSQOL) (audio). In these tools we developed multiple novel load testing strategies and compared them to browser-based approaches. We also performed QoE analysis under stress against three distinct media servers to verify their behavior under load. For the third objective, we developed Mediasoup interconnection latency analysis tool (MILA), a tool that orchestrates Mediasoup workers in a chain topology and measures end-to-end latency empirically. Using MILA, we conducted an empirical analysis of the latency introduced by horizontal scaling of WebRTC media servers, measuring latency characteristics across interconnected servers. We then developed multiple algorithmic strategies for dynamic management of interconnected media servers that scale in and out based on demand, optimizing both cost (measured as the number of servers used and their utilization) and latency. To evaluate these strategies, we created a simulation framework with a theoretical model and implemented the LLLS simulator which reproduces realistic live streaming scenarios by modeling user arrival and departure patterns derived from real-world data, dynamically managing server instances, and performing user-to-server assignment according to the strategies under evaluation. We used iterative parameter tuning with the irace algorithm to find optimal strategy configurations on training instances, validated on independent test instances across different instance sizes (small, medium, big) and server capacities.
  
  Main results: Non-browser-based emulation strategies, in particular kms-webrtc, reduce testing costs by up to 96.6% compared to browser-based approaches. QoE analysis under load shows distinct failure modes: Kurento and Pion degrade primarily under CPU saturation, while Mediasoup remains stable until round-trip time (RTT) exceeds approximately ∼0,2 s and jitter ∼0,04 s. Mediasoup supports up to six times more users before QoE degradation than Kurento and nearly twice as many as Pion. Regarding horizontal scalability, media server interconnection introduces negligible latency, allowing us to focus on optimizing server costs. The best presented scalability strategy, which optimizes session, publisher and viewer assignment and per-server capacity reservation, significantly outperforms alternatives in resource utilization and costs through the sharing of media servers among multiple streams and the reservation of a small number of spaces in each server for interconnection with other servers.
  
  Conclusions: The results confirm the initial hypothesis and provide practical guidelines, tools, and datasets for designing scalable WebRTC-based low-latency streaming platforms that scale to large audiences while maintaining acceptable QoE. Characterization of scalability limits and the use of media server interconnection as an expansion mechanism are key for planning efficient LLLS deployments.
  
  Antecedentes: La comunicación multimedia en tiempo real se ha convertido en una tecnología fundamental en el panorama digital actual. La demanda explosiva de servicios de comunicación en tiempo real, impulsada por el auge del trabajo remoto, la educación en línea, el streaming de eventos y la videoconferencia, ha generado la necesidad imperativa de soluciones eficientes, escalables y de baja latencia. El streaming en vivo de baja latencia (LLLS, por sus siglas en inglés), que caracteriza los servicios de streaming interactivo donde espectadores pueden interactuar en tiempo real con los transmisores, se ha convertido en un pilar crítico para aplicaciones como eventos virtuales, plataformas de streaming personalizado, y sistemas de colaboración en tiempo real.
  
  Web Real-Time Communication (WebRTC) ha emergido como una tecnología revolucionaria en este contexto. Originalmente diseñado para habilitar comunicación peer-to-peer directa entre navegadores web, WebRTC ofrece capacidades nativas de comunicación multimedia bidireccional en el navegador sin necesidad de complementos o software adicional. Su soporte nativo en navegadores modernos, su latencia sub-segundo, y su basamento en estándares abiertos lo hacen especialmente atractivo para escenarios que requieren interactividad de baja latencia. Grandes aplicaciones como Google Meet, Microsoft Teams y Discord han adoptado ampliamente WebRTC, demostrando su viabilidad para comunicaciones multimedia a escala.
  
  Hipótesis y objetivos: La hipótesis fundamental de esta tesis es que WebRTC puede emplearse eficazmente en despliegues de LLLS a gran escala manteniendo una QoE aceptable, por medio del análisis de los límites de escalabilidad de los servidores multimedia basados en WebRTC y utilizando este conocimiento para interconectar eficazmente los servidores multimedia con el fin de distribuir la carga de manera eficiente.
  
  A partir de esta hipótesis surgen el siguiente objetivo general: Analizar y mejorar la escalabilidad de los servidores multimedia basados en WebRTC para comunicaciones multimedia en tiempo real en escenarios de LLLS.
  
  Para alcanzar el objetivo general, se establecieron tres objetivos de investigación específicos: Primer objetivo: Estudiar y proponer estrategias de pruebas de carga para aplicaciones WebRTC, incluyendo enfoques tradicionales basados en navegadores y metodologías innovadoras que reduzcan el consumo de recursos.
  
  Segundo objetivo: Estudiar la degradación de QoE en servidores multimedia basados en WebRTC bajo alta carga, integrando métricas de QoE en escenarios de pruebas de carga para comprender mejor el impacto del estrés en la calidad percibida por el usuario.
  
  Tercer objetivo: Estudiar y proponer estrategias de escalabilidad horizontal basadas en la interconexión de servidores multimedia, analizando tanto la sobrecarga de latencia introducida por esta interconexión como los algoritmos óptimos para asignar usuarios a servidores y escalar dinámicamente el número de servidores en uso basándose en la demanda actual.
  
  Metodologías y herramientas: Para abordar estos objetivos, se desarrolló un conjunto comprensivo de herramientas y se utilizaron diversas metodologías de investigación, combinando técnicas experimentales controladas, simulación de eventos discretos, y análisis estadístico de resultados.
  
  Objetivo 1 - Estudio de estrategias para pruebas de carga: se comparan cinco estrategias: tres basadas en navegador (con grabación, sin grabación y headless) y dos no basadas en navegador (node-webrtc y kms-webrtc). Se implementan en la Herramienta de Pruebas de Carga de OpenVidu (OVLT), que orquesta VMs en AWS para inyectar carga. Métricas: usuarios máximos por VM, consumo de CPU/memoria según número de usuarios y coste monetario total. Se ejecutan campañas incrementales variando topologías (N:N; N:M) y se analizan recursos (CPU, memoria, ancho de banda) y estadísticas internas de WebRTC.
  
  Objetivo 2 - Estudio de QoE bajo carga: caso de estudio con tres servidores multimedia: Kurento, Mediasoup y Pion (presentes en plataformas populares). Se desarrolla la Herramienta de Pruebas de Carga y QoE de OpenVidu (OQLT), que integra inyección de carga con grabación automática de audio/vídeo. Se configuran topologías representativas (todos publicadores; pocos publicadores y muchos suscriptores), se registran métricas de sistema (CPU, memoria, red) y estadísticas WebRTC (RTT, jitter, pérdida) y se aplican VMAF para vídeo y ViSQOL para audio. Se realizan repeticiones hasta detectar puntos de saturación y se correlaciona QoS (CPU, RTT, jitter, pérdida) con QoE (VMAF, ViSQOL), identificando umbrales de degradación.
  
  Objetivo 3 - Estudio de escalabilidad horizontal: se usa experimentación para latencia de interconexión y simulación de eventos discretos para estrategias de escalado en línea. Se desarrolla MILA para orquestar múltiples VMs con Mediasoup en cadenas de 1–20 saltos dentro de la misma región y VPC de AWS, midiendo la latencia extremo a extremo entre cliente emisor y receptor. El simulador LLLS modela capacidad por servidor, costes operacionales, topologías dinámicas y escalado (creación/destrucción de servidores). Se proponen tres estrategias (A, B, C) con políticas de asignación y reserva de capacidad; se evalúan con trazas reales de producción, variando capacidades máximas y concurrencia de sesiones, y se ajustan parámetros con irace. Métricas: coste acumulado, utilización media y cumplimiento de capacidad.
  
  Resultados principales: Los resultados de la investigación revelan hallazgos significativos y prácticos.
  
  Respecto a estrategias de pruebas de carga en aplicaciones WebRTC, el análisis comparativo muestra diferencias dramáticas en eficiencia. Las estrategias no basadas en navegador, particularmente kms-webrtc (que aprovecha un servidor multimedia como cliente sintético), reduce costes de prueba hasta en un 96,6 % en comparación con enfoques basados en navegador tradicionales (navegador con o sin grabación). Más específicamente, kms-webrtc permite emular hasta 23 veces más usuarios por máquina que un navegador con grabación hasta saturar la CPU de la máquina virtual cliente, lo que reduce dramáticamente el número de máquinas virtuales requeridas y por consiguiente el coste total de operación. La estrategia node-webrtc, basada en la librería Node.js que implementa la pila de tecnologías WebRTC, muestra eficiencia intermedia, siendo mejor que estrategias basadas en navegadores pero peor que kms-webrtc. Estos hallazgos demuestran que es posible realizar pruebas de carga exhaustivas y reales de aplicaciones WebRTC de forma mucho más económica sin comprometer la validez de los resultados.
  
  El análisis de QoE bajo carga revela patrones de degradación diferenciados y específicos a cada servidor multimedia investigado. Kurento muestra degradación de QoE principalmente en el audio (hasta -10 % en puntuación media de ViSQOL, con una variabilidad de un 177 %), impulsada principalmente por saturación de CPU del servidor. Cuando la CPU alcanza el 100 %, la calidad de audio comienza a degradarse significativamente, mientras que video permanece relativamente estable (-1 % en VMAF). El impacto se refleja principalmente en nuevos usuarios experimentando dificultades para conectarse al servidor cuando este está saturado, aunque usuarios existentes mantienen conexiones relativamente estables. Pion presenta un patrón similar pero con degradación más intensa en ambas dimensiones: cuando CPU llega a 100 %, video y audio se degradan sustancialmente (ambos -10 % en media, con aumentos de variabilidad de 342 % para VMAF y ViSQOL), incluso afectando a usuarios ya conectados que experimentan desconexiones frecuentes. Mediasoup exhibe un comportamiento fundamentalmente diferente y superior: mantiene QoE estable incluso en saturación de CPU (con decrementos de solo -1 % en VMAF y -3 % en ViSQOL), hasta que métricas de red específicas exceden umbrales críticos. Específicamente, la degradación de Mediasoup ocurre cuando RTT excede los 0,2 segundos y jitter excede los 0,04 segundos aproximadamente, no en función del porcentaje de CPU usado. Además, Mediasoup es significativamente más eficiente: puede soportar aproximadamente seis veces más usuarios antes de que ocurra degradación perceptible de QoE en comparación con Kurento (mejora de 501 %), y casi el doble en comparación con Pion (mejora de 86 %). Estos resultados proporcionan por primera vez umbrales cuantitativos específicos por servidor que operadores pueden monitorear en producción.
  
  Respecto a escalabilidad horizontal mediante interconexión de servidores, el análisis de latencia muestra un hallazgo crítico: conectar múltiples máquinas virtuales ejecutando Mediasoup interconectados en cadenas de hasta veinte saltos dentro de la misma región en AWS y red virtual no introduce latencia adicional visible. Los valores de diferencia de RTT promedio (que representa la latencia incremental por cada salto adicional) se mantienen constantes y despreciables a través de diferentes configuraciones y a lo largo del tiempo, validando que el coste de interconexión por salto dentro de la misma región geográfica y red virtual de AWS es prácticamente nulo. Este hallazgo es crítico pues elimina una barrera arquitectónica significativa: nos permite diseñar estrategias de escalabilidad horizontal para LLLS con WebRTC sin necesidad de focalizarnos en optimizar la latencia introducida por interconexión de servidores multimedia, pudiendo centrar nuestra atención en otros aspectos más críticos como el coste de los servidores y la utilización de recursos de computación por servidor.
  
  El análisis de estrategias de escalado dinámico comparó tres enfoques con complejidad creciente. Los resultados de simulación contra datos derivados de eventos de streaming en vivo del mundo real muestran que el alojamiento compartido de múltiples sesiones de streaming en el mismo servidor mejora dramáticamente la utilización de recursos, logrando ocupación de servidor superior al 90 % a lo largo del tiempo en la mayoría de experimentos. Más aún, estrategias que reservan deliberadamente espacios de capacidad en servidores para futura interconexión funcionan significativamente mejor que aquellas sin esta reserva, aumentando eficiencia en 15-25 % según configuración. La Estrategia C propuesta, que optimiza tanto la asignación de transmisiones y espectadores como la reserva de capacidad para interconexión, supera significativamente alternativas más simples en utilización de recursos (10-20 % de mejora) y costes monetarios absolutos (15-30 % de ahorro), logrando eficiencias que justifican completamente la complejidad algorítmica adicional.
  
  Conclusiones: Los resultados de esta investigación validan la hipótesis fundamental y proporcionan un conjunto comprensivo de directrices prácticas, herramientas de código abierto, y conjuntos de datos realistas para diseñar plataformas de streaming de baja latencia basadas en WebRTC que escalen a grandes audiencias mientras mantienen una QoE aceptable.
  
  Primero, la caracterización sistemática de límites de escalabilidad mediante herramientas como OVLT y OQLT proporciona fundamentos empíricos para planificación de capacidad. Los desarrolladores y operadores ahora pueden entender el comportamiento preciso de diferentes servidores multimedia WebRTC bajo carga, identificar puntos de saturación específicos, y tomar decisiones informadas respecto a qué servidor seleccionar para sus casos de uso particulares.
  
  Segundo, la demostración de que interconexión de servidores multimedia introduce latencia despreciable dentro de regiones geográficas y redes compartidas justifica focalizar la atención en otros aspectos críticos para el escalado horizontal como el coste de la infraestructura. Esto elimina una barrera arquitectónica significativa al escalado de WebRTC.
  
  Tercero, los algoritmos de escalado dinámico propuestos, especialmente la Estrategia C propuesta que optimiza tanto asignación de espectadores como reserva de capacidad, proporcionan un camino práctico hacia operación eficiente en costes de plataformas LLLS masivas usando WebRTC. La capacidad de compartir servidores multimedia entre múltiples transmisiones mientras se mantiene baja latencia representa un avance significativo en economía operacional.
  
  En conjunto, esta tesis demuestra que WebRTC, con la infraestructura, herramientas, y estrategias correctas, es no solo viable sino muy eficiente para escenarios de transmisión en vivo de baja latencia a gran escala. La investigación proporciona tanto el conocimiento fundamental de límites de sistema como las herramientas prácticas necesarias para implementar soluciones de producción eficientes, escalables y económicas. Además, los conjuntos de datos y herramientas de código abierto desarrollados en este trabajo están disponibles para la comunidad investigadora y de desarrollo, facilitando futuras líneas de investigación y mejoras en el campo de la comunicación multimedia en tiempo real usando WebRTC.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: