Reconocimiento de la lengua de señas colombiana mediante redes neuronales con memoria a largo y corto plazo

Diego Fernando Rivera Vásquez; Carolina González Serrano

Ayuda

Reconocimiento de la lengua de señas colombiana mediante redes neuronales con memoria a largo y corto plazo

Diego-Fernando Rivera-Vásquez ^[1] ; Carolina González-Serrano ^[1]
1. [1] Universidad del Cauca
  
  Universidad del Cauca
  
  Colombia
Localización: Revista Facultad de Ingeniería, ISSN-e 2357-5328, ISSN 0121-1129, Vol. 34, Nº. 71, 2025
Idioma: español
Títulos paralelos:
- Recognition of colombian sign language using neural networks with long- and short-term memory
Enlaces
- Texto completo (pdf)
- Texto completo
Resumen
- español
  Este estudio explora el uso de redes neuronales de memoria larga a corto plazo para el reconocimiento de la lengua de señas colombiana. Abarca tanto señas estáticas (letras) como dinámicas (palabras). Los resultados muestran que el modelo alcanzó una precisión del 90 % en el reconocimiento de letras y del 82 % en palabras, y se logró identificar en promedio 27 señas independientes. Se analizaron, además, distintas estrategias de extracción de características espaciotemporales por medio de MediaPipe y se encontró que para detectar señas estáticas solo bastan los puntos de control de manos y para señas dinámicas se necesitan los puntos de control de manos y postura. Sin embargo, los resultados no superaron el 90 % de precisión alcanzado en estudios internacionales, lo que sugiere que la calidad y cantidad del conjunto de datos utilizado podría mejorarse. Como trabajo futuro, se plantea evaluar el desempeño del modelo en tiempo real, con el fin de facilitar la comunicación entre personas sordas y oyentes. También se recomienda explorar arquitecturas de aprendizaje profundo más avanzadas, como redes convolucionales de gráficos, redes neuronales transformer o combinaciones de red neuronal convolucional con memoria larga a corto plazo; estas han mostrado buenos resultados en el reconocimiento de signos dinámicos.
- English
  This study explores the use of long short-term memory neural networks for the recognition of Colombian sign language. It covers both static (letters) and dynamic (word) signs. The results show that the model achieved 90% accuracy in letter recognition and 82% in words, identifying an average of 27 independent signs. In addition, different strategies for extracting spatiotemporal features using MediaPipe were analyzed, and it was found that to detect static signs only the hand control points are sufficient, and for dynamic signs the hand and posture control points are needed. However, the results did not exceed the 90% accuracy achieved in international studies, suggesting that the quality and quantity of the data set used could be improved. As future work, it is proposed that the model’s performance be evaluated in real time to facilitate communication between deaf and hearing people. It is also recommended to explore more advanced deep learning architectures, such as graph convolutional networks, transformer neural networks, or combinations of convolutional neural networks with long short-term memory, as these have shown good results in dynamic sign recognition.