Ayuda
Ir al contenido

Dialnet


Enabling rolling shutter optical camera communication using artificial intelligence: towards widespread adoption and dual use of cameras as receivers

  • Autores: Cristo M. Jurado Verdu
  • Directores de la Tesis: José Alberto Rabadán Borges (dir. tes.), Víctor Guerra Yanez (codir. tes.)
  • Lectura: En la Universidad de Las Palmas de Gran Canaria ( España ) en 2023
  • Idioma: español
  • Tribunal Calificador de la Tesis: Luis Muñoz González (presid.), Jesús Bernardino Alonso Hernández (secret.), Anna Maria Vegni (voc.)
  • Programa de doctorado: Programa de Doctorado en Empresa, Internet y Tecnologías de las Comunicaciones por la Universidad de Las Palmas de Gran Canaria
  • Materias:
  • Enlaces
    • Tesis en acceso abierto en: acceda
  • Resumen
    • La sociedad actual depende de una infraestructura de comunicaciones inalámbrica basada en radio que está alcanzando niveles de saturación constatables. Son cada vez más los dispositivos que requieren de conexiones inalámbricas de alta capacidad y baja latencia. Para solventar esta problemática, las comunicaciones ópticas inalámbricas (OWC por sus siglas en inglés, optical wireless communication) se posicionan como candidatas idóneas para ofrecer una infraestructura complementaria capaz de asumir los requerimientos de capacidad de los enlaces del futuro. Existen muchas ramas dentro de las OWC, entre las que destaca las comunicaciones ópticas de espacio libre (FSO por sus siglas en inglés, free space optical communication) que utilizan transmisores ópticos basados en láseres, que cuentan ya con implementaciones comerciales exitosas. Por ejemplo, los enlaces FSO se utilizan para las comunicaciones intrasatelitales en StarLink.

      Por su parte, esta tesis se centra en las comunicaciones ópticas basadas en luz visible (VLC por sus siglas en inglés, visible light communication). Esta tecnología tiene como objetivo reutilizar los sistemas de iluminación presentes en oficinas, casas, hospitales, aeropuertos, etcétera, para establecer nuevos enlaces de comunicaciones, con diversas aplicaciones: el posicionamiento preciso en interiores, la señalización y el marketing, el soporte de entornos de realidad aumentada, la creación de puntos de acceso a Internet, las comunicaciones vehiculares, la gestión de ciudades inteligentes, la monitorización ambiental, entre otras muchas. Sin embargo, a pesar de que esta tecnología ha alcanzado el nivel de madurez técnico necesario para su despliegue, su penetración en los mercados y la industria se ha visto ralentizada por la necesidad de utilizar un hardware de recepción específico basado en fotodiodos. Los costes derivados de la integración en los dispositivos finales de usuario repercuten negativamente en la adopción de esta tecnología.

      Por este motivo la comunidad científica e ingenieril ha mostrado interés en utilizar en lugar de arreglos específicos de fotodiodos, las cámaras como receptores, constituyéndose así una nueva rama conocida como las comunicaciones ópticas basadas en cámara (OCC, por sus siglas en inglés, optical camera communication). De esta forma se promueve la creación masiva de aplicaciones utilizando dispositivos finales de usuario con cámaras incorporadas como los teléfonos móviles, los laptops, las dashcams, los sistemas de seguridad biométricos, entre otros.

      No obstante, los enlaces OCC tienen una tasa de transmisión relativamente baja, la cual está intrínsecamente limitada por la tasa de captura de imágenes de la cámara, con tasas típicas de 60 a 120 imágenes por segundo (fps por sus siglas en inglés, frames per second). Concretamente, las cámaras que utilizan una adquisición global shutter (GS), esto es, aquellas que exponen todos sus píxeles simultáneamente durante la captura, muestrean la señal óptica cada vez que se toma una imagen, por lo que la frecuencia de muestreo de recepción coincide directamente con los fps, lo que limita la tasa de datos de acuerdo con el teorema de muestreo de Nyquist-Shannon.

      Por otro lado, las cámaras rolling shutter (RS) alcanzan tasas de transmisión significativamente mayores respecto a las anteriores. Esto es debido a que escanean la escena de forma secuencial fila por fila de píxeles, lo que permite muestrear variaciones en la iluminación que ocurren durante la captura. Estas variaciones se perciben en la imagen como bandas de diferente intensidad de acuerdo con el nivel de iluminación presente en el instante en el que se expuso la correspondiente fila de píxeles. Cuando se utiliza un panel LED como transmisor, este genera bandas en la imagen que se corresponden con los diferentes símbolos que constituyen la señal óptica. En definitiva, el muestreo se realiza fila por fila de píxeles, por lo que la frecuencia de muestreo de recepción dependerá de la velocidad a la que se activan las filas. El intervalo entre la activación de dos filas consecutivas se denomina tiempo de muestreo de fila, y es entre 100 y 10000 veces mayor que el tiempo de captura de una imagen. A modo de ejemplo, tiempos de muestreo de fila típicos que varían entre los 8 y los 10 microsegundos, suponen frecuencias de muestreo que varían entre los 125 kHz y los 100 kHz. Además, las cámaras de súper cámara lenta pueden alcanzar y superar frecuencias de muestreo por encima de los 500 kHz. Por este motivo, y por el hecho de que la mayoría de las cámaras presentes en el mercado utilizan el mecanismo de adquisición RS es por el que estos enlaces han recibido especial atención recientemente.

      A pesar de que los sistemas RS-OCC permiten alcanzar tasas de transmisión mayores, requieren, sin embargo, que el tiempo de exposición de la cámara, esto es, el tiempo que permanecen los píxeles expuestos a la luz, sea lo más corto posible. De lo contrario, a medida que el tiempo de exposición aumenta las bandas de símbolos comienzan a mezclarse en la imagen, ya que los píxeles acumulan la irradiancia de varios símbolos consecutivos. El resultado de exposiciones prolongadas es la aparición de una interferencia intersimbólica (ISI, del inglés intersymbol interference) que perjudica gravemente la decodificación de la señal. En otros términos, el tiempo de exposición se comporta como un filtro paso bajo que reduce considerablemente el ancho de banda de recepción. Surge entonces un conflicto con la operación habitual de las cámaras como dispositivos de visualización. Si se reduce el tiempo de exposición, la sensibilidad de la cámara disminuye y las imágenes que esta entrega son prácticamente oscuras, en las que los objetos presentes dejan de percibirse claramente. El tiempo de exposición juega entonces un papel crucial en la mejora de la sensibilidad de la cámara, y por ende su capacidad para visualizar la escena, y en la reducción del ancho de banda de la recepción, y por ende su capacidad para operar como receptor óptico.

      Evitar que las cámaras pierdan su funcionalidad intrínseca es necesario si se desea que esta tecnología se adopte masivamente. Por tanto, hay que buscar estrategias que favorezcan el aumento de la sensibilidad sin que esto repercuta en un daño para las comunicaciones.

      Por otro lado, es requisito desarrollar una solución única que sea compatible con la gran diversidad de cámaras que existen en el mercado. A pesar de que la mayoría de ellas son RS, cada una tiene una configuración interna diferente. Además, en algunos casos sus parámetros internos son inaccesibles, como la frecuencia de reloj, que está relacionada con el tiempo de muestreo de fila simplemente porque carece de aplicación práctica en la fotografía. En otros casos, se ajustan dinámicamente sus parámetros, como es el caso del tiempo de exposición, que se selecciona automáticamente en función de la iluminación ambiente.

      En conclusión, la adopción masiva de los enlaces OCC pasa por conocer la influencia que los parámetros de las cámaras tienen en las comunicaciones, haciendo hincapié en el tiempo de exposición, y desarrollar una solución única que favorezca la visualización de la escena, y que, por tanto, permita la reutilización efectiva del mayor número de cámaras posible. Para conseguir esto en esta tesis se propone el uso de la inteligencia artificial (AI por sus siglas en inglés).

      La búsqueda de esta solución se condensa en el primer objetivo general (GO1) de esta tesis: desarrollar una arquitectura asistida con AI que sea compatible con un gran número de cámaras, y que opere de forma independiente al tiempo de exposición. Al mismo tiempo ha de favorecer el uso de sensibilidades altas para la cámara, evitando así, que esta pierda su funcionalidad como dispositivo de visualización. Además, se enuncian otros dos objetivos generales: (GO2) desarrollar un banco de pruebas experimental para la generación de muestras reales y (GO3) la evaluación de la integración y viabilidad de OCC en las aplicaciones industriales y de mercado.

      El núcleo principal de esta tesis es un compendio de tres publicaciones en revistas de alto impacto las cuales siguen una evolución coherente con el desarrollo iterativo llevado a cabo para abordar este desafío de carácter técnico industrial.

      Esta tesis parte de un trabajo previo realizado por el autor como trabajo de fin de máster. En este trabajo se desarrolló un prototipo funcional de enlace RS-OCC y se evaluó en condiciones de laboratorio. La tesis comienza en el momento en el que se decide desplegarlo en un entorno industrial, concretamente en una planta de cultivo de microalgas. El objetivo de este proyecto era crear un enlace óptico utilizando una cámara de vigilancia para la monitorización y supervisión simultáneas de múltiples fotobiorreactores. Estos fotobiorreactores (en adelante nodos) utilizan un panel LED para simultáneamente (i) ajustar la iluminación inteligentemente acorde los requerimientos de luz de las microalgas, y (ii) enviar códigos ópticos con parámetros del cultivo, como la temperatura, el nivel de pH, entre otros. Este trabajo trajo a la luz el hecho de que el ajuste del tiempo de exposición es crucial en el diseño de este tipo de enlaces. Si se reducía para favorecer una comunicación más rápida, entonces, la cámara perdía su función como dispositivo de vigilancia. Por consiguiente, los técnicos del laboratorio, o posibles intrusos, no se pueden discernir en la imagen. Este trabajo, también analizó otros requerimientos técnicos a considerar a la hora de desplegar múltiples enlaces, como: (i) la influencia de la orientación de los nodos y su perfil de irradiancia en la calidad del enlace, (ii) su distribución para conseguir tasas de transmisión equivalentes entre ellos, y (iii) su colocación para optimizar el espacio disponible. Los resultados y descubrimientos de este trabajo se recogen el primer artículo de compendio de esta tesis, y ofrecen una guía técnica útil para el diseño y despliegue de enlaces RS en un entorno industrial.

      Tras resaltar los efectos de las exposiciones prolongadas se realizó una extensa revisión bibliográfica en la búsqueda de soluciones para este problema. Se detectó una carencia respecto a la investigación en este aspecto, y se observó un creciente interés por el uso de la AI para de detección de fuentes en la imagen, y en otras ramas en el campo del procesamiento digital de la señal. Esto sugirió la idea de utilizar AI para la ecualización de los efectos de las exposiciones prolongadas. El fruto del trabajo realizado con este objetivo se publicó en el segundo artículo de compendio y consiste en un bloque de ecualización asistido con AI, capaz de mitigar de los efectos de la exposición en condiciones de ruido moderado/alto. Este ecualizador basado en un autoencoder convolucional (CAE por sus siglas en inglés, convolutional autoencoder) permite aumentar el tiempo de exposición hasta 7 veces más en comparación con el tiempo de exposición ideal para la decodificación, con tasas de error de bit inferiores al límite impuesto por las técnicas de corrección de errores hacia adelante (FEC por sus siglas en inglés forward error correction). En otras palabras, este ecualizador mejora el ancho de banda de recepción hasta 14 veces comparado con enlaces no ecualizados.

      Es importante destacar que los resultados de este trabajo tienen un impacto potencial en el campo del procesado digital de las señales, y, por tanto, en todos los sistemas de comunicaciones sean estos ópticos, basados en radio o acústicos, puesto que demuestran y validan la capacidad de la AI para aumentar el ancho de banda en sistemas fuertemente limitados en banda. En este caso la limitación viene impuesta por el tiempo de exposición, pero podría derivarse de cualquier otro elemento del enlace.

      Otra de las contribuciones de este trabajo es que el entrenamiento del ecualizador se realizó exclusivamente con muestras sintéticas. Para ello se modeló el mecanismo de RS con el tiempo de exposición y se desarrolló un algoritmo eficiente para la generación sintética de muestras. Este algoritmo utiliza únicamente parámetros temporales del enlace como son la tasa de símbolos del transmisor, el tiempo de exposición y el tiempo de muestreo de fila de la cámara. Esta generación sintética se validó indirectamente con la evaluación del ecualizador utilizando muestras reales. Este entrenamiento sintético fue motivado por la dificultad, la complejidad y el gasto de tiempo que implicaba la captura de imágenes reales. Para este propósito habría que caracterizar rigurosamente las cámaras utilizadas, y ajustar convenientemente las condiciones del enlace. Esto provocaría, además que el ecualizador no fuese capaz de generalizar bien y operar correctamente con imágenes provenientes de otras cámaras y tomadas en otras condiciones. Por lo tanto, el entrenamiento sintético, no sólo agiliza la creación de datasets, y elimina la complejidad de desarrollar un banco de pruebas, sino que además permite abstraer el entrenamiento del receptor utilizado, empleando para ello multitud de muestras representativas de una amplia variedad de transmisores, cámaras, configuraciones, niveles de ruido, entre otros parámetros.

      Finalmente, cuando se empezaron a utilizar cámaras de móviles convencionales, en lugar de cámaras de laboratorio, para una implementación práctica, se descubrió que muchos de sus parámetros internos son desconocidos, no se pueden modificar, o se actualizan dinámicamente. Por tanto, en estos casos resulta necesario estimar estos parámetros directamente en la recepción, a partir de las imágenes capturadas, antes de proceder a la decodificación. Para este propósito se propone en el tercer artículo de compendio, el uso de redes convolucionales entrenadas con imágenes sintéticas generadas con miles de configuraciones posibles. Los resultados demuestran que estas redes son capaces de obtener errores inferiores al 1.3% y el 3% en la estimación la frecuencia de reloj de los datos y el tiempo de exposición de la cámara respectivamente. Estos errores garantizan la operación óptima del resto de las rutinas de recepción.

      Como resultado, este estimador desacopla las rutinas de recepción de las cámaras utilizadas, y permite idear una arquitectura que opere directamente con las imágenes con independencia de la cámara utilizada y su configuración. Asimismo, esta arquitectura incluye etapas de ecualización de la exposición para permitir aumentar el tiempo de exposición hasta condiciones de visibilidad óptimas. De este modo se favorece el uso de las cámaras de manera simultánea para la visualización y la recepción de datos. En definitiva, esta propuesta permite la creación de un software de comunicaciones transferible que puede integrarse fácilmente en aplicaciones para teléfonos inteligentes, ordenadores de sobremesa y portátiles, tabletas, sistemas de conducción autónoma, cajeros automáticos, etc. Además, también permite el desarrollo de aplicaciones alojadas en la nube que pueden procesar imágenes provenientes de diferentes flujos multimedia en tiempo real. De esta forma, se habilitan tecnológicamente aquellos dispositivos que no disponen de un ecosistema abierto para el desarrollo de sus aplicaciones.

      Adicionalmente, en un trabajo posterior se mejoraron, los tiempos de entrenamiento de los ecualizadores hasta 435 veces, usando sólo 250 imágenes de entrenamiento en lugar de 35500. Esto se consiguió utilizando técnicas para transferencia del conocimiento acumulado por el estimador a los ecualizadores. Esta mejora en la eficiencia del entrenamiento de los ecualizadores permite que estos se puedan entrenar bajo demanda sin llegar a interrumpir la comunicación.

      Por último, durante el ejercicio de esta tesis también se ha trabajado en la parte del transmisor, creando un dispositivo llamado Barcolit que opera como un tradicional código de barras, pero de manera activa usando paneles LED. Este sistema, además, es compatible con los convencionales lectores de barras, por lo que no disrumpe los procesos industriales actuales. Además, ofrece ventajas significativas respecto a los códigos de barra impresos, ya que los códigos generados no se distorsionan en la imagen y siempre permanecen correctamente alineados horizontalmente independientemente de la orientación de la cámara.

      En conclusión, esta tesis equilibra los esfuerzos por abordar (i) un reto industrial en el campo particular de los enlaces RS-OCC, que es conseguir la reutilización efectiva de las cámaras como receptores sin perder su función primaria como dispositivos de imagen, con (ii) un problema científico-técnico extensible a cualquier campo de las comunicaciones, que es la ecualización de la ISI producida por la reducción del ancho de banda de recepción disponible y la estimación indirecta de ciertos parámetros del enlace. Además, evoluciona y madura en línea con los avances más recientes en el campo de la AI y la visión por computador, registrando resultados que superan los obtenidos con algoritmos clásicos y otros trabajos preliminares. Por último, se centra en desvincular la recepción en enlaces OCC de las cámaras utilizadas, con el objetivo de acelerar la adopción masiva de esta tecnología.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno