Ayuda
Ir al contenido

Dialnet


Perceptual image coding for wavelet based encoders

  • Autores: Miguel Onofre Martínez Rach
  • Directores de la Tesis: Manuel Pérez Malumbres (dir. tes.), Otoniel Mario López Granado (codir. tes.)
  • Lectura: En la Universidad Miguel Hernández de Elche ( España ) en 2014
  • Idioma: español
  • Tribunal Calificador de la Tesis: Juan-Carlos Cano Escribá (presid.), José Luis Martínez Martínez (secret.), Jan de Cock (voc.), Francisco José Martínez Domínguez (voc.), Vicente González Ruiz (voc.)
  • Materias:
  • Texto completo no disponible (Saber más ...)
  • Resumen
    • En el ámbito de la codificación y compresión de imagen y vídeo son numerosas las aportaciones que encontramos en la literatura que presentan mejoras sobre anteriores o sobre los estándares en algún aspecto. Unas plantean diferentes o nuevas formas de codificar, otras refinan los métodos ya existentes, para finalmente tratar de mejorar el rendimiento de la propuesta sobre las anteriores, bien en tiempo de codificación, utilización de recursos, tasa de compresión o calidad de la imagen o el video reconstruido, etc...

      Una vez desarrollada una nueva propuesta la gran mayoría necesita comparar sus resultados con los de propuestas anteriores. Pero estas comparaciones no solo se producen cuando se tiene el nuevo codificador o un nuevo método completamente terminado, sino que lo que es más costoso, es la necesidad de recurrir continuamente a comparativas durante el tiempo de diseño en cualquiera de sus aspectos, tiempo de procesamiento, memoria, calidad, etc. para modificar los métodos y lograr el mayor rendimiento.

      Si nos centramos en comparativas de calidad a una misma tasa de bits o bien en comparativas de tasa de bits para una misma calidad, vemos cómo la comunidad científica ha adoptado históricamente el MSE (Mean Square Error) y el PSNR (Peak to Noise Ratio) para medir la calidad y analizar los rendimientos en Rate/Distortion (R/D) de las distintas propuestas, pues posee cualidades muy atractivas [1] ya que es simple de calcular, su fórmula no necesita parámetros, matemáticamente se puede utilizar en algoritmos de optimización, es la forma natural de definir la energía del error de la señal y por último es la métrica más utilizada por lo que permite las comparaciones. La idea básica e indiscutible que favoreció al PSNR es que la mejor imagen reconstruida es la que es matemáticamente idéntica a la original.

      Desde el punto de vista del diseñador de un codificador lo interesante es determinar cuan buena es la propuesta para uno o varios rangos de rate, no únicamente para un rate determinado, pero sin que para ello sea necesario codificar y decodificar a todas las tasas. Por ello surgió la propuesta de Bjontegaard que propone un único valor porcentual de la mejora de una propuesta respecto a otra basándose en el comportamiento R/D en PSNR de ambas y que ha sido adoptada como estándar de facto.

      Cuando la recuperación de una imagen reconstruida ya no es matemáticamente exacta, la percepción visual de la calidad por el sistema visual humano dista mucho en ciertos casos de lo que la comparación matemática dicta como valor de calidad. Como veremos más adelante son muchos los ejemplos en los que la comparación entre distintas imágenes reconstruidas, provenientes de distintas distorsiones, contra un mismo original resulta en un mismo valor de calidad PSNR, pero el sistema visual humano determina claramente diferentes calidades y una ordenación diferente en cuanto a calidad.

      Por lo tanto surgió la necesidad de poder medir la calidad de las imágenes y videos reconstruidos de una forma más parecida a cómo lo hace nuestro sistema visual. Como veremos son muchas las aportaciones en este ámbito y desde muchas aproximaciones diferentes. En esta tesis realizamos una revisión de las aportaciones más relevantes en éste ámbito y nos centraremos en analizar el comportamiento de aquellas para las que dispusimos de su código fuente. A su vez revisamos y discutimos la metodología para poder comparar métricas entre si utilizando una escala común.

      La ecuación que permite trasladar una métrica a esta escala común requiere de unos parámetros que no suelen publicarse en la literatura y como veremos posteriormente son muchos los factores que hacen variar los resultados de las comparativas, por tanto en esta tesis nosotros realizamos la comparativa completa publicando los parámetros obtenidos. Esta comparativa determina el grado de correlación de una métrica a la valoración subjetiva de calidad. En este trabajo además se analiza cómo se comportan estas métricas en varios escenarios, en concreto, cómo responden las métricas frente a resultados de compresión y frente a la perdida de paquetes en redes móviles. Este estudio arroja conclusiones sobre qué métrica se adapta mejor a que tipos de compresión y perdida.

      Como hemos comentado, el PSNR se convirtió en estándar de facto antes de que se pudieran utilizar métricas de calidad perceptual pero aun existiendo éstas, posteriormente son pocos los trabajos que comparan su rendimiento utilizando métricas perceptuales a pesar de que está ampliamente reconocido que tienen mejor correlación con la valoración subjetiva de calidad que el PSNR.

      En este trabajo también se revisan las técnicas perceptuales más importantes que se utilizan para incorporar aspectos perceptuales en la codificación de imagen y video. Muchas son las propuestas que incluyen estas técnicas en la codificación de imagen y video. Al incluir algoritmos perceptuales en alguna de las etapas de un codificador o de una propuesta de mejora de éstos, lo razonable es medir el rendimiento de la propuesta desde un punto de vista perceptual. Pero aún, mayoritariamente los trabajos siguen utilizando el PSNR o las curvas R/D donde el PSNR es la métrica de calidad, IX aunque últimamente algunos trabajos comienzan a utilizar, además del PSNR, otras métricas de calidad perceptual.

      En este trabajo incluiremos técnicas perceptuales de codificación en un codificador wavelet no embebido, el S-LTW, para realizar una propuesta de un nuevo codificador, el PETW (Perceptually Enhanced Tree Wavelet). Muchas de las técnicas que aquí exploramos y proponemos, pueden ser extrapoladas a otros codificadores basados en la transformada wavelet o en la DCT. Puesto que el codificador incluye elementos perceptuales, todas nuestras comparaciones de rendimiento se realizan utilizando la métrica perceptual VIF, que resultó la más correlacionada con la valoración subjetiva en las comparaciones realizadas.

      La técnica perceptual más extendida en la codificación perceptual es la inclusión mediante la CSF (Contrast Sensitivity Function) de la sensibilidad al contraste del sistema visual humano en la etapa de cuantización. Muchos autores realizan test subjetivos con el fin de determinar la importancia perceptual de cada banda o subbanda de frecuencia y así incluir la sensibilidad al contraste del HVS en los codificadores gracias a unas matrices de pesos empíricamente obtenidas. Otros autores, sin embargo, obtienen las matrices de pesos directamente de un modelo de la CSF. Con el fin de evitar los costosos test subjetivos, nosotros analizaremos esta técnica y propondremos mejoras en la selección de pesos y mejorar por tanto el rendimiento del codificador al usar nuestra matriz de pesos. Nuestra propuesta será contrastada en términos R/D usando la VIF como métrica de calidad comparándola con la referencia y utilizando varios codificadores de imagen y video en modo intra en las comparativas.

      Por último, y basado en resultados de varios estudios, incluimos en nuestro codificador un estimador adaptativo que en función de la imagen estima un valor óptimo del ancho del dead zone para el cuantizador utilizado. Por ello modificamos la cuantización original de S-LTW para sustituirlo por un UVDZQ (Uniform Variable Dead Zone Quantizer). Este estimador determina el ancho del dead zone que permitirá mejorar el rendimiento R/D perceptual respecto a usar el dead zone que usaba el S-LTW. El rendimiento de este estimador adaptativo se compara con otros codificadores de imagen muy conocidos.

      Nuestras comparaciones determinan que la unión de las técnicas utilizadas en esta tesis consiguen mejorar el comportamiento perceptual R/D de nuestro codificador frente al S-LTW y a otros codificadores, y conseguir considerables ahorros en rate al codificar una imagen a una misma calidad perceptual, es decir, para una misma calidad perceptual el PETW consigue reducir la tasa de bits utilizada.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno