Resumen de Automatic body communication extraction through markerless motion capture

Ayuda

Resumen de Automatic body communication extraction through markerless motion capture

Álvaro Marcos Ramiro

español
En esta tesis se aborda el problema de la extracción automática de la comunicación no verbal en un contexto conversacional, gracias a distintos métodos de visión computacional. La comunicación no verbal juega un papel significativo en la percepción social de las personas, por lo que ha sido ampliamente analizado en psicología. Sin embargo, tradicionalmente ha sido necesaria la presencia de una persona que juzgue las características percibidas de los sujetos (es decir, un anotador), lo que supone una tediosa tarea e inconsistencias entre distintos evaluadores. Para tratar este problema, un elemento clave es el uso de métodos automáticos que permitan la abstracción sobre los anotadores, dotando de consistencia a los estudios de comportamiento.

En esta tesis se aborda esta tarea gracias a la captura de movimiento humana sin marcadores. La captura de movimiento sin marcadores consiste en la extracción de la posición de distintas partes del cuerpo a partir de imágenes y vídeos. Aunque existen sensores físicos aplicables directamente sobre los sujetos, han demostrado comprometer la naturalidad de los movimientos, algo fundamental a la hora de analizar el comportamiento conversacional.

Existen tres configuraciones en captura de movimiento sin marcadores: multi-cámara, cámara única, y cámara de profundidad. En esta tesis realizamos contribuciones en todas. Primero se ha propuesto un método multi-cámara basado en la reconstrucción 3D del entorno mediante Visual Hull. Utilizamos regresores no lineales para simplificar la búsqueda de la pose humana en el espacio altamente dimensional.

De esta forma, conseguimos seguir múltiples personas simultáneamente con un único estimador. Gracias a un proceso de refinamiento, mejoramos el resultado del regresor y la capacidad de generalizar nuevas poses. Después, se ha desarrollado un método con cámara única, utilizando la idea de saliencia de manos: asumiendo que las manos son la parte de la imagen que más rápido se mueve a lo largo de una secuencia, hemos desarrollado nuevos seguidores basados en árboles de decisiones. Posteriormente se ha extendido este método con la información proporcionada por una cámara de profundidad. Finalmente, se ha desarrollado un método altamente invariante a la apariencia en el caso también de cámara única.

Gracias al flujo óptico denso y un detector de torso, se ha obtenido la configuración de la pose a partir de la clasificación de las distintas partes corporales en la imagen. Hemos evaluado todas las contribuciones con bases de datos públicas y privadas, obteniendo o mejorando la precisión de estado del arte.

Adicionalmente, se han aplicado algunas de las ideas de los métodos mencionados para inferir una serie de variables sociales, a partir de una base de datos que contiene entrevistas de trabajo reales. Se han extraído y agregado una serie de características anotadas manualmente u obtenidas automáticamente, y se ha demostrado la correlación entre ellas y distintos rasgos de personalidad o rendimiento laboral. Finalmente, se ha conseguido predecir algunos de estos rasgos mediante un regresor.
English
This thesis addresses the problem of automatic nonverbal communication extraction by means of different computer vision techniques. Nonverbal communication plays a significant role in how we perceive each other in a social context. It has therefore been intensively analyzed in social psychology and cognitive science. However, there has always been the need for an interpreter: a person that emits a judgment on the perceived traits of the analyzed subject, or that codes specific behaviors. This judgment always carries a degree of subjectivity, which can lead to inconsistencies across different evaluations. Also, depending on the amount of data available, it can be a cumbersome, time consuming task. In order to address this problem, the use of an automatic system that abstracts itself from human interpretation is a key element, providing consistency for studying the present behaviors.

We address this task by means of human markerless motion capture. Markerless motion capture extracts the position of the human body parts in images and videos. While there exist wearable sensors for the same purpose, the discomfort associated with them reduces the naturality of the movements.

There are three main sensor set-ups in markerless motion capture: multi-camera, single camera and depth camera. In this thesis we make contributions in all of them. We first designed a multi-camera approach based on 3D scene reconstruction through Visual Hulls. We took advantage of non-linear regression methods in order to simplify the search in the high-dimensionality human pose space. By doing this, we were able to track multiple subjects simultaneously with a single tracker. Helped by a refinement process, we were able to provide better generalization capabilities. Then we developed a single camera method, based on the idea of hand saliency: we hypothesized that the hands are the parts of the image that move quicker along a whole video. To this end, we designed a new hand tracker based on a Decision Trees algorithm, and performed simultaneously action recognition. We later extended this approach by fusing the information provided by a depth camera in the hand saliency map equations.

Finally, we developed a highly appearance-invariant method for motion capture while using again a single color camera. Thanks to dense optical flow and a torso detector, we were able first to classify the body parts in the image and then obtain the body configuration. This latter contribution is a step in order to remove the appearance-related problems of markerless motion capture. We evaluated all the approaches with public and private datasets, showing or improving state-of-the-art performance.

Additionally, we applied some of the ideas behind of our methods in order to infer a series of social constructs from real job interviews. We extracted and aggregated a series of manually-annotated and automatic features from videos, and showed the correlation between them and personality traits or job performance. Finally, we were able to predict some of those traits with a regression scheme

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Coordinado por: