vendredi 26 mars 2010

Etat de l'art - Partie 1 PH-D G.Volpe

Résumé de la thèse de G.Volpé

1) The quest for expressiveness
Dans sa thèse G.Volpe commence par introduire les bases de la réalité augmentée et mixte. Un des axes de recherches en est l'expressivité chez un ordinateur, comment détecter et interpréteur l'action de l'utilisateur et adapter le comportement de l'ordinateur aux besoin de l'utilisateur?

Volpe revient aux définitions de la réalité, de la réalité virtuelle, de la réalité augmentée et de la virtualité, suivant le diagramme de Milgramm « Reality-virtuality continuum ». Il classifie les différentes modalités sensorielles en : visuel, audio, haptique et système vestibulaire (le système sensoriel principal de la perception du mouvement et de l'orientation par rapport à la verticale).
Il redéfinit les limites de ce qui est réel et de ce qui est virtuel.

Il fait ensuite référence à la recherche menée dans le domaine de l'émotion et notamment aux recherches menées par Picard autour de l'affective computing.

2) Expressive environments
Dans ce chapitre Volpe parle de l'élaboration d'un environnement expressif multicouche intégré où la communication est non verbale et à contenu expressif. C'est un système multimodale car il met en jeu plusieurs modalités sensorielles. MIEE (multilayered intefrated expressive environment) conçus comme réalité mixte contenant des objets réels, virtuels et mixtes, des sujets réels, virtuels et mixtes.

3) Expressive gesture
Le geste expressive est un des véhicules principaux des informations non verbales. il s'intègre dans le processus de communication MIEE ainsi :
1)L'analyse du geste expressif pour décoder le contenu expressif,
2)Le mapping du décodage expressif (phase de contrôle)
3)La synthèse du geste expressif.

Cette étude commence d'abord par la définition du geste d'un point de vue conceptuel et d'un point de vue empirique.
Dans le cadre de l'interaction homme machine, on parle de geste naturels comme les gestes iconiques, métaphoriques, déictique et battements. Selon McNeill ces gestes apparaissent uniquement pendant le discours.
Volpé chercher à définir ensuite le geste dans un cadre autre que l'IHM. S'appuyant sur les recherches de Kurtenback, il définit aussi le geste comme un mouvement corporel porteur d'informations, de sens pour soit ou pour un partenaire durant la communication. Le geste expressif est distinct du geste par le contenu expressif de l'information qu'il porte. Dans le domaine artistique, ce contenu est relatif à l'affectif et à l'émotif. Ce contenu est ce que Cowie appelle "des messages implicites" et ce que Hashimoto appelle le KANSEI. Ainsi, le même mouvement peut être fait de différentes manières et selon la qualité de ce mouvement, on peut reconnaitre l'état émotionnel d'une personne(exemple la marche n'a aucune information sémantique, marcher ne veut pas dire autre chose que marcher pourtant marcher peut dénoter d'un état émotionnel, c'est donc un geste expressif). Le contenu expressif peut aussi partiellement ou totalement modifier le sens d'une geste.

L'objectif des MIEE dans le cadre de la problématique d'expressivité du geste est de :
1)Comprendre le mécanisme de communication du contenu expressif par les geste expressifs (quels descripteurs et comment les mesurer et comment les lier au contenu expressif)
2)développer de nouveaux scénarios d'interaction multimédia (MIEE) où de nouveaux paradigmes d'interaction sont possible avec une interaction plus fine due à une meilleure observation du contenu expressif de son geste .

A ce sujet, une expérience a été faite au InfoMus pour savoir quel indicateur de mouvement portent le plus l'intention et l'expressivité du danseur pendant un spectacle. Cette expérience est relatée en détail plus bas.

Volpe définit ensuite une architecture pour l'élaboration d'un MIEE basé sur l'analyse le mapping et la synthèse du geste expressif.
La première couche étant celle de l'analyse qui est divisée elle même en plusieurs couches. Celle-ci est détaillée au chapitre 6. Elle peut être résumé ainsi :
La première couche :
  • couche 1 : signal physique -> la captation +filtrage + traitement du signal pour obtenir des données propres
  • couche 2 : low level features -> QoM...etc descripteurs du geste
  • couche 3 :Mid Level features -> données segmentés représentées
  • couche 4 : concepts and structures -> donnés classifiés.. par exemple en classifiant le geste parmi les 4 émotions primaires (la colère, la peur, la tristesse et la joie).

La deuxième couche étant le mapping est détaillée dans le chapitre 4.
La troisième couche étant la synthèse du geste en 4 émotions basiques.



4) Mapping of expressive gestures
Il y a eu une association entre ces descripteurs et des émotions basiques telles que la colère la peur la tristesse et la joie.


5) Expressive gesture in human full body movement
quels sont les descripteurs du geste qui sont porteurs de contenu expressif ? comment les calculer ? Plusieurs approchent s'imposent :
-KANSEI par Hashimoto
-biomécanique et vision par ordinateur
-théories de Laban, Pierre Schaeffer
-Psychologie Argyle et Wallbot

Schaffer:
Les qualités morphologiques basée sur des features perceptuels tels que le grain la texture ou l'allure permettent de segmenter le signal sonore. De même dans le mouvement humain, on peut segmenter un signal gestuel ou identifier des primitives du geste ou extraire des identificateurs perceptuels.

Laban:
La théorie de l'effort de Laban contient 4 composants de l'effort :
l'espace(direct ou flexible), le temps(soudain ou soutenu) le poids(léger ou lourd) et le flux.
Le vecteur d'effort décrivant les qualités de mouvement est ainsi de 4 dimensions, variant entre chacune des extrémités des composants de l'effort mesurés sur une échelle bipolaire ( l'espace, temps, poids et flux). Il bouge donc dans l'espace d'effort. C'est le chemin suivi par le vecteur d'effort qui intéresse Laban.
En considérant les 3 premiers composant de l'effort et en les combinant on peut former un cube de 8 côtés représentant les 8 efforts basics avec leurs différentes qualités. Laban tente par là de décrire et de généraliser les principales caractéristiques/qualités du mouvement humain. Il définit ainsi des qualités basiques du mouvement permettant de décrire en les combinant n'importe quel mouvement humain.

Psychologie:
...

Le mouvement peut être analyser sous différentes perspectives :
Spatiales: propriétés globales ou locales en espace général ou personnel (contraction/expension)
Temporelles : on distingues les descripteurs low-level de l'ordre du frame, mid-level de l'ordre de la phase gestuelle et le high-level de l'ordre de la séquence de phases gestuelles.
Spacio-temporelles: comme la polyphonie, ou coordination du geste ou ce que Laban appelle « effort rythms » à savoir une séquence d'efforts basiques avec une phase de préparation et une phase de terminaison.
L'action dirigé par un but, la façon dont la position du but est approchée en temps et en espace.
Postures et les pauses

Comment procéder à l'analyse
Deux approches : l'approche bottom-up commencer du signal pour dégager l'expressivité ou l'approche de soustraction consistant à réduire l'information d'un stimulis riche pour ne garder que ce qui contient essentiellement de l'expressivité.
Volpé s'intéresse à l'approche Bottom-up appelé microdances, ou l'analyse se fait sur un micro fragment vidéo de danse. Elle permet aussi une évaluation de l'algorithme car l'observateurs évalue les microdanses et son évaluation est comparé aux output de l'algorithme de classification.

L'expérience :
Une expérience a été faite au InfoMus pour savoir quel indicateur de mouvement portent le plus l'intention et l'expressivité du danseur pendant un spectacle. Volpe a testé en comparant les output des observateurs à ceux de l'algorithme. L'étude s'est focalisée sur la communication des 4 émotions : colère, peur, tristesse et joie à partir du geste expressif. Les tests ont été effectué sur un ensemble de 20 microdances.
L'hypothèse suivie est de considérer la dimension spatiale mesurée par l'extension, la dimension temporelle mesurée par les pauses et les phase gestuelles, la dimension de poids associée à la composante verticale de l'accélération, la dimension de flux associée à la forme, la vitesse l'accélération, l'énergie, la fréquence du mouvement, les pauses, la quantité d'accélération et de décélération.
Chaque émotion a été à son tours associée à un ensemble d'indicateur expressif calculée suivant les descripteurs décrit ci-dessus

Les danseurs ont performer les mêmes danses avec les différentes 4 émotions. D'un côté, les observateurs ont évalué l'intensité de chacune des émotions dans les vidéo de danses présentées et d'un autre côté l'ordinateur a classifié les vidéo suivant les 4 émotions en se basant en entrée sur les descripteurs du geste expressifs décrit ci-dessus et l'association pré-déterminée entre ces descripteurs et les 4 émotions.

6)Extraction of expressive cues :
-mesures globales dans l'espace personnel(QoM, contraction/expansion, l'orientation du corps)
-mesures inspirés par les études psycholigiques (mesure de la dynamique de la contraction/extention)
-mesures inspirés de la théorie de l'effort de Labn (directivité, impulsivité, fluidité)
-mesure inspirées de l'analogie avec l'analyse vidéo et audio (la fréquence)
-mesure inspirés de la cinématiques (vitesse, accélération)


Le framework de l'analyse du geste expressif est :
1)Données provenant de différent senseur et capteurs (video, acceleromètres..etc)
1bis) soustraction de fond, SMI est une image portant une information sur la variation de la forme et position de la silhouette, tracking du mouvement qui donne les trajectoires d'un nombre de point positionnés sur le corps en mouvement.

2) Données traitées pour détecter le mouvement, les trajectoires des points (de parties du corps ou du danseur en entier)
2bis) Traitement des images, mesures statistiques, traitement du signal
QoM est calculé comme la variation du nombre de pixels de la silhouette. Il se rapproche de la vélocité. Un inconvénient majeur est que cette mesure dépend du rapprochement à la caméra et est dur à comparer d'un danseur à l'autre
L'indice de contraction est une mesure de la quantité de pixels recouverte par la silhouette par rapport à celle recouverte par la bounding box.
On calcule aussi la direction, la longueur et la directivité de la trajectoire (indicateur de trajectoire) la vélocité et l'accélération (indicateur cinématiques)

3)Descripteurs du mouvement et indices expressifs : QoM, Contraction index.
3bis)Technique de segmentation de mouvement (détection de pauses et détection des phases de mouvement) représentation des gestes (les espaces de Laban), technique de reconnaissance de postures.
La segmentation du mouvement revient à la détection des pauses, en appliquant des seuil sur les énergies ou les QoM calculés, ainsi est obtenu un ensemble de phases du gestes en forme de cloches. (cette segmentation peut différer de celle perçu par l'homme). La fluidité est caractérisée par une quantité de pause courtes et l'impulsivité est caractérisé par un mouvement en cloche court et de grande intensité.
La reconnaissance de posture se fait ainsi grâce à l'algorithme des moment de Hu (translation, échelle, rotation) calculés pour chaque posture donc durant chaque pause sur la silhouette, puis une distance euclidienne détermine à quelle posture on fait référence. c'est une technique des voisins les plus proches.
une posture est reconnue suivant un seuil T donné, est reconnue seulement si dans les N dernière frames-postures reconnues il y a T fois l'index de la posture en question.

4) Pauses et phase de mouvement , trajectoires du mouvement dans l'espace sémantique, postures
4bis) Technique de classification (SVM, arbres de décision, réseaux de neuronnes).

7) Classification of danse fragment
...

Aucun commentaire:

Enregistrer un commentaire