vendredi 26 mars 2010

Etat de l'art - Partie 2 Affective computing

Cet article suggère des modèles pour la reconnaissance des émotions, leur analyse et leur synthèse.

Les émotions sont d'une importance première chez l'être humain, puisqu'elles sont étroitement liées à sa perception. Il y a une relation réciproque entre le cortex (zone responsable du cognitif) et notre système limbique (zone responsable de nos émotions). Contrairement à ce qui ai communément pensé, à savoir que le système limbique(les émotions) est à l'antipode du cognitif, le système limbique a aussi une influence importante sur le cognitif. Les émotions ont donc un rôle plus important que la raison objective. D'une part, neurologiquement parlant, le cerveau n'a pas des limites aussi définies car l'hippocampus est le lieu où émotions et cognitifs se réunissent, d'autre part, des expériences montrent que les émotions sont vitales pour prendre une décision rationnelle. Ce qui indique que lorsque nous voulons créer une machine qui réfléchi nous devons prendre en compte autant la logique que les émotions.

L'application que W.R. Picard imagine est de faire des ordinateurs-professeurs capables d'intéragir au mieux avec leurs élèves. De distinguer au mieux l'état émotionnel de l'élève, de s'y adapter, pour minimiser l'anxiété (si on considère qu'il est capable de distinguer les 3 émotions suivantes : l'intérêt, la joie et l'anxiété) en plus d'exprimer lui même des affects. De telles machines seraient capables de passer le test de turing consistant à ce qu'un être humain dans une conversation avec cette même machine n'arrive pas à dire si c'est un humain qu'il a devant lui ou une machine.


Comment distinguer les differents aspects cognitifs, physiques ou autres des émotions. la cognition peut précéder la génération d'émotion (nous sommes souvent conscients de nos émotions). A partir de cette question, Damasio classe les émotions en primaires et secondaires. Les "primaires" sont celles où l'humain répond émotionnellement(systèmelimbic) d'abord puis il déclenche des réactions cognitives et des émotions "secondaires"(système limbic et cortex).

Picard étudie là ce qui en est mesurable à savoir les réponses physiologiques aux émotions, les symptomes des états émotionnels. Une problème subsiste néanmoins dans le fait que les réponses aux émotions change d'un individu à un autre, celà revient au problèmes d'universalité, Picard y répond en affirmant que la problèmatique s'applique à l'individu dans un seul contexte.

Le système moteur sert à communiquer sur l'état émotionnel. Il y a des signes qui révèlent les émotions de l'être humain, Lazarus avance que chaque émotion a son propre pattern de réponses somatiques d'autres parlent d'uniques patterns de mouvement de muscles faciaux. En résumé, voici les réponses "sentic" mesurables pour la reconnaissance des émotions :

-les expressions faciales : identifier les muscles sollicités en réponse à certaines émotions.
-la voix : différents features de la voix peuvent être modulés par les émotions, ces paramètres sont porteurs d'information pour distinguer les émotions.
-autres : d'autres réponses sont à envisager pour des patiens paralysés par exemple.
A noter que lorsque nous faignons une émotion il y a une différence car le volontaire et l'émotionnel passent par différents chemins dans le cerveau.

Sachant que l'être humain ne peut exprimer une émotion lorsqu'il en ressent une autre, et que selon Plutchic et clynes, toute émotion peut être un mélange d'émotions principales, on peut choisir de commencer par analyser 4 émotions basiques : la peur, la colère, la tristesse, la joie ou alors trois catégories d'émotions "éveil", "valence" et "control".
Pour classifier les émotions, nous pouvons utiliser un HMM qu'on entraîne avec des observations qui ne sont autres que les mesures des modulations et dynamiques des réponses "sentic" et symptomes émotionnels. On peut adapter l'HMM pour représenter un mélange d'émotions comme dans l'article de Popat and Picard sur le "cluster based probability model".

Picard traîte enfin tout un panel de questions éthiques relatives à l'intélligence des ordinateur, les ordinateurs capable de percevoir et d'exprimer des émotions. Elle argumente que le réel danger provient des ordinateurs pouvant agir en se basant sur des émotions et non seulement en exprimant ou en percevant des émotions. Elle persiste qu'il faut toujours concevoir ces ordinateurs de sortes que leurs émotions soient visibles par l'homme pour ne pas être un danger pour lui.

Résumé de la théorie de Laban

Laban considère le mouvement humain comme une architecture vivante. Il considère l'espace qui génère le mouvement et imagine un volume appelé Kinesphère individuel et délimité.
La kinesphère :
-Le cube comportant les 4 grande diagonales. Laban considère les 26 direction divergentes (du centre du danseur vers la kinesphère) contre une direction convergente qu'il nomme "la place"
La dynamosphère :
Espace dans lequel se situent nos actions dynamiques. Laban associe les dynamiques de la dynamosphère liées au poids à l'espace et au temps aux directions de la kinesphère (exemple la continuité est associée à "en avant" et la soudaineté à "en arrière"). Ce qui lui permet en définnaissant les actions dynamiques de base grâce à ces dynamique de shématiser une dynamosphère ou chaque action est liée à un coin du cube. Les huits actions dynamiques de base sont: frapper, flotter, fouetter, glisser, presser, tordre, epousseter, tapoter.
Système de l'effort :
Nous ne percevons de l'effort que la manifestation d'une activité intérieure résultant d'une impulsion à l'origine du mouvement. Chaque mouvement produit de l'effort : résultat visible d'un processus invisible. L'effort est ce qui se manifeste (visible) et ce qui permet cette manifestation(invisible).
4 facteurs dynamiques : poids(on y associe le "ferme" et le "leger"), espace("le direct" et "l'indirect" // flexibilité et rectitude) , temps("le soudain" et le "continue"), flux("le libre" et "le contrôlé"). A noter que la notion de flux caractérise la qualité d'écoulement du mouvement, le degré de libération produit dans le mouvement.
Ces élèment sont les paramètre objectivable du mouvement, mais il existe ce qui ne peut se réduire au mouvement mécanique, l'expressivité de l'être vivant.
Eukinétique:
Système d'organisation des dynamiques expressives du mouvement dans l'espace. Pour Laban, l'émotion est à l'origine du mouvement.

Etat de l'art - Partie 1 PH-D G.Volpe

Résumé de la thèse de G.Volpé

1) The quest for expressiveness
Dans sa thèse G.Volpe commence par introduire les bases de la réalité augmentée et mixte. Un des axes de recherches en est l'expressivité chez un ordinateur, comment détecter et interpréteur l'action de l'utilisateur et adapter le comportement de l'ordinateur aux besoin de l'utilisateur?

Volpe revient aux définitions de la réalité, de la réalité virtuelle, de la réalité augmentée et de la virtualité, suivant le diagramme de Milgramm « Reality-virtuality continuum ». Il classifie les différentes modalités sensorielles en : visuel, audio, haptique et système vestibulaire (le système sensoriel principal de la perception du mouvement et de l'orientation par rapport à la verticale).
Il redéfinit les limites de ce qui est réel et de ce qui est virtuel.

Il fait ensuite référence à la recherche menée dans le domaine de l'émotion et notamment aux recherches menées par Picard autour de l'affective computing.

2) Expressive environments
Dans ce chapitre Volpe parle de l'élaboration d'un environnement expressif multicouche intégré où la communication est non verbale et à contenu expressif. C'est un système multimodale car il met en jeu plusieurs modalités sensorielles. MIEE (multilayered intefrated expressive environment) conçus comme réalité mixte contenant des objets réels, virtuels et mixtes, des sujets réels, virtuels et mixtes.

3) Expressive gesture
Le geste expressive est un des véhicules principaux des informations non verbales. il s'intègre dans le processus de communication MIEE ainsi :
1)L'analyse du geste expressif pour décoder le contenu expressif,
2)Le mapping du décodage expressif (phase de contrôle)
3)La synthèse du geste expressif.

Cette étude commence d'abord par la définition du geste d'un point de vue conceptuel et d'un point de vue empirique.
Dans le cadre de l'interaction homme machine, on parle de geste naturels comme les gestes iconiques, métaphoriques, déictique et battements. Selon McNeill ces gestes apparaissent uniquement pendant le discours.
Volpé chercher à définir ensuite le geste dans un cadre autre que l'IHM. S'appuyant sur les recherches de Kurtenback, il définit aussi le geste comme un mouvement corporel porteur d'informations, de sens pour soit ou pour un partenaire durant la communication. Le geste expressif est distinct du geste par le contenu expressif de l'information qu'il porte. Dans le domaine artistique, ce contenu est relatif à l'affectif et à l'émotif. Ce contenu est ce que Cowie appelle "des messages implicites" et ce que Hashimoto appelle le KANSEI. Ainsi, le même mouvement peut être fait de différentes manières et selon la qualité de ce mouvement, on peut reconnaitre l'état émotionnel d'une personne(exemple la marche n'a aucune information sémantique, marcher ne veut pas dire autre chose que marcher pourtant marcher peut dénoter d'un état émotionnel, c'est donc un geste expressif). Le contenu expressif peut aussi partiellement ou totalement modifier le sens d'une geste.

L'objectif des MIEE dans le cadre de la problématique d'expressivité du geste est de :
1)Comprendre le mécanisme de communication du contenu expressif par les geste expressifs (quels descripteurs et comment les mesurer et comment les lier au contenu expressif)
2)développer de nouveaux scénarios d'interaction multimédia (MIEE) où de nouveaux paradigmes d'interaction sont possible avec une interaction plus fine due à une meilleure observation du contenu expressif de son geste .

A ce sujet, une expérience a été faite au InfoMus pour savoir quel indicateur de mouvement portent le plus l'intention et l'expressivité du danseur pendant un spectacle. Cette expérience est relatée en détail plus bas.

Volpe définit ensuite une architecture pour l'élaboration d'un MIEE basé sur l'analyse le mapping et la synthèse du geste expressif.
La première couche étant celle de l'analyse qui est divisée elle même en plusieurs couches. Celle-ci est détaillée au chapitre 6. Elle peut être résumé ainsi :
La première couche :
  • couche 1 : signal physique -> la captation +filtrage + traitement du signal pour obtenir des données propres
  • couche 2 : low level features -> QoM...etc descripteurs du geste
  • couche 3 :Mid Level features -> données segmentés représentées
  • couche 4 : concepts and structures -> donnés classifiés.. par exemple en classifiant le geste parmi les 4 émotions primaires (la colère, la peur, la tristesse et la joie).

La deuxième couche étant le mapping est détaillée dans le chapitre 4.
La troisième couche étant la synthèse du geste en 4 émotions basiques.



4) Mapping of expressive gestures
Il y a eu une association entre ces descripteurs et des émotions basiques telles que la colère la peur la tristesse et la joie.


5) Expressive gesture in human full body movement
quels sont les descripteurs du geste qui sont porteurs de contenu expressif ? comment les calculer ? Plusieurs approchent s'imposent :
-KANSEI par Hashimoto
-biomécanique et vision par ordinateur
-théories de Laban, Pierre Schaeffer
-Psychologie Argyle et Wallbot

Schaffer:
Les qualités morphologiques basée sur des features perceptuels tels que le grain la texture ou l'allure permettent de segmenter le signal sonore. De même dans le mouvement humain, on peut segmenter un signal gestuel ou identifier des primitives du geste ou extraire des identificateurs perceptuels.

Laban:
La théorie de l'effort de Laban contient 4 composants de l'effort :
l'espace(direct ou flexible), le temps(soudain ou soutenu) le poids(léger ou lourd) et le flux.
Le vecteur d'effort décrivant les qualités de mouvement est ainsi de 4 dimensions, variant entre chacune des extrémités des composants de l'effort mesurés sur une échelle bipolaire ( l'espace, temps, poids et flux). Il bouge donc dans l'espace d'effort. C'est le chemin suivi par le vecteur d'effort qui intéresse Laban.
En considérant les 3 premiers composant de l'effort et en les combinant on peut former un cube de 8 côtés représentant les 8 efforts basics avec leurs différentes qualités. Laban tente par là de décrire et de généraliser les principales caractéristiques/qualités du mouvement humain. Il définit ainsi des qualités basiques du mouvement permettant de décrire en les combinant n'importe quel mouvement humain.

Psychologie:
...

Le mouvement peut être analyser sous différentes perspectives :
Spatiales: propriétés globales ou locales en espace général ou personnel (contraction/expension)
Temporelles : on distingues les descripteurs low-level de l'ordre du frame, mid-level de l'ordre de la phase gestuelle et le high-level de l'ordre de la séquence de phases gestuelles.
Spacio-temporelles: comme la polyphonie, ou coordination du geste ou ce que Laban appelle « effort rythms » à savoir une séquence d'efforts basiques avec une phase de préparation et une phase de terminaison.
L'action dirigé par un but, la façon dont la position du but est approchée en temps et en espace.
Postures et les pauses

Comment procéder à l'analyse
Deux approches : l'approche bottom-up commencer du signal pour dégager l'expressivité ou l'approche de soustraction consistant à réduire l'information d'un stimulis riche pour ne garder que ce qui contient essentiellement de l'expressivité.
Volpé s'intéresse à l'approche Bottom-up appelé microdances, ou l'analyse se fait sur un micro fragment vidéo de danse. Elle permet aussi une évaluation de l'algorithme car l'observateurs évalue les microdanses et son évaluation est comparé aux output de l'algorithme de classification.

L'expérience :
Une expérience a été faite au InfoMus pour savoir quel indicateur de mouvement portent le plus l'intention et l'expressivité du danseur pendant un spectacle. Volpe a testé en comparant les output des observateurs à ceux de l'algorithme. L'étude s'est focalisée sur la communication des 4 émotions : colère, peur, tristesse et joie à partir du geste expressif. Les tests ont été effectué sur un ensemble de 20 microdances.
L'hypothèse suivie est de considérer la dimension spatiale mesurée par l'extension, la dimension temporelle mesurée par les pauses et les phase gestuelles, la dimension de poids associée à la composante verticale de l'accélération, la dimension de flux associée à la forme, la vitesse l'accélération, l'énergie, la fréquence du mouvement, les pauses, la quantité d'accélération et de décélération.
Chaque émotion a été à son tours associée à un ensemble d'indicateur expressif calculée suivant les descripteurs décrit ci-dessus

Les danseurs ont performer les mêmes danses avec les différentes 4 émotions. D'un côté, les observateurs ont évalué l'intensité de chacune des émotions dans les vidéo de danses présentées et d'un autre côté l'ordinateur a classifié les vidéo suivant les 4 émotions en se basant en entrée sur les descripteurs du geste expressifs décrit ci-dessus et l'association pré-déterminée entre ces descripteurs et les 4 émotions.

6)Extraction of expressive cues :
-mesures globales dans l'espace personnel(QoM, contraction/expansion, l'orientation du corps)
-mesures inspirés par les études psycholigiques (mesure de la dynamique de la contraction/extention)
-mesures inspirés de la théorie de l'effort de Labn (directivité, impulsivité, fluidité)
-mesure inspirées de l'analogie avec l'analyse vidéo et audio (la fréquence)
-mesure inspirés de la cinématiques (vitesse, accélération)


Le framework de l'analyse du geste expressif est :
1)Données provenant de différent senseur et capteurs (video, acceleromètres..etc)
1bis) soustraction de fond, SMI est une image portant une information sur la variation de la forme et position de la silhouette, tracking du mouvement qui donne les trajectoires d'un nombre de point positionnés sur le corps en mouvement.

2) Données traitées pour détecter le mouvement, les trajectoires des points (de parties du corps ou du danseur en entier)
2bis) Traitement des images, mesures statistiques, traitement du signal
QoM est calculé comme la variation du nombre de pixels de la silhouette. Il se rapproche de la vélocité. Un inconvénient majeur est que cette mesure dépend du rapprochement à la caméra et est dur à comparer d'un danseur à l'autre
L'indice de contraction est une mesure de la quantité de pixels recouverte par la silhouette par rapport à celle recouverte par la bounding box.
On calcule aussi la direction, la longueur et la directivité de la trajectoire (indicateur de trajectoire) la vélocité et l'accélération (indicateur cinématiques)

3)Descripteurs du mouvement et indices expressifs : QoM, Contraction index.
3bis)Technique de segmentation de mouvement (détection de pauses et détection des phases de mouvement) représentation des gestes (les espaces de Laban), technique de reconnaissance de postures.
La segmentation du mouvement revient à la détection des pauses, en appliquant des seuil sur les énergies ou les QoM calculés, ainsi est obtenu un ensemble de phases du gestes en forme de cloches. (cette segmentation peut différer de celle perçu par l'homme). La fluidité est caractérisée par une quantité de pause courtes et l'impulsivité est caractérisé par un mouvement en cloche court et de grande intensité.
La reconnaissance de posture se fait ainsi grâce à l'algorithme des moment de Hu (translation, échelle, rotation) calculés pour chaque posture donc durant chaque pause sur la silhouette, puis une distance euclidienne détermine à quelle posture on fait référence. c'est une technique des voisins les plus proches.
une posture est reconnue suivant un seuil T donné, est reconnue seulement si dans les N dernière frames-postures reconnues il y a T fois l'index de la posture en question.

4) Pauses et phase de mouvement , trajectoires du mouvement dans l'espace sémantique, postures
4bis) Technique de classification (SVM, arbres de décision, réseaux de neuronnes).

7) Classification of danse fragment
...

Liste des conférences / journaux pour publication

Conférences et workshop
  • Conference on Computational Semiotics for Games and New Media
  • Conference on Computer Vision and Pattern Recognition
  • The International Conference on Soft Computing and Pattern Recognition
  • Gesture workshop
  • Conference on Automatic Face and Gesture
  • SIGGRAPH
  • Pattern Analysis & Application
  • International conference on Multimedia ICME
  • International Conference in Image Processing
  • IHM
  • Conference on Human Factors in Computing Systems,
  • Advanced Visual Interfaces (AVI)
  • EuroGraphics
  • International Conference on Multimodal interfaces
  • Workshop on Machine Learning for Multimodal Interaction
  • Virtual Reality International Conference
  • The Society for the Study of Artificial Intelligence and Simulation of Behaviour. Motion, Emotion and Cognition - ConGAS Symposium on Gesture Interfaces for Multimedia Systems.

Journaux :

  • Journal on multimodal user interfaces
  • Journal of Computer Animation and Virtual Worlds
  • Arts and Technology
  • Journal of International Dance and Technology
  • Transactions on Graphics (TOG)
  • Image and Vision Computing
  • Human-Computer Interaction--INTERACT
  • Transactions on Pattern Analysis and Machine Intelligence
  • Journal of Nonverbal Behavior
  • Transactions on Visualization and Computer Graphics.
  • International Journal of Creative Interfaces and Computer Graphics.


Conférences artistiques :

  • Kinesthetic empathy: concepts and contexts
  • Art and technoscience : Practices in transformation
  • A conference by the Academy of Fine Arts in Finland, in collaboration with the Finnish Bioart Society and Pixelache festival.
  • Dance Research Electronic: Special Issue: Dance and Neuroscience - New Partnerships 1er Mai
  • Digital Ressources for the Humanities and Arts http://www.drha2010.org.uk/ Dead line 31 mars

mardi 23 mars 2010

modèles physiques masses ressorts

les cours de Christian Jacquemin en informatique graphique et rendu graphique avancé :

http://perso.limsi.fr/jacquemi/IG-TD/ig-IFIPS.html
http://perso.limsi.fr/jacquemi/RGA-TR-5-6/index.html

J'ai disséqué le TP5. Il faut :

  • L'adapter à l'esthétique EGPC
  • Créer un pont OSC pour faire le lien entre le patch max de reconnaissance du geste et le modèles de rendu graphique.
  • Tester

dimanche 3 janvier 2010

début du blog

Ceci est un blog autour de mon travail de thèse...