One highly crucial aspect in the domain of human-human interaction is the communication of emotions. Being able to deduce emotional states through non-verbal behaviors allows humans to understand and reason about each others’ underlying goals and intents. Affective Computing is the branch of computer science that aims to profit from the power of emotions to facilitate a more efficient human-machine interaction. The goal is to give the machines the ability to express, recognize, and regulate emotions. In this dissertation, we look in detail at the role of visual and auditory expressions for communicating emotions and we develop computational models for automatic emotion recognition which is an active research area over the last decade. In general, communication of emotions through body cues is less understood than other modalities. Social psychology that has inspired many computational approaches has traditionally focused on facial cues. However, body gestures are a significant source of information especially when other channels are hidden or there is a subtle nuance of expressions. In this context, we propose our approaches for emotional body gesture recognition using two different models. For the part-based model, we develop a hybrid approach that incorporates two techniques of motion estimation and temporal normalization for hand motion modeling, then we move to present our deep-spatio temporal approach for body motion modeling to have finally the person’s emotional state. In this part, we demonstrate that our deep learning technique outperforms traditional machine learning techniques. For the kinematic-based model, we combine human pose estimation for skeleton detection and emotion classification to propose a new deep multi-stage architecture able to deal with both tasks by exploiting the strong points of models pre-trained. We demonstrate that transfer learning techniques outperform traditional machine learning techniques. As another modality, speech is the fastest normal way to communicate among humans. This reality motivates us to identify the emotional conditions of the uttering person by utilizing his/her voice automatically. We propose a deep temporal-cepstrum representation based on the concatenation of spectral features, temporal derivatives features, and a deep learning classifier for speech emotion recognition. The results obtained for both modalities using our suggested methods are very promising and competitive over existing methods in the state of the art. We believe that our work is pertinent to both social computing and organizational psychology. Taking the example of job interviews, which is well studied by social psychologists, our study may provide insights for how non-verbal cues could be used by the companies for the hiring decision. In fact, our dissertation shows the feasibility of using automatically extracted cues to analyze the psychological states as an attractive alternative to manual annotations of behavioral cues.

Un aspetto estremamente cruciale nel dominio dell’interazione uomo-uomo è la comunicazione delle emozioni. Essere in grado di dedurre gli stati emotivi attraverso comportamenti non-verbali consente agli esseri umani di comprendere e ragionare su obiettivi ed intenti altrui. L’Affective Computing è una branca dell’informatica che mira a trarre vantaggio dal potere delle emozioni per facilitare un’interazione uomo-macchina più efficiente. L’obiettivo è dare alle macchine la capacità di esprimere, riconoscere e regolare le emozioni. In questa tesi, esamineremo in dettaglio il ruolo delle espressioni visive ed uditive nel comunicare emozioni, e svilupperemo modelli computazionali per il riconoscimento automatico delle emozioni: un’area di ricerca molto attiva nell’ultimo decennio. In generale, la comunicazione delle emozioni attraverso i segnali del corpo è compresa in misura minore rispetto a altre modalità. La psicologia sociale che ha ispirato molti approcci computazionali si è tradizionalmente concentrata sui segnali facciali. Tuttavia, la gestualità del corpo è una fonte significativa di informazioni, soprattutto quando altri canali sono nascosti o in presenza di sottili sfumature di espressioni. In questo contesto, proporremo diversi approcci per il riconoscimento di gesti con applicazione alle emozioni, utilizzando due modelli. Per il modello basato su parti, svilupperemo un approccio ibrido che incorpora due tecniche di stima del movimento e di normalizzazione temporale per la modellazione del movimento della mano. Passeremo poi a presentare il nostro approccio spazio-temporale profondo (deep) per modellare il movimento del corpo, ed infine ottenere lo stato emotivo della persona. In questa parte, dimostreremo che la nostra tecnica basata sul deep learning supera le tradizionali tecniche di machine learning. Per il modello basato sulla cinematica, combineremo la stima della posa del soggetto (con applicazione al rilevamento dello scheletro) e la classificazione delle emozioni per proporre una nuova architettura profonda a più stadi in grado di affrontare entrambi i compiti sfruttando i punti di forza dei modelli pre-addestrati. Dimostreremo che le tecniche di transfer learning superano le tradizionali tecniche di apprendimento automatico. Come ulteriore modalità, il parlato è la forma più comune e veloce per comunicare tra esseri umani. Questa realtà ci ha spinti a riconoscere le condizioni emotive del soggetto parlante in maniera automatica tramite la sua voce. Proporremo una rappresentazione profonda di tipo temporale e basata sul cepstrum, che sfrutta la concatenazione di feature spettrali, feature di basate su derivate temporali, ed un classificatore basato sul deep learning per il riconoscimento delle emozioni del parlato. I risultati ottenuti per entrambe le modalità utilizzando i nostri metodi sono molto promettenti e competitivi rispetto ai metodi esistenti nello stato dell’arte. Riteniamo che il nostro lavoro sia pertinente sia per il social computing che per la psicologia organizzativa. Prendendo come esempio i colloqui di lavoro, un ambito ben studiato dagli psicologi sociali, il nostro studio può fornire informazioni utili su come sfruttare i segnali non verbali per supportare le aziende nel processo di assunzione. Questa tesi descrive la fattibilità di usare indizi estratti automaticamente per analizzare gli stati psicologici, come interessante alternativa alle annotazioni manuali dei segnali comportamentali.

(2021). Deep psychology recognition based on automatic analysis of non-verbal behaviors. (Tesi di dottorato, Università degli Studi di Milano-Bicocca, 2021).

Deep psychology recognition based on automatic analysis of non-verbal behaviors

KHALIFA, INTISSAR
2021

Abstract

One highly crucial aspect in the domain of human-human interaction is the communication of emotions. Being able to deduce emotional states through non-verbal behaviors allows humans to understand and reason about each others’ underlying goals and intents. Affective Computing is the branch of computer science that aims to profit from the power of emotions to facilitate a more efficient human-machine interaction. The goal is to give the machines the ability to express, recognize, and regulate emotions. In this dissertation, we look in detail at the role of visual and auditory expressions for communicating emotions and we develop computational models for automatic emotion recognition which is an active research area over the last decade. In general, communication of emotions through body cues is less understood than other modalities. Social psychology that has inspired many computational approaches has traditionally focused on facial cues. However, body gestures are a significant source of information especially when other channels are hidden or there is a subtle nuance of expressions. In this context, we propose our approaches for emotional body gesture recognition using two different models. For the part-based model, we develop a hybrid approach that incorporates two techniques of motion estimation and temporal normalization for hand motion modeling, then we move to present our deep-spatio temporal approach for body motion modeling to have finally the person’s emotional state. In this part, we demonstrate that our deep learning technique outperforms traditional machine learning techniques. For the kinematic-based model, we combine human pose estimation for skeleton detection and emotion classification to propose a new deep multi-stage architecture able to deal with both tasks by exploiting the strong points of models pre-trained. We demonstrate that transfer learning techniques outperform traditional machine learning techniques. As another modality, speech is the fastest normal way to communicate among humans. This reality motivates us to identify the emotional conditions of the uttering person by utilizing his/her voice automatically. We propose a deep temporal-cepstrum representation based on the concatenation of spectral features, temporal derivatives features, and a deep learning classifier for speech emotion recognition. The results obtained for both modalities using our suggested methods are very promising and competitive over existing methods in the state of the art. We believe that our work is pertinent to both social computing and organizational psychology. Taking the example of job interviews, which is well studied by social psychologists, our study may provide insights for how non-verbal cues could be used by the companies for the hiring decision. In fact, our dissertation shows the feasibility of using automatically extracted cues to analyze the psychological states as an attractive alternative to manual annotations of behavioral cues.
SCHETTINI, RAIMONDO
ZAIED, MOURAD
comportamenti; emozione; gesti del corpo; linguaggio parlato; deep learning
behaviors; emotion; body gestures; speech; deep learning
INF/01 - INFORMATICA
English
28-apr-2021
INFORMATICA
33
2019/2020
UNIVERSITÉ DE SFAX - UNIVERSITY OF SFAX
open
(2021). Deep psychology recognition based on automatic analysis of non-verbal behaviors. (Tesi di dottorato, Università degli Studi di Milano-Bicocca, 2021).
File in questo prodotto:
File Dimensione Formato  
phd_unimib_836548.pdf

accesso aperto

Descrizione: Tesi di Khalifa Intissar - 836548
Tipologia di allegato: Doctoral thesis
Dimensione 5.06 MB
Formato Adobe PDF
5.06 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10281/314920
Citazioni
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
Social impact