2 April 2019

Menselijke emoties analyseren met machine learning

Business to business Computer Vision Python

Menselijke emoties zijn een complex gegeven, we communiceren onze emotionele toestand op verschillende manieren met de buitenwereld. Lichaamstaal, gezichtsuitdrukkingen en verbale communicatie zijn de grootste vormen van menselijke communicatie. Jezelf bewust maken van hoe je communiceert kan een voordeel bieden in tal van situaties. Bijvoorbeeld tijdens een sollicitatiegesprek: door bewust te worden van je houding, je woordkeuze, evenals je gezichtsuitdrukkingen kan je een betere indruk nalaten bij je potentiële nieuwe werkgever.

We bouwden bij jstack een proof-of-concept voor het herkennen van menselijke emoties. Door het analyseren van zowel lichaamstaal, gezichtsuitdrukkingen en verbale communicatie hebben we een unieke aanpak ontwikkeld die kan gebruikt worden in tal van situaties.

De complexiteit van menselijke emoties

Om emoties waar te nemen via een computer moet deze, net zoals wij mensen, een systeem hebben dat zowel kan “zien” als “horen”. Het zicht van de computer zal worden gebruikt om lichaamshoudingen te herkennen en deze te classificeren in verschillende categorieën. Zo kunnen we open, gesloten, ontspannen en zelfverzekerde houdingen herkennen. Door het toepassen van computer vision kunnen we ook verschillende gezichtsuitdrukkingen herkennen, bijvoorbeeld vreugde, verdriet, verrassing, afschuw, angst en boosheid. Ook wanneer iemand een neutrale gezichtsuitdrukking heeft kan dit geregistreerd worden. Het derde deel zal de spraak analyseren en zo herkennen of iemands woordkeuze positief, negatief of neutraal is.

Dankzij de combinatie van deze drie systemen, wordt het mogelijk om een grondigere analyse te maken van de verschillende emoties en ook rekening te houden met bepaalde subtiliteiten en interpretaties. Bijvoorbeeld wanneer iemand met zijn armen overeen gekruist staat lijkt het alsof deze persoon zich van de omgeving afsluit, maar dit kan echter ook een gewoonte zijn. Wanneer we kunnen achterhalen dat deze persoon droevig, boos of angstig kijkt, evenals een negatieve woordkeuze heeft, kunnen we met een grotere zekerheid vaststellen dat deze persoon zich inderdaad van de omgeving probeert af te sluiten, of zich ongemakkelijk voelt.

Een voorproefje van onze proof-of-concept

Het systeem bestaat uit twee verschillende hoofd-modules. De eerste module omvat al het benodigde voor computer-vision, de tweede module omvat de spraaktechnologie. De vision module kan worden opgesplitst in twee sub-componenten, namelijk een component voor het herkennen van lichaamshoudingen, en een tweede component voor het herkennen van gelaatsuitdrukkingen.

Onderliggend gebruikt onze module voor lichaamshoudingen een Convolutional Neural Netwerk architectuur. Dit is een uitstekende architectuur voor het verwerken van alles wat gerelateerd is aan beeld-materiaal (foto’s, video’s).

Binnen het Convolutional Neural Network, dat voornamelijk dient voor het herkennen van mensen, wordt er een methode gebruikt om ook specifieke lichaamsdelen te herkennen. Dit gebeurt door de foto op te delen in kleine vierkanten. Elk vierkant wordt dan individueel onderzocht om te analyseren of er een specifiek lichaamsdeel aanwezig is in dit gedeelte van de foto. Wanneer er met hoge zekerheid een lichaamsdeel aanwezig is, zal er een punt worden getekend op het scherm. Uiteindelijk worden al deze punten (voor alle lichaamsdelen die we herkennen) op een slimme manier met elkaar verbonden. Dit laat ons toe om dan een geheel skelet te herkennen en te classificeren.

Het tweede deel van de vision module, bestaat uit een systeem dat zich focust op gelaatsuitdrukkingen. Dit systeem combineert informatie van verschillende modellen met elkaar om zo een gelaatsuitdrukking te herkennen. Zo bestaat deze module onder andere uit een model dat getraind is op het herkennen van gelaatsuitdrukkingen en een model dat specifieke punten kan herkennen op het gezicht (facial landmarks). Door deze modellen in cascade te combineren met elkaar krijg je een krachtig systeem dat in real-time emoties kan aflezen van iemands gezicht.

Als laatste hebben we de spraakmodule waarin we we het gehele gesprek omzetten van audio naar tekst. Dit is niet beperkt tot 1 persoon door te werken met speaker diarization. Dit wil zeggen dat we verschillende sprekers kunnen herkennen, ook al spreken ze in eenzelfde audio-opname. Onderscheid tussen sprekers wordt gemaakt door continu het spraaksignaal te analyseren. Dankzij de unieke eigenschappen die iedereen in zijn stem heeft te vergelijken, kunnen we achterhalen of er verschillende mensen in een audio-bestand spreken. Om het geheel compleet te maken gebruiken we ook logistic regression om de woordkeuze te classificeren in een positieve, neutrale of negatieve categorie.

Tot slot wordt de verzamelde informatie van de verschillende modules samengebracht in een dashboard. Hier krijg je een overzicht van de afzonderlijke emoties tijdens de opname en een aggregatie die de emoties combineert om zo een diepere analyse te kunnen maken van de betekenis ervan.

Hoe kan dit ingezet worden?

Wellicht hebt u ondertussen al enkele ideeën hoe dit in de praktijk kan gebruikt worden. Enkele van de toepassingen die wij zien:

Een eerste screening

Om de HR of rekrutering afdeling te ondersteunen tijdens het selecteren van de juiste kandidaten kan het systeem ingezet worden als een eerste screening. Sollicitanten kunnen op de website van het bedrijf een videoboodschap van zichzelf opnemen waarin ze enkele gerichte vragen beantwoorden. Deze video wordt geanalyseerd en geeft meer informatie aan de recruiter of kan automatisch een voorselectie maken aan de hand van vooraf bepaalde parameters.

De sollicitatie assistent

De sollicitant kan via zijn smartphone of computer een real-time analyse krijgen hoe hij of zij communiceert. Dit is een laagdrempelige manier om meer bewustzijn te creëren van de impact van je verbale-en non-verbale communicatie op de ontvanger.

Nog meer mogelijkheden?

Aangezien ons systeem is opgebouwd uit verschillende modules, die elk een ingewikkeld probleem op zich nemen, is het tot meer in staat is dan enkel emoties te analyseren. Voordat we lichaamstaal kunnen herkennen moeten volgende problemen eerst opgelost zijn: het herkennen van een persoon, het herkennen van verschillende lichaamsdelen, begrijpen hoe deze lichaamsdelen met elkaar verbonden zijn, etc. Via deze aanpak zijn we ook in staat andere complexe use-cases aan te pakken. Bijvoorbeeld het controleren en assisteren bij het aannemen van een correcte lichaamshouding tijdens het werk of tijdens het sporten.

Ziet u kansen voor een soortgelijke oplossing voor uw organisatie?

Onze specialisten vertellen u er graag meer over. Neem contact op met Laure Van Hoyweghen voor een vrijblijvend adviesgesprek.

Neem contact op
of bel NL +31 (0)85-888 33 31 BE +32 (0)3 444 11 08

Meer over AI

Case bekijken

Menselijke emoties analyseren met machine learning

De complexiteit van menselijke emoties

Een voorproefje van onze proof-of-concept

Hoe kan dit ingezet worden?

Een eerste screening

De sollicitatie assistent

Nog meer mogelijkheden?

Ziet u kansen voor een soortgelijke oplossing voor uw organisatie?

Meer over AI

Computer vision houdt toezicht op waterwegen

AI, machine learning en deep learning: wat is nu het verschil?

Transfer Learning in ML

Wat is Data Science?

Menselijke emoties analyseren met machine learning

Antwerpen

Breda