mercredi 2 octobre 2013

Différentes techniques d’analyse des sentiments

Parmi eux figure un outil qui s’appelait à l’origine Twitter Sentiment, rebaptisé ensuite Sentiment140. Il s’agir d’un service en ligne gratuit, créé par trois étudiants en Computer Sciences de l’Université de Stanford (Alec Go, Richa Bhayani et Lei Huang), qui permet, en tapant un mot-clé (produit, marque…), d’effectuer la recherche de l’opinion générale exprimée via Twitter sur le sujet.
En prenant l’exemple du mot-clé « McDonald », le moteur affiche les derniers Tweets postés (en anglais ou espagnol uniquement) en mesurant la part de positif et de négatif, le tout agrémenté de diagrammes et graphiques.
Les auteurs relèvent que cet outil, contrairement à la plupart des autres, n’utilise pas de listes de mots positifs ou négatifs mais est fondé sur une approche par apprentissage. Cette procédure consiste à faire travailler la machine sur un corpus test pour « s’entraîner » à détecter des expressions subjectives, des modèles ou des motifs dans le corpus. Elle doit être capable de retrouver ensuite ces modèles dans le corpus lui-même, voire d’en détecter de nouveaux, proches de ceux qu’elle connaît déjà.
Cette technique s’oppose, selon Boullier et Lohard, aux approches lexicales, qui utilisent des dictionnaires de mots subjectifs faisant office de référence universelle. Ces dictionnaires, tels que General Inquirer ou Opinion Finder, associent une polarité à chacun des mots, qui restera la même quelque soit le contexte. Le document analysé se voit alors attribuer un score d’opinion défini selon la présence de ces mots. Cette méthode est principalement utilisée pour classifier des textes sélectionnés, qui parlent de l’entité que l’ont veut analyser (exemple : critique d’un film). Elle consiste à détecter le terme (adjectif ou l’expression qualifiante) qui est en co-occurrence avec le sujet donné, souvent au sein de la même phrase. Bien que plus standardisée, cette approche est utilisée par de nombreux outils, tels que Twendz pro, également mentionné dans l’ouvrage.
Twendz Pro, dans sa version payante, se définit comme un outil marketing qui permet d’identifier les thèmes de conversation et d’en analyser les sentiments. Les auteurs précisent qu’il est possible également d’obtenir des informations sur les utilisateurs influents, de suivre les tendances en direct et de répondre aux Tweets en engageant la conversation.
Cependant, Boullier et Lauhard précisent que ce service propose une analyse du Tweet dans sa globalité et manque donc de précision relative.

Un enrichissement des ressources lexicales grâce à la sémantique

Malgré la brièveté du message, l’analyse d’un Tweet peut se révéler délicate, apparaissant parfois comme un message codé rempli de hashtags, émoticônes, abréviations, et anglicismes. Ces facteurs, ainsi que l’interactivité qu’implique le réseau social (réponse à un Tweet précédent, citation…), ne sont pas à négliger lors de l’analyse. Dominique Boullier et Audrey Lohard démontrent que l’utilisation des lexiques présente alors certaines limites :
  • Les dictionnaires affectent une tonalité positive ou négative à un mot, sans tenir compte du contexte, c’est-à-dire du texte environnant.
  • Le traitement des expressions ambiguës  demande de faire appel à d’autres techniques.
  • La négation n’est parfois pas prise en compte, ce qui fausse le score de polarité.
  • Il n’est pas possible de traiter des figures de rhétorique telles que le sarcasme ou l’ironie.
Pour corriger certains de ces défauts, les auteurs proposent de faire appel à des méthodes qui abordent la sémantique. En effet, les techniques mobilisant un moteur sémantique enrichissent considérablement les ressources lexicales, dans la mesure où l’on est capable, grâce aux algorithmes d’analyse, de prendre en compte des expressions entières et de reconstituer leur sens malgré des périphrases, des négations, ou des métaphores.

Un logiciel dédié à l’analyse sémantique

Cette méthode d’analyse, utilisée dans la solution Sphinx Quali, définit les conditions nécessaires pour passer du simple lexique au véritable sens du corpus. Elle exploite les notions de thésaurus (ensemble d’idées et de significations), et de réseau sémantique (relations entre éléments signifiants), qui permettent alors d’explorer un texte en identifiant les principaux concepts et en tenant compte du contexte auquel ils sont reliés. L’analyse des sentiments se trouve alors plus précise, tant dans l’orientation positive/négative et la nature du sentiment, que dans l’intensité dans laquelle il est exprimé.
Malgré ces avancées, quelques figures de rhétorique restent difficilement exploitables par  l’analyse automatique (telles que l’ironie évoquée plus haut), prouvant que les compétences d’un chargé d’études qualifié représentent un atout essentiel pour mener des études qualitatives pertinentes et des résultats communicables.
Sources :

Aucun commentaire:

Enregistrer un commentaire