En prenant l’exemple du mot-clé
« McDonald », le moteur affiche les derniers Tweets postés (en anglais
ou espagnol uniquement) en mesurant la part de positif et de négatif, le
tout agrémenté de diagrammes et graphiques.
Les auteurs relèvent que cet outil,
contrairement à la plupart des autres, n’utilise pas de listes de mots
positifs ou négatifs mais est fondé sur une approche par apprentissage.
Cette procédure consiste à faire travailler la machine sur un corpus
test pour « s’entraîner » à détecter des expressions subjectives, des
modèles ou des motifs dans le corpus. Elle doit être capable de
retrouver ensuite ces modèles dans le corpus lui-même, voire d’en
détecter de nouveaux, proches de ceux qu’elle connaît déjà.
Cette technique s’oppose, selon Boullier et Lohard, aux approches lexicales, qui utilisent des dictionnaires de mots subjectifs faisant office de référence universelle. Ces dictionnaires, tels que General Inquirer ou Opinion Finder,
associent une polarité à chacun des mots, qui restera la même quelque
soit le contexte. Le document analysé se voit alors attribuer un score
d’opinion défini selon la présence de ces mots. Cette méthode est
principalement utilisée pour classifier des textes sélectionnés, qui
parlent de l’entité que l’ont veut analyser (exemple : critique d’un
film). Elle consiste à détecter le terme (adjectif ou l’expression
qualifiante) qui est en co-occurrence avec le sujet donné, souvent au
sein de la même phrase. Bien que plus standardisée, cette approche est
utilisée par de nombreux outils, tels que Twendz pro, également mentionné dans l’ouvrage.
Twendz Pro, dans sa version payante, se
définit comme un outil marketing qui permet d’identifier les thèmes de
conversation et d’en analyser les sentiments. Les auteurs précisent
qu’il est possible également d’obtenir des informations sur les
utilisateurs influents, de suivre les tendances en direct et de répondre
aux Tweets en engageant la conversation.
Cependant, Boullier et Lauhard précisent
que ce service propose une analyse du Tweet dans sa globalité et manque
donc de précision relative.
Un enrichissement des ressources lexicales grâce à la sémantique
Malgré la brièveté du message, l’analyse
d’un Tweet peut se révéler délicate, apparaissant parfois comme un
message codé rempli de hashtags, émoticônes, abréviations, et
anglicismes. Ces facteurs, ainsi que l’interactivité qu’implique le
réseau social (réponse à un Tweet précédent, citation…), ne sont pas à
négliger lors de l’analyse. Dominique Boullier et Audrey Lohard
démontrent que l’utilisation des lexiques présente alors certaines
limites :
- Les dictionnaires affectent une tonalité positive ou négative à un mot, sans tenir compte du contexte, c’est-à-dire du texte environnant.
- Le traitement des expressions ambiguës demande de faire appel à d’autres techniques.
- La négation n’est parfois pas prise en compte, ce qui fausse le score de polarité.
- Il n’est pas possible de traiter des figures de rhétorique telles que le sarcasme ou l’ironie.
Pour corriger certains de ces défauts,
les auteurs proposent de faire appel à des méthodes qui abordent la
sémantique. En effet, les techniques mobilisant un moteur sémantique
enrichissent considérablement les ressources lexicales, dans la mesure
où l’on est capable, grâce aux algorithmes d’analyse, de prendre en
compte des expressions entières et de reconstituer leur sens malgré des
périphrases, des négations, ou des métaphores.
Un logiciel dédié à l’analyse sémantique
Cette méthode d’analyse, utilisée dans
la solution Sphinx Quali, définit les conditions nécessaires pour passer
du simple lexique au véritable sens du corpus. Elle exploite les
notions de thésaurus (ensemble d’idées et de significations), et de
réseau sémantique (relations entre éléments signifiants), qui permettent
alors d’explorer un texte en identifiant les principaux concepts et en
tenant compte du contexte auquel ils sont reliés. L’analyse des
sentiments se trouve alors plus précise, tant dans l’orientation
positive/négative et la nature du sentiment, que dans l’intensité dans
laquelle il est exprimé.
Malgré ces avancées, quelques figures de
rhétorique restent difficilement exploitables par l’analyse
automatique (telles que l’ironie évoquée plus haut), prouvant que les
compétences d’un chargé d’études qualifié représentent un atout
essentiel pour mener des études qualitatives pertinentes et des
résultats communicables.
Sources :
- D. Boullier et A. Lohard, « Opinion mining et Sentiment analysis : méthodes et outils ». Collection Sciences Po/medialab, 2012.
- B. Pang et L. Lee, « Opinion Mining and Sentiment analysis », 2008.
- Sentiment140 : http://www.sentiment140.com/
- Twendz Pro : http://twendz.waggeneredstrom.com/
Aucun commentaire:
Enregistrer un commentaire
Remarque : Seul un membre de ce blog est autorisé à enregistrer un commentaire.