Tout ce que vous aviez toujours voulu savoir sur les nuages de mots-clés…

…sans jamais oser le demander.

Lorsque les nuages de mots-clés ont déferlé sur les principales plateformes de blogs, il y a quelques années, l’engouement qu’ils ont suscité pouvait difficilement s’expliquer par une simple explication rationnelle. Il y a dans cet ancêtre des visualisations de données modernes (qui l’utilisent d’ailleurs toujours) quelque chose qui court-circuite le cerveau pour parler directement au cortex visuel. Le nuage de mots-clés charme et séduit plus qu’il ne sert effectivement.

Pourquoi le nuage de mot-clé plaît-il autant ? Je vais tenter de formuler une explication après avoir détaillé le concept et présenté notre propre version.

(cc) supertin/Flickr

Le prisme des nuages

Il existe en réalité plusieurs technologies que l’on rassemble sous le terme de « nuages de mots-clés ». La traduction de l’expression est d’ailleurs peu satisfaisante car « mot-clé » ne reflète qu’un des sens de « tag », qui est en même temps l’étiquette, le marqueur, la légende… au point que certaines disciplines (comme l’informatique) utilisent plus souvent le mot anglais, même en français.

Le nuage de mots-clés « canal historique » est donc une représentation des mots-clés présents sur un site, ce qui suppose que le site dispose de mots-clés associés à chaque page ou article. Dans une configuration typique, chaque article d’un blog est associé à un certain nombre de mots-clés qui sont ajoutés à la main par l’utilisateur. Certains seront récurrents d’un article à l’autre, d’autres plus rares. Le nuage de mots-clés permet de voir instantanément ces récurrences, et, en principe d’identifier d’un coup d’œil les thématiques du blog en question.

Il est important de remarquer que c’est l’auteur des contenus qui renseigne les mots-clés, et y met donc une certaine intelligence, ou pour tout le moins un regard humain. Il existe en effet une version automatisée de ce nuage qui ne nécessite pas d’intervention humaine, où la machine balaie les contenus et compte les récurrences.

L’homme et la machine

La différence est de taille car on passe d’une organisation humaine, subjective, à une organisation purement statistique telle qu’on la trouve dans une analyse lexicographique. Dans cette version, seul le nombre d’occurrences d’un mot compte, indépendamment de son importance sémantique, d’où le caractère souvent très décevant des logiciels qui les génèrent. On y observera typiquement :

  • La prédominance de « stop words », ces petits mots comme « le », « à », « et », qui ne portent pas de sens par eux-mêmes ;
  • La disparition des syntagmes (ou expressions) composés de plusieurs mots, comme « tag cloud » par exemple, qui est découpé en « tag » et « cloud » ;
  • Un certain volume de bruit dû à la prise en compte de tout le site, y compris les menus, boutons, et autres « Laisser un commentaire. »

Le résultat est habituellement quelque chose d’inutile, surchargé, et qui n’apporte pas ou peu d’information sur les contenus « synthétisés » à moins d’avoir déjà une intuition voire une connaissance de ces contenus, et d’être en mesure de lire entre les lignes du nuage d’expression.

Cette technologie a pourtant fait peut-être autant rêver que la première version du nuage de mots-clés, qui nécessite un important travail humain préalable. A-t-on espéré que la machine remplacerait l’humain ? Je crois que les attentes ont globalement été déçues mais que l’espoir de pouvoir comprendre et synthétiser instantanément un ensemble de texte est suffisamment ambitieux pour maintenir en vie des nuages de mots-clés malgré les déceptions…

Du lexico’ au termino’

Nous avons brièvement parlé d’analyse lexicographique, en disant qu’il s’agissait d’une démarche statistique. Plus précisément, les logiciels d’analyse lexicographique vont généralement produire une liste de tous les mots utilisés dans un texte et y associer un nombre d’occurrences. Cette démarche « en aveugle » peut parfois faire apparaître des éléments intéressants, mais est a priori plus à destination d’un analyste averti. Celui-ci va pouvoir, par méthodologie et expérience, interpréter ces résultats statistiques, par exemple en constatant qu’un terme peu significatif comme « mais » est surreprésenté par rapport à la moyenne. Sans connaissance de ce genre d’informations, il est difficile et surtout risqué de faire « parler » ce genre de nuage de mots-clés.

La constitution de la Ve République, à travers un générateur de nuages de mots-clés classique.

Avec un peu de sémantique, on arrive à des résultats bien plus intéressants, en procédant à ce que l’on appelle une extraction terminologique. La différence est, pour le dire simplement, que l’on passe du mot au terme.  Un terme peut être composé de plusieurs mots et correspondant en principe à un concept. Par exemple « pomme de terre » est un terme qui a un sens différent de « pomme » comme de « terre ». Le logiciel comptera non seulement les occurrences d’un terme, mais les co-occurrences, comme celles de « pomme » et « terre » dans notre exemple.

Au final, le résultat fait apparaître des mots mais aussi du sens, et propose une sorte de
résumé sémantique visuel de notre Constitution :

La constitution de la Ve République, à travers un générateur de nuages de mots-clés avec extraction terminologique.

About these ads

Une réflexion au sujet de « Tout ce que vous aviez toujours voulu savoir sur les nuages de mots-clés… »

  1. Ping : THATCamp Paris 2012 : une synthèse sémantique d’un événement | Proxem, le blog

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s