Le russe, le finnois, l’italien, le japonais sont apparemment des langues qui n’ont que peu ou rien en commun : une étude récemment publiée sur Actes de la Royal Society B Cependant, il a découvert que ces langues et 18 autres évoluent de manière étonnamment similaire et que les mots sont créés et réorganisés selon quatre règles universelles.
La découverte a été possible grâce à l’aide de l’intelligence artificielle.
Intégration de mots et IA
L’idée de l’étude, qui a duré sept ans, était de comprendre comment les langues évoluaient à grande échelle, en essayant d’identifier des règles universelles dans la formation de nouveaux mots (néologismes comme apéritif ou désintoxication sociale). Pour ce faire, les chercheurs sont partis du word embedding, une technique qui convertit les mots en nombres permettant aux systèmes d’IA de comparer la sémantique de différentes langues : « Avec les word embeddings, chaque mot du vocabulaire est associé à un point spécifique dans un espace, et les mots ayant des significations similaires sont représentés par des points proches les uns des autres », explique-t-il au journal. Le débriefing Steven Skiena, l’un des auteurs.
Pour clarifier : « chien » et « oiseau » sont des points proches, « chien » et « vélo » sont éloignés.
Ils ont donc alimenté l’IA d’énormes quantités de données concernant 22 langues (dont l’italien), y compris dans certains cas également des groupes de mots utilisés dans le passé, même à l’époque médiévale, pour voir s’il existait des règles universelles pour la formation et la distribution des mots, valables quel que soit le type de langue.
Quatre règles universelles
Quatre règles universelles ont émergé de l’analyse. La première est que les mots les plus populaires ont tendance à se regrouper, à l’écart des plus rares ; ils sont organisés en groupes hiérarchiques, qui fusionnent progressivement de manière similaire dans toutes les langues à mesure que le niveau de généralisation du terme augmente (par exemple, de chien et chiot, terme presque identique, à animal et être vivant) ; les néologismes se forment presque toujours dans les mêmes zones sémantiques où de nouveaux mots sont récemment apparus.
Enfin, la variabilité dans la création de nouveaux mots suit la loi de Taylor (Loi de puissance de Taylor), règle connue en écologie et en biologie selon laquelle plus le nombre moyen d’individus dans une zone est élevé, plus la variabilité (ou fluctuation) de ce nombre est grande. Appliqué à la linguistique, et plus précisément à la naissance de nouveaux mots, cela signifie que dans les zones où naissent en moyenne beaucoup de mots, les fluctuations sont grandes (par exemple dans un siècle 200 naissent, le siècle suivant 2), tandis que dans les zones où naissent en moyenne peu de mots, la variabilité est minime.
À l’avenir, les intégrations de mots pourraient devenir un outil précieux pour étudier l’histoire des langues et des cultures et l’intelligence artificielle un allié pour comprendre plus en profondeur les mécanismes de développement du langage, mettant en lumière de nouveaux aspects de l’évolution linguistique et culturelle.
