Dernièrement, je prends plaisir à jouer à ce petit jeu : je demande à Claude, le chatbot développé par Anthropic, ce qu’il pense d’un certain sujet sur lequel je souhaite écrire un article. Je l’ai fait dans ce cas aussi, en lui demandant : « Pourquoi vous, les LLM, êtes-vous toujours d’accord avec nous, les humains ? ». Il a donné une réponse articulée (et intelligente) que je résume ainsi : « Les modèles linguistiques ont tendance à être trop accommodants car pendant la formation, ils sont récompensés si les humains sont satisfaits, mais un bon assistant doit vous dire la vérité même si ce n’est pas ce que vous voulez entendre. »
Une étude publiée dans Science a étudié cette tendance à la servilité typique des LLM, en analysant ses conséquences sur notre comportement et en découvrant que l’interaction avec quelqu’un (quelque chose) qui nous donne toujours raison nous rend plus arrogants et incapables de nous excuser.
L’étude : l’IA approuve l’utilisateur dans 80% des cas
Dans l’un des tests réalisés, les chercheurs ont présenté une série de dilemmes interpersonnels à 11 grands modèles de langage, dont ceux de OpenAI, Anthropique et Google. Les réponses générées par l’IA ont ensuite été comparées à celles de juges humains : alors que ces derniers approuvaient le comportement de l’utilisateur dans environ 40 % des cas, la majorité des LLM l’ont fait au-delà.80% du temps, confirmant une tendance marquée à une approbation excessive et non critique.
Bruyant et peu autocritique : l’effet de la flatterie numérique
Les auteurs ont ensuite analysé les effets de cette flatterie exagérée, en comparant les comportements de ceux qui ont interagi avec un chatbot servile et ceux qui ont eu un chatbot critique. Il s’est avéré que les personnes qui interagissaient avec un Les LLM complaisants étaient plus enclins à croire qu’ils avaient raison et moins enclins à corriger leurs erreurs.
Ces effets se vérifient, que le chatbot utilise un ton amical ou neutre. Paradoxalement, ce sont les modèles les plus serviles plus appréciés des utilisateurs et qui inspiraient une plus grande confiance, créant un dangereux cercle vicieux de confirmation.
Vers un changement de formation
Selon Myra Cheng, l’une des auteurs de la recherche, pour réduire la servilité des LLM, il faudra changer radicalement la manière dont ils sont formés et réglementés. Recevoir une confirmation de tout ce que nous disons peut être flatteur, mais cela devient inutile (et nuisible) pour ceux qui recherchent une vraie comparaison. Qu’il s’agisse de travail ou de conseils triviaux, une IA utile doit être capable de nous dire la vérité, même lorsqu’elle remet en question nos croyances.
