ChatGPT est-il vraiment devenu moins intelligent ?

Une baisse des performances de ChatGPT constatées depuis plusieurs mois

Depuis quelques jours, quelques semaines ou quelques mois, les passionnés d’IA sont en émoi : ChatGPT serait devenu moins performant qu’à sa grande époque.

Une étude très sérieuse a en effet été publiée sur le sujet. Mise en ligne le 18 juillet dernier par trois chercheurs des universités prestigieuses de Stanford et Berkeley l’étude intitulée “How Is ChatGPT’s Behavior Changing over Time?” souligne à quel point le comportement des deux grands modèles de langage GPT-3.5 et GPT-4 évolue au fil du temps. Et pas toujours pour le mieux.

Et il n’en fallait pas plus pour que la presse s’en donne à coeur joie.

Et pareil chez les internautes, dont l’étude n’a fait que confirmer ce qu’ils soupçonnaient déjà : OpenAI a dégradé les performances de GPT-4 depuis quelques mois :

https://www.reddit.com/r/ChatGPT/comments/13sklyd/anyone_else_notice_massive_degradation_for/
https://www.reddit.com/r/ChatGPT/comments/13g26em/profound_performance_degradation/
https://www.reddit.com/r/ChatGPT/comments/13jhnu3/serious_quality_degradation/

Personnellement, je vais être très honnête, je n’ai absolument rien remarqué. Mon utilisation de ChatGPT version Premium me satisfait toujours autant.

Mais chez OpenAI, la pilule a du mal à passer. Forcément, les enjeux économiques sont énormes. Peter Welinder, le vice-président, est monté au créneau pour démentir les rumeurs de dégradation volontaire du modèle. Et pour expliquer le ressenti des utilisateurs sur une baisse des performances de ChatGPT, il émet l’hypothèse qu’à force d’utiliser un produit quotidiennement, on a plus tendance à en percevoir les limites.

L'étude prouve-t-elle vraiment une baisse des performances de ChatGPT ?

Mais ce qui m’étonne le plus dans cette histoire, c’est que selon moi, on ne peut absolument pas conclure à la lecture de l’étude, que les performances de ChatGPT se sont dégradées au fil du temps.

De plus, la manière dont l'étude a été menée soulève des questions. Deux chercheurs de l'université de Princeton ont d'ailleurs critiqué la méthodologie utilisée dans cet article.

Pour l’expliquer, prenons un exemple concret : l'étude des chercheurs de Stanford et Berkeley a tenté de montrer que les performances de GPT-4 pour résoudre des problèmes mathématiques se sont considérablement dégradées en quelques mois. Pour ce faire, les chercheurs ont demandé à GPT-4 si 500 nombres différents étaient premiers ou non. En juin, GPT-4 a mal répondu dans 97,4% des cas, alors qu'en mars 2023, il n'avait mal répondu que dans 2,6% des cas. Pour GPT-3.5, c'était l'inverse : le modèle a mieux répondu en juin qu'en mars.

Cependant, les chercheurs de Princeton ont noté que tous les 500 nombres utilisés dans l'étude étaient des nombres premiers. Ils ont donc refait l'étude en utilisant à la fois des nombres premiers et des nombres composés. Leurs conclusions ? Les deux modèles de langage ont tous les deux mal répondu, sachant que GPT-4 a plus tendance à répondre qu’un chiffre est composé alors que GPT-3.5 a plus tendance à supposer qu’un nombre est premier.

Un changement de comportement, mais pas une baisse des capacités

Pour expliquer cela, les chercheurs de Princeton différencient les capacités d’un grand modèle de langage, avec son comportement. Les capacités d’un LLM proviennent de son pré-entraînement, qui est immuable. Alors que son comportement change au fil du temps en fonction des ajustements (fine-tunning) qui lui sont apportés. Pour eux, c’est le comportement du chatbot qui a été modifié, pas ses capacités. Et le fait que GPT-4 aurait mal répondu au test mathématique au mois de juin proviendrait simplement du fait qu’il aurait été beaucoup plus exposé à des nombres composés lors d’une période récente, et non pas en raison de ses capacités réflexives qui se seraient dégradées.

Mais en réalité, ce que soulignent les universitaires de Princeton, c'est que les grands modèles de langage sont en réalité assez limités, pour ne pas dire idiots. Ils semblent réfléchir, mais en réalité, ils se contentent de prédire le mot le plus probable en fonction des mots précédents.

Une baisse des utilisateurs de ChatGPT

Mais quoi qu’il arrive, le mal est fait pour OpenAI. Pour la première fois depuis le mois de novembre, l’utilisation de ChatGPT aurait diminué de 9,7% au mois de juin par rapport au mois précédent, selon SimilarWeb. Passé l’effet wahou, les utilisateurs commenceraient à se désintéresser des IA génératives. Bon après, la concurrence devient de plus en plus féroce pour OpenAI. Entre Bard, qui est gratuit, Llama 2, qui est gratuit et open source, ou encore Claude 2, gratuit également, ça semble un petit peu normal que les utilisateurs se dispatchent entre ces différents outils.

Le vrai problème des grands modèles de langage

Mais le vrai problème que posent tous ces grands modèles de langage, c’est qu’il est très compliqué de s’y fier, tellement leur comportement est instable. Le problème des LLM, c’est qu’ils sont inconsistants. C'est-à-dire que la qualité de leur réponse varie énormément en fonction des ajustements qui leur sont apportés au fil du temps. Et ça c’est un vrai problème parce que ça veut dire qu’on ne peut pas vraiment s’y fier à ces outils d’IA conversationnels. Ils nous obligent à nous adapter en permanence.

Et ça, c’est particulièrement dur à avaler pour les entreprises, parce que ça veut dire qu’il est très difficile de développer des produits fiables à partir des grands modèles de langage. Je pense notamment à ces agences de marketing digital, qui ont annoncé presque immédiatement après la sortie de ChatGPT, que l’IA était désormais intégrée à tous leurs outils pour fournir des recommandations encore plus fines et qualitatives à leurs clients. Et bien si ça se trouve, leurs produits aujourd’hui sont totalement obsolètes. Et ils doivent tout recommencer à zéro.

L'avenir de l'IA ne passera pas par les LLM, mais par les SSL

Et l’autre coût très dur pour les LLM, c’est Yann Le Cun. Le boss de l’IA chez Facebook, ou Meta, si vous préférez. Lui, il mène une croisade contre ChatGPT, dont il a dit que c’était de la bonne ingénierie, mais que dans 5 ans plus personne ne l’utilisera. Selon lui, les LLM sont bêtes comme choux, tout juste bons à faire de la traduction automatique ou des brouillons de texte. Pour Yann Le Cun, les grands modèles de langage représentent le passé. L’avenir, c’est le SSL (self-supervised model), c'est-à-dire des modèles d’apprentissage auto-supervisé. L’idée, c’est de laisser les machines le plus possible apprendre par elle-même, pas seulement à partir de texte, mais également à partir de vidéo. L’objectif est de leur donner une représentation sensorielle du monde, c'est-à-dire une sensibilité, afin qu’un jour elles puissent égaler, voire dépasser, les humains.

Et selon Yann Le Cun, ce n’est qu’une question de temps.

Si cet article vous a été utile, n'hésitez pas à le partager sur vos réseaux sociaux !