Définition d'un grand modèle de langage (LLM) en intelligence artificielle

Les Large Language Models (LLM) sont des modèles de traitement automatique du langage naturel qui ont révolutionné la façon dont les machines peuvent comprendre et générer du langage naturel (on parle dans ce cas d'intelligence artificielle générative).

Il s'agit de réseaux de neurones profonds qui ont été entraînés sur de vastes corpus de données textuelles, tels que des articles de journaux, des livres, des pages web ou encore des conversations en ligne. L'entraînement de ces modèles consiste à prédire le mot ou la phrase suivante dans un texte donné en se basant sur le contexte précédent. Cette approche est appelée "pré-entraînement" et permet aux modèles d'apprendre à représenter la structure et la sémantique du langage naturel.

Quand sont apparus les grands modèles de langage (LLM) ?

Les premiers LLM ont été développés dans les années 2010. Mais l'un des premiers à avoir attiré l'attention du public est le modèle "GPT" (Generative Pre-trained Transformer) développé par OpenAI en 2018. GPT a été formé sur un très grand corpus de données textuelles et a été en mesure de générer des textes de haute qualité dans une variété de styles et de sujets. Depuis lors, de nombreux autres LLM ont été développés, notamment GPT-2 et GPT-3, également développés par OpenAI, BERT (Bidirectional Encoder Representations from Transformers) développé par Google, XLNet développé par Carnegie Mellon University et Google Brain (un projet de recherche en deep learning commencé en 2011), et T5 (Text-to-Text Transfer Transformer) également développé par Google.

Quels sont les avantages des Large Language Models ?

Les avantages des LLM sont nombreux. Tout d'abord, ils sont capables de comprendre et de générer du langage naturel de manière impressionnante. Ils peuvent être utilisés pour de multiples tâches telles que la traduction automatique, la réponse à des questions, la génération de textes techniques ou créatifs, la reconnaissance de la parole ou encore la classification de textes.

En outre, les LLM ont un impact significatif sur l'efficacité et la qualité des interactions homme-machine. Par exemple, les chatbots basés sur des LLM tels que ChatGPT sont capables de répondre aux questions et aux demandes des utilisateurs de manière plus naturelle et précise que les chatbots traditionnels.

Quels sont les inconvénients ?

Mais les LLM présentent également des inconvénients. Nous pouvons en citer 4 principaux :

La quantité des données : Comme les grands modèles de langage ont besoin d'une très grande quantité de données pour être entraînés correctement, cela rend leur développement extrêmement coûteux et compliqué
Les biais culturels et sociaux : Comme ces modèles sont basés sur des données textuelles existantes, ils peuvent refléter les biais culturels et sociaux issus de ces data
La création de contenus faux ou trompeurs : Comme les LLM ne comprennent pas ce qu'ils produisent (ils ne font qu'aligner les mots les plus probables les uns à la suite des autres en fonction des données qu'ils ont apprises lors de leur phase de pré-entraînement), ils peuvent être victimes d' hallucinations. Cela signifie qu'ils peuvent produire des contenus faux ou trompeurs. Certains utilisateurs peuvent même les pousser à la faute en utilisant des jailbreaks, c'est-à-dire en exploitant les failles du système pour les pousser à faire des erreurs.
Le "knowledge cutoff" : Il s'agit de la date à laquelle le modèle de langage à grande échelle cesse d'être pré-entraîné. Cela veut dire que le LLM n'a pas connaissance des événements qui se sont produits à partir de cette date (septembre 2021 pour ce qui concerne ChatGPT). Cela limite son usage notamment si on souhaite s'en servir pour créer du contenu d'actualité.

Quelles solutions pour remédier au knowledge cutoff ?

Il existe plusieurs solutions pour remédier à la problématique du knowledge cutoff. La 1ère d'entre elle consiste dans le fine-tuning (affinage), qui est une phase de formation supervisée où des paires de questions-réponses sont fournies pour étendre et mettre à jour la connaissance interne du LLM, ou pour l'affiner sur une tâche spécifique. Ce fune-tuning demande cependant des connaissances spécifiques et ne pourra pas être réalisé par le commun des mortels.

Une autre solution se trouve dans ce qu'on appelle la génération augmentée par récupération (retrieval-augmented generation). Cette architecture consiste à connecter en temps réel un LLM à des sources externes qui sont vectorisées, puis à effectuer une recherche par similarité vectorielle pour répondre aux questions posées (le prompt de l'utilisateur étant lui-même transformé en vecteurs numériques). C'est typiquement ce que font Gemini, le chatbot de Google, qui est directement connecté au moteur de recherche, Bing Chat, ou encore Perplexity AI. Mais la manière dont les informations sont récupérées et traitées dépend entièrement de la façon dont le grand modèle est conçu et entraîné, et peut générer une fois encore des erreurs et des hallucinations.

Conclusion sur les LLM

Les Large Language Models sont des modèles de traitement automatique du langage naturel avancés qui permettent aux machines de comprendre et de générer du langage naturel. Ils ont de nombreux avantages potentiels, mais aussi des inconvénients à prendre en compte. Dans l'ensemble, ils représentent une évolution majeure dans le domaine de l'intelligence artificielle et ont le potentiel de transformer de nombreux aspects de la vie quotidienne et du monde du travail. Certains spécialistes disent même, en parlant de GPT-4, qu'ils sont les prémices d'une intelligence artificielle forte, c'est à dire capable de résoudre des problèmes complexes dans de nombreux domaines de manière autonome, au moins aussi bien que les être humains.

Si cet article vous a été utile, n'hésitez pas à le partager sur vos réseaux sociaux !