Que sont les Transformers en traitement automatique du langage naturel ?
Article écrit par Julien Gourdon
ancien journaliste et consultant SEO depuis 2015
Dernière modification :
Grâce à l’intelligence artificielle, le traitement automatique du langage naturel (NLP) en informatique ne cesse de se perfectionner. Ces dernières années, avec l'arrivée des Transformers et des grands modèles de langage (LLM), il est devenu encore plus sophistiqué et précis. Voyons dans le détail de quoi il s’agit et comment, grâce au mécanisme d’attention, ils ont révolutionné le domaine du Natural Language Processing !
Introduction aux Transformers
Les Transformers sont une approche algorithmique qui a révolutionné le traitement automatique du langage naturel et s’est imposée depuis quelques années comme la solution idéale pour de nombreuses tâches de Natural Language Processing.
L'architecture des Transformers a été présentée pour la première fois en 2017 dans un article des chercheurs de Google Ashish Vaswani, Noam Shazeer et Niki Parmar.
Ils sont un type spécifique d’architecture de réseau neuronal, plus précisément d’architecture d’apprentissage profond (deep learning, un type particulier de machine learning utilisant de multiples couches, d'où le terme "profond"), qui utilise un mécanisme d’attention pour traiter et comprendre le sens d’une séquence de données qu’on lui donne en entrée.
Comprendre le mécanisme d’attention en NLP
L’idée de base du mécanisme d’attention est de donner une pondération (ou “attention”) plus élevée aux mots qui sont considérés comme importants pour comprendre la signification de la phrase. Cela est rendu possible en utilisant des réseaux de neurones qui apprennent à traiter les informations en se concentrant sur les mots les plus pertinents.
Le mécanisme d’attention utilise des scores d’attention pour déterminer la pertinence de chaque mot par rapport à l’ensemble de la phrase. Les scores sont calculés en comparant les informations dans la phrase avec un vecteur d’attention, qui représente l’importance relative de chaque mot dans la compréhension de la phrase. Le mécanisme d’attention permet aux Transformers de faire des prédictions plus précises que les réseaux de neurones profonds utilisés avant eux en NLP, tels que les réseaux de neurones récurrents (RNN).
Comment les Transformers fonctionnent-t-ils ?
L'architecture des Transformers est composée de plusieurs couches, chacune ayant son propre ensemble de paramètres. Ces couches forment ce qu’on appelle un réseau profond qui traite des séquences de données.
L'architecture des Transformers est basée sur deux composants clés : l'encodeur et le décodeur. La séquence d'entrée passe par l'encodeur, qui est lui-même composé de plusieurs couches. Chaque couche possède son propre ensemble de paramètres, qui sont eux-mêmes mis à jour pendant la phase de traitement. Les vecteurs codés sont ensuite transmis au décodeur, qui est lui-même composé de plusieurs couches. Le décodeur prend les vecteurs codés et génère une séquence de sortie.
Quelles sont les applications des Transformers en NLP ?
Depuis 2017, les Transformers sont devenus de plus en plus populaires pour effectuer des tâches variées de traitement du langage naturel, telles que la traduction automatique de texte ou la génération de contenu à partir d’une question posée par l’utilisateur sous la forme d’un prompt. Les experts en intelligence artificielle tendent en effet à s’accorder sur le fait que les Transformers sont plus précis pour de nombreuses tâches de Natural Language Processing que d’autres architectures de réseaux neuronaux. Cela est dû notamment au mécanisme d’attention, mais également à leur capacité à traiter de longues séquences de données.
Exemples d’utilisation des Transformers dans le traitement automatique du langage
L’algorithme BERT de Google est un modèle basé sur les Transformers. Il est notamment utilisé pour comprendre avec plus de précision les requêtes complexes tapées par les utilisateurs dans le moteur de recherche, et retourner en conséquence les résultats qui répondent le mieux à la véritable intention de la recherche.
Un autre exemple est le modèle GPT-3 d'OpenAI, qu’utilise son célèbre chatbot ChatGPT. GPT-3 est un modèle basé sur les Transformers, et donc le mécanisme d’attention, pour comprendre les contenus qu’on lui soumet en entrée (toujours le prompt) et renvoyer avec une précision toujours plus importante soit une traduction automatique, soit un résumé, soit une génération de texte, soit bien d’autres choses encore. Il est à noter que GPT-3 a été entraîné sur un gigantesque ensemble de données pour apprendre à générer du texte de manière automatique.
Conclusion
Les Transformers ont révolutionné le traitement automatique du langage naturel, en facilitant le développement de modèles plus précis et plus sophistiqués. Ils sont devenus une solution de choix pour de nombreuses tâches en NLP grâce au mécanisme d’attention, qui leur permet de se concentrer sur des parties spécifiques de l'entrée tout en ignorant les informations non pertinentes. Ils ont permis le développement d'algorithmes de recherche, d'applications de génération de textes et de traduction automatique, et bien d’autres choses encore.