L'histoire de l'intelligence artificielle : des années 40 à nos jours
Article écrit par Julien Gourdon
ancien journaliste et consultant SEO depuis 2015
Dernière modification :
Les débuts de l'IA (1940-1956)
Bien que le terme lui-même n'ait pas encore été inventé à cette époque, la période s'étendant de la Seconde Guerre mondiale à 1956 est aujourd'hui considéré comme l'âge de la naissance de l'intelligence artificielle. Les fondements théoriques de l'IA ont été posés par des pionniers tels qu'Alan Turing et Claude Shannon.
Alan Turing, un mathématicien britannique, est l'un des pères de l'informatique moderne et de l'intelligence artificielle. Pendant la Seconde Guerre mondiale, il a travaillé sur la machine de déchiffrement connue sous le nom de Bombe, qui a été utilisée pour briser le code Enigma utilisé par les Allemands pour leurs communications cryptées. Après la guerre, Turing a continué à explorer l'idée de ce qu'il a appelé une "machine universelle" qui pourrait résoudre n'importe quel problème calculable. C'est ce qu'on appelle maintenant la machine de Turing, et c'est un concept fondamental en informatique.
En 1950, Turing a publié un article intitulé "Computing Machinery and Intelligence", dans lequel il a proposé ce qui est maintenant connu sous le nom de test de Turing. Le test de Turing est une mesure de l'intelligence d'une machine : si un humain interagit avec une machine et un autre humain et ne peut pas dire lequel est lequel, alors la machine a passé le test. C'est une idée qui continue d'influencer notre façon de penser l'intelligence artificielle.
Claude Shannon, un ingénieur et mathématicien américain, a également joué un rôle crucial dans les débuts de l'IA. Il a développé la théorie de l'information, qui est la base de toutes les communications numériques et de l'informatique. Shannon a également travaillé sur l'idée de machines capables de jouer aux échecs, ce qui est un autre domaine important de l'IA.
L'âge d'or de l'IA (1956-1974)
Si les travaux de Turing, Shannon et d'autres ont jeté les bases théoriques sur lesquelles l'IA s'est construite, on attribue à la conférence de Dartmouth en 1956 le point de départ officiel de l'intelligence artificielle en tant que domaine de recherche distinct. Cette conférence a réuni des chercheurs tels que John McCarthy, Marvin Minsky, Allen Newell et Herbert Simon, qui sont tous devenus des leaders dans le domaine de l'IA.
John McCarthy, qui a organisé la conférence, est celui qui a inventé le terme "intelligence artificielle". Il a également développé le langage de programmation Lisp, qui est devenu le langage de programmation de choix pour la recherche en IA pendant plusieurs décennies.
Marvin Minsky a été un autre leader influent pendant cette période. Il a cofondé le laboratoire d'IA du MIT, qui est devenu un centre important de recherche en IA. Minsky a travaillé sur plusieurs aspects de l'IA, mais il est peut-être le plus connu pour son travail sur les réseaux de neurones artificiels.
Allen Newell et Herbert Simon ont travaillé ensemble à l'Université Carnegie Mellon, un autre centre important de recherche en IA. Ils ont développé le Logic Theorist, l'un des tout premier programme d'IA, qui était capable de prouver des théorèmes mathématiques.
Pendant cette période, il y avait un grand optimisme quant à la possibilité de créer des machines intelligentes. Les chercheurs ont fait des progrès significatifs dans des domaines tels que la résolution de problèmes, la représentation des connaissances et le traitement du langage naturel. Cependant, ils ont également découvert que de nombreux problèmes étaient beaucoup plus difficiles à résoudre qu'ils ne le pensaient initialement, ce qui a conduit à la première "période hivernale" de l'IA.
Le premier hiver de l'IA (1974-1980)
Après l'optimisme initial de l'âge d'or de l'IA, la réalité a commencé à s'installer. Les chercheurs ont réalisé que de nombreux problèmes qu'ils essayaient de résoudre étaient beaucoup plus complexes qu'ils ne le pensaient initialement. Par exemple, la compréhension du langage naturel, qui semblait être une tâche simple en surface, s'est avérée extrêmement difficile à réaliser pour une machine.
En outre, les ordinateurs de l'époque étaient limités en termes de puissance de calcul et de capacité de stockage, ce qui limitait également les progrès possibles. Les techniques d'apprentissage automatique, qui sont aujourd'hui au cœur de nombreuses applications d'IA, étaient encore à leurs balbutiements.
Ces difficultés ont conduit à une réduction du financement et de l'intérêt pour l'IA, tant de la part des gouvernements que des entreprises privées.
Cependant, malgré ces défis, la recherche en IA a continué. Par exemple, pendant cette période, le concept de "systèmes experts" a commencé à émerger. Les systèmes experts sont des programmes qui imitent la capacité d'un expert humain à prendre des décisions dans un domaine spécifique, comme la médecine ou la géologie. Ces systèmes ont été parmi les premières applications commercialement réussies de l'IA et ont contribué à relancer l'intérêt pour l'IA dans les années 1980.
Le boom de l'intelligence artificielle (1980-1987)
Le début des années 80 a été marqué par un regain d'intérêt pour l'intelligence artificielle, en grande partie grâce à l'essor des systèmes experts. Ces systèmes, qui simulaient l'expertise humaine dans des domaines spécifiques, ont été parmi les premières applications commercialement réussies de l'IA.
Les systèmes experts ont été utilisés dans une variété de domaines, allant de la médecine à l'ingénierie en passant par la finance. Par exemple, le système expert MYCIN, développé à l'Université de Stanford, était capable de diagnostiquer certaines maladies infectieuses avec une précision comparable à celle des médecins humains.
C'est également pendant cette période que le Japon a lancé le projet de cinquième génération (FGC), un effort ambitieux pour développer une nouvelle génération de machines intelligentes. Bien que le projet n'ait pas atteint tous ses objectifs, il a stimulé la recherche en IA dans le monde entier.
Cependant, malgré ces succès, de nombreux défis sont restés. Les systèmes experts, par exemple, étaient coûteux à développer et à maintenir, et ils étaient limités à des domaines spécifiques où des connaissances expertes étaient disponibles. De plus, ils ne pouvaient pas apprendre ou s'adapter à de nouvelles situations.
En fin de compte, les attentes élevées pour l'IA pendant cette période n'ont pas été satisfaites, ce qui a conduit à une nouvelle réduction du financement et de l'intérêt pour l'IA, connue sous le nom de "deuxième hiver de l'IA".
Le deuxième hiver de l'IA (1987-1993)
Après le boom de l'IA des années 1980, la réalité a de nouveau commencé à s'installer. Les systèmes experts, qui avaient été l'une des principales réussites de cette période, ont montré leurs limites. Ils étaient coûteux à développer et à maintenir, ne pouvaient pas apprendre de nouvelles informations et étaient limités à des domaines spécifiques où des connaissances expertes étaient disponibles.
De plus, le projet de cinquième génération du Japon, qui avait suscité de grands espoirs pour l'IA, n'a pas réussi à atteindre ses objectifs ambitieux. Cela a conduit à une déception généralisée et à une réduction du financement pour la recherche en IA.
C'est ce qu'on appelle le "deuxième hiver de l'IA". Cependant, comme lors du premier hiver de l'IA, la recherche en IA a continué malgré ces défis. Les chercheurs ont commencé à développer de nouvelles approches pour l'IA, y compris des techniques d'apprentissage automatique plus avancées.
C'est également pendant cette période que l'Internet a commencé à se développer, ce qui a finalement conduit à une explosion de données disponibles pour l'entraînement des modèles d'IA. Cela a jeté les bases de l'ère moderne de l'IA, qui a commencé dans les années 1990.
L'ère moderne de l'intelligence artificielle (de 1993 à 2023)
À partir de la fin des années 1990 et au début des années 2000, l'intelligence artificielle a commencé à être intégrée dans notre vie quotidienne. Avec l'essor d'Internet, d'énormes quantités de données sont devenues disponibles, ce qui a conduit à de nouvelles avancées dans l'apprentissage automatique et l'apprentissage profond.
L'apprentissage automatique est une technique qui permet aux ordinateurs d'apprendre à partir de données. Au lieu de programmer explicitement un ordinateur pour effectuer une tâche spécifique, l'apprentissage automatique permet à l'ordinateur d'apprendre à effectuer cette tâche en analysant des données.
L'apprentissage profond est une sous-catégorie de l'apprentissage automatique qui se concentre sur l'utilisation de réseaux de neurones artificiels. Ces réseaux sont inspirés par le fonctionnement du cerveau humain et sont particulièrement efficaces pour traiter des données complexes et non structurées, comme les images ou le langage naturel.
L'architecture Transformer : une avancée majeure
Mais la date la plus marquante de l'ère moderne de l'intelligence artifiicelle est sans doute 1997. Elle est marquante d'abord pour le grand public parce que c'est cette année-là que l'ordinateur Deep Blue d'IBM a battu le champion du monde d'échecs Garry Kasparov. Cet événement a marqué un tournant dans la perception du grand public de l'IA et de ses capacités.
Mais 1997 est également une année très importante pour les chercheurs et notamment les spécialistes de l'intelligence artificielle générative car elle marque l'arrivée l'un nouveau modèle d'apprentissage profond pour le traitement du langage naturel : les transformers. Créée par un groupe de chercheurs de Google Brain mené par Ashish Vaswani, cette nouvelle architecture de réseau de neurones décrite dans un article intitulé "Attention Is All You Need" repose essentiellement sur des mécanismes d'attention.
Avant les Transformers, les modèles dominants pour la transduction de séquence (c'est-à-dire la conversion d'une séquence d'entrée en une séquence de sortie) étaient basés sur des réseaux de neurones récurrents (RNN) ou convolutionnels (CNN) dans une configuration encodeur-décodeur. Ces modèles traitent les données séquentiellement (dans le cas des RNN) ou localement (dans le cas des CNN), ce qui peut rendre difficile la prise en compte des dépendances à long terme dans le texte (par exemple, une phrase en début de texte qui influence le sens d'une phrase à la fin)
Le Transformer élimine quant à lui complètement la récurrence et les convolutions et utilise à la place des "mécanismes d'attention". L'attention permet au modèle de pondérer l'importance de chaque mot dans le texte lors de la génération de la sortie. Cela signifie qu'il peut se "concentrer" sur les mots pertinents à tout moment, ce qui lui permet de mieux gérer les dépendances à long terme.
Ainsi, les expériences menées par les auteurs de l'article sur des tâches de traduction automatique ont montré que les Transformers étaient supérieurs en qualité tout en étant plus parallélisables (ce qui signifie qu'ils peuvent être entraînés plus efficacement sur du matériel informatique moderne). Ils nécessistent, en outre, beaucoup moins de temps pour s'entraîner que les modèles précédents.
L'émergence des LLM : une percée décisive pour l'intelligence artificielle générative
Les Transformers ont permis l'émergence des modèles de langage à grande échelle, ou LLM (Large Language Models), qui représentent une avancée décisive dans le domaine du traitement automatique du langage naturel.
Les LLM sont des modèles d'apprentissage profond qui sont formés sur d'énormes quantités de texte. Ils apprennent à prédire le prochain mot d'une séquence de mots en se basant sur les mots précédents. Grâce à cette formation, ils sont capables de générer du texte qui ressemble à du texte écrit par un humain, et peuvent être utilisés pour une variété de tâches, comme répondre à des questions, rédiger des essais, traduire des langues, et plus encore.
L'un des premiers LLM a avoir attiré l'attention du public a été le modèle GPT (Generative Pretrained Transformer) développé par OpenAI. La première version de GPT a été publiée en 2018, suivie de GPT-2 en 2019 et de GPT-3 en 2020. Chaque nouvelle version a été formée sur plus de texte et a montré une capacité accrue à générer du texte réaliste.
Côté Google, on peut citer BERT (Bidirectional Encoder Representations from Transformers) qui est notamment utilisé pour mieux comprendre les requêtes complexes des utilisateurs, ou MUM (Multitask Unified Model) qui se base sur le Transformer T5 (Text-to-Text Transfer Transformer) et qui permet d'améliorer la façon dont Google aide les internautes à accomplir des tâches complexes grâce à son entraînement sur 75 langues différentes et à sa capacité à comprendre l'information à travers le texte et les images, et sans doute la vidéo et l'audio à l'avenir. Et puis BARD, le chatbot de Google, alimenté par PaLM 2 (Pathways Language Model), un autre LLM basé sur l'architecture Transformer, qui promet de révolutionner l'expérience de recherche en ligne, au point que Google a décidé de donner un nom à l'intégration de l'IA générative dans son moteur de recherche : la Search Generative Experience (SGE).
Ces avancées ont conduit à une explosion de nouvelles applications pour l'IA. Par exemple, les moteurs de recherche comme Google utilisent l'IA pour comprendre et classer les informations sur le web. Les assistants personnels comme Siri et Alexa utilisent l'IA pour comprendre le langage naturel et répondre aux questions. Et les voitures autonomes utilisent l'IA pour naviguer dans le monde réel.
L'intelligence artificielle est en plus de ça de plus en plus utilisée dans des domaines tels que la médecine, où elle peut aider à diagnostiquer les maladies et à personnaliser les traitements, et dans le domaine de la finance, où elle peut aider à détecter les fraudes et à prendre des décisions d'investissement.
En combinant la puissance des modèles de langage à grande échelle avec une architecture de génération augmentée de récupération (RAG), l'intelligence artificielle peut devenir encore plus performante. En intégrant aux LLM des données pertinentes provenant de vastes bases de données, le RAG réduit en effet les problèmes d'hallucination des modèles de langage, augmentant ainsi la précision et la pertinence des réponses générées. Cela est particulièrement utile en médecine et en finance, et dans l'analyse de données de manière générale) où des informations précises et contextualisées sont cruciales.
Cependant, malgré ces avancées, il reste encore de nombreux défis à relever. Par exemple, il est souvent difficile de comprendre comment les modèles d'apprentissage profond prennent leurs décisions, ce qui pose des problèmes en termes de transparence et de responsabilité. De plus, il y a des préoccupations concernant l'impact de l'IA sur l'emploi et la vie privée.