Attention Is Really All You Need

L'intelligence artificielle (IA) générative, qui désigne des systèmes capables de générer du contenu original comme du texte, des images ou même des sons, est devenue un sujet phare ces dernières années. Cette avancée technologique a été portée par des modèles révolutionnaires comme ChatGPT, DALL-E, ou encore le français Claude. Mais qu'est-ce qui permet à ces systèmes de comprendre et de générer un langage si naturel ? La réponse réside en grande partie dans un concept révolutionnaire présenté dans l'article "Attention Is All You Need" de Vaswani et al. (2017) : les Transformers. Plongeons dans leurs rouages mathématiques pour comprendre leur importance et leurs différences avec les méthodes classiques.

Une évolution nécessaire

Avant les Transformers, le traitement automatique du langage naturel (TALN) ou en anglais Natural Language Processing (NLP) reposait sur des architectures séquentielles comme les Réseaux de Neurones Récurrents (RNN) et leurs dérivés, notamment les LSTMs (Long Short-Term Memory). Ces modèles analysent les phrases mot par mot ou caractère par caractère, en propageant l'information dans le temps. Bien qu'efficaces pour des textes courts, ils souffraient de limitations :

Dépendances longues : Les RNNs (Recurrent Neural Networks) sont des modèles conçus pour traiter des séquences de données, comme des phrases en langage naturel. Lorsqu'un RNN essaie de comprendre une phrase, il traite les mots un à un, en se rappelant les informations précédentes. Cependant, lorsqu'il doit capturer des relations entre des mots éloignés dans la séquence (par exemple, une relation entre le premier et le dernier mot d'une phrase longue), il a du mal à le faire. Cela est dû à sa capacité limitée à "se souvenir" des informations lointaines dans la séquence, surtout quand la longueur de la séquence augmente. En d'autres termes, si un mot au début d'une phrase est lié au dernier mot de cette phrase, un RNN classique aura souvent du mal à connecter ces deux mots, encore plus si la phrase est longue. C'est un problème majeur pour des tâches comme la traduction automatique, où une relation à longue portée entre les mots doit être saisie et traduite correctement.

Problèmes de parallélisation : Les RNNs traitent les données de manière séquentielle. Cela signifie que le traitement d'un mot dépend du traitement du mot précédent, et ainsi de suite. Ce processus linéaire empêche l'exécution des calculs sur plusieurs mots simultanément (parallélisme), ce qui ralentit l'entraînement du modèle. Imaginez que vous devez lire une phrase mot par mot et comprendre chaque mot en fonction du précédent. Vous ne pouvez pas passer au mot suivant tant que le mot actuel n'a pas été traité. Cela crée une sorte d'étouffoir dans l'entraînement, car tout doit être fait dans un ordre strict, et l'ordinateur ne peut pas effectuer plusieurs calculs en même temps sur différentes parties de la séquence, comme il pourrait le faire avec d'autres types de modèles comme les réseaux de neurones convolutifs (CNN).

Gradient vanishing (disparition du gradient) : Ce phénomène se produit lors de l'apprentissage des RNNs, où les gradients (qui mesurent l'erreur et servent à ajuster les poids du réseau) deviennent de plus en plus petits à chaque étape de rétropropagation dans les couches précédentes. Cela rend très difficile l'ajustement des poids dans les premières couches du réseau, surtout lorsque les séquences sont longues. Ainsi, Lors de l'entraînement d'un réseau de neurones, les erreurs sont propagées en arrière (rétropropagation) pour ajuster les poids. Dans un RNN, cette rétropropagation est effectuée à travers toutes les étapes temporelles de la séquence. À mesure que la séquence devient longue, les gradients peuvent diminuer de façon exponentielle, ce qui rend les ajustements de poids pour les premières étapes de la séquence pratiquement inexistants. Le réseau a donc du mal à apprendre de ces premières étapes, ce qui nuit à la capacité du modèle à comprendre des séquences longues et complexes.

Les Transformers ont été conçus pour résoudre ces problèmes, en introduisant le mécanisme d'attention, particulièrement adapté pour capturer des relations complexes entre les mots, même lorsque ceux-ci sont éloignés dans une phrase. Contrairement aux approches séquentielles, l'attention permet un traitement global de l'information, optimisant ainsi la vitesse et la précision.

L'attention, c'est quoi ?

L'attention dans les Transformers repose sur le produit scalaire entre des représentations de mots, appelées les requêtes (queries), clés (keys) et valeurs (values). Mathématiquement, le score d'attention est calculé comme suit :

Attention (Q, K, V) = softmax (\frac{Q K^{T}}{\sqrt{d k}}) V

Q (Matrice des requêtes): Représente ce qu'on cherche à comprendre dans les données, comme une question qu'on pose.
K (Matrice des clés) : Contient les informations importantes des données, qu'on peut comparer avec la requête pour trouver des correspondances.
V (Matrice des valeurs) : Contient les réponses qu'on récupère en fonction de la correspondance entre les requêtes et les clés.
d_k (Dimension des clés) : Sert à équilibrer les calculs pour éviter que certaines valeurs n'aient plus d'importance qu'elles n'ont en réalité.

Ce mécanisme permet à chaque mot d'établir des connexions avec tous les autres mots de la phrase, indépendamment de leur position. Par exemple, imaginez que vous lisiez une recette de cuisine. Lorsque vous voyez le mot "four", votre cerveau établit une connexion avec "préchauffer" même si ces mots sont éloignés dans le texte. De manière similaire, l'attention dans les Transformers identifie les relations cruciales dans un texte, quels que soient les écarts entre les mots. Ainsi, les Transformers s'affranchissent des limitations liées à la séquentialité. Toujours aussi flou ? Passons sur Amazon Prime. Promi, ce n'est pas un placement de produit. D'ailleurs je préfère Netflix, c'est plus ergonomique 🤭.

Imaginez que vous consultiez les avis des autres utilisateurs pour choisir un film. Vous lisez rapidement plusieurs avis : certains mentionnent « sensationnel », d'autres « ennuyeux ». Vous donnez plus de poids aux critiques des experts du cinéma qu'aux avis de Mr tout le monde et vous ajustez vos attentes en fonction du réalisateur ou de l'acteur principal. De la même manière, le mécanisme d'attention des Transformers évalue chaque mot d'un texte en fonction de son importance contextuelle, tout en tenant compte de la pertinence des mots voisins, permettant une analyse plus fine et ciblée, puis pondère les informations pertinentes pour prendre une décision. C'est magnifique 🥹.

De cette manière, les Transformers révolutionnent le TALN. Ils viennent compenser les carences de ces derniers et permettent trois principales révolutions dans l'univers du traitement du langage naturel :

Parallélisation : Alors que dans un RNN les mots sont traités par séquence (c'est-à-dire les uns après les autres), dans un transformer, chaque mot est analysé indépendamment en même temps, ce qui permet de tirer parti des puissantes architectures matérielles modernes (comme les GPUs) pour effectuer des calculs en parallèle. Cela rend l'entraînement beaucoup plus rapide et efficace, surtout pour des données volumineuses.

Contexte global : Grâce au mécanisme d'attention, les transformers permettent au modèle de "regarder" chaque mot de la séquence et de déterminer quels autres mots sont importants pour comprendre le sens de ce mot (dans son contexte), même s'ils sont éloignés dans la séquence. Ce qui permet de capturer des relations à longue portée de manière beaucoup plus efficace et précise qu'un RNN, qui aurait du mal à établir des liens entre des mots distants.

Scalabilité : Un modèle Transformer peut traiter de grandes quantités de données avec des structures de calculs parallèles, ce qui le rend capable de s'adapter à des datasets gigantesques. Par exemple, les modèles comme GPT-3 ont été entrainés sur des milliards de paramètres, utilisant de gigantesques corpus de textes pour apprendre des relations complexes dans de nombreux langages et contextes. En outre, l'architecture du Transformer permet d'exploiter efficacement la puissance de calcul des infrastructures modernes, ce qui permet à ces modèles de croître de manière exponentielle en taille et en capacité sans compromettre leur performance.

Conclusion

Les Transformers ont redéfini le traitement automatique du langage naturel en remplaçant la linéarité des RNNs par une attention globale, leur permettant de traiter efficacement des relations complexes à longue distance dans les séquences de données. Mais leur influence va bien au-delà du TALN. Ils transforment également des domaines tels que la vision par ordinateur permettant la génération d'images à partir de descriptions textuelles, comme dans DALL·E. Ils sont aussi très utiles dans l'imagerie médicale où ils sont utilisés pour segmenter des tumeurs dans des scanners cérébraux, détecter des anomalies cardiaques dans des échocardiographies, ou encore prédire des diagnostics complexes en combinant des données cliniques avec des images. Ces avancées laissent présager un avenir où les Transformers deviendront des outils essentiels dans presque tous les champs de l'intelligence artificielle. Ils ouvrent des possibilités immenses non seulement pour l'IA générative, mais aussi pour des innovations dans la santé, la recherche fondamentale et les technologies de pointe. Comprendre leurs fondements mathématiques, c'est entrevoir pourquoi ils continuent de transformer la façon dont les machines interagissent avec nous.

HOME

Attention Is Really All You Need !

Une évolution nécessaire

L'attention, c'est quoi ?

Conclusion