Mohamed KEITA
Attention Is Really All You Need!
January 14, 2025

Transformers

L'intelligence artificielle (IA) générative, qui désigne des systèmes capables de générer du contenu original comme du texte, des images ou même des sons, est devenue un sujet phare ces dernières années. Cette avancée technologique a été portée par des modèles révolutionnaires comme ChatGPT, DALL-E, ou encore le français Claude. Mais qu'est-ce qui permet à ces systèmes de comprendre et de générer un langage si naturel ? La réponse réside en grande partie dans un concept révolutionnaire présenté dans l'article "Attention Is All You Need" de Vaswani et al. (2017) : les Transformers. Plongeons dans leurs rouages mathématiques pour comprendre leur importance et leurs différences avec les méthodes classiques.

Une évolution nécessaire

Avant les Transformers, le traitement automatique du langage naturel (TALN) reposait sur des architectures séquentielles comme les RNN (Réseaux de Neurones Récurrents) ou les LSTMs. Ces modèles analysent les phrases mot par mot, en propageant l'information dans le temps. Mais ils souffraient de limitations :

  • Dépendances longues : Les RNNs (Recurrent Neural Networks) sont des modèles conçus pour traiter des séquences de données, comme des phrases en langage naturel. Lorsqu'un RNN essaie de comprendre une phrase, il traite les mots un à un, en se rappelant les informations précédentes. Cependant, lorsqu'il doit capturer des relations entre des mots éloignés dans la séquence (par exemple, une relation entre le premier et le dernier mot d'une phrase longue), il a du mal à le faire. Cela est dû à sa capacité limitée à "se souvenir" des informations lointaines dans la séquence, surtout quand la longueur de la séquence augmente. En d'autres termes, si un mot au début d'une phrase est lié au dernier mot de cette phrase, un RNN classique aura souvent du mal à connecter ces deux mots, encore plus si la phrase est longue. C'est un problème majeur pour des tâches comme la traduction automatique, où une relation à longue portée entre les mots doit être saisie et traduite correctement.

  • Problèmes de parallélisation : Les RNNs traitent les données de manière séquentielle. Cela signifie que le traitement d'un mot dépend du traitement du mot précédent, et ainsi de suite. Ce processus linéaire empêche l'exécution des calculs sur plusieurs mots simultanément (parallélisme), ce qui ralentit l'entraînement du modèle. Imaginez que vous devez lire une phrase mot par mot et comprendre chaque mot en fonction du précédent. Vous ne pouvez pas passer au mot suivant tant que le mot actuel n'a pas été traité. Cela crée une sorte d'étouffoir dans l'entraînement, car tout doit être fait dans un ordre strict, et l'ordinateur ne peut pas effectuer plusieurs calculs en même temps sur différentes parties de la séquence, comme il pourrait le faire avec d'autres types de modèles comme les réseaux de neurones convolutifs (CNN).

  • Disparition du gradient : Ce phénomène se produit lors de l'apprentissage des RNNs, où les gradients (qui mesurent l'erreur et servent à ajuster les poids du réseau) deviennent de plus en plus petits à chaque étape de rétropropagation dans les couches précédentes. Cela rend très difficile l'ajustement des poids dans les premières couches du réseau, surtout lorsque les séquences sont longues. Ainsi, Lors de l'entraînement d'un réseau de neurones, les erreurs sont propagées en arrière (rétropropagation) pour ajuster les poids. Dans un RNN, cette rétropropagation est effectuée à travers toutes les étapes temporelles de la séquence. À mesure que la séquence devient longue, les gradients peuvent diminuer de façon exponentielle, ce qui rend les ajustements de poids pour les premières étapes de la séquence pratiquement inexistants. Le réseau a donc du mal à apprendre de ces premières étapes, ce qui nuit à la capacité du modèle à comprendre des séquences longues et complexes.

Les Transformers ont été conçus pour résoudre ces problèmes, en introduisant le mécanisme d'attention, particulièrement adapté pour capturer des relations complexes entre les mots, même lorsque ceux-ci sont éloignés dans une phrase. Contrairement aux approches séquentielles, l'attention permet un traitement global de l'information, optimisant ainsi la vitesse et la précision.

L'attention, c'est quoi ?

L'attention repose sur trois vecteurs : les requêtes (Q), les clés (K) et les valeurs (V). Le calcul mathématique de l’attention est :

Attention(Q,K,V)=softmax(QKTdk)VAttention(Q, K, V) = softmax\left(\frac{QK^T}{\sqrt{d_k}}\right)V
  • Q (queries) : ce qu’on cherche à comprendre.
  • K (keys) : les infos à comparer avec Q.
  • V (values) : les réponses associées.
  • dₖ : sert à normaliser les valeurs pour éviter les biais.

Ce mécanisme permet à chaque mot d'établir une connexion avec tous les autres, quels que soient leur ordre ou leur distance. Par exemple, dans une recette, “four” et “préchauffer” peuvent être associés même s’ils sont éloignés. De la même manière, l'attention analyse les mots en tenant compte de leur importance contextuelle, ce qui améliore la précision et la compréhension du texte. Pour mieux comprendre, imagine que tu lis des critiques de films. Tu pondères certains avis selon la crédibilité des auteurs. Le mécanisme d’attention fait la même chose : il donne plus de poids aux mots pertinents, selon le contexte, pour générer une réponse plus fine. C'est magnifique 🥹.

Trois révolutions apportées par les Transformers

  • Parallélisation : les mots sont analysés simultanément, rendant l'entraînement plus rapide et plus efficace.
  • Contexte global : chaque mot peut accéder à tous les autres dans la phrase, même s’ils sont éloignés.
  • Scalabilité : grâce à leur architecture modulaire, les Transformers s’adaptent facilement à de grands volumes de données et de calcul.

Conclusion

Les Transformers ont redéfini le traitement du langage naturel en remplaçant la linéarité des RNNs par une attention globale. Leur influence dépasse le NLP : ils sont aussi utilisés pour générer des images (DALL·E), analyser des IRM en médecine, ou prédire des diagnostics complexes.

Ils ouvrent un nouveau chapitre de l’intelligence artificielle, où compréhension contextuelle, précision et scalabilité se conjuguent. Comprendre leur fonctionnement, c’est comprendre comment les machines deviennent… un peu plus humaines.