Pendant que tout le monde faisait du RAG, la Computer Vision avançait en silence

Introduction

Depuis l'arrivée de ChatGPT, l'intelligence artificielle semble avoir été résumée à une seule interface : une fenêtre de conversation. Les entreprises veulent leur chatbot. Les développeurs construisent des assistants. Les investisseurs financent des outils conversationnels. Et sur LinkedIn, il suffit de passer quelques minutes pour tomber sur une démonstration de RAG, un nouvel agent ou une intégration avec un LLM.

Cette fascination est compréhensible. Pour la première fois, on avait l'impression que l'information se trouvait littéralement à portée de main. Il suffisait de poser une question.

Et puis, sans prévenir, quelque chose d'autre s'est passé. Stable Diffusion. Midjourney. Des images générées qui ont arrêté les gens dans leur scroll. Puis Sora, Runway, des vidéos de quelques secondes qui ressemblent à des extraits de films. Des scènes qui n'ont jamais existé, rendues avec une précision troublante. Tout le monde a été surpris. Comme si ça venait de nulle part.

Mais non. Pendant que toute l'attention se concentrait sur le langage, une autre branche de l'IA continuait de progresser à grande vitesse : la Computer Vision. Et je pense que nous sous-estimons encore son potentiel.

Pourquoi le RAG a capté toute l'attention

Le succès du RAG n'a rien d'un hasard.

D'abord, il répond à un besoin simple et universel : exploiter la connaissance d'une organisation. Chaque entreprise possède des documents, des procédures, des contrats, des rapports ou des bases de connaissances. Le RAG permet de connecter ces informations à un modèle de langage et d'obtenir des réponses contextualisées.

Ensuite, il est extrêmement facile à démontrer. Une personne pose une question, le système répond, l'effet est immédiat. Même quelqu'un qui ne connaît rien à l'intelligence artificielle comprend instantanément la valeur apportée.

Enfin, le RAG est relativement accessible. Grâce aux modèles disponibles aujourd'hui, de nombreuses équipes peuvent développer un prototype fonctionnel en quelques jours ou quelques semaines.

Résultat : le RAG est devenu l'un des symboles de la révolution de l'IA générative. Mais cette visibilité a parfois donné l'impression que toute l'innovation se produisait du côté du langage.

Une révolution beaucoup plus discrète

Ce que peu de gens ont remarqué, c'est que pendant cette période, la Computer Vision ne faisait pas du surplace. En 2020, les Vision Transformers (ViT) transféraient l'architecture qui avait révolutionné le NLP directement à la vision. Plus besoin de convolutions comme seul paradigme : les images pouvaient désormais être traitées comme des séquences de patches, avec le même mécanisme d'attention qui avait fait le succès de BERT et GPT.

En 2022, Meta publiait Segment Anything Model (SAM). Un modèle capable de segmenter n'importe quel objet dans n'importe quelle image, en zéro-shot. Sans entraînement spécifique. Sans dataset dédié. Juste un prompt visuel. La même année, Stable Diffusion sortait en open source. Et là, quelque chose d'inhabituel s'est produit : la Computer Vision a fait irruption dans le grand public, sans que personne ne la nomme vraiment. Les gens parlaient de "génération d'images", d'"IA créative". Mais sous le capot, c'était de la vision.

Tout ça se passait en parallèle du boom LLM. Discrètement. Sans keynote dédiée. Sans thread viral.

Le langage parle. La vision agit

Il y a une différence fondamentale entre ce que fait un LLM et ce que fait un modèle de vision. Elle est simple, mais elle chana toute son importance. Un LLM traite du texte. Il prédit le mot suivant, résume, reformule, répond. C'est puissant. Mais ça reste dans le domaine du langage. Le monde réel, lui, n'est pas fait de tokens.

La Computer Vision, s'interface directement avec le monde physique. Une caméra capte une scène. Un modèle l'analyse et une action s'ensuit. Ici, il n'y a pas de traduction en texte ni d'intermédiaire conversationnel. C'est de la perception directe. Toujours pas convaincu ? Prenons un exemple concret.

Dans une usine, un chatbot n'aurait que peu d'utilité. Car cela n'aiderait en aucun cas à détecter par exemple un défaut sur une ligne de production à 120 pièces par minute. Or, en analysant les images captées par les caméras, un modèle de computer vision peut détecter les anomalies et déclencher une alerte.

Il ne s'agit pas de dire qu'un modèle de CV est supérieur aux LLMs. Les LLMs ont leur domaine, la vision a le sien (le monde physique, les images, les flux vidéo) et il est immense. Et c'est là que se trouvent une grande partie des problèmes industriels non encore résolus. La vision est le pont entre l'IA et le monde réel.

Pourquoi je pense que la prochaine vague sera visuelle

Je ne pense pas que la Computer Vision remplacera les modèles de langage. Les deux technologies sont complémentaires. Mais j'ai le sentiment que nous entrons progressivement dans une phase où l'attention va se déplacer. Après avoir appris à comprendre le texte, les systèmes d'IA apprennent désormais à comprendre leur environnement. Et les opportunités sont immenses : industrie, santé, sport, agriculture, logistique, sécurité, retail, etc. Partout où il existe une caméra, une image ou une vidéo, il existe potentiellement une source d'information exploitable. Pendant longtemps, cette information était principalement analysée par des humains. Ce n'est plus nécessairement le cas.

Ce qui change, c'est l'échelle. Une caméra de surveillance génère des heures de footage qu'aucune équipe humaine ne peut analyser en temps réel. Un scanner médical produit des centaines de coupes qu'un radiologue doit parcourir une par une. Une ligne de production tourne 24h/24. La vision artificielle ne se fatigue pas, n'a pas de trouble de l'attention et peut opérer en parallèle sur des flux que l'humain ne pourrait physiquement pas traiter. Ca ouvre le champ des possibles.

Aussi, les modèles sont devenus plus accessibles. SAM, YOLOv8, ViT. Ce sont des architectures state-of-the-art disponibles en open source, documentées, avec des communautés actives. Ce qui demandait une équipe de recherche il y a cinq ans se déploie aujourd'hui en quelques lignes de code.

Le matériel, lui non plus n'est pas en reste. Les GPU ne sont plus réservés aux grands laboratoires. Les cartes graphiques grand public permettent d'entraîner des modèles sérieux. Et surtout, l'edge computing progresse : des puces comme la Jetson de NVIDIA ou les Apple Silicon permettent de faire tourner de l'inférence directement sur le terrain, sans dépendre du cloud.

N'oublions pas les modèles multimodaux qui ont effacé la frontière entre vision et langage. Par exemple, CLIP, GPT-4V, Gemini comprennent à la fois une image et un texte, et peuvent répondre à des questions sur une scène, décrire un environnement, raisonner sur ce qu'ils voient. La vision n'est plus isolée.

Et pour finir, les coûts d'inférence continuent de baisser. Ce qui coûtait cher à faire tourner en production il y a deux ans devient progressivement abordable pour des projets de taille moyenne. Les briques sont là. Elles sont mûres. Et elles attendent d'être assemblées.

Pourquoi je m'intéresse à la Computer Vision

La Computer Vision se situe à l'intersection de plusieurs disciplines que j'apprécie : les mathématiques, l'intelligence artificielle, l'ingénierie logicielle et les systèmes. C'est un domaine qui résiste à la superficialité. On ne fait pas de la CV sérieusement sans passer par les fondements et sans comprendre ce qui se passe réellement sous le capot : la géométrie projective, les transformées, les architectures convolutives, les mécanismes d'attention. Autant de sujets qui demandent du temps, de la rigueur, et qui récompensent ceux qui s'y investissent vraiment. Mais ce qui m'a définitivement convaincu, c'est autre chose.

La Computer Vision permet de connecter l'IA au monde réel, celui qu'on perçoit avec les yeux. Lorsqu'un modèle analyse une radiographie, il ne cherche pas des mots-clés. Il tente de voir ce qu'un médecin verrait. Lorsqu'il analyse un match de football, il ne lit pas un compte-rendu — il observe des trajectoires, des positions, des dynamiques. Et justement l'idée qu'une machine puisse développer une forme de perception visuelle du monde, je la trouve profondément fascinante.

Conclusion

Les LLMs sont la vitrine de l'intelligence artificielle moderne. Ils ont rendu l'IA visible, accessible et compréhensible par le grand public. C'était nécessaire. Mais pendant que les modèles de langage apprenaient à parler, une autre révolution progressait discrètement. Une révolution qui cherche à comprendre le monde visuel qui nous entoure.

Aujourd'hui, les cas d'usage sont réels. Et j'ai le sentiment que nous n'en avons encore vu qu'une petite partie. C'est ce que j'ai envie d'explorer ici en construisant, en expérimentant et en expliquant ce que je comprends vraiment.