Les cinq textes à lire expliquent les LLM par leurs briques clés : Transformer, prompting few-shot, lois d’échelle, RLHF et RAG. En les reliant, on comprend pourquoi les assistants IA répondent, progressent, hallucinent parfois et peuvent être connectés à vos données.
Pourquoi le Transformer a tout changé ?
Le Transformer a changé les LLM, les grands modèles de langage, parce qu’il permet de traiter une séquence entière en évaluant les relations entre tous les tokens, sans dépendre uniquement d’un traitement mot après mot.
Le papier Attention Is All You Need, publié par Vaswani et al. en 2017, est la base technique des modèles modernes comme GPT, Llama ou Claude. Avant lui, beaucoup de modèles traitaient le texte de manière séquentielle, avec des architectures comme les RNN, réseaux de neurones récurrents, qui avancent globalement token après token. Le Transformer change l’approche : il regarde toute la séquence en parallèle et apprend quelles parties du contexte comptent vraiment.
Un token est une unité de texte manipulée par le modèle. Ce n’est pas toujours un mot complet. Cela peut être un mot, un morceau de mot, un signe de ponctuation ou un fragment fréquent. Par exemple, “compréhension” peut être découpé en plusieurs tokens selon le tokenizer utilisé.
Entre nous, on le sait bien, faire appel à un consultant en automatisation intelligente et en agent IA, c’est souvent le raccourci le plus malin. On en parle ?
Le cœur du Transformer, c’est la self-attention. Chaque token attribue un poids aux autres tokens du contexte pour décider quelles informations sont utiles. Dans la phrase “Le chien poursuit la balle parce qu’il veut jouer”, le modèle doit comprendre que “il” renvoie probablement à “chien”. L’attention sert précisément à modéliser ce type de relation.
Le multi-head attention pousse l’idée plus loin. Plusieurs mécanismes d’attention travaillent en parallèle sur le même texte. Une tête peut capter une relation grammaticale, une autre une dépendance sémantique, une autre encore une référence plus lointaine. Ce n’est pas magique : c’est une façon efficace de multiplier les angles de lecture.
| Concept | Explication simple |
| Self-attention | Le modèle regarde quels tokens du contexte sont utiles pour comprendre le token courant. |
| Multi-head | Plusieurs mécanismes d’attention analysent la phrase sous différents angles. |
| Position | Des signaux indiquent l’ordre des tokens dans la séquence. |
Les encodages positionnels sont indispensables, car le Transformer ne lit pas naturellement les mots dans un ordre linéaire comme nous. Il reçoit donc des signaux qui indiquent la position des tokens dans la séquence.
Un bloc Transformer combine généralement attention, normalisation, réseau feed-forward, puis empilement de plusieurs blocs. Cette architecture rend possible l’apprentissage massif sur du texte. Elle explique aussi pourquoi un modèle peut ensuite s’adapter à une tâche à partir d’un simple prompt : il a appris des régularités générales du langage, puis les réutilise dans le contexte fourni.
Pourquoi le prompting fonctionne ?
Le prompting fonctionne parce que les grands modèles apprennent, pendant leur pré-entraînement, des régularités suffisamment générales pour reproduire une tâche à partir d’instructions et d’exemples placés dans le contexte. Ce n’est pas de la magie : le modèle prédit la suite la plus probable d’un texte, mais il le fait avec une capacité très large à reconnaître des formats, des consignes, des raisonnements et des associations linguistiques.
Le papier Language Models Are Few-Shot Learners, publié par Brown et al. en 2020, a marqué un tournant avec GPT-3, un modèle de 175 milliards de paramètres. Un paramètre est une valeur interne apprise pendant l’entraînement. Il ne faut pas l’imaginer comme une connaissance isolée, du type “Paris = capitale de la France”, mais plutôt comme une partie d’un immense système de réglages qui permet au modèle de produire des textes cohérents.
Le concept central est l’in-context learning, ou apprentissage dans le contexte. Le modèle ne modifie pas ses poids pendant votre prompt. Il ne “s’entraîne” pas vraiment à ce moment-là. Il utilise les exemples fournis dans la fenêtre de contexte pour inférer la tâche attendue : classer un avis client, résumer un document, traduire une phrase, extraire des champs d’une facture ou générer une fonction en Python.
| Mode | Principe | Exemple |
| Zero-shot | Instruction seule | Résume ce texte en 5 points. |
| One-shot | Un exemple | Voici un avis et son sentiment, fais pareil. |
| Few-shot | Quelques exemples | Voici 3 factures annotées, extrais les champs de la suivante. |
Cette idée a changé l’usage des modèles. Avant, il fallait souvent entraîner ou ajuster un modèle spécialisé pour chaque tâche. Avec GPT-3, Brown et al. montrent qu’un même modèle peut obtenir des résultats utiles sur de nombreuses tâches simplement en reformulant la demande dans le prompt, parfois avec quelques exemples bien choisis.
La nuance est importante : un bon prompt ne compense pas tout. La qualité dépend aussi du modèle, des données vues pendant l’entraînement, du contexte fourni, de la difficulté de la tâche et de l’évaluation des sorties. Pour un résumé interne, une vérification humaine peut suffire. Pour une extraction utilisée dans une chaîne comptable ou juridique, il faut mesurer les erreurs, tester des cas limites et prévoir des garde-fous.
Pourquoi les LLM grossissent autant ?
Les LLM, ou grands modèles de langage, ont grossi parce que les recherches sur les lois d’échelle ont montré que la performance progresse de manière prévisible quand on augmente les paramètres, les données et le calcul, à condition de garder un bon équilibre entre ces ressources.
Le papier Scaling Laws for Neural Language Models, publié par Kaplan et al. en 2020, a joué un rôle majeur dans cette dynamique. Les chercheurs y étudient trois variables clés.
- La taille du modèle : Le nombre de paramètres, c’est-à-dire les valeurs internes apprises pendant l’entraînement.
- Le volume de données : La quantité de texte utilisée pour apprendre à prédire le mot ou le morceau de mot suivant.
- Le budget de calcul : La puissance informatique consommée, souvent mesurée en FLOP, pour “Floating Point Operations”, soit des opérations mathématiques élémentaires.
L’idée centrale est simple : Quand on investit plus de calcul de manière cohérente, la perte d’entraînement diminue selon des tendances observables. La perte mesure l’erreur du modèle dans sa prédiction du texte. Plus elle baisse, mieux le modèle capture les régularités du langage. Ces résultats ont fortement encouragé la course aux modèles plus grands, car ils donnaient une forme de prévisibilité économique à l’entraînement.
| Levier | Effet attendu | Limite |
| Paramètres | Plus grande capacité d’apprentissage | Coût d’entraînement et d’inférence plus élevé |
| Données | Meilleure couverture linguistique et métier | Qualité variable, bruit, biais |
| Calcul | Entraînement plus ambitieux | Budget, énergie, infrastructure |
La nuance importante arrive ensuite avec Training Compute-Optimal Large Language Models, publié par Hoffmann et al. en 2022, souvent associé au modèle Chinchilla. Le message est moins spectaculaire, mais plus utile : Grossir le modèle sans lui donner assez de données n’est pas forcément optimal. À budget de calcul équivalent, un modèle plus petit entraîné sur beaucoup plus de données peut faire mieux qu’un modèle énorme sous-entraîné.
La qualité des données compte aussi autant que leur volume. Des doublons, du bruit, des contenus faibles, obsolètes ou biaisés peuvent améliorer des métriques en laboratoire sans produire un outil réellement fiable. Un grand pré-entraînement donne donc une base puissante, mais pas encore un bon assistant. Le modèle sait prédire du texte. Il faut ensuite l’aligner avec des consignes humaines pour obtenir des réponses utiles, sûres et exploitables dans un contexte business.
Comment un modèle devient un assistant ?
Un modèle devient un assistant lorsqu’il est entraîné à suivre des consignes humaines, pas seulement à prédire le mot suivant. Cette étape transforme un modèle brut en système plus utile pour dialoguer, expliquer, reformuler ou aider à décider.
Le papier Training Language Models to Follow Instructions with Human Feedback, publié par Ouyang et al. en 2022, décrit cette bascule avec InstructGPT. Les auteurs montrent qu’un modèle plus petit, InstructGPT 1,3 milliard de paramètres, peut être préféré par des évaluateurs humains à GPT-3 175 milliards de paramètres lorsqu’il est mieux aligné sur les consignes. Le point important n’est donc pas seulement la taille du modèle, mais la manière dont il est entraîné après son pré-entraînement.
La première étape est le fine-tuning supervisé. Le fine-tuning signifie que l’on reprend un modèle déjà entraîné pour l’adapter à une tâche plus précise. Supervisé veut dire que des exemples corrects sont fournis. Des humains rédigent ou valident de bonnes réponses à des prompts, puis le modèle apprend à les imiter.
Vient ensuite le RLHF, pour reinforcement learning from human feedback. En français, c’est un apprentissage par renforcement guidé par du feedback humain. Le modèle ne reçoit pas directement une vérité absolue. Il apprend plutôt à produire les réponses que des évaluateurs humains préfèrent parmi plusieurs possibilités.
| Étape | Rôle |
| Réponses humaines | Montrer au modèle le comportement attendu. |
| Classement | Identifier les réponses préférées par les évaluateurs. |
| Modèle de récompense | Prédire quelle sortie sera jugée meilleure. |
| Optimisation | Adapter le modèle vers ces préférences. |
Le processus suit un ordre assez simple. Des prompts sont collectés. Des réponses de référence sont rédigées. Plusieurs sorties du modèle sont comparées et classées par des humains. Un modèle de récompense apprend ensuite à prédire quelle réponse sera jugée meilleure. Enfin, le modèle principal est optimisé pour produire plus souvent ces réponses préférées.
Concrètement, cela donne des réponses plus structurées, un ton plus coopératif, une meilleure compréhension apparente des consignes et des refus plus fréquents sur certains contenus sensibles. Mais il faut rester précis. Le RLHF ne garantit pas la vérité. Il améliore la préférence humaine moyenne sur des réponses observées, sans empêcher les erreurs factuelles ni les hallucinations. Pour répondre sur des connaissances à jour ou internes à une entreprise, il faut souvent connecter le LLM à une source documentaire vérifiable grâce au RAG.
Pourquoi le RAG réduit les hallucinations ?
Le RAG réduit les hallucinations parce qu’il fournit au modèle des documents pertinents au moment de répondre, au lieu de s’appuyer uniquement sur ce qu’il a appris pendant son entraînement. Concrètement, on évite de demander au modèle de “se souvenir” de tout. On lui donne le bon contexte, puis on lui demande de rédiger une réponse fidèle à ce contexte.
Le papier Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, publié par Lewis et al. en 2020, formalise cette approche. RAG signifie retrieval-augmented generation, soit génération augmentée par récupération d’information. L’idée est simple : combiner un moteur de recherche et un modèle génératif. Le système repose sur trois briques principales : un index documentaire, un mécanisme de recherche qui retrouve les passages utiles, puis un modèle de génération qui rédige la réponse à partir de ces passages.
| Brique RAG | Fonction |
| Index | Stocker les documents exploitables. |
| Retriever | Retrouver les passages les plus pertinents. |
| Générateur | Rédiger une réponse à partir du contexte récupéré. |
| Évaluation | Mesurer la qualité, la fidélité aux sources et les erreurs. |
La différence clé se joue entre connaissance paramétrique et connaissance externe. La connaissance paramétrique est stockée implicitement dans les poids du modèle, après l’entraînement. Elle est puissante, mais difficile à mettre à jour et impossible à auditer précisément. La connaissance externe vient de documents récupérés au moment de la requête : base de connaissances, documentation produit, contrats, tickets support, pages web ou procédures internes.
Pour une entreprise, le gain est très concret. On peut actualiser l’information sans réentraîner le modèle, citer les sources utilisées, limiter les réponses inventées et adapter un assistant à un contexte métier précis. Un assistant RH, juridique ou support client devient beaucoup plus utile s’il répond à partir des documents réels de l’organisation.
Le RAG ne règle pas tout. Si les documents indexés sont faux, obsolètes ou mal découpés, la réponse peut être mauvaise. Si le système de recherche récupère le mauvais passage, le modèle raisonne sur un mauvais contexte. Un bon RAG demande donc une vraie stratégie documentaire : nettoyage des contenus, découpage en passages cohérents, métadonnées, gestion des droits d’accès et évaluation régulière des réponses.
Les cinq papiers se complètent bien. Transformer donne l’architecture, GPT-3 montre l’adaptation par prompt, les lois d’échelle expliquent la montée en puissance, RLHF rend l’interaction plus utile, et RAG connecte l’assistant au réel documentaire.
Alors, par quel papier commencer ?
Pour comprendre les LLM sans se perdre, je commencerais par le Transformer, puis GPT-3 pour saisir le rôle du prompt. Les lois d’échelle expliquent ensuite pourquoi les modèles ont grandi si vite. InstructGPT montre pourquoi un modèle brut n’est pas encore un assistant fiable. Enfin, le RAG ramène le sujet sur le terrain opérationnel : connecter l’IA à des documents, des sources et des connaissances à jour. Ces cinq idées couvrent l’essentiel : architecture, apprentissage, performance, alignement et accès à l’information. Vous gagnez une grille de lecture solide pour évaluer, concevoir ou challenger un projet IA.
FAQ
- Qu’est-ce qu’un LLM exactement ?
Un LLM, ou large language model, est un modèle de langage entraîné sur de grands volumes de texte pour prédire et générer des séquences de tokens. Il peut rédiger, résumer, traduire, classifier ou produire du code, mais il ne garantit pas automatiquement la vérité de ses réponses. - Pourquoi le Transformer est-il si important pour les LLM ?
Le Transformer est important parce que son mécanisme d’attention permet au modèle d’identifier les relations utiles entre les tokens d’un contexte. Cette architecture a remplacé beaucoup d’approches séquentielles et sert de base à la majorité des grands modèles modernes. - Le prompting entraîne-t-il vraiment le modèle ?
Le prompting n’entraîne pas le modèle au sens classique. Les poids ne sont pas modifiés. Le modèle utilise les instructions et les exemples fournis dans le contexte pour inférer la tâche à réaliser. C’est le principe de l’in-context learning. - À quoi sert le RLHF dans un assistant IA ?
Le RLHF sert à orienter le modèle vers des réponses préférées par des humains. Il améliore le suivi des consignes, la structure des réponses et le comportement conversationnel. En revanche, il ne supprime pas toutes les erreurs factuelles. - Le RAG suffit-il à empêcher les hallucinations ?
Le RAG aide fortement, car il fournit au modèle des documents pertinents au moment de répondre. Mais il ne suffit pas seul. La qualité dépend des sources, du découpage documentaire, de la recherche, des droits d’accès et de l’évaluation des réponses produites.
A propos de l’auteur
Je suis Franck Scandolera, responsable de l’agence webAnalyste et de l’organisme Formations Analytics. J’accompagne les entreprises sur le tracking avancé server-side, l’Analytics Engineering, l’automatisation No/Low Code avec n8n, l’intégration de l’IA, le SEO et la GEO. J’ai travaillé pour des organisations comme Logis Hôtel, Yelloh Village, BazarChic, la Fédération Française de Football ou Texdecor. Si vous voulez transformer les LLM, le RAG ou l’automatisation en cas d’usage concret pour votre business, contactez-moi.
⭐ Data Analyst, Analytics Engineer et expert dans l’automatisation IA ⭐
Ref clients : Logis Hôtel, Yelloh Village, BazarChic, Fédération Football Français, Texdecor…
Mon terrain de jeu :
Data Analyst & Analytics engineering : tracking propre RGPD, entrepôt de données (GTM server, BigQuery…), modèles (dbt/Dataform), dashboards décisionnels (Looker, SQL, Python).
Automatisation IA des taches Data, Marketing, RH, compta etc : conception de workflows intelligents robustes (n8n, Make, App Script, scraping) connectés aux API de vos outils et LLM (OpenAI, Mistral, Claude…).
Engineering IA pour créer des applications et agent IA sur mesure : intégration de LLM (OpenAI, Mistral…), RAG, assistants métier, génération de documents complexes, APIs, backends Node.js/Python.





