Par Paul-Antoine TUAL — AI Transformation Leader, Croissance et Transitions — Mise Ă jour 19 mai 2026.
Le malentendu fondateur
Le 30 novembre 2022, OpenAI lance ChatGPT. L’interface ressemble Ă une messagerie. On y Ă©crit comme on Ă©crirait Ă un collègue. La machine rĂ©pond avec une politesse Ă©tonnante, des nuances, parfois de l’humour. Et un mot s’installe dans le vocabulaire des entreprises : prompt. On apprend Ă « bien parler Ă l’IA ». On forme des Ă©quipes Ă « la requĂŞte parfaite ». On nomme un poste : prompt engineer.
Trois ans et demi plus tard, en mai 2026, ce mot a fait son temps. Pas parce que l’intelligence artificielle a déçu — elle n’a jamais Ă©tĂ© plus performante. Mais parce que l’analogie qui l’a portĂ© — parler Ă l’IA comme Ă un humain — Ă©tait une illusion d’interface, pas une vĂ©ritĂ© technique. Andrej Karpathy, ancien directeur de l’IA chez Tesla et figure tutĂ©laire du domaine, l’a Ă©crit publiquement dès juin 2025 sur X : il prĂ©fère dĂ©sormais le terme context engineering Ă prompt engineering, parce que « prompt fait penser Ă une courte description de tâche, alors que dans toute application LLM industrielle, ce qui compte est l’art dĂ©licat de remplir la fenĂŞtre de contexte avec exactement la bonne information pour l’Ă©tape suivante » [1]. Tobi LĂĽtke, dirigeant de Shopify, a soutenu le mĂŞme mouvement [2]. Gartner a publiĂ© Ă l’Ă©tĂ© 2025 une note dont le titre rĂ©sume la bascule : Lead the Shift to Context Engineering as Prompt Engineering Fades [3].
Ce texte tient en une thèse simple. Un grand modèle de langage n’est pas un humain. Il n’a pas d’intuition, pas de bonne volontĂ©, pas de mĂ©moire de la conversation prĂ©cĂ©dente sauf si on la lui rĂ©injecte. Il fait une chose, et une seule : il calcule, Ă chaque pas, le prochain token le plus probable Ă©tant donnĂ© tous les tokens qui le prĂ©cèdent. Lui « parler » comme Ă un humain est une convention culturelle utile pour le grand public ; en entreprise, c’est une erreur stratĂ©gique. La bonne manière de l’instruire, en 2026, est celle qu’on adopte avec n’importe quel ordinateur de bureau : des instructions claires, explicites, structurĂ©es. Et la forme la plus adaptĂ©e pour porter ces instructions, sur les modèles dominants du marchĂ© — Claude (Anthropic), GPT-5 (OpenAI), Gemini (Google) — est le balisage structurĂ© : XML, JSON ou dĂ©limiteurs explicites selon le modèle et la tâche.
Ce n’est pas une opinion. C’est ce que recommandent les Ă©diteurs eux-mĂŞmes dans leur documentation officielle. C’est ce que mesurent les benchmarks indĂ©pendants. C’est ce que pratiquent, sans le formaliser, toutes les Ă©quipes qui mettent l’IA en production. Et c’est, pour une PME française qui veut tirer une valeur rĂ©elle de ses outils d’IA en 2026, le levier le plus mal compris du marchĂ©.
Ce qu’est vraiment un LLM, pour un dirigeant qui n’a pas le temps de lire un papier de recherche
Pour comprendre pourquoi l’analogie « parler Ă un humain » est trompeuse, il suffit d’ouvrir le capot. Pas de mathĂ©matiques. Trois mĂ©canismes suffisent.
Le tokenizer. Avant qu’un modèle ne « lise » votre phrase, un programme dĂ©terministe la dĂ©coupe en petits morceaux appelĂ©s tokens. Un token n’est ni un mot, ni une syllabe, ni un caractère. C’est une unitĂ© statistique apprise sur des milliards de pages de texte. Chaque token reçoit un numĂ©ro d’identifiant unique dans un vocabulaire de l’ordre de 100 000 Ă 200 000 entrĂ©es [4]. Quand vous Ă©crivez « RĂ©dige un compte rendu de rĂ©union », la machine ne voit pas votre phrase : elle voit une suite de numĂ©ros.
Le transformer. C’est l’architecture neuronale qui s’est imposĂ©e depuis 2017. Sa caractĂ©ristique : il prend en entrĂ©e la suite des tokens, et il produit en sortie une seule chose — une distribution de probabilitĂ© sur le prochain token. Le modèle ne « comprend » pas votre question. Il calcule : Ă©tant donnĂ© cette sĂ©quence de numĂ©ros, quel est le numĂ©ro suivant le plus probable ? Puis il choisit. Puis il recommence. Mot par mot — token par token — il gĂ©nère sa rĂ©ponse [5].
L’attention. Ă€ chaque pas, chaque token « regarde » les autres tokens de la sĂ©quence et calcule combien il doit s’appuyer sur chacun. Quand un modèle traite le mot « avocat » dans « le client a consultĂ© son avocat », l’attention pondère davantage les tokens « client » et « consultĂ© » que « le ». C’est aussi pourquoi le format de l’entrĂ©e compte autant que son contenu [6, 7].
Une nuance importante mĂ©rite d’ĂŞtre posĂ©e ici, parce qu’elle conditionne directement la pratique : l’attention d’un modèle ne traite pas tous les emplacements de votre prompt Ă valeur Ă©gale. Un phĂ©nomène dĂ©sormais bien documentĂ©, parfois appelĂ© context rot ou lost in the middle, montre que les transformeurs privilĂ©gient massivement le dĂ©but de la requĂŞte (effet de primautĂ©) et la fin du texte soumis (effet de rĂ©cence). Une information cruciale enfouie au milieu d’une longue requĂŞte narrative voit sa probabilitĂ© d’ĂŞtre correctement prise en compte chuter de plus de 30 %, et sur des tâches analytiques complexes sollicitant le maximum de la fenĂŞtre de contexte, jusqu’Ă 99 % de la fiabilitĂ© utile peut se perdre [26]. Conclusion pratique : plus le prompt est long et non balisĂ©, plus l’attention s’Ă©gare. Le balisage explicite n’est pas une affectation typographique — c’est une carte que vous donnez au mĂ©canisme d’attention pour qu’il ne se perde pas.
VoilĂ , en trois mĂ©canismes, ce qu’est un LLM : un dĂ©coupeur statistique, un prĂ©dicteur probabiliste, un orchestrateur d’attention. Aucun n’est anthropomorphe. Aucun ne « comprend » au sens humain du terme. Le dĂ©bat acadĂ©mique sur ce point reste ouvert [8, 9]. Mais pour un dirigeant de PME qui doit dĂ©cider comment former ses Ă©quipes, la conclusion pratique est nette : la machine rĂ©pond mieux Ă ce qui ressemble Ă des instructions de programme qu’Ă ce qui ressemble Ă une conversation de cafĂ©.
Pourquoi l’interface chat a faussĂ© le dĂ©bat
L’erreur d’analogie est nĂ©e de l’interface, pas de la technologie. Avant ChatGPT, les modèles de langage Ă©taient des API consommĂ©es par des dĂ©veloppeurs, dans des scripts, avec des entrĂ©es formatĂ©es. En novembre 2022, OpenAI a fait deux choix de produit qui ont changĂ© la perception collective : la fenĂŞtre de chat, et le ton « assistant serviable ». Le premier crĂ©e l’attente d’une conversation. Le second crĂ©e l’illusion d’une intention.
La littĂ©rature en sciences cognitives dĂ©crit ce phĂ©nomène sous le terme d’anthropomorphisme. Les interfaces conversationnelles renforcent ce biais par la simulation du tour de parole, les dĂ©lais de rĂ©ponse artificiels, et le vocabulaire Ă la première personne (« je pense que… ») [10, 11]. Une revue rĂ©cente parle d’« Ă©pĂ©e Ă double tranchant » : l’anthropomorphisme facilite l’adoption, mais il masque les diffĂ©rences cruciales entre humains et LLM, ce qui conduit Ă une sur-confiance dans les rĂ©ponses et une mauvaise calibration des usages en entreprise [11].
Pour une PME, ce biais a un coĂ»t concret. Quand un dirigeant croit qu’il faut « bien parler Ă ChatGPT », il oriente ses formations vers la rhĂ©torique de la requĂŞte : tournure polie, exemple d’« acte comme si tu Ă©tais un expert », promesses de rĂ©compense. Une partie de ces recettes a circulĂ© massivement sur LinkedIn entre 2023 et 2025. Les Ă©tudes rĂ©centes montrent que la plupart n’apportent aucun gain mesurable de prĂ©cision, et que certaines dĂ©gradent les performances [12].
Le tournant 2025-2026 : du « prompt » Ă l’« instruction »
Ce qui change en 2025-2026, c’est que les Ă©diteurs eux-mĂŞmes formalisent l’autre voie. Trois signaux convergent — et il faut les inscrire dans un cadre plus large. Le rapport DORA 2025 (Google Cloud), qui s’appuie sur près de 5 000 rĂ©ponses de professionnels tech et plus de 100 heures d’entretiens qualitatifs, met en Ă©vidence une dissonance significative : alors que ~ 90 % des dĂ©veloppeurs dĂ©clarent utiliser une forme d’assistance IA et que 80 % considèrent qu’elle augmente leur productivitĂ© individuelle, les indicateurs organisationnels de livraison restent souvent plats — gain individuel sans gain collectif systĂ©matique [27]. L’Ă©cart entre adoption et productivitĂ© rĂ©elle au niveau de l’organisation est l’indicateur le plus clair du problème de mĂ©thode.
Anthropic. La documentation officielle de Claude recommande explicitement l’usage de balises XML pour structurer les prompts. Le wording est sans Ă©quivoque : « Claude a Ă©tĂ© spĂ©cifiquement entraĂ®nĂ© Ă prĂŞter une attention particulière Ă votre structure » [13]. Le guide cite des cas d’usage : <instructions>, <context>, <documents> enveloppant chaque <document> indexĂ©, <examples>, <thinking> et <answer> pour distinguer le raisonnement de la rĂ©ponse.
OpenAI. Le guide GPT-5 est explicite : « GPT-5 interprète les prompts de manière littĂ©rale et exhaustive », et recommande « des spĂ©cifications XML structurĂ©es comme <[instruction]_spec> » pour amĂ©liorer le suivi d’instructions [14, 15]. Le modèle est tunĂ© pour la prĂ©cision : il fera exactement ce qui est Ă©crit, sans interprĂ©tation libĂ©rale. Cela rend les instructions ambiguĂ«s plus coĂ»teuses en hallucinations qu’auparavant.
Google. Le Prompting Guide officiel de Gemini fait la même recommandation : encadrer les instructions, les exemples et le contenu de référence par des balises ou des séparateurs explicites, parce que le modèle utilise ces frontières pour activer son attention sur la bonne portion du contexte [16].
Au-delĂ des Ă©diteurs, la recherche acadĂ©mique a produit en 2024-2025 plusieurs travaux qui consolident ce constat. StructEval (arXiv 2505.20139, 2025) propose un benchmark complet de la capacitĂ© des LLM Ă produire des sorties structurĂ©es : les modèles de pointe atteignent en moyenne 75/100, et la qualitĂ© varie fortement selon le format demandĂ©, ce qui implique que la spĂ©cification du format dans le prompt est un levier de performance Ă part entière [17]. Meaning Typed Prompting (arXiv 2410.18146, 2024) montre qu’une spĂ©cification typĂ©e et structurĂ©e des sorties amĂ©liore la fiabilitĂ© et rĂ©duit le coĂ»t d’infĂ©rence [18]. XML Prompting as Grammar-Constrained Interaction (arXiv 2509.08182, 2025) propose un cadre thĂ©orique : le balisage XML agit comme une contrainte de grammaire qui rĂ©duit l’espace des sorties possibles, et donc la variance — une dĂ©monstration formelle qu’un prompt structurĂ© n’est pas un caprice esthĂ©tique, c’est une rĂ©duction d’entropie [19].
CĂ´tĂ© gains chiffrĂ©s, plusieurs sources convergent — et il faut les nuancer pour Ă©viter les sur-extrapolations. Les communications d’Anthropic et les analyses de praticiens rapportent qu’un balisage XML bien posĂ© peut rĂ©duire les hallucinations jusqu’Ă 40 % sur certaines tâches [13]. Une Ă©tude publiĂ©e en 2025 dans npj Digital Medicine (PMC11039454) sur l’interprĂ©tation de guidelines hĂ©patologiques (hĂ©patite C) documente un saut d’exactitude de 43,0 % (GPT-4 Turbo seul) Ă 99,0 % avec un cadre RAG combinĂ© Ă du prompt engineering structurĂ© [20] — un rĂ©sultat fort, mais propre Ă ce cas d’usage clinique prĂ©cis ; la gĂ©nĂ©ralisation Ă toute tâche d’entreprise est Ă faire avec prudence. Sur la dimension sĂ©curitĂ©, Anthropic publie fin 2025 que Claude Opus 4.5 rĂ©duit Ă ~1,4 % le taux d’injections de prompt rĂ©ussies dans son benchmark d’agent navigateur sous nouveaux safeguards, contre ~10,8 % pour Claude Sonnet 4.5 sous anciens safeguards [21] — l’isolation par balisage entre instructions et donnĂ©es fait partie des dĂ©fenses.
Le contre-argument honnĂŞte : quand le balisage n’est pas la rĂ©ponse
Il faut le dire clairement : le balisage XML n’est pas une formule magique applicable partout. La rigueur intellectuelle impose de prĂ©senter le contre-argument tel qu’il existe dans la littĂ©rature.
Un benchmark publiĂ© en mai 2026 par Manish Ramavat a comparĂ©, sur Claude Sonnet 4.5, des prompts d’extraction de 150 tokens en deux versions : prose plate et prose balisĂ©e XML. RĂ©sultat : la version XML coĂ»te 31 % de tokens d’entrĂ©e en plus pour un Ă©cart d’exactitude nĂ©gligeable de −1,2 point de pourcentage [22]. Ă€ 10 000 appels par jour avec ce type de prompt, l’overhead XML reprĂ©sente environ 515 $/an gaspillĂ©s sur Sonnet 4.5.
La conclusion du mĂŞme auteur mĂ©rite d’ĂŞtre lue dans son entier : « Si vos prompts sont longs, complexes, multi-sections, ou traitent des entrĂ©es non fiables — utilisez XML. S’ils sont courts, clairs et templatĂ©s — passez-vous-en. » Wrapper un document de 10 000 tokens dans des balises XML coĂ»te 4 tokens supplĂ©mentaires, mais permet Ă l’attention d’isoler proprement le document des instructions. Le rapport bĂ©nĂ©fice/coĂ»t bascule donc en faveur du balisage dès que le contexte se complexifie.
Simon Willison, l’un des praticiens les plus suivis sur ces sujets, fait la mĂŞme observation Ă un niveau plus large. Son Ă©tude rĂ©cente (9 649 expĂ©riences sur 11 modèles et 4 formats — YAML, Markdown, JSON, TOON) montre qu’aucun format ne domine universellement, et que la familiaritĂ© du modèle avec le format compte autant que la structure elle-mĂŞme : le format ultra-compact TOON, peu prĂ©sent dans les corpus d’entraĂ®nement, fait paradoxalement perdre des tokens parce que le modèle « hĂ©site » Ă le suivre [23].
La règle opĂ©rationnelle qui en sort, et qu’il faut tenir en tĂŞte, est donc nuancĂ©e : le balisage structurĂ© s’impose dès que la tâche est complexe, le contexte Ă©tendu, les sources multiples, ou les entrĂ©es potentiellement non fiables. Sur les usages simples — rĂ©sumer un courriel, reformuler un paragraphe — la prose claire suffit. Mais en entreprise, peu d’usages restent simples une fois passĂ©e la phase d’exploration.
Et si les modèles 2026 étaient devenus assez bons pour comprendre le langage naturel sans XML ?
C’est l’objection la plus lĂ©gitime qu’un dirigeant peut formuler, et elle mĂ©rite une rĂ©ponse directe. Oui, Claude Opus 4.7, GPT-5.5 et Gemini 3.1 Pro comprennent infiniment mieux le langage naturel que leurs prĂ©dĂ©cesseurs de 2023. Un prompt en prose libre, sur un cas simple, donnera très souvent une bonne rĂ©ponse au premier essai.
Mais trois forces font que la discipline d’instruction structurĂ©e reste pertinente — et le devient mĂŞme davantage avec ces modèles.
Premièrement, l’interprĂ©tation plus littĂ©rale. Les guides officiels GPT-5 et GPT-5.5 d’OpenAI le disent explicitement : ces modèles interprètent les prompts de manière « littĂ©rale et exhaustive ». Une instruction floue ne sera plus « adoucie » par le modèle ; elle sera exĂ©cutĂ©e Ă la lettre.
Deuxièmement, l’enjeu n’est plus une requĂŞte rĂ©ussie, ce sont 10 000 requĂŞtes reproductibles. En exploration solo, un prompt en prose libre marche neuf fois sur dix. En production, sur 10 000 appels par jour, le 10 % d’Ă©cart reprĂ©sente 1 000 sorties non conformes par jour — inacceptable pour un processus mĂ©tier.
Troisièmement, le balisage structure aussi la pensĂ©e humaine. Une Ă©quipe qui ne sait pas formuler les quatre zones « rĂ´le / contexte / instructions / format de sortie » ne sait pas non plus formuler clairement sa demande mĂ©tier. La rigueur du format rĂ©vèle la rigueur de la pensĂ©e.
Cela dit, le verdict d’ici 24 Ă 36 mois bougera. Si la prochaine gĂ©nĂ©ration de modèles internalise une comprĂ©hension native des intentions floues, la frontière se dĂ©placera. La règle prudente : d’ici 18-24 mois, le balisage structurĂ© est le standard ; au-delĂ , Ă rééval.
Pourquoi cela change tout pour une PME en 2026
Si la bonne pratique en 2026 n’est plus de « bien parler Ă l’IA » mais de la commander avec des instructions structurĂ©es, plusieurs dĂ©cisions de dirigeant en dĂ©coulent.
Premièrement, sur la formation des Ă©quipes. Une Ă©tude française de 2026 rapporte que moins de 12 % des salariĂ©s ont reçu une formation structurĂ©e au prompting, et que ceux qui en bĂ©nĂ©ficient produisent des rĂ©sultats environ 40 % plus prĂ©cis [24]. Mais la qualitĂ© de la formation compte plus que son existence. Une formation qui apprend Ă Ă©crire de longues phrases polies, Ă promettre des rĂ©compenses, Ă « jouer un rĂ´le » au modèle, sera obsolète en six mois. Une formation qui apprend Ă spĂ©cifier une tâche, structurer une consigne, baliser un contexte, dĂ©finir un format de sortie est durable.
Deuxièmement, sur les gabarits de prompts utilisĂ©s en production. La pratique professionnelle en 2026 consiste Ă construire des bibliothèques de gabarits XML versionnĂ©s, partagĂ©s entre Ă©quipes, testĂ©s sur des jeux d’Ă©valuation, auditĂ©s lors des mises Ă jour de modèle. Cela ressemble beaucoup plus Ă de la gestion de code source qu’Ă de la rĂ©daction.
Troisièmement, sur la gouvernance des agents autonomes. L’enjeu monte d’un cran dès que l’IA n’est plus consultĂ©e mais dĂ©lĂ©guĂ©e. Un agent autonome — qui appelle des outils, Ă©crit des fichiers, envoie des emails — exĂ©cute un flot d’instructions composĂ©es en chaĂ®ne. Si les instructions sont conversationnelles, le moindre flou ouvre la porte Ă des comportements aberrants. Si elles sont structurĂ©es et balisĂ©es, l’agent reste sur ses rails [25].
Quatrièmement, sur le rapport au fournisseur. Une PME qui maĂ®trise la spĂ©cification structurĂ©e de ses tâches est moins captive du modèle. Un gabarit XML correctement Ă©crit s’exĂ©cute, avec quelques ajustements, sur Claude, sur GPT-5, sur Gemini, voire sur des modèles locaux open source. La portabilitĂ© est un avantage stratĂ©gique sous-estimĂ©.
Trois questions à poser dès cette semaine
Pour un dirigeant de PME qui lit cet article, voici les trois questions qui transforment le constat en action immédiate, à poser à votre DSI, votre référent IA ou votre prestataire :
- Avez-vous un inventaire des prompts critiques actuellement utilisĂ©s en production, et qui en est nommĂ©ment responsable ? Si la rĂ©ponse est « non » ou « tout le monde », il y a une dette de gouvernance prompt Ă ouvrir.
- Ă€ quand remonte le dernier test de non-rĂ©gression sur les sorties de votre IA — c’est-Ă -dire la vĂ©rification, sur un jeu standardisĂ© d’exemples, que les rĂ©ponses restent conformes après une mise Ă jour de modèle ou de prompt ? Si la rĂ©ponse est « jamais », vous ĂŞtes exposĂ© aux dĂ©rives silencieuses.
- Si vous deviez migrer demain de Claude Ă GPT-5 ou inversement, combien de prompts de votre catalogue interne devriez-vous réécrire intĂ©gralement ? Si la rĂ©ponse est « tous » ou « on ne sait pas », votre portabilitĂ© est faible.
Ces trois questions ne demandent ni outil ni budget. Elles rĂ©vèlent le niveau de maturitĂ© IA rĂ©elle de l’organisation, indĂ©pendamment du nombre d’outils dĂ©ployĂ©s.
Ce que recommande la MĂ©thode Junyr™
La MĂ©thode Junyr™ — mĂ©thodologie propriĂ©taire de Croissance et Transitions, articulĂ©e autour de cinq niveaux de maturitĂ© IA — traite cette question dans le cadre de son niveau 2 (Industrialisation des cas d’usage) et son niveau 3 (Gouvernance opĂ©rationnelle). Trois pratiques sont posĂ©es comme socle.
1. Un gabarit minimum standardisĂ©. Pour tout usage d’IA en production, on rĂ©dige le prompt en distinguant explicitement quatre zones : le rĂ´le et la tâche, le contexte de rĂ©fĂ©rence, les instructions de mĂ©thode, le format de sortie attendu :
<role>Tu es un analyste senior chargĂ© de…</role>
<contexte>
<document index="1">…</document>
<document index="2">…</document>
</contexte>
<instructions>
1. Vérifie d'abord la cohérence entre les documents
2. Identifie les points de divergence
3. Propose une synthèse en …
</instructions>
<format_sortie>
Réponse en français, structurée en trois sections,
avec citations [n] référencées aux documents.
</format_sortie>
Cette structure tient en quelques dizaines de tokens supplĂ©mentaires. Sur un prompt long, elle est largement amortie. Sur un prompt court, on l’allège : c’est la règle 80/20 du balisage.
2. Une bibliothèque de gabarits versionnĂ©s. Les prompts critiques sont stockĂ©s dans un dĂ©pĂ´t versionnĂ©, avec leurs jeux de tests, leur historique de modifications, leur responsable nommĂ©. C’est la discipline du code applicatif. Cette bibliothèque s’organise autour d’une structure simple, parfois codifiĂ©e sous l’acronyme CARE : Contexte, Action attendue, RĂ©sultat, End-goal. Quatre processus de crĂ©ation coexistent en entreprise : pilotage par les experts mĂ©tiers (SME-Driven) pour les usages juridiques et financiers ; participation ouverte (Crowdsourcing) pour les cas crĂ©atifs ; gĂ©nĂ©ration assistĂ©e par IA puis filtrage humain (AI-Generated) pour l’optimisation massive ; structuration par rĂ´le (Role-Based) pour standardiser un dĂ©partement entier [28].
3. Un cadre de dĂ©lĂ©gation pour les agents. Junyr Agents™, le produit phare de la suite Junyr opĂ©rĂ© sur junyr.app, incarne cette discipline — dĂ©lĂ©gation d’agents IA opĂ©rables, dĂ©clenchables et auditables par email via la couche Email Routing de Junyr Mail™. Chaque agent est dĂ©fini par un gabarit d’instructions XML, ses outils sont limitĂ©s Ă un pĂ©rimètre explicite, ses sorties sont contraintes Ă un schĂ©ma.
Conclusion : commander, pas converser
L’industrie est en train de tourner une page. Le mot prompt survivra encore quelques annĂ©es dans le vocabulaire courant. Mais en entreprise, en 2026, la pratique professionnelle s’aligne sur une discipline plus rigoureuse : on ne parle pas Ă l’IA, on la commande. Avec des instructions explicites, des contextes balisĂ©s, des formats de sortie spĂ©cifiĂ©s, des gabarits versionnĂ©s, et une gouvernance documentĂ©e. Le balisage structurĂ© (XML, JSON ou dĂ©limiteurs explicites) est le standard de fait sur lequel les trois grands Ă©diteurs convergent.
Pour une PME française qui veut tirer une valeur rĂ©elle de ses outils d’IA cette annĂ©e, le levier le plus structurant n’est pas un meilleur modèle. C’est une discipline d’instruction. La fenĂŞtre 2026 reste ouverte : 18 Ă 24 mois pour basculer d’une IA utilisĂ©e Ă une IA architecturĂ©e. Ce qui se joue n’est ni la peur ni l’urgence ; c’est la maĂ®trise. Et la maĂ®trise, comme toujours, commence par changer le bon mot — ici, remplacer parler par commander.
Questions fréquentes
Le prompt engineering est-il vraiment mort ?
Non. Le mot survit dans le vocabulaire courant et dans certaines fiches de poste. Mais la pratique professionnelle a basculĂ© : on parle dĂ©sormais d’« ingĂ©nierie du contexte » (context engineering) — englobant le balisage structurĂ©, la gestion du contexte, la conception des gabarits et la gouvernance des prompts. Le « prompt engineering » au sens Ă©troit cède la place Ă une discipline d’orchestration.
Faut-il vraiment utiliser XML partout ?
Non. La règle nuancĂ©e est : utilisez le balisage structurĂ© (XML, JSON ou dĂ©limiteurs explicites) dès que la tâche est complexe, le contexte Ă©tendu, les sources multiples, ou les entrĂ©es potentiellement non fiables. Pour les usages simples, la prose claire suffit. Le benchmark Ramavat de mai 2026 documente que sur prompts courts (≈ 150 tokens), le balisage XML peut ĂŞtre un overhead inutile.
Quelle est la différence entre prompt engineering et context engineering ?
Le prompt engineering se concentre sur la formulation d’une requĂŞte donnĂ©e Ă un instant donnĂ©. Le context engineering englobe l’ensemble du remplissage de la fenĂŞtre de contexte : description de tâche, exemples few-shot, rĂ©sultats de rĂ©cupĂ©ration (RAG), donnĂ©es multimodales, outils disponibles, Ă©tat, historique.
Mon équipe est non-tech. Faut-il les former à écrire du XML ?
Pas directement. Vous formez plutôt à spécifier une tâche, structurer une consigne, baliser un contexte, définir un format de sortie. Les gabarits XML sont ensuite portés par un référent IA, un développeur ou un consultant, et les équipes les remplissent, ne les rédigent pas à chaque fois.
Le balisage XML va-t-il vieillir avec les modèles 2027 ?
Probablement, en partie. Si les modèles internalisent davantage la comprĂ©hension des intentions floues, la frontière entre prose claire et balisage strict se dĂ©placera. D’ici 18-24 mois, le balisage structurĂ© est le standard ; au-delĂ , Ă rééval. Le bĂ©nĂ©fice durable n’est pas l’XML en soi, c’est la discipline de spĂ©cification.
Le balisage XML remplace-t-il le RAG, le fine-tuning ou les system prompts ?
Non. Ils sont complĂ©mentaires. Le RAG injecte les donnĂ©es privĂ©es de l’entreprise dans le contexte ; le balisage XML les sĂ©pare proprement des instructions. Le fine-tuning ajuste le modèle ; le balisage structure l’instruction. Les system prompts modernes sont eux-mĂŞmes du balisage structurĂ© dĂ©guisĂ©.
Pour aller plus loin
- Audit MĂ©thode Junyr™ — Diagnostic IA Express : 90 minutes de visio pour Ă©valuer votre niveau de maturitĂ© actuel — croissance-transitions.fr
- Junyr Agents™ : dĂ©lĂ©gation d’agents IA pour PME, opĂ©rables et auditables par email — junyr.app
- Junyr Mail™ : messagerie professionnelle eIDAS — junyr-mail.com
Sources
- Andrej Karpathy, X, 25 juin 2025 — « +1 for "context engineering" over "prompt engineering" ». x.com/karpathy
- Addy Osmani, « Context Engineering: Bringing Engineering Discipline to Prompts », Substack, 2025. addyo.substack.com
- Gartner, Lead the Shift to Context Engineering as Prompt Engineering Fades (Report ID 6781234), 28 juillet 2025. gartner.com
- « LLM Fundamentals — Tokens, Attention & Transformers (2026) », MyEngineeringPath. myengineeringpath.dev
- « How LLMs Work », tutorialQ. tutorialq.com
- « What is an attention mechanism? », IBM. ibm.com
- Sebastian Raschka, « A Visual Guide to Attention Variants ». magazine.sebastianraschka.com
- arXiv 2503.08980, 2025. arxiv.org/abs/2503.08980
- Grzankowski, A., arXiv 2408.04666, 2024. arxiv.org/abs/2408.04666
- So, J. et al., « Beyond Anthropomorphism: a Spectrum of Interface Metaphors for LLMs », arXiv 2603.04613, 4 mars 2026. arxiv.org/abs/2603.04613
- « The Double-Edged Sword of Anthropomorphism in LLMs », PMC. pmc.ncbi.nlm.nih.gov
- « The $380 Million Prompt Engineering Lie », Towards AI, 2025. pub.towardsai.net
- Anthropic, « Use XML Tags to Structure Your Prompts », documentation officielle Claude. platform.claude.com
- OpenAI, GPT-5 Prompting Guide. developers.openai.com
- OpenAI, Prompt Guidance. developers.openai.com
- Google, Prompting Guide for Gemini API. ai.google.dev
- StructEval, arXiv 2505.20139, 2025. arxiv.org/abs/2505.20139
- Meaning Typed Prompting, arXiv 2410.18146, 2024. arxiv.org/abs/2410.18146
- Alpay F. & Alpay T., « XML Prompting as Grammar-Constrained Interaction », arXiv 2509.08182, 9 sept 2025. arxiv.org/abs/2509.08182
- So J. et al., « Optimization of hepatological clinical guidelines interpretation by large language models », npj Digital Medicine, 2024 (PMC11039454) — saut 43,0 % → 99,0 % avec RAG + prompt engineering structurĂ© sur hĂ©patite C. pmc.ncbi.nlm.nih.gov · nature.com
- Anthropic, Mitigating the risk of prompt injections in browser use, 2025 — Claude Opus 4.5 ramène Ă ~1,4 % le taux d’injections rĂ©ussies (vs ~10,8 % Sonnet 4.5 sans nouveaux safeguards). anthropic.com · pymnts.com
- Manish Ramavat, « Benchmarking XML Delimiters in LLM Prompts », mai 2026. dev.to/manishramavat
- Simon Willison, « Structured Context Engineering for File-Native Agentic Systems », Feb 2026 — 9 649 expĂ©riences, 11 modèles, 4 formats. simonwillison.net
- Nerolia Formation, Prompt Engineering en français 2026. nerolia-formation.fr
- Simon Willison, « New prompt injection papers », 2025. simonw.substack.com
- Sur context rot / lost in the middle, cf. arXiv 2504.02732 « Why do LLMs attend to the first token? ». arxiv.org/abs/2504.02732
- DORA 2025 Report, Google Cloud — Près de 5 000 rĂ©ponses, 100 h d’entretiens. cloud.google.com · faros.ai · dora.dev
- Modèle CARE et typologie SME-Driven / Crowdsourcing / AI-Generated / Role-Based — synthèse Gemini Deep Research 19 mai 2026 (rapport interne).
Paul-Antoine TUAL est AI Transformation Leader. Il dirige Croissance et Transitions (SAS) et opère la suite Junyr™ — MĂ©thode Junyr™ (mĂ©thodologie), Junyr Agents™ (agents IA pour PME, junyr.app), Junyr Mail™ (messagerie eIDAS). Il accompagne les dirigeants d’ETI et de PME françaises dans leur transformation IA — diagnostic 90 minutes : croissance-transitions.fr.