Bien utiliser Claude Code : modèles, niveaux de réflexion, contexte et cache
Même outil, même abonnement, résultats sans rapport. Les quatre réglages de Claude Code que presque personne ne touche — modèle, effort de réflexion, contexte, cache — expliqués avec les vrais chiffres.
Par Nacim Moudjeb8 min5
Deux équipes, le même outil
Deux équipes utilisent Claude Code. La première tape ses demandes dans les réglages d'origine, laisse la même conversation s'étirer sur la journée, et râle : c'est lent, ça coûte, l'IA « perd le fil ». La seconde a compris quatre choses — quel modèle pour quelle tâche, combien de réflexion demander, comment tenir son contexte propre, comment le cache facture.
Même outil. Même abonnement. Résultats sans rapport.
Ces quatre réglages, les voici — rien que des chiffres officiels et leurs conséquences pratiques. (Si vous découvrez l'outil, commencez par ce qu'est réellement Claude Code.)
1. Le modèle : Haiku, Sonnet, Opus, Fable
Quatre modèles, quatre profils. Les prix sont en dollars par million de tokens (entrée / sortie) :
Modèle
Contexte
Prix
Fait pour
Haiku 4.5
200 000 tokens
1 $ / 5 $
Les tâches simples et rapides : classification, petites corrections, sous-agents
Sonnet 5
1 million
3 $ / 15 $ (2 $ / 10 $ jusqu'au 31/08/2026)
Le quotidien du code — qualité proche d'Opus, vitesse et prix en moins
Opus 4.8
1 million
5 $ / 25 $
Le travail long et autonome : refontes, sessions agentiques, revues de code
Fable 5
1 million
10 $ / 50 $
Les problèmes les plus durs — raisonnement profond, longues heures sans supervision
Trois choses à savoir au-delà du tableau.
Sonnet 5 a rebattu les cartes. Sur le code, il atteint une qualité proche d'Opus pour 40 % de son prix — et son tarif de lancement court jusqu'à fin août 2026. C'est le choix par défaut rationnel pour la majorité des tâches.
Fable 5 n'est pas « l'Opus en mieux », c'est une autre classe. Anthropic l'a placé dans un étage au-dessus d'Opus (la classe « Mythos »). Sa particularité technique : la réflexion y est toujours active — impossible de la couper. Il est fait pour ce qu'Opus ne résout pas : les migrations monstres, les bugs que trois sessions n'ont pas percés, les nuits de travail autonome. L'utiliser pour renommer des variables, c'est payer un chirurgien pour poser un pansement.
Le modèle se change en deux secondes avec /model — mais pas n'importe quand. Changer de modèle en cours de session remet le cache à zéro (on y revient plus bas). Choisissez au début, tenez jusqu'au bout de la tâche.
2. L'effort de réflexion : low → max
Les modèles récents réfléchissent avant de répondre. Le niveau d'effort règle la profondeur de cette réflexion et le style de travail qui va avec : à effort bas, moins d'étapes de raisonnement, des appels d'outils moins nombreux et plus regroupés, des réponses plus sèches. À effort haut : exploration, vérification, remise en question — et plus de temps et de tokens.
Niveau
Quand
low
Tâches courtes et mécaniques, sensibles à la latence — renommages, corrections triviales, sous-agents
medium
L'équilibre coût/qualité pour le tout-venant
high
Le défaut de l'API — le point d'équilibre du travail sérieux
xhigh
Le défaut de Claude Code — code et travail agentique exigeants
max
Quand l'exactitude vaut plus que le coût. Attention : rendements décroissants, tendance à sur-réfléchir
(max n'existe pas sur Haiku — logique, ce n'est pas son rôle.)
Deux réflexes à prendre, un piège à éviter.
Réflexe 1 : monter l'effort plutôt qu'écrire « réfléchis bien » dans le prompt. Le paramètre agit directement sur le moteur ; la formule magique, non.
Réflexe 2 : descendre l'effort sur les corvées. Une correction d'orthographe en xhigh, c'est de la réflexion payée pour rien.
Le piège : tout passer en max « pour être tranquille ». Sur Opus 4.8 et Fable 5, high suffit très souvent — et un effort bien réglé réduit parfois la facture totale : le modèle planifie mieux, fait moins d'allers-retours, corrige moins derrière lui. L'effort le moins cher, c'est celui qui évite la deuxième tentative.
3. Le contexte : la mémoire de travail
Un million de tokens de contexte (200 000 sur Haiku), c'est l'équivalent de plusieurs romans. On s'y croit à l'abri. Erreur : tout y entre — vos messages, chaque fichier lu, chaque sortie de commande, chaque log. Et un contexte qui se remplit produit deux effets :
Le focus se dilue. Un modèle qui traîne 300 000 tokens de vieux logs raisonne moins bien sur votre question actuelle qu'un modèle au contexte net.
Chaque tour coûte plus cher, puisque tout l'historique repart en entrée à chaque échange.
Quatre pratiques règlent 90 % du problème :
/clear entre deux tâches sans rapport. Le réflexe le plus rentable de cette liste. Nouvelle tâche, page blanche.
/compact aux jalons. Résume l'historique et repart léger. Claude Code le fait automatiquement quand le contexte approche de la limite, mais le déclencher vous-même à un moment logique (fin d'une étape) donne un meilleur résumé.
CLAUDE.md pour les consignes permanentes. Conventions du projet, commandes, pièges connus : écrits une fois dans ce fichier, chargés à chaque session — au lieu d'être répétés dans chaque conversation.
Les sous-agents pour les grosses recherches. Un sous-agent lit quarante fichiers dans son propre contexte et ne rapporte que la conclusion. Votre session principale reste propre.
4. Le cache : pourquoi la pause café coûte cher
Le détail que presque tout le monde ignore, et qui explique des factures entières.
À chaque échange, tout l'historique de la conversation repart vers le modèle. Sans mécanisme de cache, ce serait ruineux. Le cache de prompt stocke donc le préfixe déjà traité : le relire coûte environ 10 % du tarif d'entrée normal (et l'écrire la première fois, environ 25 % de plus). Claude Code gère ça automatiquement. Mais deux règles physiques s'imposent à vous :
Le cache expire en 5 minutes — glissantes : chaque échange le maintient en vie. Enchaînez, et toute votre session tourne à 10 % du prix. Partez vingt minutes en réunion, et l'échange suivant repaie le traitement de tout l'historique. Sur une session chargée en contexte, les pauses sont littéralement ce qui coûte le plus cher.
Le cache est lié au modèle. Basculer de Sonnet à Opus au milieu d'une session = tout retraiter de zéro. Encore une raison de choisir son modèle au départ.
La commande /cost vous montre ce que la session consomme — regardez-la une fois après une pause, vous comprendrez.
Le workflow qui en découle
Modèle : Sonnet 5 par défaut. Opus 4.8 dès que la tâche est longue ou autonome. Haiku pour le mécanique en masse. Fable 5 pour ce que les autres n'ont pas résolu.
Effort : xhigh (le défaut) pour le code sérieux, low/medium pour les corvées, max en dernier recours réfléchi.
Contexte : /clear souvent, /compact aux jalons, CLAUDE.md soigné, sous-agents pour explorer.
Rythme : des sessions concentrées. On enchaîne, on ne laisse pas refroidir le cache, on ne change pas de modèle en route.
Rien de tout ça n'est compliqué. C'est juste invisible tant qu'on ne vous l'a pas montré — et ça sépare les équipes qui trouvent l'IA « chère et moyenne » de celles qui livrent deux fois plus vite.
C'est exactement le genre de réglages qu'on installe quand on déploie des agents IA chez nos clients : le bon modèle au bon endroit, mesuré. Envie de voir ce que ça donnerait chez vous ? Audit gratuit, sans engagement.