Bien utiliser Claude Code : modèles, niveaux de réflexion, contexte et cache

## Deux équipes, le même outil Deux équipes utilisent Claude Code. La première tape ses demandes dans les réglages d'origine, laisse la même conversation s'étirer sur la journée, et râle : c'est lent, ça coûte, l'IA « perd le fil ». La seconde a compris quatre choses — quel modèle pour quelle tâche, combien de réflexion demander, comment tenir son contexte propre, comment le cache facture. Même outil. Même abonnement. Résultats sans rapport. Ces quatre réglages, les voici — rien que des chiffres officiels et leurs conséquences pratiques. (Si vous découvrez l'outil, commencez par [ce qu'est réellement Claude Code](/fr/blog/claude-code-agent-qui-code).) ## 1. Le modèle : Haiku, Sonnet, Opus, Fable Quatre modèles, quatre profils. Les prix sont en dollars **par million de tokens** (entrée / sortie) : | Modèle | Contexte | Prix | Fait pour | |---|---|---|---| | **Haiku 4.5** | 200 000 tokens | 1 $ / 5 $ | Les tâches simples et rapides : classification, petites corrections, sous-agents | | **Sonnet 5** | 1 million | 3 $ / 15 $ (2 $ / 10 $ jusqu'au 31/08/2026) | Le quotidien du code — qualité proche d'Opus, vitesse et prix en moins | | **Opus 4.8** | 1 million | 5 $ / 25 $ | Le travail long et autonome : refontes, sessions agentiques, revues de code | | **Fable 5** | 1 million | 10 $ / 50 $ | Les problèmes les plus durs — raisonnement profond, longues heures sans supervision | Trois choses à savoir au-delà du tableau. **Sonnet 5 a rebattu les cartes.** Sur le code, il atteint une qualité proche d'Opus pour 40 % de son prix — et son tarif de lancement court jusqu'à fin août 2026. C'est le choix par défaut rationnel pour la majorité des tâches. **Fable 5 n'est pas « l'Opus en mieux », c'est une autre classe.** Anthropic l'a placé dans un étage au-dessus d'Opus (la classe « Mythos »). Sa particularité technique : la réflexion y est **toujours active** — impossible de la couper. Il est fait pour ce qu'Opus ne résout pas : les migrations monstres, les bugs que trois sessions n'ont pas percés, les nuits de travail autonome. L'utiliser pour renommer des variables, c'est payer un chirurgien pour poser un pansement. **Le modèle se change en deux secondes** avec `/model` — mais pas n'importe quand. Changer de modèle en cours de session remet le cache à zéro (on y revient plus bas). Choisissez au début, tenez jusqu'au bout de la tâche. ## 2. L'effort de réflexion : low → max Les modèles récents réfléchissent avant de répondre. Le niveau d'effort règle **la profondeur de cette réflexion et le style de travail** qui va avec : à effort bas, moins d'étapes de raisonnement, des appels d'outils moins nombreux et plus regroupés, des réponses plus sèches. À effort haut : exploration, vérification, remise en question — et plus de temps et de tokens. | Niveau | Quand | |---|---| | `low` | Tâches courtes et mécaniques, sensibles à la latence — renommages, corrections triviales, sous-agents | | `medium` | L'équilibre coût/qualité pour le tout-venant | | `high` | Le défaut de l'API — le point d'équilibre du travail sérieux | | `xhigh` | Le défaut de Claude Code — code et travail agentique exigeants | | `max` | Quand l'exactitude vaut plus que le coût. Attention : rendements décroissants, tendance à sur-réfléchir | (`max` n'existe pas sur Haiku — logique, ce n'est pas son rôle.) Deux réflexes à prendre, un piège à éviter. **Réflexe 1 : monter l'effort plutôt qu'écrire « réfléchis bien » dans le prompt.** Le paramètre agit directement sur le moteur ; la formule magique, non. **Réflexe 2 : descendre l'effort sur les corvées.** Une correction d'orthographe en `xhigh`, c'est de la réflexion payée pour rien. **Le piège : tout passer en `max` « pour être tranquille ».** Sur Opus 4.8 et Fable 5, `high` suffit très souvent — et un effort bien réglé *réduit* parfois la facture totale : le modèle planifie mieux, fait moins d'allers-retours, corrige moins derrière lui. L'effort le moins cher, c'est celui qui évite la deuxième tentative. ## 3. Le contexte : la mémoire de travail Un million de tokens de contexte (200 000 sur Haiku), c'est l'équivalent de plusieurs romans. On s'y croit à l'abri. Erreur : tout y entre — vos messages, chaque fichier lu, chaque sortie de commande, chaque log. Et un contexte qui se remplit produit deux effets : 1. **Le focus se dilue.** Un modèle qui traîne 300 000 tokens de vieux logs raisonne moins bien sur votre question actuelle qu'un modèle au contexte net. 2. **Chaque tour coûte plus cher**, puisque tout l'historique repart en entrée à chaque échange. Quatre pratiques règlent 90 % du problème : - **`/clear` entre deux tâches sans rapport.** Le réflexe le plus rentable de cette liste. Nouvelle tâche, page blanche. - **`/compact` aux jalons.** Résume l'historique et repart léger. Claude Code le fait automatiquement quand le contexte approche de la limite, mais le déclencher vous-même à un moment logique (fin d'une étape) donne un meilleur résumé. - **`CLAUDE.md` pour les consignes permanentes.** Conventions du projet, commandes, pièges connus : écrits une fois dans ce fichier, chargés à chaque session — au lieu d'être répétés dans chaque conversation. - **Les sous-agents pour les grosses recherches.** Un sous-agent lit quarante fichiers *dans son propre contexte* et ne rapporte que la conclusion. Votre session principale reste propre. ## 4. Le cache : pourquoi la pause café coûte cher Le détail que presque tout le monde ignore, et qui explique des factures entières. À chaque échange, tout l'historique de la conversation repart vers le modèle. Sans mécanisme de cache, ce serait ruineux. Le cache de prompt stocke donc le préfixe déjà traité : le relire coûte environ **10 % du tarif d'entrée normal** (et l'écrire la première fois, environ 25 % de plus). Claude Code gère ça automatiquement. Mais deux règles physiques s'imposent à vous : **Le cache expire en 5 minutes** — glissantes : chaque échange le maintient en vie. Enchaînez, et toute votre session tourne à 10 % du prix. Partez vingt minutes en réunion, et l'échange suivant repaie le traitement de tout l'historique. Sur une session chargée en contexte, **les pauses sont littéralement ce qui coûte le plus cher**. **Le cache est lié au modèle.** Basculer de Sonnet à Opus au milieu d'une session = tout retraiter de zéro. Encore une raison de choisir son modèle au départ. La commande `/cost` vous montre ce que la session consomme — regardez-la une fois après une pause, vous comprendrez. ## Le workflow qui en découle 1. **Modèle** : Sonnet 5 par défaut. Opus 4.8 dès que la tâche est longue ou autonome. Haiku pour le mécanique en masse. Fable 5 pour ce que les autres n'ont pas résolu. 2. **Effort** : `xhigh` (le défaut) pour le code sérieux, `low`/`medium` pour les corvées, `max` en dernier recours réfléchi. 3. **Contexte** : `/clear` souvent, `/compact` aux jalons, `CLAUDE.md` soigné, sous-agents pour explorer. 4. **Rythme** : des sessions concentrées. On enchaîne, on ne laisse pas refroidir le cache, on ne change pas de modèle en route. Rien de tout ça n'est compliqué. C'est juste invisible tant qu'on ne vous l'a pas montré — et ça sépare les équipes qui trouvent l'IA « chère et moyenne » de celles qui livrent deux fois plus vite. C'est exactement le genre de réglages qu'on installe quand on déploie [des agents IA](/fr/solutions/agents-ia) chez nos clients : le bon modèle au bon endroit, mesuré. Envie de voir ce que ça donnerait chez vous ? [Audit gratuit, sans engagement](/fr/call).

Niveau	Quand
`low`	Tâches courtes et mécaniques, sensibles à la latence — renommages, corrections triviales, sous-agents
`medium`	L'équilibre coût/qualité pour le tout-venant
`high`	Le défaut de l'API — le point d'équilibre du travail sérieux
`xhigh`	Le défaut de Claude Code — code et travail agentique exigeants
`max`	Quand l'exactitude vaut plus que le coût. Attention : rendements décroissants, tendance à sur-réfléchir

Deux équipes, le même outil

1. Le modèle : Haiku, Sonnet, Opus, Fable

2. L'effort de réflexion : low → max

3. Le contexte : la mémoire de travail

4. Le cache : pourquoi la pause café coûte cher

Le workflow qui en découle

Prêt à intégrer l'IA dans votre entreprise ?