Tout le monde utilise le même réglage pour tout. Sonnet + interactif + vérification à chaque fichier pour corriger un typo.
L’effort doit être proportionnel à la complexité et à l’impact de la tâche.
| Niveau | Modèle | Tools | Supervision | Coût indicatif |
|---|---|---|---|---|
| Low | Haiku / Flash | Aucun | N/A | ~$0.01 |
| Mid | Sonnet | read, grep, edit | Active | ~$0.10–0.50 |
| High | Sonnet + extended thinking | Tous | Intermittente | ~$1–5 |
| Max | Opus + --dangerously-skip-permissions |
Tous | Sandbox + tmux | ~$5–20 |
# Pas d'agent, juste une question
gemini "Quel est le bon code HTTP pour 'resource already exists' ?"
# 409 Conflict. $0.001. 3 secondes.
Quand : snippet rapide, question de syntaxe, explication d’une erreur connue.
Ce qu’on perd : contexte repo, cohérence avec le reste du code, connaissance des conventions de l’équipe. L’agent répond dans le vide.
Signal d’alarme : vous avez besoin de coller du code dans la question → passez en Mid.
# Agent dans le repo, supervision active
claude
> Fix the auth middleware bug in src/middleware/auth.ts — the token expiry check is inverted
L’agent lit le fichier, comprend le contexte, propose le fix. Vous vérifiez. Vous validez.
Quand : bug isolé, feature ciblée (< 5 fichiers impactés), refacto locale.
Ce qu’on perd : vision globale sur des changements larges. Si la tâche touche 15 fichiers, la qualité chute.
Signal d’alarme : l’agent modifie plus de 10 fichiers → soit vous découpez la tâche, soit vous montez en High.
Extended thinking = le modèle raisonne avant de répondre. Tokens invisibles, mais comptent dans la facture.
# Claude Code avec extended thinking (activé via les settings)
# ou en API : thinking_budget = 10000 tokens
> Our order processing is producing duplicate entries intermittently.
> It only happens under concurrent load. Here's the sequence diagram
> and the relevant logs from the last 3 incidents.
Quand :
Ce qu’on perd : temps et argent si la tâche ne le mérite pas. Un bug simple avec extended thinking = vous payez 5x pour une réponse identique.
Signal d’alarme : ne pas activer par défaut. C’est un outil pour les cas durs, pas un réglage permanent.
# Dans un worktree isolé, dans Docker, dans tmux
git worktree add ../project-migration feature/db-migration
cd ../project-migration
tmux new -s migration
docker run -it --rm -v $(pwd):/app agent-sandbox bash
claude --dangerously-skip-permissions -p "$(cat MIGRATION_TASK.md)"
# Ctrl+B D — vous détachez et revenez le lendemain
Quand :
Ce qu’on perd : visibilité complète pendant l’exécution. Le slop s’accumule. L’agent peut partir dans des directions non voulues. C’est pour ça que le sandbox est non-négociable à ce niveau.
Checklist avant de lancer :
--network none si tâche sensibleAGENTS.md avec guardrails clairsgit diff --stat au réveil avant de toucher quoi que ce soitC'est un bug ?
├── Isolé, fichier connu → Mid
├── Intermittent, multi-système → High
└── "Je ne sais même pas d'où ça vient" → High + extended thinking
C'est une feature ?
├── < 5 fichiers → Mid
├── > 10 fichiers, logique complexe → High pour l'architecture, Mid pour l'implémentation
└── Refacto de masse, migration → en sandbox en autonomie
C'est une question ?
├── Syntaxe / API standard → Low
└── "Explique-moi comment marche X dans notre codebase" → Mid (l'agent lit le code)
Un cas documenté : debugging d’un race condition sur une API Node.js.
| Tentative | Niveau | Tokens | Coût | Résultat |
|---|---|---|---|---|
| 1 | Mid (Sonnet) | 12k | $0.06 | Mauvaise piste |
| 2 | Mid (Sonnet) | 18k | $0.09 | Mauvaise piste |
| 3 | High (Sonnet ou Opus) | 45k | $0.90 | Fix correct |
Total : $1.05 pour résoudre quelque chose qui aurait pris 3h à la main.
Le coût n’est pas le sujet. Le sujet c’est de choisir le bon niveau au bon moment — pas de bruler des tokens High sur du Low, pas de s’obstiner en Mid quand il faut passer en High.
Low = question dans le vide. Rapide, pas de contexte.
Mid = agent dans le repo, vous supervisez. C’est là que vous passez 80% du temps.
High = problème dur, raisonnement profond, 3ème tentative. Intentionnel, pas par défaut.
Async = autonomie maximale, sandbox obligatoire, résultats au matin.