La semaine dernière, j’ai regardé un ami rafraîchir le compteur d’utilisation de Claude Code trois fois en une heure. Il était sur le plan Max 20x, à 200 dollars par mois, et son quota de session de cinq heures avait atteint cent pour cent après environ soixante-dix minutes de travail normal. Son quota hebdomadaire affichait dix-sept pour cent d’utilisation. Les maths ne tenaient pas, et c’était justement le sujet.
Le forfait de codage pas cher, tel que nous l’avons connu ces dix-huit derniers mois, touche à sa fin. Pas via une annonce. Dans des changelogs. Dans des limites silencieusement abaissées. Dans des pages de tarifs mises à jour pendant la nuit. Dans des tickets de support qui restent sans réponse.
Ce billet parle de ce qui se passe réellement, de pourquoi cela allait forcément arriver, et de ce qu’il faut faire avant que la prochaine vague de changements n’atterrisse dans votre boîte mail.
Les signaux sont partout
Vous n’avez plus besoin de lire entre les lignes. Les preuves sont datées, publiques, et s’accumulent semaine après semaine.
Du côté d’Anthropic, le tracker d’issues GitHub de Claude Code est devenu une rébellion au ralenti. L’issue #28848, ouverte fin février, documente des utilisateurs du plan Max qui brûlent leur plafond hebdomadaire environ deux fois plus vite depuis la sortie de Claude 4.6, sans annonce et sans limites numériques publiées. L’issue #31423 du début mars décrit un abonné Max 20x qui atteint cent pour cent de sa limite de session de cinq heures en environ une heure tandis que son compteur hebdomadaire reste à dix-sept pour cent. Les issues #40698 et #42939 de fin mars et début avril racontent la même histoire avec d’autres mots. Anthropic a reconnu au passage que « les gens atteignent les limites plus vite que prévu ». L’entreprise n’a pas publié ces limites.
Du côté chinois, les tiers du GLM Coding Plan de Z.ai auraient bondi du jour au lendemain début avril, passant de 10 / 30 / 80 dollars à 18 / 72 / 160 dollars. À peu près au même moment, Z.ai a lancé GLM-5.1 avec une tarification API au moins huit pour cent plus élevée que GLM-5 Turbo, à 1,26 dollar en entrée et 3,96 dollars en sortie par million de tokens. Le modèle lui-même est sous licence MIT, ce qui est généreux, mais le tarif hébergé indique la direction que prend le vent.
Du côté des IDE, Cursor et Windsurf se trahissent eux-mêmes depuis près d’un an. Le changement de tarification de Cursor en juin 2025 a basculé les utilisateurs intensifs vers des pools de crédits et un routage « Auto » facturé à la consommation. Windsurf est passé à des quotas quotidiens et hebdomadaires. Cursor a lancé Glass début avril à une valorisation rapportée de cinquante milliards de dollars, et les interviews de WIRED autour du lancement ont été brutales : des développeurs ont dit au reporter qu’ils étaient passés à Claude Code et Codex, non pas parce que le produit était moins bon, mais parce que, comme l’a formulé un fondateur, « l’outil qui a la limite la plus généreuse gagne ». En mars, 8090 de Chamath Palihapitiya estimait que les factures d’IA de codage dans les startups avaient triplé depuis novembre 2025.
Chacune de ces histoires pointe dans la même direction.
Pourquoi c’était toujours destiné à arriver
Le forfait de codage pas cher n’a jamais été un produit. C’était un coupon d’acquisition client, payé avec l’argent de quelqu’un d’autre.
Regardez honnêtement l’économie unitaire. Un développeur sérieux utilisant Cursor Pro à 20 dollars par mois consommait, chez le fournisseur sous-jacent, entre 80 et 150 dollars d’inférence. Un abonné Claude Code Max à 200 dollars par mois, lors d’une journée normale, brûle régulièrement l’équivalent de plus de 1 000 dollars de dépense API. Ce n’est pas un secret. C’est la stratégie explicite.
Anthropic et OpenAI peuvent se le permettre parce qu’ils ont levé plus de 100 milliards de dollars à eux deux et traitent les abonnements développeurs comme une vitrine stratégique à perte, la forme la moins chère de vente entreprise qu’ils feront jamais. Chaque développeur accroché à Claude Code représente un futur contrat d’équipe à cinq chiffres. L’abonnement est un coupon payé par le tour de table pour acquérir l’acheteur.
Cursor et Windsurf n’en ont pas les moyens. Ils ont levé un ordre de grandeur de moins, et ils vendent l’abonnement comme le produit réel, pas comme un entonnoir vers autre chose. Ils ont donc été les premiers à bouger : pools de crédits, quotas quotidiens, routage « Auto » qui rétrograde discrètement le modèle quand vous ne regardez pas.
Anthropic joue maintenant la version plus discrète de la même partition. Même prix, quota plus petit, aucune annonce. Ce n’est pas un bug. C’est l’économie unitaire qui rattrape le marketing. La seule question était : quand.
La voie vers la soutenabilité pour l’IA de codage hébergée, c’est l’API. Facturation au token, paiement à l’usage, avec une marge visible sur le reçu. Z.ai tarifant GLM-5.1 à 1,26 / 3,96 dollars préfigure ce qui vient. Les forfaits à tarif fixe vont continuer à se restreindre jusqu’à ce qu’ils se tarifent comme l’API plus une marge, ou bien ils seront discrètement remplacés par des tiers « professionnels » qui ressemblent étrangement à du crédit prépayé.
Il existe encore des forfaits à tarif fixe réellement généreux. Le Coding Plan de MiniMax commence à 10 dollars par mois pour le palier Starter et plafonne à 50 dollars pour le Max, les tiers Pro et Max revendiquant environ vingt fois la capacité de Claude Code Max. Le plan de tokens MiniMax M2.7 se branche directement dans OpenCode et la plupart des outils BYOK. Le palier Go d’OpenCode reste positionné de manière agressive. Ils existent parce que les fournisseurs derrière eux achètent de la visibilité pour leurs modèles à poids ouverts. Ils sont réels, et vous devriez les utiliser. Vous devriez aussi supposer qu’ils ne resteront pas aussi peu chers éternellement, pour exactement les mêmes raisons.
Ne vous laissez pas enfermer
Si la leçon des six derniers mois tient en une phrase, c’est celle-ci : la seule stratégie de tarification durable est celle que vous pouvez changer le temps d’un week-end.
Voici l’espace des compromis, simplifié.
| Stratégie | Risque de verrouillage | Effort | Idéal pour |
|---|---|---|---|
| BYOK dans un client indépendant du fournisseur | Faible | Faible | La plupart des développeurs |
| Routage multi-fournisseurs (OpenRouter, LiteLLM) | Faible | Moyen | Équipes sensibles au coût |
| Modèles à poids ouverts petits/moyens auto-hébergés | Aucun | Élevé | Confidentialité et délestage |
| Contrat annuel long avec un fournisseur unique | Élevé | Faible | À éviter en 2026 |
Les principes ci-dessous découlent de ce tableau.
Utilisez des outils indépendants du fournisseur. OpenCode, Cline, Aider, Continue, tout ce qui vous permet d’échanger le modèle sans réécrire votre workflow. Claude Code est excellent jusqu’au jour où il ne sera plus à vous de le configurer. Le jour où ce jour arrive, vous ne voulez pas être en train de réapprendre toute votre boucle.
Testez la frontière des poids ouverts. Qwen 3.6 Max, Kimi K2.6, MiniMax M2.7, GLM-5.1, DeepSeek R2. Beaucoup d’entre eux sont sous licence MIT ou Apache. La plupart sont accessibles via OpenRouter, Novita, Fireworks, Together, ou auto-hébergés. L’écart de performance avec la frontière fermée sur des tâches de codage réelles est bien plus faible que ce que le marketing suggère, et pour les quatre-vingts pour cent du travail qui consiste à éditer, refactoriser, écrire des tests et lire de la doc, il est essentiellement nul.
Adaptez le poids du modèle à la tâche. C’est la seule habitude à plus fort levier que vous puissiez construire. Modèles de raisonnement lourds pour la planification et l’architecture. Modèles rapides et pas chers pour l’exécution : éditions, tests, refactorings, sortie structurée. Une étape de planification dans Opus ou GPT-5.4 suivie d’une exécution dans MiniMax M2.7 ou GLM-5.1 divisera votre facture par cinq à dix sans perte de qualité mesurable sur un ticket typique. Configurez votre outil pour router délibérément, pas par défaut.
Auto-hébergez le palier de délestage. Un Qwen 3.5 14B quantifié en Q8, ou un Gemma 3, ou un NVIDIA Nemotron en 7B–12B, suffit pour les messages de commit, la génération de docstrings, l’extraction structurée, le tri de logs, les corrections de lint et la plupart des autocomplétions. Une seule RTX 4090, ou un Mac avec 64 Go de mémoire unifiée, suffit comme matériel. Une fois ce trafic délesté, votre facture hébergée baisse d’un montant surprenant, et vous disposez d’une configuration opérationnelle le jour où votre fournisseur a une panne.
Regardez au-delà des labos américains. Les fournisseurs chinois (Z.ai, MiniMax, Moonshot, Alibaba) et européens (Mistral, Aleph Alpha) sont en concurrence sur le prix et l’ouverture d’une manière que les grands labos américains ne sont plus tenus de respecter. La pression tarifaire circule dans un seul sens : du marché le plus compétitif vers les autres. Savoir appeler ces modèles est une couverture qui ne vous coûte rien.
N’utilisez les tiers gratuits que pour du travail non sensible. Les modèles gratuits sont payés avec vos données. La plupart des endpoints gratuits journalisent les requêtes, beaucoup les utilisent pour l’entraînement, et certains ont des conditions d’utilisation qui sont, charitablement, ambiguës. Très bien pour une regex ponctuelle. Pas bien pour du code client ou quoi que ce soit sous NDA.
Privilégiez les outils BYOK. Si un outil ne vous laisse pas apporter votre propre clé, il détient la molette des prix, et à un moment donné il la tournera. Traitez le support BYOK comme une exigence ferme, pas comme un plus.
Écrivez vos skills et vos agents pour être indépendants du fournisseur. Pas d’ID de modèles en dur dans les prompts. Externalisez-les dans la configuration. Gardez votre bibliothèque de prompts, vos commandes personnalisées, vos choix de serveurs MCP et vos définitions d’agents portables. Si changer de fournisseur exige de réécrire vos skills, vous avez construit des douves autour de vous-même, pas autour du vendeur.
Une configuration de référence pragmatique
Voici une pile honnête qu’un développeur unique peut faire tourner aujourd’hui, de bout en bout, sans tout miser sur un seul fournisseur.
Le pilote est OpenCode, configuré avec trois fournisseurs et une règle de routage.
Le premier fournisseur est Anthropic, en BYOK, sur l’API. Utilisé avec parcimonie et discernement pour les sessions de planification les plus difficiles, les discussions d’architecture et le débogage épineux occasionnel. Vous ne payez que ce que vous consommez, le prix au token est élevé, et le budget est le vôtre à fixer.
Le deuxième est MiniMax M2.7, soit via le Coding Plan à 10 dollars par mois pour un usage léger, soit via le plan de tokens M2.7 par l’endpoint compatible Anthropic, échangé comme modèle d’exécution par défaut. C’est là où atterrit le gros des éditions, tests et refactorings. GLM-5.1 via Z.ai ou OpenRouter est un second choix interchangeable ; prenez celui qui a le meilleur jour.
Le troisième est un Qwen 3.5 14B en Q8 hébergé localement via Ollama, câblé dans votre éditeur pour l’autocomplétion, les messages de commit, les résumés de docs et tout travail qui ne doit pas quitter la machine. Gratuit à la marge. Toujours disponible, même dans un avion.
OpenRouter se positionne derrière tout cela en route de secours. Si un fournisseur tombe en panne ou répète le coup du nerf silencieux, basculer vers un autre modèle tient en une ligne de configuration, pas en une migration.
Le coût fixe total de cette configuration, un mois normal, se situe entre trente et soixante dollars, et elle supprime le plus gros risque opérationnel de votre workflow quotidien : l’hypothèse que le forfait auquel vous avez souscrit est le forfait que vous aurez le mois prochain.
Le non-dit, à voix haute
L’ère où l’on payait vingt dollars pour consommer deux cents dollars d’inférence se termine comme finit toute ère subventionnée par le capital-risque. Discrètement. Dans des changelogs. Dans des tableaux de bord nerfés en catimini. Dans des pages de tarifs mises à jour pendant la nuit. Dans des tickets de support auto-clôturés comme doublons.
Les développeurs qui ne le sentiront pas sont ceux dont le workflow se moque déjà de savoir quel fournisseur est à l’autre bout de l’appel API. Leurs skills sont portables. Leurs outils sont agnostiques. Leur palier de délestage tourne sur leur propre matériel. Leur prochain fournisseur est à une ligne de configuration.
Cette configuration prend un week-end à construire. Elle se rentabilisera la première fois que votre forfait préféré changera, et elle continuera à se rentabiliser à chaque fois ensuite.
Construisez-la maintenant, tant que vous avez encore le choix.