Les modèles d’intelligence artificielle gagnent en puissance chaque jour, les coûts de calcul baissent et les usages se démocratisent. Cette dynamique qui séduit autant les financiers qu’elle inquiète les salariés est peut-être sur le point de s’inverser. Selon une étude récente de Goldman Sachs les agents IA pourraient couter à moyen terme plus cher que de vrais employés physiques.
- Les coûts des agents IA pourraient devenir plus élevés que ceux des humains d'ici 2030.
- La consommation de tokens par les IA augmente fortement, malgré la baisse des prix par token.
- Des techniques comme RAG, mémoire persistante ou compression réduisent certains coûts mais compliquent l'efficacité.
Si vous avez déjà utilisé des agents IA ou même de simples MCP vous savez que la consommation en tokens de ces outils flambe rapidement.
L’étude de Goldman Sachs met en évidence que la baisse des coûts unitaires des calculs IA ne suffira pas à compenser la croissance de ces usages à horizon 2030. Ce constat est d’autant plus préoccupant que si vous avez commencé à utiliser des agents pour coder, vous savez à quel point on peut vite developer une dépendance.
La consommation en tokens des IA sera multipliée par 24 d’ici 2030
Les consommations projectives en terme de calcul IA à horizon 5 ans ont de quoi inquiéter :
| Indicateurs | Projections |
|---|---|
| Consommation de tokens | x 24 à 2030 |
| Volume mensuel estimé | 120 quadrillions de tokens |
| Croissance annuelle des requêtes LLM | +40% |
| Utilisation des agents chez les travailleurs du savoir en 2030 | +12 % |
| Utilisation en 2040 | +37% |
| Baisse annuelle du coût d’inférence | +60 à +70 % |
| Pénurie attendue de puces IA | 12 à 18 mois |
Ce n’est pas un phénomène nouveau dans l’histoire technologique : lorsqu’une ressource devient moins coûteuse, son utilisation augmente souvent beaucoup plus vite que les gains d’efficacité qu’elle fournit :
- Les moteurs deviennent plus économes, mais davantage de véhicules circulent
- Les connexions Internet deviennent plus rapides, mais les vidéos deviennent plus lourdes
- etc
Le même phénomène risque donc bien apparaître avec l’intelligence artificielle, car même si chaque token coûtera moins cher individuellement d’année en année, le nombre total de tokens consommés va croître beaucoup plus vite.
Pourquoi les agents IA consomment-t-il autant de tokens ?
Pour comprendre l’origine de cette inquiétude, il faut distinguer les chatbots classiques des agents autonomes.
Un assistant conversationnel traditionnel suit généralement un schéma relativement simple : une question entre, une réponse sort, puis le cycle s’arrête.
Un agent autonome fonctionne différemment : il peut consulter des documents, appeler plusieurs API ou MCP, analyser des données, générer du code, vérifier son propre résultat puis recommencer certaines opérations lorsqu’il détecte une anomalie.
A l’échelle d’un agent seul c’est déjà une belle flambée, et bien évidemment cette consommation croit de façon exponentielle dès lors que l’on met en place un framework agentique comme OpenClaw, Hermes ou PaperClip.
Vu depuis l’utilisateur, ce qui ressemble à une seule demande cache en fait une multitude d’actions.
Un assistant SEO autonome pourrait par exemple :
- analyser des données Search Console
- comparer des statistiques Analytics
- lire un fichier robots.txt
- examiner des logs serveur
- observer des concurrents
- produire un rapport
- lancer une nouvelle vérification
Une action unique côté utilisateur va déclencher plusieurs dizaines d’opérations invisibles et chaque étape consomme des ressources.
Il existe d’ailleurs aussi un autre problème : davantage de ressources ne garantit pas forcément un meilleur résultat. Un agent peut relire plusieurs fois les mêmes informations, effectuer des étapes redondantes ou partir dans des boucles inutiles avant d’atteindre une réponse finale, parfois erronée (si vous avez débuggé du code avec Claude Code ou Codex vous voyez certainement de quoi on parle).
Une tâche utilisant 100 000 tokens ne produira pas automatiquement une réponse meilleure qu’une tâche équivalente utilisant dix fois moins de ressources, y compris en utilisant des outils comme le framework BMAD ou des agents dédiés à l’orchestration.
A échelle, il n’est donc pas délirant d’imagine que certains agents coûtent plus cher que des humains, et tout particulièrement pour des traitement temps réel comme des agents vocaux ou des systèmes nécessitant des traitements complexes continus. Un opérateur téléphonique offshore payé au lance pierre pourrait rester plus rentable dans certains cas.
Le coût réel des agents dépend de nombreux facteurs :
- fréquence des appels à l’IA
- quantité de données traitées
- modèle utilisé
- infrastructure nécessaire
- mémoire utilisée
- nombre d’agents actifs simultanément
- etc
Aujourd’hui, certains cas d’usage restent donc économiquement difficilement justifiable malgré des performances impressionnantes.
Des architectures existent déjà pour réduire les couts de l’IA agentique
En 2022, les agents autonomes n’existaient pratiquement pas à grande échelle, les modèles open source étaient marginaux (même si TensorFlow s’était déjà imposé comme la brique centrale des travaux en Machine Learning) et les coûts semblaient relativement rigides.
4 ans plus tard seulement l’écosystème a subi de nombreuses révolutions : de nouveaux modèles, de nouveaux agents et de nouveaux outils apparaissent à une telle vitesse qu’il est devenu impossible de se tenir à jour de l’actualité. Les coûts chutent régulièrement et de nouvelles architectures émergent pratiquement tous les mois, faire des projections à 5 ans est donc vraiment un exercice périlleux, d’autant que les études projectives des cabinets de conseils visent rarement juste quand elles concernent la technologie. Personne n’avait réellement anticipé l’explosion des smartphones, des réseaux sociaux ou du streaming vidéo plusieurs années avant leur généralisation.
Ajoutons à cela qu’il existe déjà des solutions permettant de réduire de façon vertigineuse les couts des processus IA agentiques.
Les rag
Les systèmes de type RAG (Retrieval Augmented Generation) modifient profondément l’utilisation du contexte des opérations IA. Au lieu d’envoyer des documents complets à chaque demande, ils récupèrent uniquement les passages réellement utiles.
Les mémoires persistantes
Des mécanismes de mémoire persistante apparaissent également progressivement. Ils permettent à un agent de conserver certaines informations importantes sans devoir tout relire à chaque nouvelle tâche. On vous conseille en particulier Claude-mem qui permet de faire des économies très significatives (jusqu’à -95% de tokens) au prix il est vrai de temps de réponse dégradés.
Le routage intelligent par complexité
Par ailleurs utiliser les modèles IA Frontier (ce qui se fait de mieux) pour toutes les besoins revient souvent à utiliser un rouleau compresseur pour écraser une mouche.
Pour nombre de besoins un LLM ne visera pas par défaut une consommation optimisée.
Prenons un exemple, vous demandez à une IA de traiter un énorme fichier client :
- elle peut avoir le bon réflexe de coder un outil léger (souvent en python) pour le traiter
- ou bien tenter de charger le fichier en entier dans son contexte pour le traiter directement
Dans ce deuxième cas, non seulement votre consommation en tokens va flamber mais en plus la réponse risque d’être fausse, les LLM procédant souvent par synthèse statistique.
Un système bien conçu peut d’abord évaluer la difficulté réelle d’une demande avant de sélectionner automatiquement le modèle et la méthode les plus économiques et les mieux adaptés à la réalisation de la tâche demandée. Des outils comme LiteLLM ou LLMRouter sont conçus pour cela.
Notons par ailleurs que les fournisseurs de modèles, bien conscients de ces problématiques, proposent également déjà des solutions d’orchestration agentique :
La compression sémantique
Dans les architectures multi-agents, une autre technique gagne aussi du terrain : la compression sémantique des échanges entre agents. Plutôt que de transmettre des instructions longues en langage naturel complet, certains systèmes restructurent ou résument automatiquement les informations échangées.
Le repo Caveman Compression a beaucoup fait parler de lui ces dernières semaine, en permettant de réduire la consommation de tokens de 22 à 58% dans les échanges agentiques.
Le marché de l’emploi pourra-t-il échapper à la révolution IA ?
Et on ne vous a pas parlé non plus des modèles Mixture of Experts (DeepSeek étant l’un des pionniers), des algorithmes de Quantification, de la Distillation de modèles etc.
Il est encore difficile de prédire si les agents IA coûteront réellement plus cher que des humains dans 5 ans. Une chose est sure en revanche, leur adoption industrielle est inéluctable car ils permettront d’exécuter beaucoup plus de taches, bien plus vite que des humains, à grande échelle, et probablement avec une marge d’erreur comparable.




