Sept réflexes pour une IA plus frugale
Nous vous avons déjà expliqué en quoi les impacts environnementaux de l’intelligence artificielle sont en pleine augmentation, et comment nous pouvons évaluer ces derniers.
Et si on parlait maintenant des solutions IA frugale ? Ou plutôt des bons réflexes pour réduire ses impacts ? Car rassurez-vous, il existe des méthodes dont l’efficacité est scientifiquement prouvée. Et bien sûr, déployer l’IA de façon frugale coûte moins cher, dans la plupart des cas. Alors allons-y !
1. Ai-je besoin d’IA ?
La première question du green IT s’applique bien évidemment à l’IA frugale. La pression exercée par l’engouement massif pour l’IA peut être si forte – surtout lorsqu’elle est amplifiée par les dirigeants – qu’il est souvent difficile de résister à l’envie d’intégrer un LLM (grand modèle linguistique) dans tel ou tel projet. Mais il faut absolument résister ! Car souvent, l’IA n’est pas nécessaire. Ou du moins, pas l’IA générative, forme particulièrement impactante. Voici deux exemples notables à ce sujet :
- Une petite entreprise de transport cherchait des moyens d’accélérer le traitement de ses commandes et souhaitait vivement recourir à l’IA pour y parvenir. Avec l’aide de la start-up spécialisée Terra Cognita, c’est exactement ce qu’elle a fait. Mais lorsqu’il s’est agi de gérer les demandes d’extraction de données internes et externes, l’entreprise de transport a également souhaité se tourner vers un LLM. Terra Cognita lui a plutôt proposé un dashboard, qui remplit la même fonction sans recourir à l’IA, et permet d’économiser environ 150 kg d’émissions de CO2eq par mois
- Miralia, une autre start-up française, combine l’IA symbolique (à l’ancienne) et l’IA générative pour aider les entreprises à trier emails, factures et autres documents entrants, en les acheminant automatiquement vers le service concerné. Ce dosage de 90/10 % signifie que seule une (petite) dose d’IA générative est utilisée pour accomplir les tâches que l’IA symbolique ne peut pas réaliser (par exemple, compléter des textes). Résultats ? 100 fois moins d’émissions (par rapport à une solution entièrement basée sur les LLM) ; une précision nettement supérieure (la précision des LLM pour cette tâche est d’environ 75 %) ; et une consommation de cloud 5 fois inférieure…
2. Le plus petit modèle possible par rapport à mes besoins
Une fois que vous avez une idée claire de ce que vous souhaitez réellement faire – et que l’IA générative est le seul moyen d’y parvenir –, appliquez un principe simple : trouvez le modèle qui répond à vos besoins, avec le moins de paramètres possible. Pourquoi ? Parce que vous pouvez être raisonnablement certain que plus un modèle est petit, moins il nécessite de ressources, et donc moins ses impacts seront importants.
De nos jours, cependant, lutter contre la tendance dominante selon laquelle « plus c’est gros, mieux c’est » est plus facile à dire qu’à faire. ChatGPT, qui reste de loin le modèle de langage à grande échelle (LLM) le plus utilisé au monde, compterait environ 2 000 milliards (2T) de paramètres. Or, les besoins de la plupart des gens – rechercher des informations, réviser des textes pour des e-mails, etc. – peuvent être satisfaits par un modèle de petite taille, d’environ 10 milliards (10B) de paramètres.
Autrement dit, le produit IA le plus utilisé au monde (800 millions d’utilisateurs par semaine) est 200 fois plus gros que les besoins de la plupart de ses utilisateurs.
Le livre blanc incontournable « Hype, Sustainability, and the Price of the Bigger-is-Better Paradigm in AI » (Luccioni et al.) reste une référence en démontrant que des modèles au moins 60 fois plus petits que les plus grands LLM peuvent être tout aussi performants. Même NVIDIA (Research) reconnaît que les « Petits modèles linguistiques sont l’avenir de l’IA agentique« , notamment parce que des composants plus petits fonctionnent mieux lorsque connectés ensemble que les mastodontes que sont ChatGPT, Gemini ou Claude.

Pour trouver les outils adaptés à vos besoins, consultez l’excellent ML.Energy Leaderboard (ci-dessus), qui présente, par type de tâche (LLM, MLLM ou Diffusion), les meilleurs modèles en termes de consommation d’énergie par jeton (axe des Y) et de vitesse d’inférence (axe des X, également appelée latence inter-jetons, un indicateur clé de performance couramment utilisé pour évaluer les performances des modèles).
3. L’hébergement en Europe est-il possible ?
Ce point est une question, car la réponse est souvent « non ». Si vous posez une question à ChatGPT, Copilot ou Claude aujourd’hui, votre requête est très probablement transmise à un centre de données situé aux États-Unis. Peut-être en Virginie, où se trouvent la plupart des centres de données mondiaux. Malheureusement, l’électricité produite là-bas génère dix fois plus d’émissions de carbone qu’en France, par exemple, comme le montre l’admirable site ElectricityMaps. Ce qui signifie naturellement dix fois plus d’émissions.

Tout aussi naturellement, le fait de délocaliser vos charges de travail vers un pays à faible intensité carbone comme la France ou la Suède permettra à lui seul de diviser par dix leur empreinte carbone. Cela n’implique pas nécessairement de changer de fournisseur de cloud, car même certains des plus grands vous permettent de choisir votre centre de données (par exemple Google, ici). Toutefois, le passage à un fournisseur de cloud local pourrait apporter des avantages supplémentaires.
Opter pour l’hébergement d’un modèle open source (nous y reviendrons plus loin) auprès d’un fournisseur cloud comme Scaleway ne se traduit pas seulement par une réduction des émissions, mais aussi des coûts versus un hyperscaler (les trois plus grands fournisseurs de cloud). Héberger un petit modèle (7 à 8 milliards de paramètres) chez Scaleway coûte à partir de 680 € par mois, alors que la même opération auprès d’un grand fournisseur américain peut facilement dépasser les 1 000 €. Bien sûr, plus le modèle est petit, moins vous avez besoin de capacité d’hébergement ; donc si vous pouvez le faire sur votre propre matériel, le coût sera logiquement zéro.
4. L’Open Source est-il possible ?
La plupart des solutions « big AI » (ChatGPT, Copilot, Claude, Gemini and Grok) sont fermés, ce qui implique qu’on ne peut donc pas regarder ‘sous le capot’ pour voir comment ils sont conçus. Cela rend le suivi de leurs impacts pratiquement impossible. Les modèles open source, en revanche, sont au moins partiellement transparents :
- Open Weights : gratuits, téléchargeables, mais détails de l’entraînement limités. Par exemple : Mistral Small 3.2, Llama 4 Scout, Gemma 3 12B
- Open Source : poids des modèles connus, réutilisation et distribution gratuites du modèle. Par exemple : Apertus 70B Instruct, Olmo 3 32B Think
Vous pouvez même vérifier leur niveau de transparence grâce au site web fort utile osai-index.eu (un grand merci à Simon Zilinskas-Inta de Compar:IA pour ces astuces ; vous en trouverez d’autres ici).
Les autres avantages des modèles open source, et non des moindres :
- Hébergez-les où vous le souhaitez (cloud public, cloud privé, sur site, ou même sur votre PC ou votre smartphone si le modèle est suffisamment petit)
- Cela signifie également que vous n’êtes pas limité à un type spécifique de modèle ou de système (par exemple, le logiciel d’IA de NVIDIA ne fonctionne qu’avec le matériel d’IA de NVIDIA…)
- Adaptez-les à vos besoins, grâce à des techniques telles que :
- Le fine tuning, où un modèle déjà entraîné est entraîné sur un ensemble de données plus petit, avec des économies d’énergie documentées de 78 % (source)
- La distillation, où un modèle plus petit apprend d’un modèle plus grand, le nouveau modèle finissant par être 60 % plus petit (et donc moins impactant, source).
5. L’évaluation est-elle possible ?
Ce point a déjà été abordé en détail ici ; il reste cependant essentiel. Si vous optez pour un gros modèle d’IA, vous aurez beaucoup plus de mal à en surveiller les impacts environnementaux. Copilot, par exemple, est connu pour son manque de transparence à ce sujet. Avec l’open source, en revanche, ce sera bien moins compliqué.
Si vous souhaitez vous essayer à l’évaluation et à la comparaison de ces deux types d’outils, ne cherchez pas plus loin qu’EcoLogits ou, pour un angle différent mais tout aussi intéressant, Compar:IA (qui s’appuie également sur EcoLogits). N.B. : depuis début 2026, EcoLogits fait partie de CodeCarbon, qui mesure également les impacts de l’IA, bien que d’une manière différente (cf. ci-dessous).
P.S. : notez notre insistance sur le mot « évaluation ». Tant que les grands acteurs de l’IA ne feront pas preuve de plus de transparence concernant leurs données (consommation d’énergie, mix électrique, eau, etc.), il ne s’agira que d’hypothèses très éclairées plutôt que de mesures précises. EcoLogits, par exemple, calcule l’impact des grands modèles fermés en les comparant à celui de modèles open source de taille similaire. Cela signifie que l’outil est suffisamment précis pour savoir, par exemple, si les systèmes informatiques de votre entreprise sont sur le point d’atteindre leurs limites d’émissions à cause de l’IA…
P.P.S : l’opacité des plus grands labos de l’IA n’a pas empêché un développeur d’estimer que son utilisation de Claude Code cette année générerait une tonne de CO2eq. Soit 100 % de son budget annuel soutenable (986 kg eq. CO2 / an) d’un français. Exemple à retenir pour la prochaine fois qu’on vous dit que les impacts de l’IA sont minimes…
6. Le green prompting
Le Green prompting, ou l’art de prompter des LLMs de façon à avoir le résultat souhaité en consommant le moins de tokens possible, puisqu’en IA générative, chaque création de token a un impact (électricité, eau, hardware, etc). Cette pratique s’applique quelle que soit la taille du modèle qu’on utilise… oui, même les plus gros (même si l’opacité de ces derniers continue de compliquer les calculs). Il convient donc de :
- Formulez toutes vos demandes en un seul prompt – plutôt que plusieurs – par exemple en utilisant la méthode COSTAR
- Évitez d’utiliser un jargon trop technique ou local, ainsi que des acronymes
- Posez des questions précises, afin que le modèle n’interroge pas l’intégralité de sa base de connaissances
- De même, ne demandez pas au modèle d’effectuer des recherches sur internet : cela peut générer 300 fois plus d’émissions par requête
- Nouveau sujet ? Nouvelle conversation. Sinon, l’intégralité de l’ancienne conversation sera traité à nouveau.
(Sources: Groupe SNCF, GreenPT, Compar:IA, Asim Hussain, Lancaster University)

Pourquoi se donner tout ce mal ? Selon un récent livre blanc (ci-dessus), le fait de suivre ces conseils et bien d’autres encore peut permettre de réduire la consommation d’énergie et les émissions de l’inférence IA de 32 à 48 %. Et logiquement, comme moins de jetons signifie moins d’émissions et moins de coûts, votre facture cloud devrait également diminuer.
Il reste important d’insister sur l’aspect estimatif de ce type de chiffres (le white paper en question s’est basé sur EcoLogits). Mais 1/. ils restent les chiffres les plus précis possibles aujourd’hui ; et 2/. ils sont suffisamment précis pour permettre de contenir ses émissions IA, en attendant mieux…
7. Surveiller, monitorer, optimiser !
Une fois que votre nouveau système d’IA frugale est opérationnel, pouvez-vous simplement le laisser tourner et passer à autre chose ? Bien sûr que non ! Après l’avoir testé avec des exemples de requêtes représentatifs afin de déterminer l’impact énergétique de chacune d’entre elles, et l’avoir comparé à des systèmes similaires (que vous trouverez par exemple dans le classement ML.Energy), gardez ces outils d’évaluation à portée de main afin de pouvoir continuer à surveiller les facteurs de performance environnementale au fil du temps. Les outils en question :
- EcoLogits Library est la version Python de cet outil polyvalent (la version accessible au public est le Calculator), qui s’intègre au code de votre application ou de votre site web afin de vous permettre, par exemple, d’afficher aux utilisateurs la quantité d’émissions (ainsi que la consommation d’eau, d’énergie et plus encore) générée ou consommée par chaque requête (voir comment faire ici). Tout comme le Calculator, cet outil fonctionne avec des modèles appelés via API ou basés sur le cloud
- Code Carbon est idéal pour les modèles auto-hébergés, c’est-à-dire ceux que vous exécutez sur votre propre matériel (voir comment faire ici), et n’affiche que les émissions CO2eq.
Ce suivi sera bien sûr utile pour surveiller les coûts et les émissions, mais aussi l’utilisation de vos outils d’IA. Prenons l’exemple de la fin de vie : si personne n’utilise plus l’un de vos services d’IA, il est temps de le désactiver et/ou de le remplacer par un autre.
Pour en savoir plus sur les méthodologies et astuces pour réduire les impacts de l’IA, rejoignez une prochaine session de notre formation d’un jour, « IA Frugale – Etat de l’art ». Plus d’infos ici…