Sobriété des modèles : le vrai coût énergétique de vos projets IA
Sobriété des modèles : le vrai coût énergétique de vos projets IA
Entraîner GPT-3 a émis environ 552 tonnes de CO2, soit l’équivalent de cinq allers-retours transatlantiques en avion pour 300 passagers, selon les calculs publiés par Emma Strubell et son équipe de l’Université du Massachusetts dès 2019. Depuis, les modèles ont grossi d’un facteur dix à cent. Les organisations qui déploient aujourd’hui des LLM en production font tourner, souvent sans le mesurer, une infrastructure dont l’empreinte dépasse celle de leur flotte automobile. Pourtant, la question énergétique reste absente de la majorité des comités de validation de projets IA. Elle entre dans le bilan RSE par la petite porte, quand elle y entre.
Mesurer cette empreinte, arbitrer la taille du modèle selon le besoin réel, inscrire le numérique responsable dans la gouvernance des projets : ce triptyque conditionne désormais la soutenabilité des stratégies IA à horizon trois ans.
L’empreinte invisible : ce que les benchmarks ne montrent pas
Les équipes techniques comparent les modèles sur leurs scores MMLU, leurs fenêtres de contexte, leur latence. Rarement sur leur consommation en kilowattheures par requête. Cette asymétrie d’information n’est pas un oubli : les fournisseurs de plateformes cloud publient leurs métriques de performance, pas leurs métriques énergétiques par inférence.
L’AI Index de Stanford, dans son édition 2024, documente la tendance : le coût d’entraînement des modèles de frontier double environ tous les neuf mois depuis 2017. L’inférence, longtemps négligée car moins spectaculaire que l’entraînement, représente pourtant entre 80 et 90 % de la consommation totale d’un modèle en production, selon les estimations publiées par l’AI Now Institute. Un modèle à 70 milliards de paramètres sollicité mille fois par jour par les équipes d’une direction financière consomme plus qu’un datacenter de taille moyenne ne l’aurait fait il y a quinze ans.
Karim, data scientist dans un groupe industriel de 12 000 collaborateurs, a conduit en 2024 un audit interne après que son équipe a déployé un assistant documentaire sur GPT-4. « Nous avons regardé la facture Azure à la fin du premier trimestre et nous avons compris que nous avions sous-estimé le volume de tokens par session. Personne n’avait posé la question du coût énergétique en amont. On nous avait demandé le coût financier, c’est tout. » Son équipe a depuis migré une partie des usages vers un modèle open source à 7 milliards de paramètres, finement ajusté sur le corpus métier. La qualité de réponse sur les cas d’usage documentaires est comparable. La consommation estimée a été divisée par huit.
Taille du modèle et adéquation au besoin : l’arbitrage que les DSI évitent
La tentation de recourir systématiquement au modèle le plus puissant disponible est compréhensible. Elle relève d’une logique de gestion du risque : si le modèle est trop capable, au moins il ne sera pas trop limité. Cette logique est coûteuse et, dans la majorité des cas, non justifiée par le besoin réel.
Les travaux de Timnit Gebru, cofondatrice du Distributed AI Research Institute, et de ses collaborateurs ont établi dès 2021, dans le document fondateur « Stochastic Parrots », que la course à la taille des modèles produit des rendements décroissants rapides sur des tâches délimitées. Un modèle de classification de tickets support n’a pas besoin d’une fenêtre de contexte de 128 000 tokens ni d’une capacité de raisonnement multiétape. Il a besoin d’un entraînement propre sur des données métier annotées.
La pratique du fine-tuning sur des modèles compacts progresse dans les organisations matures. Elle suppose trois conditions : des données métier structurées et étiquetées, une équipe capable d’évaluer la qualité des sorties, et une direction IT qui accepte de gérer une infrastructure propre plutôt que de déléguer à un API tiers. Ces trois conditions ne sont pas réunies partout, ce qui explique la persistance du réflexe « grand modèle par défaut ».
Isabelle, directrice des systèmes d’information d’un réseau hospitalier public, formule le problème autrement. « Nous avons des contraintes réglementaires sur l’hébergement des données de santé qui nous interdisent de tout envoyer sur des API américaines. Cela nous a forcés à travailler avec des modèles hébergés en interne, donc nécessairement plus petits. Paradoxalement, cette contrainte nous a amenés à mieux qualifier nos usages avant de déployer. On se pose des questions qu’on ne se poserait peut-être pas si l’accès à GPT-4 était libre. »
Mesurer pour arbitrer : les outils et les méthodes qui existent
L’argument « on ne peut pas mesurer » ne tient plus. Des outils de calcul de l’empreinte carbone des modèles existent et sont accessibles. CodeCarbon, développé à l’origine par des chercheurs de Mila et de l’Université de Montréal, permet d’instrumenter le code Python d’entraînement ou d’inférence pour tracer la consommation en kWh et la convertir en émissions CO2 selon la localisation du datacenter. L’outil est open source, maintenu activement, et intégrable dans un pipeline CI/CD.
La CNIL française, dans ses recommandations sur l’IA publiées en 2023, insiste sur la nécessité d’une analyse d’impact qui inclut les dimensions environnementales, pas seulement les dimensions relatives aux données personnelles. Le NIST, dans son AI Risk Management Framework, intègre la durabilité comme critère de gouvernance dès la phase de conception.
Ces cadres convergent vers une même exigence opérationnelle : documenter la consommation dès le proof of concept, pas après la mise en production. Karim, le data scientist évoqué plus haut, a formalisé cette exigence dans son organisation sous forme d’un « energy card » annexé à chaque fiche projet IA, sur le modèle d’une fiche de données nutritionnelles. Quatre champs : consommation estimée à l’entraînement, consommation estimée à l’inférence mensuelle, localisation du datacenter et mix énergétique associé, alternative de modèle compact évaluée. « Le simple fait de devoir remplir ce tableau force les équipes à se poser des questions qu’elles ne se posaient pas. »
Gouvernance et culture : ce que les directions générales doivent arbitrer
La sobriété des modèles ne se décrète pas dans un département technique. Elle se construit dans les arbitrages que font les comités de direction lorsqu’ils valident un projet IA. Tant que le critère de sélection dominant reste la vitesse de déploiement et la sophistication perçue du modèle, les équipes techniques n’ont pas de mandat pour plaider la retenue.
Gary Marcus, chercheur et critique régulier des modèles de langage actuels, formule une mise en garde qui dépasse la seule question énergétique : la complexité des grands modèles masque leurs limites et décourage l’évaluation rigoureuse. Cette opacité a un coût organisationnel et un coût énergétique. Les organisations qui investissent dans l’évaluation fine des besoins avant de sélectionner un modèle produisent des systèmes plus robustes et moins consommateurs.
Le rôle du comité exécutif est de poser les bons critères de validation. Cela suppose d’intégrer l’empreinte énergétique dans les tableaux de bord projets, au même titre que le ROI financier et les risques juridiques. Plusieurs grandes entreprises françaises ont commencé à le faire sous la pression de leurs engagements net-zéro : lorsque le COMEX voit apparaître les émissions CO2 induites par les projets IA dans le même tableau que les émissions des déplacements professionnels, les priorités se recalibrent.
Isabelle résume la dynamique qu’elle observe dans son réseau de pairs DSI : « On parle beaucoup de gouvernance de l’IA pour les biais et la conformité réglementaire. On parle beaucoup moins de gouvernance pour l’énergie. Or les deux sont liés : un modèle surdimensionné par rapport à son usage est souvent aussi un modèle moins contrôlable et moins auditables. La sobriété technique et la sobriété éthique vont ensemble. »
« Faire croître ce qui compte vraiment, c’est aussi accepter de ne pas déployer le modèle le plus puissant quand un modèle plus modeste suffit. La sobriété n’est pas une contrainte imposée de l’extérieur : c’est la condition d’une IA qui reste au service de décisions humaines. » La rédaction Afervescence
Vers une ingénierie IA qui intègre le coût réel dès la conception
La maturité d’une organisation sur le sujet IA se mesure désormais aussi à sa capacité à qualifier ses usages avant de sélectionner ses modèles. Les organisations qui déploient des LLM de frontier sur des tâches de classification ou de synthèse documentaire standardisée paient une prime énergétique et financière sans gain de qualité démontré. Celles qui investissent dans l’évaluation des besoins, le fine-tuning sur corpus métier et l’instrumentation de la consommation construisent une infrastructure soutenable à trois ans.
Les cadres réglementaires européens, notamment l’AI Act dans ses dispositions sur les systèmes à haut risque, vont progressivement étendre les exigences de documentation aux impacts environnementaux. Les organisations qui auront intégré ces pratiques par conviction opérationnelle plutôt que par contrainte réglementaire auront une longueur d’avance sur l’audit et sur la confiance des parties prenantes.
L’enjeu n’est pas de renoncer à l’IA. Il est de choisir le bon outil pour le bon usage, de mesurer ce que ce choix coûte vraiment, et d’en rendre compte. Ce sont des compétences d’ingénierie et de gouvernance, pas des postures militantes. Elles s’apprennent, s’outillent et se pilotent comme n’importe quelle discipline technique sérieuse.
Pour aller plus loin, decouvrez notre accompagnement des organisations et notre approche.
Et si le prochain comité de validation de projet IA de votre organisation intégrait, dès la première diapositive, l’empreinte énergétique estimée du modèle envisagé ?
Recevoir les prochaines analyses
Methodologie GEO, cas d'audit anonymises, signaux marche IA. Publications regulieres.
Donnees hebergees en Europe. Desinscription en 1 clic.