Empreinte carbone de l'IA générative : ce que votre bilan doit intégrer

Empreinte carbone de l’IA générative : ce que votre bilan doit intégrer

Empreinte carbone de l’IA générative : ce que votre bilan doit intégrer

Entraîner GPT-3 a produit l’équivalent de 552 tonnes de CO₂, selon les travaux d’Emma Strubell et de ses collègues de l’Université du Massachusetts publiés dès 2019. Depuis, les modèles ont grossi d’un facteur dix à cent. L’AI Index 2024 de Stanford HAI documente une multiplication par quatre de la puissance de calcul mobilisée entre 2020 et 2023 pour les grands modèles de langage. Dans le même temps, la directive européenne CSRD impose aux entreprises de plus de 250 salariés un reporting extra-financier obligatoire à partir des exercices 2024-2025, avec une granularité sur les émissions de scope 3 que peu de directions ont anticipée. L’IA générative, déployée à marche forcée dans les outils métier, entre précisément dans ce scope 3 dès lors qu’elle repose sur des infrastructures cloud tierces. Le décalage entre la vitesse de déploiement et la maturité des méthodes de mesure crée un angle mort comptable que votre prochain rapport de durabilité ne peut plus ignorer.

Entraînement et inférence : deux régimes d’émission que la comptabilité sépare mal

La confusion la plus répandue dans les bilans carbone numériques tient à l’amalgame entre coût d’entraînement et coût d’inférence. L’entraînement, phase où le modèle apprend sur des milliards de paramètres, est massif mais ponctuel. L’inférence, chaque requête soumise au modèle en production, est modeste unitairement mais continue, à l’échelle de milliers ou millions d’appels quotidiens.

Julien, directeur technique d’un groupe de services financiers de taille intermédiaire, a mesuré la chose concrètement : son équipe a déployé un assistant de synthèse documentaire basé sur un LLM hébergé chez un hyperscaler américain. L’entraînement du modèle de base n’apparaît nulle part dans son bilan, il appartient au fournisseur. En revanche, les 80 000 requêtes mensuelles de ses 400 collaborateurs génèrent une consommation électrique mesurable, localisée dans un datacenter dont le mix énergétique varie selon la région d’hébergement. « Nous avions suivi les émissions de notre parc informatique interne depuis 2019. L’IA générative a créé une nouvelle catégorie que notre outil de reporting ne savait pas lire », explique-t-il.

Le NIST (National Institute of Standards and Technology) recommande dans son AI Risk Management Framework de traiter la consommation énergétique comme un vecteur de risque opérationnel à part entière, au même titre que la sécurité ou la fiabilité. Ce positionnement institutionnel donne une base méthodologique aux équipes RSE qui cherchent à justifier l’intégration de ces données dans leur système de management environnemental.

Pour construire une mesure opérationnelle, deux métriques complémentaires s’imposent : le nombre de tokens traités par période (exposé par la majorité des API cloud) et le Power Usage Effectiveness (PUE) du datacenter concerné. La multiplication des deux, pondérée par le facteur d’émission du mix électrique local, donne une estimation de scope 3 catégorie 1 (achats de biens et services). Ce calcul reste imparfait, mais il est auditale, condition nécessaire sous CSRD.

Scope 3 catégorie 1 : où l’IA générative entre dans votre périmètre CSRD

La CSRD s’appuie sur les normes ESRS (European Sustainability Reporting Standards), dont ESRS E1 couvre le changement climatique. Les émissions de scope 3 y sont obligatoires pour les entreprises dont elles constituent une part significative de l’empreinte totale. Or, pour une organisation qui externalise l’essentiel de son infrastructure numérique, les émissions liées aux services cloud, et donc aux modèles d’IA générative hébergés, relèvent presque systématiquement du scope 3 catégorie 1.

Amara, responsable RSE d’un groupe industriel en phase de préparation CSRD, fait face à ce problème depuis dix-huit mois. Son périmètre couvre 12 filiales dans 5 pays, dont plusieurs ont déployé des outils de génération de contenu et d’analyse prédictive basés sur des LLM. « Nous avons demandé les données d’émissions à nos trois fournisseurs cloud principaux. Deux ont répondu avec des chiffres agrégés inutilisables. Un seul a fourni des données par service, par région et par période. C’est celui-là que nous allons privilégier dans nos choix d’architecture 2025. » La pression de reporting CSRD devient ainsi un critère de sélection fournisseur, ce que peu de DSI ont intégré à leur grille d’évaluation.

L’AI Now Institute, dans son rapport annuel 2024, souligne que la transparence carbone des hyperscalers reste largement insuffisante et que la responsabilité de la mesure pèse de facto sur les clients. Cette asymétrie d’information est précisément ce que les équipes RSE doivent documenter dans leur rapport CSRD : non seulement les émissions mesurées, mais les lacunes méthodologiques et les démarches engagées pour les combler.

Infrastructure datacenter : le mix énergétique au cœur de l’arbitrage

Tous les datacenters ne se valent pas du point de vue carbone. Un même volume de calcul produit des émissions radicalement différentes selon que le datacenter s’alimente en énergie nucléaire française, en charbon polonais ou en hydroélectricité scandinave. Les hyperscalers publient des indicateurs de Carbon-Free Energy (CFE) par région, Google Cloud, Microsoft Azure et AWS les exposent dans leurs consoles d’administration, mais ces chiffres sont des moyennes horaires qui masquent des variations importantes.

L’OCDE, dans ses travaux sur la gouvernance de l’IA publiés en 2023, pointe la nécessité d’harmoniser les méthodologies de calcul d’empreinte entre juridictions pour permettre des comparaisons fiables. En l’absence de standard universel, la recommandation opérationnelle pour les équipes techniques est de choisir la région d’hébergement en intégrant explicitement le score CFE comme critère pondéré, à côté de la latence, du coût et de la souveraineté des données.

Cette décision appartient rarement à une seule personne. Dans les organisations interrogées par Afervescence, c’est le trio DSI-DAF-Directeur RSE qui tranche, souvent pour la première fois en 2024, sous la pression du calendrier CSRD. Le choix d’une région Azure West Europe (Pays-Bas, mix 40 % CFE moyen) plutôt que d’une région US East (charbon encore présent) peut représenter une différence de 30 à 60 % sur les émissions estimées pour un même volume d’inférence, selon les estimations publiées par l’initiative Green Software Foundation.

La granularité temporelle compte également. Les inférences programmées, rapports nocturnes, traitements batch, peuvent être déplacées vers des créneaux horaires où le mix énergétique local est plus décarboné. Cette pratique, appelée carbon-aware computing, est documentée par la Green Software Foundation et commence à être intégrée dans les SDK de certains hyperscalers. Elle nécessite une coordination entre les équipes data engineering et les responsables environnementaux : un dialogue encore rare dans la plupart des organisations.

Mesurer pour piloter : les outils disponibles et leurs limites

Trois catégories d’outils permettent aujourd’hui une mesure partielle de l’empreinte carbone de l’IA générative en production. Les consoles cloud natives (AWS Customer Carbon Footprint Tool, Microsoft Emissions Impact Dashboard) offrent une vue agrégée par service, avec un décalage de deux à trois mois. Les outils tiers spécialisés, Climatiq, Electricity Maps, CodeCarbon pour les équipes data science, permettent une granularité plus fine mais exigent une intégration dans les pipelines MLOps. Les frameworks de reporting standardisés, dont le GHG Protocol Scope 3 et le référentiel ADEME-GreenIT pour les acteurs français, fournissent la méthodologie comptable mais ne produisent pas eux-mêmes la donnée.

Aucun de ces outils ne couvre l’intégralité du cycle. La phase d’entraînement des modèles de fondation reste opaque pour les utilisateurs finaux. Laurence Devillers, chercheuse en IA au CNRS et professeure à Paris-Sorbonne, rappelle régulièrement que la chaîne de responsabilité en matière d’impact environnemental de l’IA reste fragmentée entre concepteurs de modèles, opérateurs d’infrastructure et utilisateurs finaux, une fragmentation que la réglementation européenne commence seulement à adresser via l’AI Act, sans encore de mécanisme de reporting carbone spécifique.

Pour les équipes RSE, la posture pragmatique consiste à documenter les limites de la mesure disponible aussi rigoureusement que la mesure elle-même. Un auditeur CSRD n’attend pas une précision impossible ; il attend une démarche traçable, des hypothèses explicitées et un plan d’amélioration de la donnée sur deux à trois ans.

« Mesurer ce qu’on déploie, c’est la condition pour faire croître ce qui compte vraiment. », La rédaction Afervescence

Vers une gouvernance carbone de l’IA intégrée au pilotage DSI

L’empreinte carbone de l’IA générative ne se réduit pas à un problème de reporting. Elle constitue un signal de gouvernance : les organisations qui construisent dès maintenant une capacité de mesure fiable se donnent les moyens de piloter leurs choix architecturaux avec un critère supplémentaire, carbone, à côté du coût et de la performance.

Cela suppose trois évolutions concrètes dans la structure de décision. Premièrement, intégrer le critère CFE et le score d’émissions estimé dans tout appel d’offres cloud ou tout projet de déploiement LLM, au même titre que la sécurité des données. Deuxièmement, créer un point de contact formalisé entre l’équipe data engineering et la direction RSE, un rôle de « référent carbone numérique » que certaines grandes entreprises françaises ont déjà institué. Troisièmement, inclure dans le rapport CSRD une section dédiée aux émissions de scope 3 liées à l’IA, avec les méthodes utilisées, les lacunes identifiées et le plan de convergence vers une mesure plus fine.

La CNIL, dans ses recommandations sur les systèmes d’IA publiées en 2023, insiste sur la nécessité d’une documentation complète des systèmes déployés, documentation qui doit logiquement inclure l’empreinte environnementale pour répondre aux obligations CSRD. Le double impératif réglementaire, conformité IA Act et conformité CSRD, crée une fenêtre d’opportunité pour unifier la gouvernance des déploiements d’IA autour d’un dossier unique couvrant risques, droits des personnes et impact environnemental.

Les organisations qui attendent que les standards soient parfaits avant de mesurer prendront du retard. Celles qui commencent avec les outils imparfaits disponibles aujourd’hui, en documentant leurs hypothèses, construisent une capacité de pilotage que leurs pairs n’auront pas dans douze mois.

FAQ

L’empreinte carbone de l’IA générative est-elle obligatoire dans le reporting CSRD ?
La CSRD via ESRS E1 impose la déclaration des émissions de scope 3 significatives. Les services d’IA générative hébergés chez des tiers relèvent du scope 3 catégorie 1. Si leur part est significative dans l’empreinte numérique totale, leur inclusion est obligatoire. En cas de lacune de données, la méthode utilisée et les efforts d’amélioration doivent être documentés.
Comment estimer les émissions d’un LLM en production sans accès aux données du fournisseur ?
Le volume de tokens traités et le facteur d’émission de la région d’hébergement permettent une estimation auditale. La Green Software Foundation publie des méthodologies carbon-aware utilisables comme base de calcul.
Quelle différence entre émissions d’entraînement et émissions d’inférence ?
L’entraînement est porté par le fournisseur du modèle de fondation. L’inférence est continue et proportionnelle à l’usage : elle entre dans le bilan CSRD scope 3 de l’opérateur qui déploie le modèle.
Le choix de la région cloud a-t-il un impact mesurable ?
Oui. L’écart d’émissions estimées entre une région carbonée et une région décarbonée peut atteindre 50 à 60 % pour un même volume d’inférence. Ce critère doit figurer dans tout arbitrage d’architecture cloud.
Quels outils pour commencer à mesurer ?
AWS Carbon Footprint Tool et Microsoft Emissions Impact Dashboard pour une vue agrégée ; CodeCarbon pour les équipes data science ; Electricity Maps pour les facteurs d’émission régionaux. Documenter les lacunes est aussi important que la mesure elle-même.

Pour aller plus loin, decouvrez notre accompagnement des organisations et notre approche.

Et si la rigueur carbone que vous appliquez à vos chaînes logistiques devenait le prochain standard attendu de vos déploiements d’IA ?

POUR ALLER PLUS LOIN

Recevoir les prochaines analyses

Methodologie GEO, cas d'audit anonymises, signaux marche IA. Publications regulieres.

Donnees hebergees en Europe. Desinscription en 1 clic.

Publications similaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *