Frugalité IA : obtenir plus avec des modèles plus petits
Frugalité IA : obtenir plus avec des modèles plus petits
Un modèle de langage de 70 milliards de paramètres consomme, à l’inférence, entre 300 et 400 watts en continu selon les mesures publiées par le laboratoire ML.ENERGY de l’Université du Michigan. Un modèle finement ajusté de 7 milliards de paramètres, entraîné sur un corpus métier précis, consomme dix fois moins pour des résultats souvent équivalents, parfois supérieurs, sur la tâche ciblée. Ce rapport de un à dix n’est pas anecdotique : il reconfigure la manière dont les directions techniques et les comités de direction doivent arbitrer leurs choix d’architecture IA. La frugalité n’est pas une contrainte budgétaire déguisée en vertu. C’est une discipline d’ingénierie qui produit des systèmes plus robustes, plus auditables et plus tenables dans la durée.
La taille des modèles : un mythe de puissance qui coûte cher
Pendant trois ans, la course aux paramètres a structuré les annonces des grands laboratoires. GPT-4, PaLM, Llama : chaque nouvelle génération affichait un volume croissant comme preuve de supériorité. Cette logique a contaminé les équipes techniques en entreprise, qui ont eu tendance à évaluer la valeur d’un modèle à son poids, comme on jugerait un serveur à la taille de ses disques.
Les travaux de Gary Marcus, chercheur en sciences cognitives à l’Université de New York et critique méthodique des architectures transformer, pointent depuis 2022 une limite structurelle de cette approche : les grands modèles généralisent bien mais raisonnent de manière fragile sur des domaines étroits. Ils produisent des réponses plausibles là où il faudrait des réponses exactes. Pour un cas d’usage métier précis, classification de contrats, extraction d’entités dans des rapports financiers, assistance à la rédaction de spécifications techniques, un modèle massif non spécialisé introduit du bruit là où la précision est requise.
Karim, data scientist dans une ESN de taille moyenne qui déploie des solutions IA pour le secteur assurantiel, formule ce constat avec netteté : « On a passé six mois à tenter d’exploiter un modèle de 65 milliards de paramètres via API pour de la classification de sinistres. Les coûts d’inférence étaient ingérables, la latence inacceptable en production, et le modèle hallusinait sur les codes IARD spécifiques à nos clients. On a basculé sur un modèle de 3 milliards fine-tuné sur nos propres données annotées. En huit semaines, les résultats surpassaient ce qu’on obtenait avant, pour un dixième du coût opérationnel. »
Fine-tuning et RAG : deux leviers que les équipes sous-utilisent
La frugalité IA repose sur deux techniques complémentaires que les équipes d’ingénierie maîtrisent souvent en théorie mais déploient trop rarement en production : le fine-tuning ciblé et la génération augmentée par récupération, connue sous l’acronyme RAG.
Le fine-tuning consiste à ajuster les poids d’un modèle pré-entraîné sur un corpus spécifique à l’organisation. Là où un LLM généraliste a ingéré une fraction d’internet, un modèle fine-tuné sur les documents internes d’un groupe industriel, ses normes, ses contrats-types, ses rapports d’incidents, développe une compétence de domaine que le modèle massif ne peut pas atteindre sans des prompts d’une complexité ingérable. Le rapport AI Index 2024 publié par Stanford HAI documente la montée en puissance de cette pratique : les organisations qui fine-tunent des modèles open-source de taille intermédiaire rapportent des gains de précision de 15 à 40 points sur leurs benchmarks internes par rapport à l’utilisation de modèles fondationnels sans adaptation.
Le RAG, quant à lui, permet de connecter un modèle à une base documentaire interrogeable à la volée, sans réentraînement. L’architecture sépare la mémoire du raisonnement : le modèle reste léger, la connaissance est externalisée dans un index vectoriel que l’on met à jour indépendamment. Cette dissociation réduit le besoin de recourir à des modèles de grande taille pour gérer la connaissance organisationnelle.
Élodie, CDO d’un groupe de services aux entreprises de 4 000 personnes, a arbitré en faveur de cette architecture après une phase pilote de six mois : « Nous avons évalué trois solutions : un accès API à un grand modèle externe, un déploiement on-premise d’un modèle massif, et une architecture RAG sur un modèle open-source de 13 milliards de paramètres hébergé en interne. Le troisième choix était le seul qui satisfaisait simultanément nos contraintes de souveraineté des données, nos objectifs de latence et notre enveloppe énergétique. Et la qualité des réponses sur nos cas d’usage documentaires était supérieure aux deux autres options. »
L’empreinte énergétique : un enjeu que les DSI ne peuvent plus déléguer
La question de la consommation énergétique des modèles d’IA était, il y a deux ans, perçue comme une préoccupation de chercheurs en éthique ou de militants du numérique sobre. Elle est entrée dans les plans de transformation numérique des grandes organisations parce que les régulateurs et les investisseurs l’y ont inscrite.
Les recommandations de l’OCDE sur la gouvernance de l’IA, mises à jour en 2024, intègrent explicitement la dimension énergétique et environnementale comme critère d’évaluation des systèmes IA responsables. La CNIL, dans ses lignes directrices sur l’IA en contexte professionnel, formule des attentes croissantes en matière de proportionnalité : le système déployé doit être proportionné à la finalité poursuivie, ce qui inclut sa consommation de ressources.
Asma Mhalla, politologue spécialiste des rapports entre technologie et pouvoir, souligne dans ses analyses récentes que la dépendance aux infrastructures cloud concentrées chez trois ou quatre acteurs américains pour exécuter des modèles massifs crée une vulnérabilité stratégique que les organisations européennes n’ont pas encore pleinement intégrée dans leur gestion des risques. Le choix de modèles plus petits, hébergeables en interne ou chez des opérateurs européens, est aussi un choix de souveraineté computationnelle.
Sur le plan des chiffres, l’AI Now Institute a publié en 2023 une analyse comparative des coûts d’inférence selon la taille des modèles qui montre qu’à volume de requêtes équivalent, une architecture basée sur des modèles de 7 à 13 milliards de paramètres réduit la facture d’inférence cloud de 60 à 75 % par rapport à des modèles de plus de 70 milliards de paramètres. Ce différentiel suffit à justifier l’investissement dans la phase de fine-tuning ou de construction d’un pipeline RAG, qui s’amortit en moyenne en trois à cinq mois selon les configurations documentées dans ces mêmes analyses.
Intégrer la sobriété dans les critères de sélection des projets IA
La frugalité IA ne s’improvise pas en cours de projet. Elle s’inscrit dans les critères de sélection et de cadrage dès la phase d’idéation. Les organisations qui obtiennent les meilleurs résultats sur ce plan sont celles qui ont formalisé une grille d’évaluation incluant trois questions avant toute décision d’architecture : quelle est la tâche précise et son périmètre documentaire ? Quel volume de données internes est disponible pour l’adaptation du modèle ? Quelle contrainte d’infrastructure, latence, souveraineté, empreinte énergétique, s’applique en production ?
Ces trois questions orientent naturellement vers des modèles de taille intermédiaire, spécialisés et auditables, plutôt que vers des modèles fondationnels généralistes auxquels on délègue la définition du périmètre. Laurence Devillers, professeure en IA et éthique au CNRS et à Sorbonne Université, insiste sur ce point dans ses travaux sur les systèmes IA en milieu professionnel : un modèle qu’une équipe comprend, qu’elle peut tester sur des cas limites et dont elle peut expliquer les erreurs est un actif. Un modèle opaque dont on ne maîtrise ni l’architecture ni les données d’entraînement est une dépendance.
Cette lisibilité technique a des conséquences directes sur la gouvernance. Les comités d’audit et les boards qui examinent les risques liés à l’IA posent des questions croissantes sur l’explicabilité des systèmes déployés. Un modèle fin-tuné sur des données maîtrisées, avec un périmètre documenté, répond à ces questions avec une précision qu’un LLM généraliste ne permet pas d’atteindre.
« La performance d’un système IA ne se mesure pas à la taille du modèle qui l’anime, mais à la précision avec laquelle il sert la décision humaine dans un périmètre défini. Faire croître ce qui compte vraiment, c’est choisir la puissance juste, ni plus, ni moins. » La rédaction Afervescence
Vers une ingénierie IA qui assume ses choix de proportionnalité
La frugalité IA n’est pas le renoncement à l’ambition technique. Elle en est la forme la plus rigoureuse. Déployer un modèle de 7 milliards de paramètres fine-tuné sur des données métier annotées avec soin, hébergé sur une infrastructure maîtrisée, intégré dans un pipeline de supervision continue : cela demande davantage de compétences, de discipline et de méthode qu’appeler une API généraliste. Les équipes qui ont franchi ce cap le formulent d’une manière cohérente : elles ont gagné en maîtrise ce qu’elles ont renoncé en commodité apparente.
Pour les directions qui engagent leur organisation sur ce chemin, les ressources documentaires de référence se trouvent dans les publications de Stanford HAI, les rapports annuels de l’AI Now Institute et les cadres méthodologiques de l’OCDE sur la gouvernance responsable de l’IA. Ces sources offrent des benchmarks, des grilles d’évaluation et des études de cas qui permettent de calibrer les ambitions et d’argumenter les arbitrages devant un comité de direction ou un board.
La question n’est pas de savoir si votre organisation peut se permettre d’adopter une approche frugale. La question est de savoir si elle peut se permettre de ne pas le faire, alors que les coûts d’inférence, les obligations réglementaires et les attentes en matière de souveraineté convergent dans la même direction.
Pour aller plus loin, decouvrez notre accompagnement des organisations et notre approche.
Et si la décision la plus stratégique que votre DSI prendra cette année était de choisir le modèle le plus petit qui fasse le travail ?
Recevoir les prochaines analyses
Methodologie GEO, cas d'audit anonymises, signaux marche IA. Publications regulieres.
Donnees hebergees en Europe. Desinscription en 1 clic.