Éthique de l’IA RH : recruter sans reproduire les inégalités

En 2018, Amazon a mis fin à un projet interne de scoring automatisé des CV après avoir constaté que le modèle pénalisait systématiquement les candidatures féminines pour les postes techniques. Le système avait appris sur dix ans d’embauches, dans un secteur où les hommes dominaient massivement. Il n’avait pas introduit de biais : il avait amplifié ceux qui structuraient déjà les décisions humaines. Cet épisode, documenté par Reuters, reste la démonstration la plus citée d’un phénomène que l’AI Now Institute qualifie de « discrimination par proxy » : l’algorithme ne discrimine pas sur le genre ou l’origine, il discrimine sur des variables corrélées, école, code postal, formulation du titre de poste, qui servent de substituts statistiquement robustes aux critères illégaux. Six ans plus tard, les outils de recrutement automatisé se sont multipliés dans les organisations françaises et européennes, souvent sans que les garde-fous aient progressé au même rythme.

L’apprentissage historique, ou comment le passé gouverne le futur

Tout modèle de machine learning entraîné sur des données de recrutement hérite de la logique de sélection qui a produit ces données. Si une organisation a, pendant quinze ans, privilégié des profils issus de trois écoles d’ingénieurs pour ses postes de direction technique, le modèle apprend que ces écoles sont prédictives du succès, sans jamais interroger si d’autres profils auraient réussi aussi bien, ou mieux, s’ils avaient eu accès aux mêmes opportunités. Laurence Devillers, professeure à Sorbonne Université et chercheuse en IA et émotions, rappelle que « les données ne sont jamais neutres : elles portent l’empreinte des choix sociaux et organisationnels qui les ont produites ». Cette dépendance au chemin parcouru est structurelle, non accidentelle.

Isabelle, DRH d’un groupe industriel de 4 000 personnes en région lyonnaise, a vécu cette réalité concrètement. Son équipe avait déployé un outil de présélection automatisée pour les postes de techniciens de maintenance. Après six mois, elle a demandé un audit du taux de présélection par genre et par code postal. Le résultat était sans ambiguïté : les candidats domiciliés dans certains quartiers nord de l’agglomération, majoritairement issus de l’immigration nord-africaine, étaient écartés deux fois plus souvent que la moyenne, non pas parce que l’outil avait accès à leur adresse complète, mais parce que leur parcours scolaire, leurs intitulés de formation et leurs employeurs précédents constituaient des marqueurs suffisamment corrélés. « On avait cru objectiver. On avait en réalité industrialisé une sélection implicite que nos recruteurs humains auraient peut-être questionnée », dit-elle.

Les biais par proxy, angle mort des audits techniques classiques

La difficulté tient à la nature même des biais par proxy : ils sont indétectables dans une analyse qui se limite à vérifier l’absence de variables protégées dans le modèle. Un outil peut ne jamais traiter le genre, l’origine ou le handicap, et pourtant produire des résultats discriminatoires mesurables. L’AI Index publié annuellement par Stanford HAI documente cette asymétrie : les organisations qui auditent leurs systèmes d’IA uniquement sur la conformité formelle des inputs obtiennent des résultats rassurants qui ne reflètent pas les disparités observées dans les outputs.

Gary Marcus, chercheur en sciences cognitives et critique structuré des promesses de l’IA, souligne que les modèles de traitement du langage naturel utilisés pour analyser les CV et les lettres de motivation reproduisent les associations statistiques présentes dans leur corpus d’entraînement. Un modèle entraîné sur des offres d’emploi et des CV du marché anglophone ou francophone associera certaines formulations, certains registres de langue, certaines références culturelles à des profils « à haut potentiel », associations qui reflètent qui a eu accès à quelles institutions, non qui est capable de quoi.

Théo, data scientist spécialisé en fairness algorithmique pour un cabinet de conseil parisien, travaille depuis trois ans sur des audits de ce type pour des groupes du CAC 40. Son constat est précis : « La plupart des outils RH déployés en production n’ont jamais été testés sur des métriques d’équité. Les équipes techniques ont optimisé le taux de rappel et la précision. Personne n’a demandé si le taux de faux négatifs était identique entre sous-groupes. » Il désigne cette lacune comme le véritable angle mort des déploiements actuels : non pas la mauvaise intention, mais l’absence de question posée.

Ce que le cadre réglementaire impose, et ce qu’il ne règle pas

L’AI Act européen, entré progressivement en application depuis 2024, classe les systèmes d’IA utilisés dans le recrutement et la gestion RH comme systèmes à haut risque. Cette classification impose des obligations concrètes : documentation du système, transparence envers les personnes concernées, évaluation des risques avant déploiement, supervision humaine maintenue sur les décisions finales. Le NIST américain, dans son AI Risk Management Framework, formule des exigences analogues autour de ce qu’il nomme la « trustworthiness » des systèmes, avec une attention explicite aux biais et à l’équité.

Ces cadres sont nécessaires. Ils ne sont pas suffisants. L’AI Act définit des obligations de documentation et de supervision, mais ne prescrit pas de méthode d’audit d’équité ni de seuil d’acceptabilité pour les disparités mesurées. La CNIL, dans ses recommandations sur les systèmes d’IA RH publiées en 2023, insiste sur le droit à l’explication et sur l’interdiction des décisions entièrement automatisées affectant les personnes, mais le périmètre exact de « entièrement automatisée » reste sujet à interprétation dans les pratiques de présélection où un score algorithme conditionne de facto l’accès à l’entretien humain.

Asma Mhalla, chercheuse en politiques du numérique, pointe une tension structurelle : les régulations se déploient sur un cycle long, quand les outils s’adoptent sur un cycle court. Entre le moment où une organisation intègre un outil de présélection et celui où un cadre réglementaire pleinement opérationnel s’applique à son usage précis, plusieurs cohortes de candidats ont déjà été traitées par un système non audité.

Les garde-fous qui fonctionnent : du principe à la pratique

Les organisations qui avancent sérieusement sur ce terrain convergent vers un ensemble de pratiques que l’on peut regrouper en trois registres.

Le premier est l’audit d’équité avant tout déploiement en production. Cela suppose de définir les sous-groupes pertinents au regard des risques de discrimination, genre, origine perçue via le nom, code postal comme proxy socio-économique, et de mesurer, sur un jeu de données test, si le taux de présélection varie significativement entre ces groupes à qualifications comparables. Théo recommande d’utiliser au minimum deux métriques d’équité : la parité démographique et l’égalité des chances au sens statistique. Aucune des deux n’est parfaite ; leur combinaison réduit les angles morts.

Le deuxième registre est la supervision humaine structurée, non décorative. Une supervision qui consiste à ce qu’un recruteur valide mécaniquement les scores produits par l’algorithme n’est pas une supervision : c’est une automatisation avec une signature humaine. Une supervision effective implique que le recruteur dispose des éléments lui permettant de contester le score, et qu’il existe une traçabilité des cas où la décision humaine a divergé du score, pour alimenter les cycles d’amélioration du modèle.

Le troisième registre est la gouvernance des données d’entraînement. Isabelle a fait le choix, après son audit, de travailler avec le prestataire de l’outil pour exclure du corpus d’entraînement les embauches antérieures à 2018 dans les postes où les déséquilibres historiques étaient les plus marqués. Ce n’est pas une solution définitive, les données post-2018 portent encore des biais, mais c’est une réduction documentée du risque, inscrite dans le contrat de service et révisable.

« Faire croître ce qui compte vraiment, dans le recrutement comme ailleurs, commence par mesurer ce que l’on choisit d’ignorer. Un outil qui optimise sans définir ce qu’il ne doit pas sacrifier n’est pas un outil d’équité : c’est un outil d’efficacité avec des externalités non comptabilisées. », La rédaction Afervescence

Vers une responsabilité organisationnelle qui ne se délègue pas au modèle

La question de fond que posent les biais dans le recrutement automatisé n’est pas technique. Elle est de gouvernance. Qui, dans l’organisation, est responsable des résultats d’équité du système de présélection ? À quelle fréquence cet audit est-il conduit ? Qui a le mandat de suspendre l’outil si les métriques dérivent ? Ces questions n’ont pas de réponse dans le code du modèle. Elles exigent une décision de direction.

Timnit Gebru, chercheuse en éthique de l’IA dont les travaux sur les biais dans les modèles de langage ont marqué le champ, formule cela sans détour : déléguer la responsabilité d’équité à un fournisseur de technologie, c’est déléguer une décision qui appartient à l’organisation. Le fournisseur optimise selon les métriques contractuelles. Si l’équité n’est pas une métrique contractuelle mesurée et sanctionnée, elle ne figure pas dans la fonction d’optimisation.

Les directions RH qui prennent ce sujet au sérieux ne le traitent pas comme un projet de conformité à clore. Elles l’intègrent dans le cycle de vie continu de l’outil : audit à l’entrée, mesure trimestrielle des métriques d’équité, revue annuelle du corpus d’entraînement, procédure de suspension documentée. Ce n’est pas une charge supplémentaire imposée par la régulation : c’est la condition pour que l’outil serve ce pour quoi il a été déployé, identifier les personnes capables de réussir dans les postes à pourvoir, sans que la définition implicite de « capable » soit contaminée par les inégalités d’accès qui ont structuré les embauches passées.

Pour aller plus loin, decouvrez notre accompagnement des organisations et notre approche.

Et si la véritable question pour votre organisation n’était pas de savoir si votre outil de présélection est biaisé, mais de décider qui, concrètement, a le mandat de le mesurer, de le dire et d’agir en conséquence ?

POUR ALLER PLUS LOIN

Recevoir les prochaines analyses

Methodologie GEO, cas d'audit anonymises, signaux marche IA. Publications regulieres.

Donnees hebergees en Europe. Desinscription en 1 clic.

Éthique de l’IA RH : recruter sans reproduire les inégalités

Éthique de l’IA RH : recruter sans reproduire les inégalités

L’apprentissage historique, ou comment le passé gouverne le futur

Les biais par proxy, angle mort des audits techniques classiques

Ce que le cadre réglementaire impose, et ce qu’il ne règle pas

Les garde-fous qui fonctionnent : du principe à la pratique

Vers une responsabilité organisationnelle qui ne se délègue pas au modèle

Recevoir les prochaines analyses

Le coût caché de l’IA : externalités sociales et environnementales

IA et justice : ce que les tribunaux français tranchent déjà en 2026

IA et esprit critique : préserver le discernement en entreprise

L’IA au service de l’intérêt général : ce que les fondations peuvent exiger

Inclusion numérique : qui l’IA laisse-t-elle derrière ?

Biais algorithmiques : ce que vos outils de décision ne vous disent pas

Laisser un commentaire Annuler la réponse

Éthique de l’IA RH : recruter sans reproduire les inégalités

L’apprentissage historique, ou comment le passé gouverne le futur

Les biais par proxy, angle mort des audits techniques classiques

Ce que le cadre réglementaire impose, et ce qu’il ne règle pas

Les garde-fous qui fonctionnent : du principe à la pratique

Vers une responsabilité organisationnelle qui ne se délègue pas au modèle

Recevoir les prochaines analyses

Publications similaires

Laisser un commentaire Annuler la réponse