Les processus d’apprentissage adaptatif peuvent conduire à des biais pessimistes systématiques en raison de l’effet « poêle chaud »

En théorie, plus vous disposez de données, plus vos décisions devraient s’améliorer. Mais dans la pratique, ce n’est pas toujours le cas. Il existe un phénomène connu sous le nom d' »effet fourneau ». Ce concept a été introduit par Denrell et March en 2001. Il s’agit d’un schéma dans lequel les résultats négatifs passés créent une sorte de comportement d’évitement. Nous apprenons à ne pas essayer des choses qui ont déjà échoué, peut-être même prématurément.

Ce comportement permet d’économiser des efforts. Il réduit l’exposition au risque. Mais il crée une asymétrie des données. Nous nous retrouvons avec beaucoup d’informations sur les options que nous aimons déjà et très peu sur celles que nous avons écartées. C’est un problème. En effet, les déceptions initiales, qu’elles soient ou non représentatives, peuvent fausser le jugement à long terme. Et cette distorsion devient institutionnelle. Elle est intégrée dans les algorithmes, les modèles d’embauche, les décisions d’investissement.

Si vous gérez une entreprise aujourd’hui et que vous utilisez des systèmes d’apprentissage adaptatif, vous êtes peut-être en train de former des modèles d’IAoptimiser les boucles de rétroaction des clients ou affiner les connaissances opérationnelles, comprenez ceci : les données que vous obtenez ne sont pas toujours neutres. La manière dont elles sont collectées et ce qui déclenche un échantillonnage supplémentaire sont fondamentaux. Dans les systèmes qui apprennent en permanence, ce déclencheur est souvent la performance passée. Les bons résultats conduisent à un nouvel échantillonnage. Les mauvais ne le font pas. Le résultat ? Nous devenons plus aptes à corriger les surestimations que les sous-estimations. Le pessimisme devient la valeur par défaut, même lorsqu’il n’est pas justifié.

En tant que décideur, vous devez vous interroger sur la manière dont les données ont été obtenues. C’est important si vous voulez éviter de construire des systèmes qui sous-évaluent systématiquement certaines voies, simplement parce que les premières tentatives n’ont pas fonctionné.

L’effet « hot stove » apparaît même lorsque les expériences négatives réduisent l’échantillonnage.

L’hypothèse typique qui sous-tend le biais de l’expérience est que nous écartons ce qui donne de mauvais résultats. C’est en partie vrai. Mais même lorsque nous n’éliminons pas une option, le fait de réduire la fréquence à laquelle nous la réexaminons suffit à créer un biais.

Voici la nuance. Imaginez que vous recrutiez dans deux universités. L’une d’entre elles obtient régulièrement de bons résultats pour votre entreprise, tandis que l’autre a eu quelques faibles placements au début. Vous n’excluez pas complètement la seconde université, vous continuez à recruter des candidats occasionnels, mais il est clair que vos données de recrutement penchent fortement en faveur de la première. Cela crée un biais persistant. Cela renforce l’idée que l’université A produit des candidats plus performants. La réalité est peut-être plus contrastée, mais vos données n’ont jamais la profondeur nécessaire pour le vérifier.

Ce schéma se retrouve sur toutes les plateformes, dans tous les systèmes et dans tous les secteurs d’activité. Par exemple, les moteurs de recommandation en ligne s’appuient souvent sur des boucles de rétroaction des utilisateurs. Lorsque les premières données des utilisateurs sont négatives pour un produit, quelle qu’en soit la raison, ces produits apparaissent moins. Cela signifie moins d’avis. Ce qui signifie moins de données et une sous-performance persistante dans la perception du produit, même si tout ce qui le concerne s’améliore.

Les dirigeants doivent s’en préoccuper car l’allocation des ressources, du recrutement et de l’investissement au développement de produits, repose sur le principe que vos systèmes apprennent honnêtement. Dans la plupart des entreprises modernes, les systèmes de données s’adaptent en permanence en fonction de ce qui s’est déjà produit. Mais ces adaptations peuvent conduire à des inefficacités économiques, non pas parce que les décisions sous-jacentes étaient erronées, mais parce que l’opportunité de correction s’est évanouie prématurément.

Il n’est pas toujours nécessaire de revoir votre processus. Il s’agit parfois de créer une redondance dans l’échantillonnage. Donnez une seconde chance aux options moins échantillonnées, même si elles n’ont pas donné de bons résultats au départ. Ajoutez un retour d’information structuré qui vous donne une image complète, et pas seulement une image biaisée par le degré d’optimisme (ou non) que vos algorithmes vous ont permis d’avoir au départ.

Les croyances moyennes biaisées apparaissent lorsque la taille de l’échantillon est directement influencée par les résultats initiaux.

Les systèmes intelligents prennent des décisions sur la base de ce qu’ils ont vu. C’est très bien, jusqu’à ce que le volume de ce qu’ils voient dépende de la façon dont les choses se présentent au début. Dans l’apprentissage adaptatif, la taille de l’échantillon n’est pas fixe. Elle s’ajuste en fonction des observations initiales. Si le signal initial est fort, vous continuez à tester. Si le signal est faible, vous ne perdez pas de temps. C’est efficace, mais cela entraîne des biais.

Voici ce qui se passe : des données positives précoces conduisent à un plus grand nombre d’échantillons, et un plus grand nombre d’échantillons permet d’améliorer la précision. Les mauvais résultats initiaux, qu’ils soient exacts ou non, interrompent l’apprentissage. Les sous-estimations ne sont donc pas corrigées, tandis que les surestimations sont réévaluées. Le résultat ? Une dérive constante vers le bas des croyances moyennes.

La logique n’est pas erronée. L’échantillonnage adaptatif réduit les coûts de recherche. Mais il fausse également les tendances des données. Il ne faut pas beaucoup de cycles pour voir comment cela s’aggrave. Lorsque les croyances déterminent la fréquence d’échantillonnage et que ces croyances sont fondées sur de petites données, votre système commence à supposer que les options faibles sont moins bonnes qu’elles ne le sont en réalité. Cette hypothèse, si elle n’est pas vérifiée, devient partie intégrante de votre processus opérationnel.

Pour les dirigeants de la suite, cela demande de l’attention. Si vos équipes affinent constamment les indicateurs clés de performance ou apportent des modifications aux produits sur la base de boucles de rétroaction adaptatives, vous devez être conscient que vos modèles peuvent écarter prématurément des opportunités valables. Le système sur lequel vous vous appuyez n’est peut-être pas erroné, mais ses données de base peuvent être superficielles.

Il peut être inutile et inefficace de maintenir la taille de l’échantillon constante pour les premières alternatives. Mais l’ajustement sélectif de ce biais en tant que file d’attente dans les révisions stratégiques ultérieures peut donner lieu à une architecture décisionnelle plus résistante et basée sur des faits. Le biais existe. L’avantage est de le reconnaître et de le gérer.

Des études empiriques confirment l’existence de l’effet « poêle à frire » dans différents domaines

L’effet « hot stove » se manifeste dans des secteurs allant de la psychologie comportementale à la finance en passant par l’expérience utilisateur. Les études démontrent que le comportement face au risque, les niveaux de confiance et les décisions des dirigeants sont tous influencés par la manière dont les options sont échantillonnées et par le fait que les premiers résultats conduisent systématiquement à une exploration plus poussée, ou non.

Dans le domaine de la recherche comportementale, Erev et Roth (2014) ont découvert que la raison pour laquelle les gens se comportent de manière si prudente dans les expériences contrôlées se résume souvent aux mécanismes de l’apprentissage adaptatif. C’est parce que de mauvaises expériences précoces façonnent leur exposition future aux options de risque. De même, les études de Fetchenhauer et Dunning (2014) ont montré que les gens sous-estiment systématiquement la fiabilité des autres, là encore parce que les premières impressions négatives reçoivent plus d’attention et moins de corrections.

Les responsables financiers devraient prendre note des travaux de Dittmar et Duchin (2016), qui soutiennent que les cadres supérieurs n’agissent pas de manière irrationnelle, mais qu’ils sont confrontés à une distorsion d’échantillonnage. Ils ont constaté que les décisions d’investissement privilégient souvent les options présentant de meilleurs résultats précoces, même lorsque la quantité de données n’est pas suffisante pour justifier un tel biais.

Cet effet fausse également les évaluations en ligne. Mens et al. (2018) ont expliqué en détail comment les évaluations de produits inclinent vers le négatif non pas parce que la plupart des produits ne sont pas performants, mais parce que les produits mal évalués cessent d’être achetés, ce qui réduit les chances de générer un retour d’information compensatoire. Cela introduit un biais systémique dans la manière dont les clients perçoivent un marché.

Si vous dirigez un système qui repose sur des boucles de rétroaction, internes ou externes, vous opérez dans cette réalité. Plus tôt votre plateforme ou votre équipe d’exploitation s’adaptera à ces distorsions très humaines (et très reproductibles par les machines), mieux vos décisions stratégiques se comporteront face à un examen minutieux.

Même les apprenants bayésiens peuvent développer des croyances négatives.

L’actualisation bayésienne est généralement considérée comme la référence en matière d’apprentissage rationnel. Elle fonctionne sur la base d’attentes préalables et s’ajuste au fur et à mesure que de nouvelles données sont disponibles. En moyenne, cela fonctionne. Mais lorsque l’échantillonnage adaptatif entre en jeu, même les systèmes bayésiens peuvent pencher vers le négatif, non pas dans leur conception, mais dans leurs résultats réels.

Voici ce qui se passe : lorsqu’une croyance initiale est plus négative, le système de décision réagit en recueillant moins d’échantillons de suivi. Cette croyance initiale n’est pas remise en question par davantage de données et reste donc inchangée. Lorsque la croyance initiale est plus positive, elle déclenche davantage d’exploration. Cette conviction est susceptible d’être modérée au fil du temps. Cela crée un déséquilibre structurel, des croyances optimistes plus modérées ou corrigées contre des croyances pessimistes persistantes.

L’idée clé ici, et elle est importante, est que si les croyances bayésiennes moyennes de tous les apprenants peuvent toujours s’aligner sur la valeur réelle, la plupart des apprenants individuels se contenteront toujours de sous-estimer le résultat. Il ne s’agit pas d’une incohérence dans la logique bayésienne. C’est le résultat de la distribution de l’échantillonnage. Les apprenants à tendance négative ne voient pas assez de choses pour remettre en question ce qu’ils croient. Les apprenants à tendance positive le font.

Cela s’applique directement à la formation des modèles d’IA, l’analyse du comportement des consommateurset les prévisions financières, tout système dans lequel les résultats influencent la quantité d’informations supplémentaires que vous obtenez. Si vous n’obtenez des informations plus approfondies que lorsque les choses se passent bien, votre système en apprend plus sur le succès que sur l’échec. C’est une bonne chose si l’échec mérite réellement d’être écarté. Mais cette hypothèse n’est souvent pas remise en question.

Les dirigeants qui s’appuient sur des modèles bayésiens pour les prévisions marketing, l’analyse des ressources humaines ou la télémétrie des produits doivent garder cela à l’esprit. Les systèmes bayésiens sont rationnels, mais leurs résultats peuvent toujours être faussés si leur logique d’échantillonnage n’est pas structurée avec soin. Si le signal initial détermine la profondeur de l’analyse, le risque d’erreur d’appréciation des alternatives valables augmente. Ce point de vue permet d’affiner la stratégie, il n’affaiblit pas la confiance dans les mathématiques.

Le biais de l’échantillonnage adaptatif est dû à la structure d’apprentissage.

C’est ici que la discussion passe de l’erreur humaine à la conception du système. La plupart des conversations sur les biais d’apprentissage mettent l’accent sur les erreurs cognitives ou les interférences émotionnelles. Mais la plupart des biais que nous observons dans les décisions, qu’elles soient prises par l’homme ou par la machine, ne proviennent pas d’un raisonnement erroné, mais de la structure de la boucle d’apprentissage. Elle provient de la structure de la boucle d’apprentissage.

Les systèmes d’apprentissage adaptatifs réduisent le gaspillage des ressources. Ils donnent la priorité aux intrants pour lesquels les premiers résultats suggèrent une rentabilité élevée. C’est efficace. Mais ce même mécanisme filtre les intrants qui démarrent mal, qu’ils se soient ou non révélés utiles par la suite. Le processus d’apprentissage considère donc ces données comme plus faibles qu’elles ne le sont réellement, non pas parce que l’algorithme est défectueux, mais parce que le plan d’échantillonnage limite les découvertes ultérieures.

Cela introduit un biais systématique. Il ne s’agit pas d’une émotion ou d’une erreur d’appréciation, mais d’un biais intégré dans la manière dont le système échantillonne, sélectionne et traite les informations. Ce type de biais intégré est plus difficile à détecter parce qu’il provient de données manquantes d’options sous-explorées. Et même les modèles hautement rationnels, y compris les approches de mise à jour bayésienne ou d’apprentissage pondéré, sont affectés.

Pour les chefs d’entreprise, c’est important. Si vos initiatives d’IA, vos prévisions internes ou vos plateformes de connaissance des clients reposent sur un échantillonnage adaptatif, comprenez que les observations initiales ne se contentent pas de signaler la valeur, mais qu’elles orientent également l’allocation des données. Au fil du temps, cela fausse les décisions et crée des angles morts en matière d’information. Vous ne pouvez pas y remédier a posteriori. Vous devez gérer le flux d’informations de manière structurelle.

Un traitement impartial ne suffit pas. Vous devez également disposer d’une exposition équilibrée aux données. Cela signifie qu’il faut soit ajuster la manière dont les décisions d’échantillonnage sont déclenchées, soit réintégrer périodiquement les options sous-échantillonnées dans vos boucles de rétroaction, qu’il s’agisse de marchés-tests, de cycles d’embauche pilotes ou d’entrées de recyclage de modèles.

Les préjugés négatifs s’intensifient dans les environnements où la variance des résultats est élevée.

Dans tout système où les résultats varient considérablement, les signaux précoces ont plus de poids. Lorsque la distribution des résultats est très variable, il est plus probable que les premiers échantillons s’écartent considérablement de la moyenne, que ce soit à la hausse ou à la baisse. Cette variabilité ne s’annule pas rapidement dans les systèmes adaptatifs, car le degré d’exploration de ces systèmes dépend du retour d’information initial.

Lorsque les performances initiales sont nettement négatives dans un environnement à forte variance, les mécanismes d’apprentissage adaptatif réagissent en interrompant l’échantillonnage. Ces données négatives ne sont pas recoupées et influencent fortement la perception et l’évaluation. En revanche, les premiers écarts positifs conduisent généralement à une augmentation de l’échantillonnage et à une régression plus rapide vers la véritable moyenne. Cela déclenche un cycle de correction unilatéral : les surestimations sont souvent corrigées, les sous-estimations persistent.

Il en résulte un ensemble biaisé de croyances ou de résultats de modèles. Non pas parce que les résultats ou l’environnement sont intrinsèquement mauvais, mais parce que la variance interagit avec la politique d’échantillonnage d’une manière qui exagère la négativité. Les systèmes soumis à une forte volatilité commencent à signaler un comportement d’aversion aux pertes, même si la valeur attendue de la variable aléatoire n’a pas changé.

Les dirigeants doivent être conscients que les environnements à forte variance, fréquents dans les premières phases de l’innovation, les nouveaux marchés et l’expérimentation algorithmique, amplifient ce type de biais structurel. Si vos modèles ajustent l’allocation des ressources ou les dépenses de marketing en fonction des premiers résultats obtenus dans ces contextes variables, il est probable que vous intégriez le pessimisme dans les processus d’entreprise. Cela peut conduire à un sous-investissement dans des segments ou des idées qui ont été simplement malchanceux lors des premiers essais, et non pas réellement médiocres.

Pour y remédier, il faut recalibrer le traitement des données à un stade précoce. Dans des conditions volatiles, envisagez d’augmenter le seuil minimal d’échantillonnage ou de retarder les décisions de réponse jusqu’à ce que la variance soit compensée de manière adéquate par le volume. Laisser des systèmes adaptatifs apprendre du bruit comme s’il s’agissait d’un signal est une erreur de conception et non d’intention.

Bien que l’échantillonnage à long terme corrige les biais initiaux, les décisions à court terme restent significativement affectées

Les systèmes d’apprentissage finissent par corriger leurs propres biais, tant que l’échantillonnage se poursuit dans le temps. La moyenne des échantillons d’une variable aléatoire converge vers sa véritable valeur attendue. Cet équilibre à long terme est souvent cité comme preuve de la fiabilité du modèle. Mais les décisions stratégiques sont souvent prises au cours des premières phases, lorsque les données sont limitées et que les biais sont les plus prononcés.

Le problème est simple mais négligé : à court terme, les systèmes d’apprentissage adaptatif ne recueillent pas suffisamment d’informations équilibrées pour effectuer des estimations précises. Les premières impressions négatives limitent la poursuite de l’exploration, ce qui signifie que certaines alternatives sont évaluées sur la base de preuves insuffisantes. Si les premières impressions orientent l’affectation des ressources, l’embauche, l’acquisition ou le développement de produits, les décisions sont bloquées avant que les données n’aient une chance de s’auto-corriger.

Cette asymétrie à court terme est importante. C’est à ce moment-là que se produisent la plupart des pivots stratégiques, des changements de budget et des entrées sur le marché. Si une équipe abandonne une idée après quelques mauvais résultats de tests, soutenus par un modèle qui a appris de manière adaptative, il se peut qu’elle réagisse à un signal biaisé, et non à une perspective réelle de faible valeur.

Les dirigeants de la suite doivent cesser de croire par défaut qu’une plus grande quantité de données est toujours synonyme d’une meilleure compréhension. Ce qui compte vraiment, c’est la manière dont ces données ont été collectées. Si vos modèles sont rapides comme une turbine lors des premières étapes de l’échantillonnage, mais que la taille de leurs échantillons varie en fonction des résultats initiaux, la vitesse même à laquelle vous gagnez peut vous coûter la précision. Le pire scénario n’est pas la malchance, c’est la sous-évaluation systématique d’un élément réel.

La solution commence par la prise de conscience. Dans les environnements d’apprentissage à court terme, contrôlez la manière dont les croyances initiales influencent la collecte de données ultérieures. Appliquez des budgets d’exploration minimaux. Réexposez périodiquement les modèles aux options marquées comme « peu performantes ». Les décisions à court terme doivent inclure des mécanismes qui permettent aux chemins sous-échantillonnés d’être à nouveau pris en considération, en tant qu’élément de conception et non en tant qu’exception.

Des biais similaires apparaissent avec d’autres modèles d’apprentissage

Le biais négatif produit par l’échantillonnage adaptatif ne se limite pas aux simples méthodes de calcul de la moyenne. Il s’applique également aux modèles d’apprentissage qui utilisent d’autres mécanismes, tels que ceux qui accordent une plus grande importance aux événements les plus récents. Ces modèles sont courants dans les analyses en temps réel, les systèmes de recommandation et, de plus en plus, dans les outils de décision pilotés par l’IA. Les données peuvent être organisées différemment, mais le résultat est le même : les réactions négatives précoces continuent de façonner l’apprentissage et la prise de décision de manière disproportionnée.

Lorsqu’un modèle réagit plus fortement aux gains récents, il devient plus réactif et, en théorie, plus sensible aux changements d’environnement. Toutefois, cette réactivité n’empêche pas les biais, elle peut même les amplifier. Dans l’échantillonnage adaptatif, les premiers résultats négatifs réduisent la probabilité d’une observation continue. Il en résulte que l’observation la plus récente, voire la dernière, a un poids excessif, renforçant ainsi une croyance fondée sur peu de données. Que la croyance soit pondérée par la moyenne ou par la récence, l’exposition limitée garantit la persistance du biais.

Cela concerne les cadres qui supervisent le suivi des performances des produits, la tarification algorithmique ou les mesures d’efficacité opérationnelle. Si vos systèmes sont conçus pour s’adapter rapidement avec un minimum de données, mais qu’ils s’appuient également sur des signaux précoces pour orienter l’échantillonnage futur, ils risquent davantage de converger vers des conclusions erronées. Les modèles pondérés en fonction de la récence ne sont pas immunisés contre le biais d’échantillonnage, ils le reproduisent sous un autre nom.

Comprendre cela permet aux responsables de calibrer leurs systèmes en fonction du temps de réponse et de la composition des données. La sensibilité à la récence doit être associée à l’assurance structurée que les intervalles courts ne dominent pas l’interprétation à long terme, en particulier lorsque la fréquence d’échantillonnage est dynamique et non fixe.

Dans les entreprises où la réactivité est récompensée, la tentation est grande de préférer la rapidité à la robustesse. Mais la rapidité fondée sur des échantillons étroits ou biaisés de manière adaptative conduit à une vision étroite. Les préjugés ancrés dans les premières expériences se répéteront lors des revisites, de la segmentation de la clientèle, de l’établissement des prix ou de l’évaluation des partenaires, car le modèle n’a pas oublié, il n’en a tout simplement jamais vu davantage.

Récapitulation

La plupart des systèmes n’échouent pas parce que les mathématiques sont défectueuses, mais parce que la structure qui sous-tend le flux de données est aveugle à ses propres préjugés. L’apprentissage adaptatif permet de prendre des décisions plus rapidement, de réduire le gaspillage et de simplifier l’automatisation. Mais si des signaux précoces orientent l’exploration et que ces signaux sont basés sur des échantillons limités, vous intégrez des hypothèses.

Il s’agit de comprendre ce que les modèles d’IA apprennent réellement. Si vous ne donnez au système que les résultats qui ont survécu au premier filtre, vous réduisez vos options.

Pour les décideurs, l’objectif est de s’interroger sur la manière dont les données sont collectées et sur la mesure dans laquelle elles reflètent l’ensemble du paysage. Si des performances insuffisantes au départ se traduisent par une visibilité moindre par la suite, vous prenez des décisions stratégiques sur la base d’informations systématiquement incomplètes.

La solution commence au niveau de l’architecture. Réintroduisez les chemins sous-échantillonnés. Fixez des planchers d’échantillonnage minimum. Élargissez le champ d’application de ce que le système apprend à connaître avant de le laisser décider de ce qui est important. C’est là que l’échelle, l’apprentissage et la clarté réelle du signal commencent à se rencontrer. Et c’est ainsi qu’un meilleur jugement se construit plus rapidement et avec plus de précision.

Alexander Procter

avril 29, 2025

21 Min