OpenAI GPT-5 surpasse les juges fédéraux dans une expérience de raisonnement juridique...

Message par **chtimi054** » lun. 16 févr. 2026 06:52

OpenAI GPT-5 surpasse les juges fédéraux dans une expérience de raisonnement juridique, le LLM adhère plus souvent que les juges humains à la conclusion juridiquement correcte
Le LLM ne commet aucune erreur

Des chercheurs ont reproduit une expérience judiciaire initialement menée sur 61 juges fédéraux américains, cette fois-ci avec GPT-5 comme décideur. L'expérience porte sur un litige relatif au choix de la loi applicable dans une affaire hypothétique d'accident automobile. Ils ont constaté que le LLM adhère beaucoup plus souvent à l'issue juridiquement correcte que les juges humains. En fait, le LLM ne commet aucune erreur.

Le 7 août 2025, OpenAI a dévoilé la dernière version tant attendue de son chatbot basé sur l'intelligence artificielle (IA), GPT-5. GPT-5 (acronyme de Generative Pre-trained Transformer 5) inclue un modèle rapide et à haut débit, un modèle de raisonnement plus approfondi et un routeur temps réel qui décide du modèle à utiliser en fonction du type de conversation, de sa complexité, des besoins en outils et de l'intention explicite. C'est le premier modèle d'IA « unifié » d'OpenAI (il combine les capacités de « raisonnement » de sa série de modèles o aux possibilités de réponses rapides de sa série GPT).

Selon OpenAI, GPT-5 offre une expertise de niveau doctorat. Présenté comme « plus intelligent, plus rapide et plus utile », Sam Altman, a salué le nouveau modèle de l'entreprise comme marquant le début d'une nouvelle ère pour ChatGPT. Altman a déclaré que le nouveau modèle d'OpenAI souffrirait de moins d'hallucinations (phénomène par lequel les grands modèles de langage inventent des réponses) et serait moins trompeur. Il a notamment affirmé : « Le GPT-5 est le premier à donner vraiment l'impression de parler à un expert dans n'importe quel domaine, comme un expert titulaire d'un doctorat. »

Le secteur judiciaire est l'un des domaines qui pourrait être impacté par l'IA. En 2019, l'Estonie a lancé un projet de juge-robot capable de statuer sur des litiges de moins de 7000 euros (environ 8000 dollars). L'IA a été utilisée pour rendre une décision susceptible de recours devant un juge humain. Cette tentative d'associer l'IA et la loi n'est pas la première dans le monde, on recense des cas similaires aux États-Unis et en Grande-Bretagne bien que celui de l'Estonie soit peut-être le premier à conférer un pouvoir décisionnel à un algorithme. Des projets qui questionnent : Une intelligence artificielle peut-elle être un juge équitable dans un tribunal ?

Récemment, une étude s'est penchée sur la question. Les chercheurs ont reproduit une expérience judiciaire initialement menée sur 61 juges fédéraux américains, cette fois-ci avec GPT-5 comme décideur. L'expérience porte sur un litige relatif au choix de la loi applicable dans une affaire hypothétique d'accident automobile, où trois variables sont manipulées : (1) si la doctrine applicable est une règle ou une norme, (2) si le plaignant ou le défendeur est présenté de manière plus sympathique, et (3) le lieu de l'accident, qui influe sur l'issue juridique en vertu des règles de choix de la loi applicable dans différents États. Ils ont constaté que le LLM adhère beaucoup plus souvent à l'issue juridiquement correcte que les juges humains. En fait, le LLM ne commet aucune erreur.
GPT-5 surpasse les juges fédéraux dans une expérience de raisonnement juridique

Les chercheurs ont commencé l'analyse en examinant la proportion de décisions de chaque groupe qui ont respecté la loi. Cela signifie appliquer la doctrine correcte du choix de la loi applicable : dans le Wyoming, la règle lex loci delicti (application de la loi de l'État où l'accident s'est produit) et dans le Dakota du Sud, la norme de la relation significative (application de la loi de l'État où les deux parties étaient domiciliées).

Selon l'hypothèse de Klerman et Spamann, la loi du Dakota du Sud exige que le tribunal choisisse la loi de l'État du domicile commun. Klerman et Spamann ont constaté que les juges humains ne respectaient la loi que dans un peu plus de la moitié des cas, soit à peu près autant qu'un tirage au sort. En revanche, GPT-5 a respecté la loi dans tous les cas. La différence entre les deux groupes en matière de respect de la loi est à la fois importante sur le fond et statistiquement significative.

Ensuite, ils ont divisé les résultats en fonction de chacune des variables manipulées par Klerman et Spamann, en commençant par le forum, c'est-à-dire si le respect de la loi varie en fonction de la règle de choix de la loi applicable de l'État du forum. GPT a respecté la loi de manière plus cohérente que les juges humains dans les deux forums, la différence entre les groupes atteignant une signification statistique dans chacun d'eux.

Tant dans le Wyoming, où s'applique la doctrine fondée sur les règles, que dans le Dakota du Sud, où s'applique la norme, GPT a respecté la loi dans 100 % des cas. La cohérence du respect de la loi par le GPT, quel que soit le forum choisi, diffère considérablement de celle des juges, qui étaient plus enclins à respecter la loi dans le cadre de la règle que dans le cadre de la norme (bien que cette différence ne soit pas statistiquement significative). Le comportement des juges dans cette expérience est conforme à l'idée reçue selon laquelle les juges sont généralement plus contraints par les règles que par les normes. Cependant, même lorsque les juges bénéficient des règles, ils commettent des erreurs, contrairement au GPT.

Ils ont examiné également la proportion de décisions qui ont respecté la loi en fonction du lieu de l'accident et du domicile commun. GPT respecte la loi davantage que les juges, quel que soit le lieu de l'accident, à un niveau statistiquement significatif. En outre, les juges étaient plus enclins à respecter la loi si l'accident avait eu lieu au Kansas plutôt qu'au Nebraska, bien que la différence ne soit pas statistiquement significative.

La raison pour laquelle les juges seraient plus enclins à respecter la loi si l'accident s'était produit au Kansas plutôt qu'au Nebraska n'est pas évidente au premier abord. Mais ce résultat est probablement dû à un problème dans la conception de l'expérience. Comme le reconnaissent Klerman et Spamann, la variable de la forme juridique (règle ou norme) est confondue avec la variable du contenu juridique (une préférence inhérente pour la loi du lieu de l'accident ou du domicile commun ; une préférence inhérente pour la loi qui conduit au meilleur résultat).

Enfin, ils ont examiné la proportion de décisions respectant la loi lorsque le défendeur était sympathique par rapport à celle où le plaignant l'était. Ils n'ont constaté aucun effet statistiquement significatif pour le GPT, ce qui reflète le résultat obtenu pour les juges humains.

Selon la proportion de décisions respectant la loi pour les trois variables simultanément (c'est-à-dire pour les huit conditions), dans toutes les conditions, le LLM suit la loi au moins autant, et généralement plus, que les juges. Dans deux conditions — WY-KS-D (colonne 5) et WY-NE-P (colonne

— les proportions sont identiques, car GPT et les juges suivent la loi dans 100 % des cas. Hormis ces deux conditions, le taux de conformité juridique du GPT dépasse systématiquement celui des juges. Les juges ne respectent pas beaucoup la loi, mais ils ne sont pas non plus influencés par la sympathie qu'ils peuvent avoir pour une partie. Le GPT respecte parfaitement la loi, bien qu'il ne soit pas non plus influencé par la sympathie qu'il peut avoir pour une partie à un niveau statistiquement significatif.

Discussion

Dans une précédente étude, les chercheurs ont constaté que GPT était plus formaliste que les juges dans le sens où il suivait systématiquement les précédents pertinents et n'était pas influencé par des facteurs non juridiques, à savoir la mesure dans laquelle le défendeur était présenté de manière sympathique ou antipathique. Les décisions du GPT étaient similaires à celles des étudiants qui ont participé à une deuxième expérience.

Ce schéma a soulevé plusieurs questions. Faut-il considérer les juges humains comme la référence pour évaluer les LLM ou la référence devrait-elle être la conformité formelle à la loi ? Le fait que les étudiants se conforment davantage à la loi que les juges professionnels soulève la possibilité que, pour rendre des jugements socialement souhaitables, les juges doivent s'écarter des règles formelles afin d'éviter les injustices ou les mauvaises pratiques politiques, un élément essentiel de la théorie de la réalité juridique.

Après des efforts d'ingénierie des invites aient échoué à inciter GPT à statuer sur des affaires comme les juges professionnels plutôt que comme les étudiants, les chercheurs ont émis l'hypothèse qu'il était peut-être impossible de concevoir des LLM capables d'agir comme des juges humains. Premièrement, les LLM sont entraînés à partir de textes, y compris des avis judiciaires, et les juges ne fournissent pas toujours les véritables raisons de leurs décisions dans leurs avis, tandis que de nombreux textes, y compris les manuels scolaires, par exemple, fournissent des descriptions idéalisées de l'état de droit. Dans cette description idéalisée, les juges suivent la loi ; ils ne la font pas.

Deuxièmement, les LLM sont soumis à des garde-fous imposés par leurs concepteurs, y compris ce qui semble être un garde-fou de l'État de droit, et il n'est pas certain que des garde-fous puissent être mis en place pour permettre aux juges IA de prendre en compte des facteurs non juridiques comme le font apparemment les juges humains.

Troisièmement, nous vivons dans une société pluraliste où les désaccords sont tolérés plutôt que réprimés. Les juges ont des expériences, des idéologies et des engagements moraux différents, et il est difficile d'imaginer que cette diversité puisse être reproduite par l'IA. Il semble également peu probable que les élites politiques ou les électeurs ordinaires soient prêts à accepter d'être jugés par une machine sur laquelle ils ne peuvent exercer aucune influence par le biais de nominations ou d'autres mécanismes, ou à se battre pour avoir la possibilité de le faire.
La similitude entre les LLM et les juges est importante, car le fait que les juges s'écartent d'une vision formaliste de la loi, pour des raisons telles que l'injustice perçue des dommages-intérêts plafonnés, est un exemple classique de réalisme juridique ; ils sortent de la sphère pure du respect des règles juridiques pour réfléchir à l'impact que leur jugement aura, et statuent en conséquence. Pour les LLM qui ont montré une tendance comparable à éviter les plafonds, il est possible que leurs données d'entraînement reflètent cette vision plus large selon laquelle les plafonds de dommages-intérêts, dans une certaine mesure, sont en contradiction avec la recherche de la justice.
Selon cette interprétation, un juge IA peut être disposé à s'écarter de la loi, mais uniquement lorsque celle-ci est suffisamment vague pour camoufler cet écart.

Cependant, quelle que soit l'explication de ce comportement chez les juges et certains LLM, elle ne s'applique certainement pas à GPT-5 et Gemini 3 Pro. Dans toutes les conditions, quelle que soit la flexibilité doctrinale, les deux modèles ont suivi la loi sans faille. Dans la mesure où les LLM évoluent au fil du temps, la direction à suivre est claire : une adhésion sans faille au formalisme plutôt que la discrétion parfois maladroite des humains qui adoucit les aspects les plus tranchants de la loi. Cela signifie-t-il que les LLM deviennent meilleurs que les juges humains ou pires ?

Pour les juges, l'IA n'est pas suffisamment fiable. Selon un juge, l'IA présente un risque pour la justice après que des avocats ont cité de faux cas générés par l'IA devant les tribunaux, avertissant que les avocats pourraient être poursuivis s'ils ne vérifient pas l'exactitude de leurs recherches. "L'intelligence artificielle est un outil qui comporte à la fois des risques et des opportunités", a déclaré la juge.

merci à Developpez.com