Team AAZ - Forum

Mozilla affirme que les 271 vulnérabilités découvertes par Claude Mythos ne présentent « quasiment aucun faux positif » : percée historique ou opération de communication savamment orchestrée par Anthropic ?

En deux mois, l'outil d'analyse de vulnérabilités Claude Mythos Preview d'Anthropic a identifié 271 failles inconnues dans le code source de Firefox, dont certaines dormaient depuis vingt ans. Mozilla crie au miracle, les ingénieurs de sécurité indépendants crient au bluff. Entre percée technologique réelle et narratif commercial soigneusement orchestré, le dossier mérite une lecture attentive.

Depuis février 2026, l'équipe Firefox travaille en collaboration étroite avec Anthropic pour débusquer des vulnérabilités latentes dans le navigateur. Une première phase, menée avec Claude Opus 4.6, avait abouti à la correction de 22 bogues dans Firefox 148. L'application de Claude Mythos Preview à Firefox 150 a permis d'en identifier 271 supplémentaires en une seule évaluation initiale.

Le bilan d'avril est historique : 423 bogues de sécurité corrigés en un seul mois. Outre les 271 identifiés par Mythos, 41 provenaient de rapports externes, et les 111 restants d'autres méthodes internes, dont une partie attribuée au même pipeline tournant sur d'autres modèles.

La répartition par criticité est éloquente. Sur les 271 vulnérabilités annoncées pour Firefox 150 : 180 étaient de niveau sec-high, 80 sec-moderate et 11 sec-low. Mozilla précise que les niveaux critical et high désignent des failles exploitables par un simple utilisateur naviguant sur une page web ordinaire.

Parmi les exemples rendus publics par Mozilla pour asseoir la crédibilité de la démarche : une faille vieille de quinze ans dans l'élément HTML <legend>, un bogue XSLT datant de vingt ans impliquant des appels récursifs à la fonction key(), une race condition via IPC permettant à un processus compromis de manipuler des compteurs IndexedDB et de provoquer un use-after-free, ainsi qu'un dépassement de tampon lors du traitement HTTPS RR et ECH déclenché en simulant un serveur DNS malveillant. Pour mémoire, une race condition est une erreur critique qui survient lorsqu'un programme, exécuté par plusieurs threads ou processus en parallèle, accède et modifie une ressource partagée (mémoire, fichier) de manière non coordonnée.

La rupture technologique : l'agent qui vérifie lui-même ses hypothèses

Ce qui distingue cette campagne des tentatives antérieures, ce n'est pas le modèle seul, mais l'infrastructure qui l'entoure. Les premières expérimentations internes de Mozilla avec GPT-4 et Claude Sonnet 3.5 en analyse statique avaient produit un taux de faux positifs rédhibitoire, rendant toute mise à l'échelle impossible. L'introduction de harnais agentiques a tout changé : l'IA peut désormais construire et exécuter ses propres cas de test pour vérifier dynamiquement si un bogue suspecté existe réellement avant de le rapporter.

Ce pipeline s'avère extrêmement fiable pour filtrer les faux positifs, à condition de disposer d'une condition de succès clairement définie. Les problèmes de corruption mémoire sont particulièrement faciles à valider : soit l'Address Sanitizer est déclenché, soit il ne l'est pas. Au total, moins de quinze faux positifs ont été observés sur l'ensemble de la campagne, causés principalement par des modifications de préconditions de test. Chaque occurrence entraîne une mise à jour du harnais pour éviter les récidives.

Le pipeline tourne en parallèle sur plusieurs machines virtuelles éphémères, chacune assignée à un fichier cible spécifique. La puissance de feu est donc horizontalement scalable. Mozilla prévoit de l'intégrer directement dans son processus de développement afin que chaque nouveau commit soit automatiquement examiné avant d'être fusionné dans la base de code principale.

Ce que Mythos a validé autant que découvert

Un résultat moins médiatisé, mais que les ingénieurs de Mozilla jugent tout aussi précieux : plusieurs tentatives d'exploitation ciblant une technique appelée Prototype Pollution ont échoué, parce que Mozilla avait adopté des décisions architecturales protectrices des années auparavant. Pour les développeurs, avoir la preuve directe que leurs défenses existantes tiennent toujours est aussi utile que de trouver de nouvelles vulnérabilités.

Beaucoup des vulnérabilités découvertes ne suffisent pas à elles seules à constituer une attaque complète : elles doivent être chaînées avec d'autres failles. Mais ce sont précisément les types de faiblesses que les méthodes traditionnelles comme le fuzzing ont du mal à détecter, et l'analyse par IA couvre ce terrain de façon bien plus exhaustive.

Le scepticisme des experts : de la percée au coup de com'

La réaction de la communauté sécurité a été loin d'être unanime. Le chercheur Davi Ottenheimer a publié une analyse fouillée, soulignant plusieurs contradictions structurelles dans le narrative d'Anthropic autour de Claude Mythos.

Des critiques ont d'abord raillé le fait que Mozilla n'ait obtenu aucun identifiant CVE pour les 271 vulnérabilités, pratique pourtant ordinaire pour des bugs découverts en interne, généralement regroupés dans un seul patch. Les rapports Bugzilla détaillant ces « rollups » restent masqués pendant plusieurs mois après correction pour protéger les utilisateurs lents à mettre à jour.

La démonstration phare d'Anthropic portait sur un moteur SpiderMonkey en conteneur, avec le sandbox et les mécanismes de défense en profondeur de Firefox désactivés. Les bugs utilisés avaient en outre déjà été découverts par Claude Opus 4.6; Mythos ne les a pas trouvés, il les a reçus comme point de départ. Quand les deux bogues les plus facilement exploitables sont retirés du corpus, le taux de succès de Mythos chute drastiquement selon les données du system card d'Anthropic lui-même.

La startup AISLE a reproduit les bogues phares du lancement d'Anthropic en les soumettant à huit modèles open-weights différents; tous les huit les ont détectés, y compris un modèle à 3,6 milliards de paramètres actifs coûtant 0,11 dollar par million de tokens. Leur conclusion : la valeur qui fait la différence est dans le système, pas dans le modèle.

Fuzzing augmenté ou réelle rupture de paradigme ?

La question de fond que pose ce débat est celle du positionnement de l'IA par rapport au fuzzing, technique dominante depuis des années dans la détection de vulnérabilités. Mozilla dispose d'une longue expérience du Rust et maintient une équipe de red team interne au fait des techniques d'analyse automatisée. Jusqu'à récemment, celles-ci consistaient principalement en techniques d'analyse dynamique comme le fuzzing. Le fuzzing est productif, mais certaines parties du code sont plus difficiles à couvrir que d'autres.

Les chercheurs en sécurité de haut niveau trouvent des bogues qu'un fuzzer ne peut pas détecter en raisonnant sur le code source, une démarche efficace mais chronophage et tributaire d'une expertise humaine rare. Les ordinateurs en étaient totalement incapables il y a encore quelques mois. Maintenant, ils y excellent.

C'est précisément là que réside l'intérêt réel de la démarche, au-delà du débat chiffré : plusieurs des vulnérabilités découvertes ne sont pas accessibles aux méthodes de fuzzing traditionnelles, qui peinent à capturer les logiques de chaînage de failles complexes. L'analyse par IA couvre ce terrain de manière nettement plus systématique.

Glasswing, le consortium qui cristallise les inquiétudes

Le vrai sujet de fond n'est peut-être pas les 271 bogues, mais ce qu'ils servent à justifier. En réservant l'accès à Mythos au seul consortium Glasswing (Apple, Google, Microsoft, Amazon, Broadcom, Cisco, CrowdStrike, JPMorganChase, Nvidia, Palo Alto Networks, Linux Foundation), Anthropic s'érige en autorité de facto pour l'attribution de l'accès à une capacité qu'elle déclare trop dangereuse pour une diffusion publique, sans base statutaire, sans supervision démocratique et avec une liste de partenaires constituée exclusivement des plus grands acteurs de l'industrie qu'elle prétend protéger.

L'enveloppe de 100 millions de dollars annoncée pour le programme se décompose en réalité en crédits d'utilisation de Mythos Preview, auxquels s'ajoutent seulement 4 millions de dollars en dons effectifs à des organisations de sécurité open source. Les partenaires reçoivent l'accès à l'outil et la parole d'Anthropic certifiant que cet outil est extraordinaire.

Ce que Mozilla retient, sans se laisser emporter

Mozilla elle-même formule une mise en garde que peu de titres ont retranscrite : il existe un risque que les bases de code commencent à dépasser la compréhension humaine au fur et à mesure que l'IA prend davantage de place dans le processus de développement, faisant croître la complexité des bogues parallèlement (ou peut-être plus vite) que la capacité à les découvrir. La compréhensibilité humaine est une propriété essentielle à préserver, notamment dans des logiciels critiques comme les navigateurs et les systèmes d'exploitation.

Brian Honan, expert en cybersécurité, retient surtout une leçon d'architecture défensive : les décisions passées de Mozilla d'appliquer des défenses en couches au sein de Firefox ont conduit Mythos à échouer à plusieurs reprises dans ses tentatives d'exploitation des vulnérabilités. Cela confirme ce que les professionnels de la cybersécurité défendent depuis des années : la sécurité doit être intégrée dès la conception, le développement et le déploiement.

En définitive, l'affaire Mythos-Firefox livre deux enseignements distincts selon l'angle choisi. Du côté des praticiens : un pipeline agentique capable d'écrire et d'exécuter ses propres preuves de concept représente une avancée méthodologique réelle, qui complète, sans remplacer, les outils de fuzzing existants. Du côté de l'économie politique de l'IA : l'ampleur du narrative construit autour de ces 271 bogues, les circuits institutionnels qu'il a mobilisés en quelques jours, et la structure de gouvernance exclusive que cela a permis de bâtir, constituent un cas d'école en matière de capitalisation sur la peur pour ériger des barrières à l'entrée.

merci à Developpez.com