Dark LLMs : ces IA qui répondent à tout, même au pire !
Posté : lun. 26 mai 2025 08:11
Dark LLMs : ces IA qui répondent à tout, même au pire !
Une étude vient de révéler comment des versions détournées d’IA génératives, appelées « dark LLMs », peuvent contourner les protections éthiques pour fournir des informations dangereuses ou illégales.
Une récente étude menée par des chercheurs de l’université Ben Gourion du Néguev (Israël) met en lumière l’émergence inquiétante des « dark LLMs », (Large Language Models) des modèles d’intelligence artificielle générative volontairement débridés ou détournés pour ignorer les garde-fous éthiques. Contrairement aux IA classiques conçues pour éviter de répondre à des demandes sensibles, ces versions pirates sont capables de fournir des informations extrêmement dangereuses sans restriction, qu’il s’agisse de fabriquer des drogues, contourner des systèmes de sécurité ou mener des cyberattaques.
Les chercheurs ont développé un outil universel capable de forcer plusieurs modèles d’IA grand public à désactiver leurs protections, et ce, sans compétences techniques poussées. Leur expérience révèle que la majorité des modèles testés, y compris ceux de grandes entreprises tech, peuvent être contournés. En prime, les instructions permettant de transformer ces IA en « dark LLMs » circulent librement en ligne, facilitant leur prolifération.
Ce phénomène suscite de vives inquiétudes, notamment parce qu’il démocratise un accès simplifié à des connaissances illégales ou dangereuses, accessibles à n’importe quel utilisateur mal intentionné. Les auteurs de l’étude appellent à une prise de conscience globale sur les failles actuelles des grands modèles de langage et sur la nécessité de renforcer à la fois les protections techniques et le cadre réglementaire qui encadre leur usage.
Par ailleurs, les chercheurs soulignent un autre risque, plus discret et à long terme, encore largement sous-estimé : la possibilité que ces IA, après avoir été exposées à du contenu illicite ou sensible, conservent des traces de ces informations en mémoire. Ces « résidus » pourraient être réutilisés plus tard, de manière imprévisible, par d’autres utilisateurs ou dans d’autres contextes. Autrement dit, même si les garde-fous sont réactivés ou les modèles remis dans un état normal, les données dangereuses ou interdites pourraient ne pas être complètement effacées.
merci à GNT
Une étude vient de révéler comment des versions détournées d’IA génératives, appelées « dark LLMs », peuvent contourner les protections éthiques pour fournir des informations dangereuses ou illégales.


Ce phénomène suscite de vives inquiétudes, notamment parce qu’il démocratise un accès simplifié à des connaissances illégales ou dangereuses, accessibles à n’importe quel utilisateur mal intentionné. Les auteurs de l’étude appellent à une prise de conscience globale sur les failles actuelles des grands modèles de langage et sur la nécessité de renforcer à la fois les protections techniques et le cadre réglementaire qui encadre leur usage.
Par ailleurs, les chercheurs soulignent un autre risque, plus discret et à long terme, encore largement sous-estimé : la possibilité que ces IA, après avoir été exposées à du contenu illicite ou sensible, conservent des traces de ces informations en mémoire. Ces « résidus » pourraient être réutilisés plus tard, de manière imprévisible, par d’autres utilisateurs ou dans d’autres contextes. Autrement dit, même si les garde-fous sont réactivés ou les modèles remis dans un état normal, les données dangereuses ou interdites pourraient ne pas être complètement effacées.
merci à GNT