Une étude vient de révéler comment des versions détournées d’IA génératives, appelées « dark LLMs », peuvent contourner les protections éthiques pour fournir des informations dangereuses ou illégales.


Ce phénomène suscite de vives inquiétudes, notamment parce qu’il démocratise un accès simplifié à des connaissances illégales ou dangereuses, accessibles à n’importe quel utilisateur mal intentionné. Les auteurs de l’étude appellent à une prise de conscience globale sur les failles actuelles des grands modèles de langage et sur la nécessité de renforcer à la fois les protections techniques et le cadre réglementaire qui encadre leur usage.
Par ailleurs, les chercheurs soulignent un autre risque, plus discret et à long terme, encore largement sous-estimé : la possibilité que ces IA, après avoir été exposées à du contenu illicite ou sensible, conservent des traces de ces informations en mémoire. Ces « résidus » pourraient être réutilisés plus tard, de manière imprévisible, par d’autres utilisateurs ou dans d’autres contextes. Autrement dit, même si les garde-fous sont réactivés ou les modèles remis dans un état normal, les données dangereuses ou interdites pourraient ne pas être complètement effacées.
merci à GNT