Dark LLMs : ces IA qui répondent à tout, même au pire !

Message par **chtimi054** » lun. 26 mai 2025 08:11

Dark LLMs : ces IA qui répondent à tout, même au pire !

Une étude vient de révéler comment des versions détournées d’IA génératives, appelées « dark LLMs », peuvent contourner les protections éthiques pour fournir des informations dangereuses ou illégales.

Une récente étude menée par des chercheurs de l’université Ben Gourion du Néguev (Israël) met en lumière l’émergence inquiétante des « dark LLMs », (Large Language Models) des modèles d’intelligence artificielle générative volontairement débridés ou détournés pour ignorer les garde-fous éthiques. Contrairement aux IA classiques conçues pour éviter de répondre à des demandes sensibles, ces versions pirates sont capables de fournir des informations extrêmement dangereuses sans restriction, qu’il s’agisse de fabriquer des drogues, contourner des systèmes de sécurité ou mener des cyberattaques.

Les chercheurs ont développé un outil universel capable de forcer plusieurs modèles d’IA grand public à désactiver leurs protections, et ce, sans compétences techniques poussées. Leur expérience révèle que la majorité des modèles testés, y compris ceux de grandes entreprises tech, peuvent être contournés. En prime, les instructions permettant de transformer ces IA en « dark LLMs » circulent librement en ligne, facilitant leur prolifération.

Ce phénomène suscite de vives inquiétudes, notamment parce qu’il démocratise un accès simplifié à des connaissances illégales ou dangereuses, accessibles à n’importe quel utilisateur mal intentionné. Les auteurs de l’étude appellent à une prise de conscience globale sur les failles actuelles des grands modèles de langage et sur la nécessité de renforcer à la fois les protections techniques et le cadre réglementaire qui encadre leur usage.

Par ailleurs, les chercheurs soulignent un autre risque, plus discret et à long terme, encore largement sous-estimé : la possibilité que ces IA, après avoir été exposées à du contenu illicite ou sensible, conservent des traces de ces informations en mémoire. Ces « résidus » pourraient être réutilisés plus tard, de manière imprévisible, par d’autres utilisateurs ou dans d’autres contextes. Autrement dit, même si les garde-fous sont réactivés ou les modèles remis dans un état normal, les données dangereuses ou interdites pourraient ne pas être complètement effacées.

merci à GNT

Message par **Koop** » lun. 2 juin 2025 15:40

C’est clair que ces modèles deviennent de plus en plus "dociles"... dans le mauvais sens du terme. Tu leur files une consigne douteuse, et hop, ils déroulent sans broncher. Et après on s’étonne que ça parte en vrille sur certains forums ou réseaux.
Le plus inquiétant, c’est que certains contenus circulent et on ne peut même plus dire si c’est humain ou pas. Maintenant y’a même des détecteurs IA, c’est dire à quel point la frontière devient floue.
Faudra vraiment encadrer tout ça à un moment, sinon ça va juste être une course à celui qui génère le plus vite, pas forcément le mieux.

Message par **palerider** » mar. 3 juin 2025 07:28

[video][/video]

On finira bien par y arriver… Une chose est certaine, je ne regrette pas l'age que j'ai !

Message par **MyPOV** » mar. 3 juin 2025 08:18

Intéressant

- peuvent contourner les protections éthiques
- fournir des informations dangereuses ou illégales
- chercheurs de l’université Ben Gourion du Néguev (Israël)
- intelligence artificielle générative volontairement débridés
- détournés pour ignorer les garde-fous éthiques
- IA classiques conçues pour éviter de répondre à des demandes sensibles

Mais... d'où viennent ces informations présentes dans les IA ? Ce n'est pas une génération spontanée de leur part, elles ont été alimentées par de la conaissance déjà disponible.

Petit rappel concernant ce genre d'étude, toujours basée sur la même logorrhée et les mêmes attaques avec des concepts flous. Le problème est l'écart entre l'intention affichée et la réalité de ce qui est censuré, qui est en conflit direct avec les principes les plus basiques de la liberté d'expression et d'information.
https://fr.wikipedia.org/wiki/Loi_contr ... r_internet

La loi du 24 juin 2020 visant à lutter contre les contenus haineux sur internet, dite « loi Avia », est une loi française dont le contenu initial est largement remis en cause par le Conseil constitutionnel, mais dont certaines dispositions seront conservées telles que la création d'un parquet spécialisé, et d'un observatoire de la haine en ligne rattaché à l'Arcom.

La proposition de loi était destinée à retirer des contenus terroristes et pédopornographiques de n'importe quel site et les contenus haineux et pornographiques sous 24 h des principaux réseaux sociaux, des plates-formes collaboratives et des moteurs de recherche.

Des personnalités politiques, un grand nombre d'organisations et des juristes critiquent la loi, qu’ils présentent comme un danger pour la liberté d'expression, notamment en raison de la possibilité que des décisions de retrait de contenus soient prises par un opérateur privé sans intervention du juge judiciaire, pourtant garant, constitutionnellement, des libertés individuelles (article 66 de la Constitution).

La proposition de loi est adoptée par l'Assemblée nationale le 13 mai 2020. Saisi par des sénateurs de l’opposition, le Conseil constitutionnel juge que le texte est en grande partie contraire à la Constitution, notamment parce qu’il porte une atteinte disproportionnée à la liberté d'expression. Le 24 juin, le président Emmanuel Macron promulgue la loi purgée de ses dispositions jugées inconstitutionnelles.

En mars 2018, lors du dîner du Conseil représentatif des institutions juives de France (CRIF), le président de la République Emmanuel Macron annonce confier une mission pour lutter plus efficacement contre la haine, le racisme et l'antisémitisme sur internet à l'écrivain franco-algérien Karim Amellal, à Gil Taïeb, vice-président du CRIF, et à Laetitia Avia, députée de Paris (LREM). Ils remettent leur rapport au Premier ministre Édouard Philippe le 20 septembre 2018, lequel contient vingt propositions opérationnelles destinées à endiguer la haine sur internet et à réguler davantage les plateformes dans ce domaine.

La proposition de loi — soutenue par la LICRA, SOS homophobie et SOS Racisme — est déposée le 20 mars 2019 à l'Assemblée nationale par la députée Laetitia Avia.

La proposition de loi est notifiée le 21 août 2019 à la Commission européenne. Dans un premier temps, la demande française d'engager la procédure d'urgence est refusée. Dans un second temps, la Commission adresse même des observations à la France, à la suite de l'avis circonstancié de la République tchèque. L'institution européenne émet des réserves sur la compatibilité du texte français avec le droit européen. Bruxelles demande à la France de ne pas voter ce texte. Malgré ces critiques, le gouvernement annonce ne vouloir modifier que marginalement la proposition de loi.

Dans sa décision rendue le 18 juin 2020, le Conseil constitutionnel estime que le texte est en grande partie contraire à la Constitution, jugeant qu'il porte à la liberté d'expression une atteinte qui n'est pas adaptée, nécessaire et proportionnée au but poursuivi. L’article 1er et dix-huit autres articles de la proposition sont censurés. La juridiction déclare inconstitutionnelles certaines dispositions en raison d'une atteinte disproportionnée à la liberté d'expression. D'autres dispositions sont également censurées car considérées par le juge constitutionnel comme étant des cavaliers législatifs.

Outre des personnalités politiques, un grand nombre d'organisations et de personnes ont critiqué la proposition de loi :
- des organisations professionnelles : Association des services Internet communautaires (ASIC), Syntec Numérique et Tech In France.
- des organisations et associations : Association Aeon, Association des Avocats Conseils d’Entreprises, Change.org, Commission nationale consultative des droits de l'homme, Conseil national des barreaux, Conseil national du numérique, European Digital Rights (EDRi), European Internet Services Providers Association (EuroISPA), Internet Society France, Mémoire des Résistants juifs de la MOI, La Quadrature du Net, Union des juifs pour la résistance et l'entraide, Syndicat des avocats de France, Wikimédia France, Wikimedia Foundation.
- la commission européenne.
- la République tchèque en émettant un avis circonstancié.

Dark LLMs : ces IA qui répondent à tout, même au pire !

Dark LLMs : ces IA qui répondent à tout, même au pire !

Re: Dark LLMs : ces IA qui répondent à tout, même au pire !

Re: Dark LLMs : ces IA qui répondent à tout, même au pire !

Re: Dark LLMs : ces IA qui répondent à tout, même au pire !