Usurpation vocale : les sondages téléphoniques détournés par les cybercriminels

Message par **chtimi054** » ven. 13 juin 2025 08:30

Des pirates informatiques exploitent les appels se faisant passer pour des enquêtes d’opinion afin de collecter des échantillons vocaux et générer des deepfakes destinés à des arnaques ciblées.

Le démarchage téléphonique pourrait bien servir une tout autre finalité que celle annoncée. Sous couvert de sondages d’opinion ou d’enquêtes sociologiques, des appels prétendument émis par des instituts ou organismes de recherche seraient utilisés par des cybercriminels pour collecter discrètement des échantillons de voix. Une méthode discrète mais redoutablement efficace pour produire des imitations vocales réalistes, ensuite exploitées dans des escroqueries.

Ce phénomène est désormais surveillé de près par ZATAZ et des experts en cybersécurité. En mai 2023, le groupe McAfee, par exemple, publiait une alerte concernant l’utilisation frauduleuse de l’intelligence artificielle pour usurper la voix de proches afin d’extorquer de l’argent à leurs familles, une pratique appelée « voice cloning scam« . Ces techniques s’appuient sur des outils capables de reproduire une voix à partir de quelques secondes d’enregistrement.

Les outils les plus récents, comme VALL‑E (développé par Microsoft), démontrent la capacité de générer des synthèses vocales convaincantes avec un extrait d’à peine trois secondes. Cette avancée technologique, documentée dans les recherches officielles de Microsoft Research, a profondément modifié la manière dont les attaques par imitation peuvent être menées.

Une simple phrase au téléphone peut suffire à créer un clone vocal.

Les appels frauduleux imitent souvent des scripts standardisés pour inciter les victimes à répondre à voix haute, de manière claire et prolongée. Chaque phrase énoncée devient une source d’apprentissage pour les algorithmes d’IA vocale. Contrairement à ce que l’on pourrait croire, il n’est pas nécessaire de recueillir de longues minutes de conversation pour créer un faux vocal crédible. Selon une démonstration réalisée par ElevenLabs, société spécialisée dans la synthèse vocale, un extrait de 15 à 30 secondes permet déjà d’obtenir une reproduction vocale réaliste.

Pour les attaquants, les sondages téléphoniques représentent donc un prétexte parfait. Ils offrent un cadre naturel pour enregistrer la voix d’une personne dans des conditions calmes, continues, et avec une tonalité neutre. Les questions ouvertes invitent souvent à des réponses longues et articulées, précisément ce dont ont besoin les outils d’imitation. Du Social Engineering efficace pour les besoins de l’IA. Les malveillants renforcent la technique en rajoutant du bruit dans la communication, incitant l’interlocuteur cible à parler plus fort, plus distinctement. Comme ZATAZ a pu le constater, ces appels sont souvent mis en scène pour sensibiliser aux nouveaux modes opératoires. Comme expliqué plus haut, certaines de ces démonstrations intègrent des éléments sonores simulés pour imiter les imperfections d’une communication réelle.

Le danger croît lorsque les deepfakes combinent l’audio et la vidéo

L’évolution technologique permet non seulement de cloner une voix, mais aussi de l’associer à une image générée ou modifiée par intelligence artificielle. Ces « deepfakes combinés » sont déjà utilisés dans des arnaques visant des entreprises. En 2020, un directeur d’une filiale britannique d’une entreprise d’énergie a été dupé par un appel vocal imitant la voix de son PDG. L’homme a transféré 243 000 dollars (environ 224 000 euros) à un compte contrôlé par les fraudeurs.

Une fois la voix clonée, elle peut aussi servir à créer de faux comptes sur des plateformes sociales. Des vidéos deepfake mettant en scène des individus dans des contextes professionnels ou familiaux sont de plus en plus réalistes. Plusieurs incidents impliquant des faux profils LinkedIn ou WhatsApp ont été montré par ZATAZ et pas d’autres, bien que les exemples confirmés d’exploitation vocale sur ces plateformes restent rares. Le principal vecteur d’attaque reste, pour le moment, l’ingénierie sociale par téléphone, dans laquelle la voix deepfake joue un rôle décisif. Des messages vocaux sont envoyés à des proches ou collègues pour obtenir des informations sensibles ou initier des virements frauduleux [Vidéo].

Face à cette menace, la vigilance individuelle devient cruciale. Certaines entreprises adoptent des protocoles d’authentification renforcés, incluant des mots de passe vocaux, des codes partagés ou des canaux de vérification secondaires. L’une des recommandations de ZATAZ pourrait vous paraitre « idiote », mais elle est efficace. Elle consiste à frotter son doigt sur le micro de son combiné pour perturber une éventuelle captation. Et au moindre doute face à la première question, raccrochez. Votre politesse et éducation prendront un coup à leur ego, mais cela vous protégera.

Le démarchage téléphonique, un vecteur de menace sous-estimé

L’un des points les plus préoccupants est la facilité avec laquelle ces attaques peuvent commencer. Comme je peux le travailler avec les élèves dans les écoles pour qui j’officie sur les thème (entre autres) du Social Engineering, un appel en apparence anodin sur une ligne personnelle peut être la première étape d’une attaque plus vaste, visant une entreprise. [Si vous croisez mes élèves, demandez-leur ce que sont « mp3 baby » ou « pompier », ils vous feront à coup sûr un très large sourire.]

Si l’interlocuteur est identifié comme employé d’une société ciblée, les fraudeurs peuvent ensuite utiliser sa voix pour imiter un ordre de virement, une demande interne ou une prise de contact avec d’autres collaborateurs.

Bref. Je recommande de ne jamais répondre à des appels inconnus sans vérification préalable, et de limiter au maximum les réponses vocales non nécessaires.

merci à ZATAZ