
L’intelligence artificielle ne cesse de repousser les frontières de ce que l’on pensait possible. Avec la présentation récente de ses modèles GPT de nouvelle génération, OpenAI a doté ChatGPT d’une capacité accrue à raisonner à partir d’images. Cette amélioration, prévue à l’origine pour des usages pédagogiques, professionnels ou créatifs, a rapidement trouvé un débouché tout à fait original sur les réseaux sociaux : la localisation d’images. En partageant des clichés de bâtiments, de plats ou même de simples coins de rue, les internautes défient ChatGPT de deviner l’endroit où la photo a été prise. Et le plus étonnant, c’est que ça marche — parfois avec une précision stupéfiante. Sans utiliser les métadonnées techniques des images, le modèle s’appuie uniquement sur les indices visuels qu’il perçoit. Une prouesse qui suscite autant d’admiration que d’interrogations.
Nous connaissions PimEyes, outil capable de retrouver votre visage sur des photos diffusées sur Internet. Voici venir la détection de lieu en deux clics de souris. Comme le montre la vidéo ci-dessous, retrouver un lieu, à partir d’une photographie, devient « presque » un jeu d’enfant avec ChatGPT
Dans l’univers foisonnant des défis numériques, peu auraient imaginé que l’intelligence artificielle se prêterait un jour à un jeu de piste aussi minutieux. Et pourtant, c’est bien ce qui se produit depuis que le modèle « o3 » d’OpenAI, intégré dans ChatGPT, est mis à l’épreuve par des utilisateurs du monde entier. Ces derniers partagent des images anodines — parfois volontairement floues ou partiellement obstruées — pour tester la capacité du modèle à déterminer leur origine géographique. Le phénomène, devenu viral, évoque immédiatement le principe de GeoGuessr, jeu en ligne populaire où les joueurs doivent localiser une scène à partir de Google Street View. À ceci près qu’ici, aucun panorama à 360 degrés : seulement une image figée, un instant capturé, et une IA pour résoudre l’énigme.
Là où un œil humain pourrait passer à côté d’un détail, le modèle de ChatGPT s’attarde, examine, compare, et en déduit des hypothèses d’une précision déconcertante. Dans un exemple devenu emblématique, un utilisateur a soumis la photo d’une bibliothèque moderne sans aucune inscription visible. Vingt secondes plus tard, le modèle indiquait non seulement le pays, mais également la ville, se basant sur l’architecture spécifique du bâtiment, le mobilier urbain et l’apparence du revêtement de sol. Dans un autre cas, une photo intérieure d’un bar, à peine éclairée et montrant uniquement une fresque murale avec un rhinocéros violet, a suffi pour que l’IA identifie le quartier exact dans lequel il se trouvait. Dans notre vidéo [ICI], un simple arbre, une statue … et le tour est joué en 10 secondes !
ChatGPT ne devine pas, il raisonne
Ces performances soulèvent naturellement une question centrale : comment une IA peut-elle réussir un tel tour de force ? Contrairement à ce que certains pourraient croire, le modèle n’utilise pas les métadonnées EXIF des photos, ces informations numériques souvent intégrées aux fichiers image qui peuvent révéler des données GPS. Les chercheurs d’OpenAI ont confirmé que le modèle repose exclusivement sur le contenu visuel de l’image elle-même. Il identifie des éléments architecturaux, des types de végétation, des enseignes, des langues, des modèles de voitures ou encore la position du soleil pour construire une hypothèse. Il combine ces indices comme le ferait un enquêteur expérimenté, avec la différence qu’il le fait à la vitesse de l’éclair.
Ce type d’analyse n’est pas sans rappeler les méthodes de l’OSINT (Open Source Intelligence), utilisées notamment dans le journalisme d’investigation ou les enquêtes citoyennes. Des communautés comme Bellingcat ont depuis longtemps montré comment des internautes pouvaient, grâce à une recherche minutieuse, localiser une vidéo de conflit ou une photo d’événement à partir de détails minuscules. ChatGPT pousse cette logique plus loin, en la rendant accessible au grand public et surtout automatisée.
Mais cette capacité soulève également des préoccupations éthiques. Si une IA peut identifier un lieu à partir d’un simple selfie, ne risque-t-elle pas de compromettre la vie privée de ceux qui partagent des images sur les réseaux sociaux ? OpenAI affirme que les images traitées ne sont pas utilisées pour entraîner les modèles et que la géolocalisation repose uniquement sur des indices visibles. Pourtant, le simple fait qu’un algorithme puisse localiser quelqu’un à partir d’un mur, d’une enseigne ou d’un graffiti pourrait donner à réfléchir à plus d’un utilisateur.« Ce n’est pas de la magie, c’est de la corrélation à grande échelle entre pixels et savoir encyclopédique », explique un chercheur d’OpenAI.
Au-delà du jeu et de l’amusement, les implications pratiques de cette compétence commencent à apparaître. Des professionnels du voyage imaginent des applications pour retrouver les lieux de photos anciennes. Des chercheurs en patrimoine y voient un outil pour identifier l’origine de clichés historiques non catalogués. Dans le domaine de la sécurité, certains évoquent la possibilité d’assister des enquêtes ou des secours en analysant rapidement une scène photographiée. Là encore, la technologie pose des dilemmes : où placer la frontière entre assistance légitime et intrusion ?
À cela s’ajoute la question du biais géographique. Comme tous les modèles d’intelligence artificielle, ChatGPT est influencé par les données sur lesquelles il a été entraîné. Si certaines régions du monde sont surreprésentées dans les bases d’images disponibles en ligne, la précision du modèle risque d’être inégale selon les zones géographiques. Un village reculé au Laos ou en Centrafrique pourrait échapper à ses capacités, là où une rue de Tokyo ou un café de Barcelone seraient identifiés en un clin d’œil.
Malgré ces limites, la prouesse technologique est bien réelle. Le modèle o3 ne se contente pas d’interpréter les mots, il « lit » les images avec une acuité qui étonne même les experts. Il illustre une avancée majeure dans la compréhension visuelle automatisée, où la machine ne se contente plus de reconnaître un objet, mais en comprend le contexte, l’histoire, et la localisation potentielle. Une révolution silencieuse, mais déterminante.
Alors que l’IA s’initie au jeu de piste visuel avec une dextérité croissante, reste à savoir jusqu’où elle pourra aller. Cette capacité à lire le monde à travers une photo redéfinit-elle notre rapport à l’image et à la vie privée ?
merci à ZATAZ