ChatGPT-4o d'OpenAI reprend la première place dans les classements des benchmarks populaires

Message par **chtimi054** » sam. 23 nov. 2024 08:37

ChatGPT-4o d'OpenAI reprend la première place dans les classements des benchmarks populaires tout en améliorant sa créativité,
Mais la manière dont la créativité est mesurée ou améliorée fait l'objet de débat

OpenAI a mis à jour GPT-4o et affirme que cette nouvelle mouture améliore grandement « sa capacité d'écriture créative ». L'entreprise affirme que le chatbot est désormais « plus naturel et engageant avec une écriture plus adaptée pour améliorer la pertinence et la lisibilité ». Cette nouvelle mise à jour permet à GPT-4o de revenir en tête de plusieurs classements, notamment sur le benchmark Chatbot Arena des modèles d'IA les plus performants. Cependant, la manière dont la créativité est mesurée ou améliorée est remise en question par plusieurs experts, OpenAI ayant donné très peu d'informations sur la nouvelle mise à jour.

ChatGPT-4o se met à jour et repasse devant ses rivaux dans les classements

GPT-4o reste le modèle le plus avancé d'OpenAI malgré le fait que l'entreprise a publié de nouveaux modèles récemment. OpenAI affirme que GPT-4o est doté de capacités avancées en matière de raisonnement, de multimodalité et de conversation. Il a ajouté cette semaine que la nouvelle mise à jour rend GPT-4o encore plus performant. OpenAI a annoncé par le biais d'un billet sur X (ex-Twitter) avoir les performances de GPT-4o pour la lecture et l'écriture de fichiers.

Cette mise à jour lui permet de générer des textes plus naturels et plus attrayants. GPT-4o mis à jour, appelé ChatGPT-4o (20241120), a battu ses concurrents sur le benchmark Chatbot Arena et s'est hissé à la tête du classement. (Chatbot Arena est une plateforme collaborative utilisée pour évaluer les grands modèles de langage.) Voici quelques observations sur la nouvelle version du modèle phare d'OpenAI :

Améliorations des performances et résultats des analyses comparatives

La nouvelle version de ChatGPT-4o a démontré des améliorations remarquables dans divers domaines. ChatGPT-4o affiche un bond en avant dans l'écriture créative, ainsi que dans les domaines techniques (par exemple, le codage et les mathématiques). Les résultats sont impressionnants :

ChatGPT-4o a repris la première place avec un score Elo de 1361 sur le benchmark Chatbot Arena, dépassant Gemini-Exp-1114 de Google (1343) ;
le modèle se classe désormais au premier rang dans des catégories telles que l'écriture créative, le codage et le traitement de messages complexes.

Amélioration des capacités et de l'expérience utilisateur

amélioration des capacités d'écriture créative, produisant des textes plus naturels et attrayants ;
amélioration des capacités de lecture et d'écriture de fichiers, offrant une vision plus approfondie et des réponses plus complètes au contenu téléchargé ;
meilleure performance dans les tâches complexes à plusieurs étapes.

Accessibilité et fonctionnalités supplémentaires

la mise à jour ne modifie pas la manière dont les utilisateurs accèdent à GPT-4o. Elle reste disponible pour les utilisateurs gratuits avec un accès limité et pour les abonnés de ChatGPT Plus avec un accès complet ;
le modèle vocal avancé est désormais disponible sur le bureau pour tous les utilisateurs payants, élargissant ainsi son accessibilité au-delà de l'application mobile.

Impact sur l'industrie et les développements à venir

la mise à jour aide OpenAI à maintenir son avance sur des concurrents tels que Gemini de Google ;
des indices laissent entrevoir des améliorations potentielles des capacités de génération d'images de DALL-E ;
des rapports évoquent une possible sortie de Sora, le modèle d'IA d'OpenAI pour la génération de vidéo, élargissant encore le portefeuille de l'entreprise.

Certains utilisateurs ont qualifié la mise à jour de « folle », en publiant un rap écrit par l'IA à la manière d'Eminem. D'autres ont essayé de mesurer sa créativité d'une manière plus centrée sur les données. Sam Paech, le responsable d'EQ-Bench, un benchmark qui tente de mesurer « l'intelligence émotionnelle des LLM », a constaté que GPT-4o surpassait la concurrence de plusieurs points. Les nouvelles capacités de ChatGPT-4o le placent à la tête de l'index EQ-Bench.

Les affirmations d'OpenAI sur la créativité de ChatGPT-4o sont controversées

OpenAI n'a pas partagé grand-chose sur la nouvelle mise à jour, si ce n'est que sa « capacité d'écriture créative a augmenté de niveau » et qu'elle est désormais « plus naturelle et engageante avec une écriture plus adaptée pour améliorer la pertinence et la lisibilité ». Dans un message sur X, le PDG d'OpenAI, Sam Altman, a simplement déclaré : « bon nouveau modèle ». Toutefois, la façon dont la créativité est améliorée ou mesurée soulève des questions.
Un critique a demandé si « GPT-4o avait commencé à observer le monde [et] à trouver ses propres idées et son propre point de vue non dérivé ». Il fait allusion au fait que les modèles d'IA ne peuvent pas créer quelque chose de nouveau. Ils ne font que régurgiter ce qui est contenu dans leurs ensembles de données de formation. Lorsque ChatGPT a été lancé, il ne pouvait rien dire sur les connaissances ou les faits survenus après une certaine date en 2021.

Cette date correspond en effet à la limite de ses données de formation. OpenAI met régulièrement à jour cette limite en incorporant de nouvelles bases de données dans l'ensemble de données de formation de GPT-4o. Il permet également à GPT-4o d'accéder à Internet afin de fournir aux utilisateurs des réponses basées sur les informations actuelles. Cette fonctionnalité ne rend pas le chatbot créatif pour autant, car il ne fait que résumer ce qu'il trouve sur le Web.

OpenAI, et les entreprises concurrentes, entraînent ces modèles sur des quantités massives de données. Cela a suscité un tollé sur la violation du droit d'auteur, ce pour quoi le New York Times poursuit actuellement l'entreprise. OpenAI a admis qu'il ne peut pas former ses modèles sans le matériel protégé par le droit d'auteur.

D'autres entreprises, comme Nvidia, ont été prises en flagrant délit d'exploitation d'heures de Netflix pour former des générateurs de vidéos. OpenAI prévoit de devenir une société à but lucratif à mesure qu'il se restructure. Cela a entraîné le départ de nombreuses personnalités de longue date de l'entreprise.

merci à Developpez.com