Small 3 : Mistral AI lance le modèle le plus efficace de sa catégorie

Pour échanger sur les avancées, les applications et les défis de l'IA.
Répondre
Avatar du membre
chtimi054
Administrateur du site
Administrateur du site
Messages : 9072
Enregistré le : ven. 26 juil. 2013 06:56
A remercié : 110 fois
A été remercié : 658 fois
    Windows 10 Firefox

Small 3 : Mistral AI lance le modèle le plus efficace de sa catégorie

Message par chtimi054 »

Small 3 : Mistral AI lance le modèle le plus efficace de sa catégorie

Sous licence Apache 2.0, Mistral AI tente aussi de bousculer l'ordre établi avec son nouveau modèle IA dénommé Mistral Small 3. Plus petit, plus rapide et moins cher.
Image « Mistral Small 3 complète les grands modèles de raisonnement open source tels que les sorties récentes de DeepSeek, et peut servir de modèle de base solide pour faire émerger des capacités de raisonnement. »

En dévoilant son nouveau modèle Mistral Small 3, la start-up française d'intelligence artificielle générative Mistral AI refait parler d'elle, mais évite une confrontation directe avec le modèle de raisonnement chinois DeepSeek-R1 de DeepSeek qui bouscule les géants américains en raison d'un coût très inférieur.

Reste qu'avec ses 24 milliards de paramètres, Mistral Small 3 est présenté compétitif par rapport à des modèles de type LLM (Large Language Model) plus grands comme Llama 3.3 70B de Meta (trois fois plus important) et Qwen-2.5 32B d'Alibaba.
Image Licence Apache 2.0 et déploiement en local

Avec une mise à disposition sous licence Apache 2.0, Mistral AI vante également un excellent remplaçant open source à GPT4-o mini d'OpenAI. « Nous renouvelons notre engagement à utiliser la licence Apache 2.0 pour nos modèles à usage général. »
Image Rapide et avec une latence faible, Mistral Small 3 se démarque dans les tâches d'IA générative nécessitant des performances robustes en matière de langage et de suivi des instructions. Une précision de plus de 81 % sur MMLU (Massive Multitask Language Understanding) et une latence de 150 tokens par seconde.

Il est souligné que l'entraînement du modèle repose uniquement sur des données réelles et n'implique pas d'optimisation via apprentissage par renforcement.

Mistral AI explique que son nouveau modèle a été conçu pour saturer les performances à une taille adaptée au déploiement en local. Mistral Small 3 peut notamment être exécuté sur un PC équipé d'une carte graphique RTX 4090 de Nvidia ou un MacBook avec 32 Go de RAM.

Aussi sur diverses plateformes

Mistral Small 3 est proposé sur plusieurs plateformes : La Plateforme de Mistrail AI, Hugging Face, Ollama, Kaggle, Together AI, Fireworks AI. D'autres suivront bientôt : Nvidia NIM, Amazon SageMaker, Groq, Databricks et Snowflake.

merci à GNT
Avatar du membre
MyPOV
Membre VIP
Membre VIP
Messages : 1215
Enregistré le : sam. 11 déc. 2021 14:40
A remercié : 111 fois
A été remercié : 150 fois
    Windows 10 Chrome

Re: Small 3 : Mistral AI lance le modèle le plus efficace de sa catégorie

Message par MyPOV »

Une semaine après DeepSeek, Alibaba sort une nouvelle version de son intelligence artificielle Qwen.

C'est une véritable guerre des intelligences artificielles qui se déroule entre les États-Unis et la Chine. Alibaba vient d'annoncer un nouveau modèle d'IA qui battrait GPT-4o d'OpenAI, Claude 3.5 Sonnet d'Anthropic et Llama 3.1 de Meta. Baptisé Qwen2.5-Max, ce nouveau modèle dépasserait aussi son rival chinois DeepSeek-V3 sorti en décembre (à ne pas confondre avec DeepSeek-R1, le modèle plus réfléchi sorti la semaine dernière).

Selon Alibaba, Qwen 2.5-Max prendrait quasi systématiquement la tête sur une batterie de tests comme MMLU-Pro (connaissances universitaires), LiveCodeBench (programmation), LiveBench (généraliste), et GPQA-Diamond (raisonnement). Alors que DeepSeek avait étonné par sa vitesse de développement, le projet n'ayant pris que deux mois, et le peu de moyens engagés, Alibaba est l'une des plus grandes entreprises au monde. À l'instar de Google ou Microsoft, elle peut donc déployer bien plus de moyens pour développer ses modèles.


article complet : https://www.futura-sciences.com/tech/ac ... ek-119287/


Concernant Small 3 de Mistral, je trouve cela très intéressant, notamment que ça puisse tourner avec une RTX 4090, il faut donc 24Go de Vram qui est la seule carte à l'offrir. Pour les autres cartes, on se retrouve avec le problème récurrent du manque de ram.

Pour l'IA, l'entrée de gamme qui me semble la plus intéressante est la RTX 4060 Ti en version 16Go qu'on parvient à trouver un peu au-dessus de 500€. Pour un modèle plus puissant en calcul, alors ça tourne à partir de 1000€ :worried:
"𝓛𝓮 𝓭𝓸𝓾𝓽𝓮 𝓮𝓼𝓽 𝓵𝓮 𝓬𝓸𝓶𝓶𝓮𝓷𝓬𝓮𝓶𝓮𝓷𝓽 𝓭𝓮 𝓵𝓪 𝓼𝓪𝓰𝓮𝓼𝓼𝓮" 𝖠𝗋𝗂𝗌𝗍𝗈𝗍𝖾, 𝖼𝗈𝗆𝗉𝗅𝗈𝗍𝗂𝗌𝗍𝖾 𝖦𝗋𝖾𝖼
Répondre