245 765 votes
Obj : 250 000 Légende Discutez, votez et aidez-nous à atteindre cet objectif !
Vos votes sont importants : ils alimentent le jeu de données compar:IA mis à disposition librement pour affiner les prochains modèles sur le français.
Ce commun numérique contribue au meilleur respect de la diversité linguistique et culturelle des futurs modèles de langue.

Des votes… au classement des modèles

Merci pour vos contributions !
Le classement compar:IA repose sur l’ensemble des votes et réactions issus de la comparaison à l'aveugle des modèles et collectés depuis l’ouverture du service au public en octobre 2024.
Construit en partenariat avec le Pôle d'Expertise de la Régulation Numérique (PEReN), le classement des modèles est établi en fonction du score de satisfaction calculé à partir du modèle statistique Bradley Terry, méthode largement répandue pour convertir des votes binaires en classement probabiliste.
Le classement compar:IA n’a pas vocation à constituer une recommandation officielle ni à évaluer la performance technique des modèles. Il reflète les préférences subjectives des utilisateurs de la plateforme et non la factualité ou la véracité des réponses.

Total modèles : 80
Total votes : 246 000

Mise à jour le 1/27/2026

Télécharger les données
Des votes… au classement des modèles
Rang Infobulle Rang de classement attribué selon le score de satisfaction Bradley-Terry
Modèle
Score de
satisfaction BT
Infobulle Score statistique estimé selon le modèle Bradley-Terry reflétant la probabilité qu'un modèle soit préféré à un autre. Ce score est calculé à partir de l'ensemble des votes et réactions des utilisateurs. Pour en savoir plus, rendez-vous sur l’onglet méthodologie.
Confiance (±) Infobulle Intervalle indiquant la fiabilité du rang de classement : plus l'intervalle est étroit, plus l'estimation du rang est fiable. Il y a 95% de chances que le vrai rang du modèle soit dans cette plage.
Total votes
Conso. moyenne
(1000 tokens)
Infobulle Mesurée en wattheures, l’énergie consommée représente l'électricité utilisée par le modèle pour traiter une requête et générer la réponse correspondante. La consommation énergétique des modèles dépend de leur taille et de leur architecture. Nous prenons le parti d’afficher en grisé non analysés (N/A) les modèles propriétaires pour lesquels nous ne disposons pas d’information transparente sur la taille et l’architecture.
Taille
(paramètres)
Infobulle Taille du modèle en milliards de paramètres, catégorisée selon cinq classes. Pour les modèles propriétaires, cette taille n’est pas communiquée.
Architecture Infobulle L'architecture d'un modèle LLM désigne les principes de conception qui définissent comment les composants d'un réseau de neurones sont agencés et interagissent pour transformer les données d'entrée en sorties prédictives, incluant le mode d'activation des paramètres (dense vs. sparse), la spécialisation des composants et les mécanismes de traitement de l'information (transformers, réseaux convolutifs, architectures hybrides).
Date sortie
Organisation
Licence
1
1124
-4/+1651N/AXL - (estimation)Propriétaire12/25GooglePropriétaire
2
1121
-2/+2221650 Wh
XL - 675 MdsMoE12/25Mistral AISemi-ouvert
3
1118
-1/+25837N/AL - (estimation)Propriétaire8/25Mistral AIPropriétaire
4
1105
-3/+14429N/AXL - (estimation)Propriétaire6/25GooglePropriétaire
5
1104
-3/+22475N/AXL - (estimation)Propriétaire11/25GooglePropriétaire
6
1103
-2/+32852N/AXL - (estimation)Propriétaire9/25AlibabaPropriétaire
7
1099
-1/+38684N/AXL - (estimation)Propriétaire12/24GooglePropriétaire
8
1092
-3/+2438547 Wh
XL - 685 MdsMoE3/25DeepSeekSemi-ouvert
9
1089
-4/+32207N/AL - (estimation)Propriétaire6/25Mistral AIPropriétaire
10
1083
-5/+180666 Wh
S - 27 MdsDense3/25GoogleSemi-ouvert
11
1082
-7/+3201647 Wh
XL - 685 MdsMoE8/25DeepSeekSemi-ouvert
12
1079
-7/+2538847 Wh
XL - 671 MdsMoE12/24DeepSeekSemi-ouvert
13
1077
-8/+41783N/AL - (estimation)Propriétaire12/25OpenAIPropriétaire
14
1077
-8/+51963N/AXL - (estimation)Propriétaire11/25xAIPropriétaire
15
1074
-5/+45706N/AXL - (estimation)Propriétaire9/25AnthropicPropriétaire
16
1072
-9/+7129647 Wh
XL - 685 MdsMoE12/25DeepSeekSemi-ouvert
17
1072
-7/+7217821 Wh
L - 355 MdsMoE7/25ZhipuSemi-ouvert
18
1072
-6/+72666N/AL - (estimation)Propriétaire11/25OpenAIPropriétaire
19
1065
-10/+618683 Wh
L - 117 MdsMoE8/25OpenAISemi-ouvert
20
1064
-6/+377964 Wh
XS - 12 MdsDense3/25GoogleSemi-ouvert
21
1063
-8/+62540N/AXL - (estimation)Propriétaire5/25AnthropicPropriétaire
22
1063
-5/+82623N/AXL - (estimation)Propriétaire9/25xAIPropriétaire
23
1060
-8/+101537N/AL - (estimation)Propriétaire4/25xAIPropriétaire
24
1060
-4/+647526 Wh
S - 24 MdsDense6/25Mistral AISemi-ouvert
25
1057
-7/+10133257 Wh
XL - 1000 MdsMoE9/25Moonshot AISemi-ouvert
26
1055
-4/+4749318 Wh
L - 111 MdsDense3/25CohereSemi-ouvert
27
1054
-5/+9161447 Wh
XL - 685 MdsMoE5/25DeepSeekSemi-ouvert
28
1050
-7/+9111930 Wh
XL - 480 MdsMoE7/25AlibabaSemi-ouvert
29
1049
-4/+53907N/AXL - (estimation)Propriétaire2/25AnthropicPropriétaire
30
1048
-3/+631476 Wh
S - 24 MdsDense6/25Mistral AISemi-ouvert
31
1044
-2/+4670912 Wh
M - 70 MdsDense10/24NvidiaSemi-ouvert
32
1041
-3/+6242721 Wh
L - 357 MdsMoE9/25ZhipuSemi-ouvert
33
1036
-2/+288613 Wh
XS - 4 MdsDense3/25GoogleSemi-ouvert
34
1031
-3/+27173N/AM - (estimation)Propriétaire4/25OpenAIPropriétaire
35
1031
-3/+441763 Wh
XS - 8 MdsMatformer5/25GoogleSemi-ouvert
36
1030
-2/+47387N/AXL - (estimation)Propriétaire9/24GooglePropriétaire
37
1024
-4/+4351047 Wh
XL - 671 MdsMoE1/25DeepSeekSemi-ouvert
38
1018
-8/+319057 Wh
S - 32 MdsDense4/25AlibabaSemi-ouvert
39
1014
-6/+24934N/AS - (estimation)Propriétaire2/25Mistral AIPropriétaire
40
1012
-6/+3338315 Wh
XL - 400 MdsMoE4/25MetaSemi-ouvert
41
1012
-6/+521693 Wh
S - 21 MdsMoE8/25OpenAISemi-ouvert
42
1011
-5/+53712N/AS - (estimation)Propriétaire8/25OpenAIPropriétaire
43
1010
-3/+461495 Wh
L - 109 MdsMoE4/25MetaSemi-ouvert
44
1005
-5/+350796 Wh
S - 24 MdsDense3/25Mistral AISemi-ouvert
45
1003
-5/+52830N/AS - (estimation)Propriétaire4/25OpenAIPropriétaire
46
999
-4/+43843N/AL - (estimation)Propriétaire8/25OpenAIPropriétaire
47
997
-6/+719073 Wh
XS - 8 MdsMoE10/25LiquidSemi-ouvert
48
991
-6/+351137 Wh
S - 32 MdsDense12/24CohereSemi-ouvert
49
988
-7/+333373 Wh
S - 30 MdsMoE5/25AlibabaSemi-ouvert
50
987
-7/+527764 Wh
XS - 8 MdsDense7/25AlibabaSemi-ouvert
51
986
-5/+3945412 Wh
M - 70 MdsDense12/24MetaSemi-ouvert
52
985
-6/+633186 Wh
S - 24 MdsDense1/25Mistral AISemi-ouvert
53
981
-8/+71619N/AS - (estimation)Propriétaire11/24OpenAIPropriétaire
54
980
-5/+46990N/AS - (estimation)Propriétaire7/24OpenAIPropriétaire
55
977
-6/+35717N/AS - (estimation)Propriétaire4/25OpenAIPropriétaire
56
977
-7/+6210712 Wh
M - 70 MdsDense9/25Swiss AIOpen source
57
974
-8/+717638 Wh
L - 230 MdsMoE10/25MiniMaxSemi-ouvert
58
972
-7/+913024 Wh
XS - 8 MdsDense10/24CohereSemi-ouvert
59
971
-4/+5558312 Wh
M - 70 MdsDense7/24MetaSemi-ouvert
60
970
-3/+55683N/AXL - (estimation)Propriétaire10/24AnthropicPropriétaire
61
966
-3/+399685 Wh
XS - 14 MdsDense12/24MicrosoftSemi-ouvert
62
961
-4/+45896N/AXL - (estimation)Propriétaire8/24OpenAIPropriétaire
63
956
-2/+49973238 Wh
XL - 405 MdsDense7/24MetaSemi-ouvert
64
952
-3/+451154 Wh
XS - 9 MdsDense6/24GoogleSemi-ouvert
65
948
-3/+43055N/AXS - (estimation)Propriétaire4/25OpenAIPropriétaire
66
947
-4/+615667 Wh
S - 32 MdsDense4/25AlibabaSemi-ouvert
67
944
-2/+5298112 Wh
M - 70 MdsDense1/25DeepSeekSemi-ouvert
68
934
-4/+4280912 Wh
M - 70 MdsDense8/25NousSemi-ouvert
69
932
-2/+3104444 Wh
XS - 8 MdsDense7/24MetaSemi-ouvert
70
925
-1/+614174 Wh
XS - 7 MdsDense9/24AlibabaSemi-ouvert
71
883
-2/+025605 Wh
S - 56 MdsMoE12/23Mistral AISemi-ouvert
72
881
-1/+13578N/AS - (estimation)Propriétaire9/24LiquidPropriétaire
73
878
-1/+27517 Wh
S - 32 MdsDense11/25Ai2Open source
74
860
-1/+125353 Wh
XS - 3.8 MdsDense8/24MicrosoftSemi-ouvert
75
850
-1/+162514 Wh
XS - 12 MdsDense7/24Mistral AISemi-ouvert
76
840
-1/+1545518 Wh
L - 176 MdsMoE4/24Mistral AISemi-ouvert
77
817
-1/+017964 Wh
XS - 14 MdsDense2/25jpacificoSemi-ouvert
78
763
-2/+3654 Wh
XS - 9 MdsDense5/2401-aiSemi-ouvert
79
749
-1/+13095 Wh
XS - 14 MdsDense9/24jpacificoSemi-ouvert
80
726
-0/+2804 Wh
XS - 7 MdsDense7/24AlibabaSemi-ouvert

Les modèles les plus appréciés sont-ils économes en énergie ?

Ce graphique représente pour chaque modèle le score de satisfaction (score Bradley Terry) en fonction de l’estimation de la consommation énergétique moyenne pour 1000 tokens. La consommation énergétique est estimée à partir de la méthodologie Ecologits et repose sur la prise en compte de deux paramètres: la taille des modèles (nombre de paramètres) et leur architecture. Pour les modèles propriétaires, ces informations ne sont pas ou que partiellement communiquées. C’est pourquoi ils sont exclus du graphique ci-dessous.

Score de satisfaction Bradley-Terry (BT) VS Consommation moyenne pour 1000 tokens

Sélectionnez un modèle pour connaitre son score Bradley-Terry (BT) et sa consommation énergétique

Score Bradley-Terry (BT)
7508008509009501000105011001150010203040506070
Consommation moyenne pour 1000 tokens (Wh)
Filtre par consommation énergétique moyenne pour 1000 tokens
Taille (paramètres)

Architecture du modèle

  • MoE Infobulle L’architecture Mixture of Experts (MoE) utilise un mécanisme de routage pour n’activer, en fonction de l’entrée, que certains sous-ensembles spécialisés (“experts”) du réseau de neurones. Cela permet de construire des modèles très grands tout en gardant un coût de calcul réduit, car seule une partie du réseau est utilisée à chaque étape.
  • Dense Infobulle L’architecture dense désigne un type de réseau de neurones dans lequel chaque neurone d’une couche est connecté à tous les neurones de la couche suivante. Cela permet à tous les paramètres de la couche de contribuer au calcul de la sortie.
  • Matformer Infobulle Imaginez des poupées russes (matryoshkas → matryoshka transformer → Matformer) : chaque bloc contient plusieurs sous-modèles imbriqués de tailles croissantes, partageant les mêmes paramètres. Cela permet, à chaque requête, de sélectionner un modèle de capacité adaptée, selon la mémoire ou la latence disponibles, sans avoir besoin de ré-entraîner différents modèles.

Comment trouver le bon équilibre entre performance perçue et sobriété énergétique ? Exemples de lecture du graphique

  • Plus un modèle est situé en haut du graphique, plus son score de satisfaction Bradley-Terry est élevé. Plus un modèle est situé sur la gauche du graphique, moins il consomme d’énergie par rapport aux autres modèles.
  • En haut à gauche se trouvent les modèles qui plaisent et qui consomment peu d’énergie par rapport aux autres modèles.
  • Au-delà de la taille, l’architecture a un impact sur la consommation énergétique moyenne des modèles: par exemple, à gabarit similaire, le modèle Llama 3 405B (architecture dense, 405 milliards de paramètres) consomme 10 fois plus d’énergie en moyenne que le modèle GLM 4.5 (architecture MOE, 355 milliards de paramètres et 32 milliards de paramètres actifs).

Pourquoi les modèles propriétaires ne sont-ils pas affichés sur le graphique ?

L’estimation de la consommation énergétique pour l’inférence des modèles repose sur la méthodologie Ecologits qui prend en compte la taille et l’architecture des modèles. Or ces informations ne sont pas rendues publiques par les éditeurs de modèles pour les modèles dits « propriétaires ».

Nous prenons ainsi le parti de ne pas intégrer les modèles propriétaires au graphique tant que les informations contribuant au calcul de consommation énergétique ne sont pas transparentes.

Comment est calculé l’impact énergétique des modèles ?

compar:IA utilise la méthodologie développée par Ecologits (GenAI Impact) pour fournir une estimation du bilan énergétique lié à l’inférence des modèles d’IA générative conversationnelle. Cette estimation permet aux utilisateurs de comparer l'impact environnemental de différents modèles d'IA pour une même requête. Cette transparence est essentielle pour encourager le développement et l'adoption de modèles d'IA plus éco-responsables.

Ecologits applique les principes de l'analyse du cycle de vie (ACV) conformément à la norme ISO 14044 en se concentrant pour le moment sur l'impact de l'inférence (c'est-à-dire l'utilisation des modèles pour répondre aux requêtes) et de la fabrication des cartes graphiques (extraction des ressources, fabrication et transport).

La consommation électrique du modèle est estimée en tenant compte de divers paramètres tels que la taille et l’architecture du modèle d'IA utilisé, la localisation des serveurs où sont déployés les modèles et le nombre de tokens de sortie. Le calcul de l’indicateur de potentiel de réchauffement climatique exprimé en équivalent CO2 est dérivé de la mesure de consommation électrique du modèle.

Il est important de noter que les méthodologies d'évaluation de l'impact environnemental de l'IA sont encore en développement.

Données du graphique en tableau

Mise à jour le 1/27/2026

Télécharger les données
Des votes… au classement des modèles
Modèle
Score de
satisfaction BT
Infobulle Score statistique estimé selon le modèle Bradley-Terry reflétant la probabilité qu'un modèle soit préféré à un autre. Ce score est calculé à partir de l'ensemble des votes et réactions des utilisateurs. Pour en savoir plus, rendez-vous sur l’onglet méthodologie.
Conso. moyenne
(1000 tokens)
Infobulle Mesurée en wattheures, l’énergie consommée représente l'électricité utilisée par le modèle pour traiter une requête et générer la réponse correspondante. La consommation énergétique des modèles dépend de leur taille et de leur architecture. Nous prenons le parti d’afficher en grisé non analysés (N/A) les modèles propriétaires pour lesquels nous ne disposons pas d’information transparente sur la taille et l’architecture.
Taille
(paramètres)
Infobulle Taille du modèle en milliards de paramètres, catégorisée selon cinq classes. Pour les modèles propriétaires, cette taille n’est pas communiquée.
Architecture Infobulle L'architecture d'un modèle LLM désigne les principes de conception qui définissent comment les composants d'un réseau de neurones sont agencés et interagissent pour transformer les données d'entrée en sorties prédictives, incluant le mode d'activation des paramètres (dense vs. sparse), la spécialisation des composants et les mécanismes de traitement de l'information (transformers, réseaux convolutifs, architectures hybrides).
Organisation
Licence
10653 Wh L - 117 MdsMoEOpenAISemi-ouvert
10363 Wh XS - 4 MdsDenseGoogleSemi-ouvert
10313 Wh XS - 8 MdsMatformerGoogleSemi-ouvert
10123 Wh S - 21 MdsMoEOpenAISemi-ouvert
9973 Wh XS - 8 MdsMoELiquidSemi-ouvert
9883 Wh S - 30 MdsMoEAlibabaSemi-ouvert
8603 Wh XS - 3.8 MdsDenseMicrosoftSemi-ouvert
10644 Wh XS - 12 MdsDenseGoogleSemi-ouvert
9874 Wh XS - 8 MdsDenseAlibabaSemi-ouvert
9724 Wh XS - 8 MdsDenseCohereSemi-ouvert
9524 Wh XS - 9 MdsDenseGoogleSemi-ouvert
9324 Wh XS - 8 MdsDenseMetaSemi-ouvert
9254 Wh XS - 7 MdsDenseAlibabaSemi-ouvert
8504 Wh XS - 12 MdsDenseMistral AISemi-ouvert
8174 Wh XS - 14 MdsDensejpacificoSemi-ouvert
7634 Wh XS - 9 MdsDense01-aiSemi-ouvert
7264 Wh XS - 7 MdsDenseAlibabaSemi-ouvert
10105 Wh L - 109 MdsMoEMetaSemi-ouvert
9665 Wh XS - 14 MdsDenseMicrosoftSemi-ouvert
8835 Wh S - 56 MdsMoEMistral AISemi-ouvert
7495 Wh XS - 14 MdsDensejpacificoSemi-ouvert
10836 Wh S - 27 MdsDenseGoogleSemi-ouvert
10606 Wh S - 24 MdsDenseMistral AISemi-ouvert
10486 Wh S - 24 MdsDenseMistral AISemi-ouvert
10056 Wh S - 24 MdsDenseMistral AISemi-ouvert
9856 Wh S - 24 MdsDenseMistral AISemi-ouvert
10187 Wh S - 32 MdsDenseAlibabaSemi-ouvert
9917 Wh S - 32 MdsDenseCohereSemi-ouvert
9477 Wh S - 32 MdsDenseAlibabaSemi-ouvert
8787 Wh S - 32 MdsDenseAi2Open source
9748 Wh L - 230 MdsMoEMiniMaxSemi-ouvert
104412 Wh M - 70 MdsDenseNvidiaSemi-ouvert
98612 Wh M - 70 MdsDenseMetaSemi-ouvert
97712 Wh M - 70 MdsDenseSwiss AIOpen source
97112 Wh M - 70 MdsDenseMetaSemi-ouvert
94412 Wh M - 70 MdsDenseDeepSeekSemi-ouvert
93412 Wh M - 70 MdsDenseNousSemi-ouvert
101215 Wh XL - 400 MdsMoEMetaSemi-ouvert
105518 Wh L - 111 MdsDenseCohereSemi-ouvert
84018 Wh L - 176 MdsMoEMistral AISemi-ouvert
107221 Wh L - 355 MdsMoEZhipuSemi-ouvert
104121 Wh L - 357 MdsMoEZhipuSemi-ouvert
105030 Wh XL - 480 MdsMoEAlibabaSemi-ouvert
109247 Wh XL - 685 MdsMoEDeepSeekSemi-ouvert
108247 Wh XL - 685 MdsMoEDeepSeekSemi-ouvert
107947 Wh XL - 671 MdsMoEDeepSeekSemi-ouvert
107247 Wh XL - 685 MdsMoEDeepSeekSemi-ouvert
105447 Wh XL - 685 MdsMoEDeepSeekSemi-ouvert
102447 Wh XL - 671 MdsMoEDeepSeekSemi-ouvert
112150 Wh XL - 675 MdsMoEMistral AISemi-ouvert
105757 Wh XL - 1000 MdsMoEMoonshot AISemi-ouvert
956238 Wh XL - 405 MdsDenseMetaSemi-ouvert

Comment choisir la méthode de classement des modèles ?

Depuis 2024, des milliers d’utilisateurs ont utilisé compar:IA pour comparer les réponses de différents modèles, générant ainsi des centaines de milliers de votes. Compter simplement le nombre de victoires ne suffit pas pour établir un classement. Un système équitable doit être statistiquement robuste, s’ajuster après chaque confrontation, et refléter réellement la valeur des performances obtenues.

C’est dans cette perspective qu’a été mis en place un classement basé sur le modèle Bradley-Terry, élaboré en collaboration avec les équipes du Pôle d’Expertise de la Régulation numérique (PEReN), à partir de l’ensemble des votes et réactions collectés sur la plateforme. Pour aller plus loin, consultez notre carnet méthodologique.

Deux manières de classer les modèles

Classement par taux de victoire

Définition : Système de classement empirique des modèles reposant sur le pourcentage de parties gagnées par un modèle contre tous les autres modèles.

Problèmes principaux

  • Biais du nombre de parties : un modèle ayant remporté trois victoires sur trois “matchs” affiche un taux de victoire de 100 %, mais ce score est peu significatif étant basé sur très peu de données.
  • Aucune prise en compte de la difficulté des matchs : battre un modèle “débutant” ou un “expert” compte pareil. Les taux de victoire ne sont pas équitables puisqu’ils ne tiennent pas compte de la difficulté des matchs.
  • Stagnation : à long terme, beaucoup de bons modèles finissent autour de 50 % de taux de victoire car ils affrontent des modèles de leur niveau, ce qui rend le classement peu discriminant.

Classement Bradley-Terry (BT)

Définition : Système de classement où le gain ou la perte de points dépend du résultat (victoire/défaite/nul et du niveau estimé de l’adversaire : si un modèle plus faible bat un modèle plus fort, sa progression dans le classement est plus importante.

Avantages

  • Modèle probabiliste : on peut estimer le résultat probable de n'importe quelle confrontation, même entre des modèles n'ayant jamais été directement comparés.
  • Prise en compte de la difficulté des matchs : les scores estimés à partir du modèle Bradley Terry tiennent compte du niveau des adversaires rencontrés, permettant une comparaison équitable entre modèles.
  • Meilleure gestion de l’incertitude : l'intervalle de confiance intègre l'ensemble du réseau de comparaisons. Cela permet une estimation plus précise de l'incertitude, surtout pour les modèles ayant peu de confrontations directes mais beaucoup d'adversaires communs.

Impact du choix de la méthode sur le classement des modèles

10 premiers modèles du classement selon de taux de victoire « empirique »

54%56%58%60%62%64%66%gemini-2.0-flashdeepseek-v3-0324mistral-medium-2508gemini-3-flash-previewmagistral-mediumqwen3-max-2025-09-23gemini-2.5-flashgemma-3-27bmistral-large-2512gemini-3-pro-preview

En se basant uniquement sur le taux de victoire moyen, on peut obtenir un classement global, mais ce calcul suppose que chaque modèle ait joué contre tous les autres.

Cette méthode n'est pas idéale car elle nécessite les données de toutes les combinaisons de modèles et ès qu’on augmente le nombre de modèles, cela devient vite coûteux et lourd à maintenir.

10 premiers modèles du classement selon de taux de victoire estimé avec le modèle Bradley-Terry

54%56%58%60%62%64%66%gemini-3-flash-previewmistral-large-2512mistral-medium-2508gemini-2.5-flashgemini-3-pro-previewqwen3-max-2025-09-23gemini-2.0-flashdeepseek-v3-0324magistral-mediumgemma-3-27b

Le modèle Bradley-Terry transforme un ensemble de comparaisons locales et potentiellement incomplètes en un système de classement global cohérent et statistiquement robuste, là où le taux de victoire empirique reste limité aux observations directes.