230 813 votes
Obj : 300 000 Légende Discutez, votez et aidez-nous à atteindre cet objectif !
Vos votes sont importants : ils alimentent le jeu de données compar:IA mis à disposition librement pour affiner les prochains modèles sur le français.
Ce commun numérique contribue au meilleur respect de la diversité linguistique et culturelle des futurs modèles de langue.

Des votes… au classement des modèles

Merci pour vos contributions !
Le classement compar:IA repose sur l’ensemble des votes et réactions issus de la comparaison à l'aveugle des modèles et collectés depuis l’ouverture du service au public en octobre 2024.
Construit en partenariat avec le Pôle d'Expertise de la Régulation Numérique (PEReN), le classement des modèles est établi en fonction du score de satisfaction calculé à partir du modèle statistique Bradley Terry, méthode largement répandue pour convertir des votes binaires en classement probabiliste.
Le classement compar:IA n’a pas vocation à constituer une recommandation officielle ni à évaluer la performance technique des modèles. Il reflète les préférences subjectives des utilisateurs de la plateforme et non la factualité ou la véracité des réponses.

Total modèles : 114
Total votes : 231 000

Mise à jour le 6/19/2026

Télécharger les données
Des votes… au classement des modèles
Rang Infobulle Rang de classement attribué selon le score de satisfaction Bradley-Terry
Modèle
Score de
satisfaction BT
Infobulle Score statistique estimé selon le modèle Bradley-Terry reflétant la probabilité qu'un modèle soit préféré à un autre. Ce score est calculé à partir de l'ensemble des votes et réactions des utilisateurs. Pour en savoir plus, rendez-vous sur l’onglet méthodologie.
Confiance (±) Infobulle Intervalle indiquant la fiabilité du rang de classement : plus l'intervalle est étroit, plus l'estimation du rang est fiable. Il y a 95% de chances que le vrai rang du modèle soit dans cette plage.
Total votes
Conso. moyenne
(1000 tokens)
Infobulle Mesurée en milliwattheures, l’énergie consommée représente l'électricité utilisée par le modèle pour traiter une requête et générer la réponse correspondante. La consommation énergétique des modèles dépend de leur taille et de leur architecture. Nous prenons le parti d’afficher en grisé non analysés (N/A) les modèles propriétaires pour lesquels nous ne disposons pas d’information transparente sur la taille et l’architecture.
Taille
(paramètres)
Infobulle Taille du modèle en milliards de paramètres, catégorisée selon cinq classes. Pour les modèles propriétaires, cette taille n’est pas communiquée.
Architecture Infobulle L'architecture d'un modèle LLM désigne les principes de conception qui définissent comment les composants d'un réseau de neurones sont agencés et interagissent pour transformer les données d'entrée en sorties prédictives, incluant le mode d'activation des paramètres (dense vs. sparse), la spécialisation des composants et les mécanismes de traitement de l'information (transformers, réseaux convolutifs, architectures hybrides).
Date sortie
Organisation
Licence
1
1176
-25/+01201718 mWh
XL - 428 MdsMoE6/26MiniMaxSemi-ouvert
2
1154
-7/+13430N/AXL - (estimation)Propriétaire12/25GooglePropriétaire
3
1148
-6/+25725N/AL - (estimation)Propriétaire8/25Mistral AIPropriétaire
4
1139
-12/+345114134 mWh
XL - 675 MdsMoE12/25Mistral AISemi-ouvert
5
1136
-12/+43081N/AXL - (estimation)Propriétaire6/25GooglePropriétaire
6
1132
-17/+52342N/AL - (estimation)Propriétaire3/26GooglePropriétaire
7
1132
-13/+64484N/AXL - (estimation)Propriétaire2/26AnthropicPropriétaire
8
1121
-19/+53039N/AXL - (estimation)Propriétaire9/25AlibabaPropriétaire
9
1120
-20/+85881892 mWh
L - 355 MdsMoE7/25ZhipuSemi-ouvert
10
1120
-16/+76362N/AXL - (estimation)Propriétaire12/24GooglePropriétaire
11
1116
-18/+10868N/AXL - (estimation)Propriétaire11/25GooglePropriétaire
12
1115
-17/+9165984 mWh
S - 26 MdsMoE4/26GoogleSemi-ouvert
13
1111
-16/+101689117 mWh
S - 31 MdsDense4/26GoogleSemi-ouvert
14
1108
-15/+92145347 mWh
L - 119 MdsMoE3/26Mistral AISemi-ouvert
15
1108
-15/+121252332 mWh
M - 80 MdsMoE2/26AlibabaSemi-ouvert
16
1107
-13/+1036223979 mWh
XL - 685 MdsMoE3/25DeepSeekSemi-ouvert
17
1106
-12/+112933N/AXL - (estimation)Propriétaire2/26GooglePropriétaire
18
1105
-21/+155991524 mWh
L - 398 MdsMoE4/26ArceeSemi-ouvert
19
1105
-10/+132551N/AL - (estimation)Propriétaire3/26OpenAIPropriétaire
20
1105
-17/+17766N/AL - (estimation)Propriétaire11/25OpenAIPropriétaire
21
1105
-13/+171195N/AL - (estimation)Propriétaire6/25Mistral AIPropriétaire
22
1101
-15/+171120N/AL - (estimation)Propriétaire12/25OpenAIPropriétaire
23
1096
-13/+1437833979 mWh
XL - 671 MdsMoE12/24DeepSeekSemi-ouvert
24
1095
-17/+1711633979 mWh
XL - 685 MdsMoE8/25DeepSeekSemi-ouvert
25
1094
-12/+181556N/AL - (estimation)Propriétaire4/26OpenAIPropriétaire
26
1093
-10/+166466112 mWh
S - 27 MdsDense3/25GoogleSemi-ouvert
27
1092
-21/+224871892 mWh
L - 357 MdsMoE9/25ZhipuSemi-ouvert
28
1092
-14/+21970N/AXL - (estimation)Propriétaire5/26GooglePropriétaire
29
1079
-19/+1910363785 mWh
XL - 1000 MdsMoE4/26Moonshot AISemi-ouvert
30
1078
-15/+124677N/AXL - (estimation)Propriétaire9/25AnthropicPropriétaire
31
1071
-17/+122312N/AS - (estimation)Propriétaire3/26OpenAIPropriétaire
32
1070
-17/+1317673979 mWh
XL - 685 MdsMoE5/25DeepSeekSemi-ouvert
33
1070
-16/+142156N/AXS - (estimation)Propriétaire3/26OpenAIPropriétaire
34
1067
-15/+1221053785 mWh
XL - 1000 MdsMoE1/26Moonshot AISemi-ouvert
35
1064
-13/+9631894 mWh
XS - 12 MdsDense3/25GoogleSemi-ouvert
36
1062
-18/+1612828890 mWh
XL - 1600 MdsMoE4/26DeepSeekSemi-ouvert
37
1061
-12/+104194109 mWh
S - 24 MdsDense6/25Mistral AISemi-ouvert
38
1061
-18/+189693785 mWh
XL - 1000 MdsMoE11/25Moonshot AISemi-ouvert
39
1060
-13/+1324723979 mWh
XL - 685 MdsMoE12/25DeepSeekSemi-ouvert
40
1060
-14/+1513001524 mWh
L - 284 MdsMoE4/26DeepSeekSemi-ouvert
41
1057
-22/+226331951 mWh
XL - 480 MdsMoE7/25AlibabaSemi-ouvert
42
1057
-14/+171251N/AXL - (estimation)Propriétaire4/26AlibabaPropriétaire
43
1056
-11/+152238N/AXL - (estimation)Propriétaire5/25AnthropicPropriétaire
44
1055
-8/+154824857 mWh
L - 111 MdsDense3/25CohereSemi-ouvert
45
1053
-11/+1717823785 mWh
XL - 1000 MdsMoE9/25Moonshot AISemi-ouvert
46
1048
-17/+171454N/AL - (estimation)Propriétaire3/26OpenAIPropriétaire
47
1047
-13/+182736N/AXL - (estimation)Propriétaire2/25AnthropicPropriétaire
48
1042
-16/+152319109 mWh
S - 24 MdsDense6/25Mistral AISemi-ouvert
49
1038
-14/+124920658 mWh
M - 70 MdsDense10/24NvidiaSemi-ouvert
50
1034
-19/+1320881601 mWh
L - 397 MdsMoE2/26AlibabaSemi-ouvert
51
1032
-27/+23456118 mWh
S - 32 MdsDense4/25AlibabaSemi-ouvert
52
1031
-13/+10713784 mWh
XS - 4 MdsDense3/25GoogleSemi-ouvert
53
1025
-20/+1610844095 mWh
XL - 744 MdsMoE4/26ZhipuSemi-ouvert
54
1025
-17/+1523153979 mWh
XL - 671 MdsMoE1/25DeepSeekSemi-ouvert
55
1024
-14/+104968N/AM - (estimation)Propriétaire4/25OpenAIPropriétaire
56
1022
-16/+10431484 mWh
XS - 8 MdsMatformer5/25GoogleSemi-ouvert
57
1019
-16/+123237342 mWh
L - 117 MdsMoE8/25OpenAISemi-ouvert
58
1018
-22/+16923733 mWh
L - 230 MdsMoE10/25MiniMaxSemi-ouvert
59
1017
-17/+1415124095 mWh
XL - 744 MdsMoE2/26ZhipuSemi-ouvert
60
1015
-18/+151600733 mWh
L - 229 MdsMoE2/26MiniMaxSemi-ouvert
61
1015
-17/+151837N/AS - (estimation)Propriétaire8/25OpenAIPropriétaire
62
1014
-17/+16156382 mWh
S - 24 MdsMoE2/26LiquidSemi-ouvert
63
1014
-21/+24502N/AXL - (estimation)Propriétaire5/26AlibabaPropriétaire
64
1010
-12/+1343491601 mWh
XL - 400 MdsMoE4/25MetaSemi-ouvert
65
1009
-12/+145761N/AXL - (estimation)Propriétaire9/24GooglePropriétaire
66
1006
-17/+1712401892 mWh
L - 357 MdsMoE12/25ZhipuSemi-ouvert
67
1005
-16/+161526376 mWh
L - 120 MdsMoE3/26NvidiaSemi-ouvert
68
1004
-15/+181200733 mWh
L - 230 MdsMoE3/26MiniMaxSemi-ouvert
69
1004
-12/+182288166 mWh
S - 35 MdsMoE2/26AlibabaSemi-ouvert
70
995
-13/+163257N/AS - (estimation)Propriétaire2/25Mistral AIPropriétaire
71
995
-12/+181878106 mWh
S - 22 MdsDense12/25EuroLLMSemi-ouvert
72
993
-15/+201358N/AL - (estimation)Propriétaire8/25OpenAIPropriétaire
73
993
-9/+176559400 mWh
L - 109 MdsMoE4/25MetaSemi-ouvert
74
985
-14/+153423109 mWh
S - 24 MdsDense3/25Mistral AISemi-ouvert
75
981
-14/+191542N/AS - (estimation)Propriétaire4/25OpenAIPropriétaire
76
978
-16/+13162881 mWh
XS - 8 MdsMoE10/25LiquidSemi-ouvert
77
972
-16/+1214881524 mWh
L - 398 MdsMoE1/26ArceeSemi-ouvert
78
971
-13/+8403583 mWh
S - 21 MdsMoE8/25OpenAISemi-ouvert
79
970
-17/+1764389 mWh
XS - 8 MdsDense4/26IBMSemi-ouvert
80
969
-15/+14105883 mWh
S - 30 MdsMoE5/25AlibabaSemi-ouvert
81
964
-13/+83252658 mWh
M - 70 MdsDense9/25Swiss AIOpen source
82
962
-12/+93479118 mWh
S - 32 MdsDense12/24CohereSemi-ouvert
83
960
-11/+87402658 mWh
M - 70 MdsDense12/24MetaSemi-ouvert
84
959
-14/+18679112 mWh
S - 27 MdsDense6/24GoogleSemi-ouvert
85
957
-11/+112272109 mWh
S - 24 MdsDense1/25Mistral AISemi-ouvert
86
956
-19/+3020589 mWh
XS - 8 MdsDense7/25AlibabaSemi-ouvert
87
953
-10/+141142N/AS - (estimation)Propriétaire11/24OpenAIPropriétaire
88
951
-8/+124940N/AS - (estimation)Propriétaire7/24OpenAIPropriétaire
89
943
-9/+113959N/AS - (estimation)Propriétaire4/25OpenAIPropriétaire
90
939
-11/+131347N/AXS - (estimation)Propriétaire4/25OpenAIPropriétaire
91
936
-9/+94209N/AXL - (estimation)Propriétaire10/24AnthropicPropriétaire
92
931
-9/+104407658 mWh
M - 70 MdsDense7/24MetaSemi-ouvert
93
931
-10/+1590589 mWh
XS - 8 MdsDense10/24CohereSemi-ouvert
94
923
-9/+8666496 mWh
XS - 14 MdsDense12/24MicrosoftSemi-ouvert
95
922
-8/+103958N/AXL - (estimation)Propriétaire8/24OpenAIPropriétaire
96
917
-6/+879379134 mWh
XL - 405 MdsDense7/24MetaSemi-ouvert
97
907
-6/+7399490 mWh
XS - 9 MdsDense6/24GoogleSemi-ouvert
98
906
-9/+11985118 mWh
S - 32 MdsDense4/25AlibabaSemi-ouvert
99
906
-9/+25142118 mWh
S - 32 MdsDense9/24AlibabaSemi-ouvert
100
901
-5/+102816658 mWh
M - 70 MdsDense8/25NousSemi-ouvert
101
900
-5/+121693658 mWh
M - 70 MdsDense1/25DeepSeekSemi-ouvert
102
893
-4/+748189134 mWh
XL - 405 MdsDense7/24NousSemi-ouvert
103
875
-4/+7131588 mWh
XS - 7 MdsDense9/24AlibabaSemi-ouvert
104
873
-3/+5750289 mWh
XS - 8 MdsDense7/24MetaSemi-ouvert
105
864
-1/+11752118 mWh
S - 32 MdsDense11/25Ai2Open source
106
825
-2/+22297193 mWh
S - 56 MdsMoE12/23Mistral AISemi-ouvert
107
809
-2/+22789N/AS - (estimation)Propriétaire9/24LiquidPropriétaire
108
802
-1/+3238383 mWh
XS - 3.8 MdsDense8/24MicrosoftSemi-ouvert
109
775
-2/+1504694 mWh
XS - 12 MdsDense7/24Mistral AISemi-ouvert
110
759
-2/+243551063 mWh
L - 176 MdsMoE4/24Mistral AISemi-ouvert
111
719
-3/+0138688 mWh
XS - 14 MdsDense2/25jpacificoSemi-ouvert
112
710
-2/+66590 mWh
XS - 9 MdsDense5/2401-aiSemi-ouvert
113
697
-1/+230896 mWh
XS - 14 MdsDense9/24jpacificoSemi-ouvert
114
675
-0/+58088 mWh
XS - 7 MdsDense7/24AlibabaSemi-ouvert

Les modèles les plus appréciés sont-ils économes en énergie ?

Ce graphique représente pour chaque modèle le score de satisfaction (score Bradley Terry) en fonction de l’estimation de la consommation énergétique moyenne pour 1000 tokens. La consommation énergétique est estimée à partir de la méthodologie Ecologits et repose sur la prise en compte de deux paramètres: la taille des modèles (nombre de paramètres) et leur architecture. Pour les modèles propriétaires, ces informations ne sont pas ou que partiellement communiquées. C’est pourquoi ils sont exclus du graphique ci-dessous.

Score de satisfaction Bradley-Terry (BT) VS Consommation moyenne pour 1000 tokens

Sélectionnez un modèle pour connaitre son score Bradley-Terry (BT) et sa consommation énergétique

Score Bradley-Terry (BT)
700750800850900950100010501100115012005001000150020002500300035004000
Consommation moyenne pour 1000 tokens (mWh)
Filtre par consommation énergétique moyenne pour 1000 tokens
Taille (paramètres)
Visibles

Architecture du modèle

  • MoE Infobulle L’architecture Mixture of Experts (MoE) utilise un mécanisme de routage pour n’activer, en fonction de l’entrée, que certains sous-ensembles spécialisés (“experts”) du réseau de neurones. Cela permet de construire des modèles très grands tout en gardant un coût de calcul réduit, car seule une partie du réseau est utilisée à chaque étape.
  • Dense Infobulle L’architecture dense désigne un type de réseau de neurones dans lequel chaque neurone d’une couche est connecté à tous les neurones de la couche suivante. Cela permet à tous les paramètres de la couche de contribuer au calcul de la sortie.
  • Matformer Infobulle Imaginez des poupées russes (matryoshkas → matryoshka transformer → Matformer) : chaque bloc contient plusieurs sous-modèles imbriqués de tailles croissantes, partageant les mêmes paramètres. Cela permet, à chaque requête, de sélectionner un modèle de capacité adaptée, selon la mémoire ou la latence disponibles, sans avoir besoin de ré-entraîner différents modèles.

Comment trouver le bon équilibre entre performance perçue et sobriété énergétique ? Exemples de lecture du graphique

  • Plus un modèle est situé en haut du graphique, plus son score de satisfaction Bradley-Terry est élevé. Plus un modèle est situé sur la gauche du graphique, moins il consomme d’énergie par rapport aux autres modèles.
  • En haut à gauche se trouvent les modèles qui plaisent et qui consomment peu d’énergie par rapport aux autres modèles.
  • Au-delà de la taille, l’architecture a un impact sur la consommation énergétique moyenne des modèles: par exemple, à gabarit similaire, le modèle Llama 3 405B (architecture dense, 405 milliards de paramètres) consomme 10 fois plus d’énergie en moyenne que le modèle GLM 4.5 (architecture MOE, 355 milliards de paramètres et 32 milliards de paramètres actifs).

Pourquoi les modèles propriétaires ne sont-ils pas affichés sur le graphique ?

L’estimation de la consommation énergétique pour l’inférence des modèles repose sur la méthodologie Ecologits qui prend en compte la taille et l’architecture des modèles. Or ces informations ne sont pas rendues publiques par les éditeurs de modèles pour les modèles dits « propriétaires ».

Nous prenons ainsi le parti de ne pas intégrer les modèles propriétaires au graphique tant que les informations contribuant au calcul de consommation énergétique ne sont pas transparentes.

Comment est calculé l’impact énergétique des modèles ?

compar:IA utilise la méthodologie développée par Ecologits (GenAI Impact) pour fournir une estimation du bilan énergétique lié à l’inférence des modèles d’IA générative conversationnelle. Cette estimation permet aux utilisateurs de comparer l'impact environnemental de différents modèles d'IA pour une même requête. Cette transparence est essentielle pour encourager le développement et l'adoption de modèles d'IA plus éco-responsables.

Ecologits applique les principes de l'analyse du cycle de vie (ACV) conformément à la norme ISO 14044 en se concentrant pour le moment sur l'impact de l'inférence (c'est-à-dire l'utilisation des modèles pour répondre aux requêtes) et de la fabrication des cartes graphiques (extraction des ressources, fabrication et transport).

La consommation électrique du modèle est estimée en tenant compte de divers paramètres tels que la taille et l’architecture du modèle d'IA utilisé, la localisation des serveurs où sont déployés les modèles et le nombre de tokens de sortie. Le calcul de l’indicateur de potentiel de réchauffement climatique exprimé en équivalent CO2 est dérivé de la mesure de consommation électrique du modèle.

Il est important de noter que les méthodologies d'évaluation de l'impact environnemental de l'IA sont encore en développement.

Données du graphique en tableau

Mise à jour le 6/19/2026

Télécharger les données
Des votes… au classement des modèles
Modèle
Score de
satisfaction BT
Infobulle Score statistique estimé selon le modèle Bradley-Terry reflétant la probabilité qu'un modèle soit préféré à un autre. Ce score est calculé à partir de l'ensemble des votes et réactions des utilisateurs. Pour en savoir plus, rendez-vous sur l’onglet méthodologie.
Conso. moyenne
(1000 tokens)
Infobulle Mesurée en milliwattheures, l’énergie consommée représente l'électricité utilisée par le modèle pour traiter une requête et générer la réponse correspondante. La consommation énergétique des modèles dépend de leur taille et de leur architecture. Nous prenons le parti d’afficher en grisé non analysés (N/A) les modèles propriétaires pour lesquels nous ne disposons pas d’information transparente sur la taille et l’architecture.
Taille
(paramètres)
Infobulle Taille du modèle en milliards de paramètres, catégorisée selon cinq classes. Pour les modèles propriétaires, cette taille n’est pas communiquée.
Architecture Infobulle L'architecture d'un modèle LLM désigne les principes de conception qui définissent comment les composants d'un réseau de neurones sont agencés et interagissent pour transformer les données d'entrée en sorties prédictives, incluant le mode d'activation des paramètres (dense vs. sparse), la spécialisation des composants et les mécanismes de traitement de l'information (transformers, réseaux convolutifs, architectures hybrides).
Organisation
Licence
97881 mWh XS - 8 MdsMoELiquidSemi-ouvert
101482 mWh S - 24 MdsMoELiquidSemi-ouvert
97183 mWh S - 21 MdsMoEOpenAISemi-ouvert
96983 mWh S - 30 MdsMoEAlibabaSemi-ouvert
80283 mWh XS - 3.8 MdsDenseMicrosoftSemi-ouvert
111584 mWh S - 26 MdsMoEGoogleSemi-ouvert
103184 mWh XS - 4 MdsDenseGoogleSemi-ouvert
102284 mWh XS - 8 MdsMatformerGoogleSemi-ouvert
87588 mWh XS - 7 MdsDenseAlibabaSemi-ouvert
71988 mWh XS - 14 MdsDensejpacificoSemi-ouvert
67588 mWh XS - 7 MdsDenseAlibabaSemi-ouvert
97089 mWh XS - 8 MdsDenseIBMSemi-ouvert
95689 mWh XS - 8 MdsDenseAlibabaSemi-ouvert
93189 mWh XS - 8 MdsDenseCohereSemi-ouvert
87389 mWh XS - 8 MdsDenseMetaSemi-ouvert
90790 mWh XS - 9 MdsDenseGoogleSemi-ouvert
71090 mWh XS - 9 MdsDense01-aiSemi-ouvert
106494 mWh XS - 12 MdsDenseGoogleSemi-ouvert
77594 mWh XS - 12 MdsDenseMistral AISemi-ouvert
92396 mWh XS - 14 MdsDenseMicrosoftSemi-ouvert
69796 mWh XS - 14 MdsDensejpacificoSemi-ouvert
995106 mWh S - 22 MdsDenseEuroLLMSemi-ouvert
1061109 mWh S - 24 MdsDenseMistral AISemi-ouvert
1042109 mWh S - 24 MdsDenseMistral AISemi-ouvert
985109 mWh S - 24 MdsDenseMistral AISemi-ouvert
957109 mWh S - 24 MdsDenseMistral AISemi-ouvert
1093112 mWh S - 27 MdsDenseGoogleSemi-ouvert
959112 mWh S - 27 MdsDenseGoogleSemi-ouvert
1111117 mWh S - 31 MdsDenseGoogleSemi-ouvert
1032118 mWh S - 32 MdsDenseAlibabaSemi-ouvert
962118 mWh S - 32 MdsDenseCohereSemi-ouvert
906118 mWh S - 32 MdsDenseAlibabaSemi-ouvert
906118 mWh S - 32 MdsDenseAlibabaSemi-ouvert
864118 mWh S - 32 MdsDenseAi2Open source
1004166 mWh S - 35 MdsMoEAlibabaSemi-ouvert
825193 mWh S - 56 MdsMoEMistral AISemi-ouvert
1108332 mWh M - 80 MdsMoEAlibabaSemi-ouvert
1019342 mWh L - 117 MdsMoEOpenAISemi-ouvert
1108347 mWh L - 119 MdsMoEMistral AISemi-ouvert
1005376 mWh L - 120 MdsMoENvidiaSemi-ouvert
993400 mWh L - 109 MdsMoEMetaSemi-ouvert
1038658 mWh M - 70 MdsDenseNvidiaSemi-ouvert
964658 mWh M - 70 MdsDenseSwiss AIOpen source
960658 mWh M - 70 MdsDenseMetaSemi-ouvert
931658 mWh M - 70 MdsDenseMetaSemi-ouvert
901658 mWh M - 70 MdsDenseNousSemi-ouvert
900658 mWh M - 70 MdsDenseDeepSeekSemi-ouvert
1018733 mWh L - 230 MdsMoEMiniMaxSemi-ouvert
1015733 mWh L - 229 MdsMoEMiniMaxSemi-ouvert
1004733 mWh L - 230 MdsMoEMiniMaxSemi-ouvert
1055857 mWh L - 111 MdsDenseCohereSemi-ouvert
7591063 mWh L - 176 MdsMoEMistral AISemi-ouvert
11051524 mWh L - 398 MdsMoEArceeSemi-ouvert
10601524 mWh L - 284 MdsMoEDeepSeekSemi-ouvert
9721524 mWh L - 398 MdsMoEArceeSemi-ouvert
10341601 mWh L - 397 MdsMoEAlibabaSemi-ouvert
10101601 mWh XL - 400 MdsMoEMetaSemi-ouvert
11761718 mWh XL - 428 MdsMoEMiniMaxSemi-ouvert
11201892 mWh L - 355 MdsMoEZhipuSemi-ouvert
10921892 mWh L - 357 MdsMoEZhipuSemi-ouvert
10061892 mWh L - 357 MdsMoEZhipuSemi-ouvert
10571951 mWh XL - 480 MdsMoEAlibabaSemi-ouvert
10793785 mWh XL - 1000 MdsMoEMoonshot AISemi-ouvert
10673785 mWh XL - 1000 MdsMoEMoonshot AISemi-ouvert
10613785 mWh XL - 1000 MdsMoEMoonshot AISemi-ouvert
10533785 mWh XL - 1000 MdsMoEMoonshot AISemi-ouvert
11073979 mWh XL - 685 MdsMoEDeepSeekSemi-ouvert
10963979 mWh XL - 671 MdsMoEDeepSeekSemi-ouvert
10953979 mWh XL - 685 MdsMoEDeepSeekSemi-ouvert
10703979 mWh XL - 685 MdsMoEDeepSeekSemi-ouvert
10603979 mWh XL - 685 MdsMoEDeepSeekSemi-ouvert
10253979 mWh XL - 671 MdsMoEDeepSeekSemi-ouvert
10254095 mWh XL - 744 MdsMoEZhipuSemi-ouvert
10174095 mWh XL - 744 MdsMoEZhipuSemi-ouvert
11394134 mWh XL - 675 MdsMoEMistral AISemi-ouvert
10628890 mWh XL - 1600 MdsMoEDeepSeekSemi-ouvert
9179134 mWh XL - 405 MdsDenseMetaSemi-ouvert
8939134 mWh XL - 405 MdsDenseNousSemi-ouvert

Comment choisir la méthode de classement des modèles ?

Depuis 2024, des milliers d’utilisateurs ont utilisé compar:IA pour comparer les réponses de différents modèles, générant ainsi des centaines de milliers de votes. Compter simplement le nombre de victoires ne suffit pas pour établir un classement. Un système équitable doit être statistiquement robuste, s’ajuster après chaque confrontation, et refléter réellement la valeur des performances obtenues.

C’est dans cette perspective qu’a été mis en place un classement basé sur le modèle Bradley-Terry, élaboré en collaboration avec les équipes du Pôle d’Expertise de la Régulation numérique (PEReN), à partir de l’ensemble des votes et réactions collectés sur la plateforme. Pour aller plus loin, consultez notre carnet méthodologique.

Deux manières de classer les modèles

Classement par taux de victoire

Définition : Système de classement empirique des modèles reposant sur le pourcentage de parties gagnées par un modèle contre tous les autres modèles.

Problèmes principaux

  • Biais du nombre de parties : un modèle ayant remporté trois victoires sur trois “matchs” affiche un taux de victoire de 100 %, mais ce score est peu significatif étant basé sur très peu de données.
  • Aucune prise en compte de la difficulté des matchs : battre un modèle “débutant” ou un “expert” compte pareil. Les taux de victoire ne sont pas équitables puisqu’ils ne tiennent pas compte de la difficulté des matchs.
  • Stagnation : à long terme, beaucoup de bons modèles finissent autour de 50 % de taux de victoire car ils affrontent des modèles de leur niveau, ce qui rend le classement peu discriminant.

Classement Bradley-Terry (BT)

Définition : Système de classement où le gain ou la perte de points dépend du résultat (victoire/défaite/nul et du niveau estimé de l’adversaire : si un modèle plus faible bat un modèle plus fort, sa progression dans le classement est plus importante.

Avantages

  • Modèle probabiliste : on peut estimer le résultat probable de n'importe quelle confrontation, même entre des modèles n'ayant jamais été directement comparés.
  • Prise en compte de la difficulté des matchs : les scores estimés à partir du modèle Bradley Terry tiennent compte du niveau des adversaires rencontrés, permettant une comparaison équitable entre modèles.
  • Meilleure gestion de l’incertitude : l'intervalle de confiance intègre l'ensemble du réseau de comparaisons. Cela permet une estimation plus précise de l'incertitude, surtout pour les modèles ayant peu de confrontations directes mais beaucoup d'adversaires communs.

Impact du choix de la méthode sur le classement des modèles

10 premiers modèles du classement selon de taux de victoire « empirique »

58%60%62%64%66%68%70%72%gemini-2.0-flashminimax-m3mistral-medium-2508gemini-2.5-flashgemini-3-flash-previewglm-4.5qwen3-max-2025-09-23gemini-3.1-flash-lite-previewmistral-large-2512claude-4-6-sonnet

En se basant uniquement sur le taux de victoire moyen, on peut obtenir un classement global, mais ce calcul suppose que chaque modèle ait joué contre tous les autres.

Cette méthode n'est pas idéale car elle nécessite les données de toutes les combinaisons de modèles et ès qu’on augmente le nombre de modèles, cela devient vite coûteux et lourd à maintenir.

10 premiers modèles du classement selon de taux de victoire estimé avec le modèle Bradley-Terry

58%60%62%64%66%68%70%72%minimax-m3gemini-3-flash-previewmistral-medium-2508mistral-large-2512gemini-2.5-flashgemini-3.1-flash-lite-previewclaude-4-6-sonnetqwen3-max-2025-09-23glm-4.5gemini-2.0-flash

Le modèle Bradley-Terry transforme un ensemble de comparaisons locales et potentiellement incomplètes en un système de classement global cohérent et statistiquement robuste, là où le taux de victoire empirique reste limité aux observations directes.