264 503 votes
Obj : 300 000 Légende Discutez, votez et aidez-nous à atteindre cet objectif !
Vos votes sont importants : ils alimentent le jeu de données compar:IA mis à disposition librement pour affiner les prochains modèles sur le français.
Ce commun numérique contribue au meilleur respect de la diversité linguistique et culturelle des futurs modèles de langue.

Des votes… au classement des modèles

Merci pour vos contributions !
Le classement compar:IA repose sur l’ensemble des votes et réactions issus de la comparaison à l'aveugle des modèles et collectés depuis l’ouverture du service au public en octobre 2024.
Construit en partenariat avec le Pôle d'Expertise de la Régulation Numérique (PEReN), le classement des modèles est établi en fonction du score de satisfaction calculé à partir du modèle statistique Bradley Terry, méthode largement répandue pour convertir des votes binaires en classement probabiliste.
Le classement compar:IA n’a pas vocation à constituer une recommandation officielle ni à évaluer la performance technique des modèles. Il reflète les préférences subjectives des utilisateurs de la plateforme et non la factualité ou la véracité des réponses.

Total modèles : 105
Total votes : 265 000

Mise à jour le 5/14/2026

Télécharger les données
Des votes… au classement des modèles
Rang Infobulle Rang de classement attribué selon le score de satisfaction Bradley-Terry
Modèle
Score de
satisfaction BT
Infobulle Score statistique estimé selon le modèle Bradley-Terry reflétant la probabilité qu'un modèle soit préféré à un autre. Ce score est calculé à partir de l'ensemble des votes et réactions des utilisateurs. Pour en savoir plus, rendez-vous sur l’onglet méthodologie.
Confiance (±) Infobulle Intervalle indiquant la fiabilité du rang de classement : plus l'intervalle est étroit, plus l'estimation du rang est fiable. Il y a 95% de chances que le vrai rang du modèle soit dans cette plage.
Total votes
Conso. moyenne
(1000 tokens)
Infobulle Mesurée en milliwattheures, l’énergie consommée représente l'électricité utilisée par le modèle pour traiter une requête et générer la réponse correspondante. La consommation énergétique des modèles dépend de leur taille et de leur architecture. Nous prenons le parti d’afficher en grisé non analysés (N/A) les modèles propriétaires pour lesquels nous ne disposons pas d’information transparente sur la taille et l’architecture.
Taille
(paramètres)
Infobulle Taille du modèle en milliards de paramètres, catégorisée selon cinq classes. Pour les modèles propriétaires, cette taille n’est pas communiquée.
Architecture Infobulle L'architecture d'un modèle LLM désigne les principes de conception qui définissent comment les composants d'un réseau de neurones sont agencés et interagissent pour transformer les données d'entrée en sorties prédictives, incluant le mode d'activation des paramètres (dense vs. sparse), la spécialisation des composants et les mécanismes de traitement de l'information (transformers, réseaux convolutifs, architectures hybrides).
Date sortie
Organisation
Licence
1
1142
-9/+02729N/AXL - (estimation)Propriétaire12/25GooglePropriétaire
2
1138
-12/+12122N/AXL - (estimation)Propriétaire2/26GooglePropriétaire
3
1130
-11/+26447N/AL - (estimation)Propriétaire8/25Mistral AIPropriétaire
4
1128
-14/+31374N/AL - (estimation)Propriétaire3/26GooglePropriétaire
5
1124
-10/+451284134 mWh
XL - 675 MdsMoE12/25Mistral AISemi-ouvert
6
1118
-19/+5954347 mWh
L - 119 MdsMoE3/26Mistral AISemi-ouvert
7
1115
-14/+54210N/AXL - (estimation)Propriétaire6/25GooglePropriétaire
8
1112
-18/+71380N/AXL - (estimation)Propriétaire11/25GooglePropriétaire
9
1109
-24/+8307N/AL - (estimation)Propriétaire4/26OpenAIPropriétaire
10
1105
-22/+9605117 mWh
S - 31 MdsDense4/26GoogleSemi-ouvert
11
1101
-20/+99781892 mWh
L - 355 MdsMoE7/25ZhipuSemi-ouvert
12
1101
-23/+1059384 mWh
S - 26 MdsMoE4/26GoogleSemi-ouvert
13
1101
-14/+84247N/AXL - (estimation)Propriétaire9/25AlibabaPropriétaire
14
1099
-16/+92149N/AL - (estimation)Propriétaire3/26OpenAIPropriétaire
15
1098
-12/+99189N/AXL - (estimation)Propriétaire12/24GooglePropriétaire
16
1096
-16/+111441N/AL - (estimation)Propriétaire12/25OpenAIPropriétaire
17
1096
-16/+13948N/AL - (estimation)Propriétaire11/25OpenAIPropriétaire
18
1093
-11/+1250753979 mWh
XL - 685 MdsMoE3/25DeepSeekSemi-ouvert
19
1090
-11/+134642N/AXL - (estimation)Propriétaire2/26AnthropicPropriétaire
20
1090
-12/+151770N/AL - (estimation)Propriétaire6/25Mistral AIPropriétaire
21
1085
-20/+171152332 mWh
M - 80 MdsMoE2/26AlibabaSemi-ouvert
22
1082
-16/+1716683979 mWh
XL - 685 MdsMoE8/25DeepSeekSemi-ouvert
23
1079
-10/+148979112 mWh
S - 27 MdsDense3/25GoogleSemi-ouvert
24
1076
-27/+197001892 mWh
L - 357 MdsMoE9/25ZhipuSemi-ouvert
25
1076
-10/+168208N/AXL - (estimation)Propriétaire9/25AnthropicPropriétaire
26
1059
-29/+122102N/AXL - (estimation)Propriétaire9/25xAIPropriétaire
27
1059
-28/+1513393785 mWh
XL - 1000 MdsMoE1/26Moonshot AISemi-ouvert
28
1059
-26/+112610342 mWh
L - 117 MdsMoE8/25OpenAISemi-ouvert
29
1059
-27/+199973785 mWh
XL - 1000 MdsMoE11/25Moonshot AISemi-ouvert
30
1056
-23/+9864994 mWh
XS - 12 MdsDense3/25GoogleSemi-ouvert
31
1056
-22/+116057109 mWh
S - 24 MdsDense6/25Mistral AISemi-ouvert
32
1056
-22/+1264843979 mWh
XL - 671 MdsMoE12/24DeepSeekSemi-ouvert
33
1052
-25/+141680N/AL - (estimation)Propriétaire4/25xAIPropriétaire
34
1051
-22/+1224833785 mWh
XL - 1000 MdsMoE9/25Moonshot AISemi-ouvert
35
1050
-21/+133361N/AXL - (estimation)Propriétaire5/25AnthropicPropriétaire
36
1049
-19/+147119857 mWh
L - 111 MdsDense3/25CohereSemi-ouvert
37
1049
-21/+1815491601 mWh
L - 397 MdsMoE2/26AlibabaSemi-ouvert
38
1049
-19/+1717783979 mWh
XL - 685 MdsMoE5/25DeepSeekSemi-ouvert
39
1048
-22/+229081951 mWh
XL - 480 MdsMoE7/25AlibabaSemi-ouvert
40
1048
-16/+183992N/AXL - (estimation)Propriétaire2/25AnthropicPropriétaire
41
1047
-19/+201509N/AL - (estimation)Propriétaire3/26OpenAIPropriétaire
42
1045
-15/+2128163979 mWh
XL - 685 MdsMoE12/25DeepSeekSemi-ouvert
43
1040
-16/+223429109 mWh
S - 24 MdsDense6/25Mistral AISemi-ouvert
44
1037
-18/+2311544095 mWh
XL - 744 MdsMoE2/26ZhipuSemi-ouvert
45
1036
-16/+232311166 mWh
S - 35 MdsMoE2/26AlibabaSemi-ouvert
46
1034
-15/+202465N/AXL - (estimation)Propriétaire11/25xAIPropriétaire
47
1032
-22/+27651376 mWh
L - 120 MdsMoE3/26NvidiaSemi-ouvert
48
1031
-18/+28905N/AXS - (estimation)Propriétaire3/26OpenAIPropriétaire
49
1029
-18/+281083118 mWh
S - 32 MdsDense4/25AlibabaSemi-ouvert
50
1028
-12/+2036373979 mWh
XL - 671 MdsMoE1/25DeepSeekSemi-ouvert
51
1025
-10/+167364658 mWh
M - 70 MdsDense10/24NvidiaSemi-ouvert
52
1025
-9/+167014N/AM - (estimation)Propriétaire4/25OpenAIPropriétaire
53
1025
-16/+2611601892 mWh
L - 357 MdsMoE12/25ZhipuSemi-ouvert
54
1021
-8/+13982084 mWh
XS - 4 MdsDense3/25GoogleSemi-ouvert
55
1020
-10/+16566784 mWh
XS - 8 MdsMatformer5/25GoogleSemi-ouvert
56
1017
-13/+192336N/AS - (estimation)Propriétaire8/25OpenAIPropriétaire
57
1004
-13/+118284N/AXL - (estimation)Propriétaire9/24GooglePropriétaire
58
997
-18/+181236733 mWh
L - 229 MdsMoE2/26MiniMaxSemi-ouvert
59
996
-14/+114766N/AS - (estimation)Propriétaire2/25Mistral AIPropriétaire
60
995
-16/+131737N/AL - (estimation)Propriétaire8/25OpenAIPropriétaire
61
994
-16/+161412106 mWh
S - 22 MdsDense12/25EuroLLMSemi-ouvert
62
993
-13/+1143651601 mWh
XL - 400 MdsMoE4/25MetaSemi-ouvert
63
992
-12/+124782109 mWh
S - 24 MdsDense3/25Mistral AISemi-ouvert
64
991
-12/+152621N/AS - (estimation)Propriétaire4/25OpenAIPropriétaire
65
991
-9/+137410400 mWh
L - 109 MdsMoE4/25MetaSemi-ouvert
66
990
-14/+21963733 mWh
L - 230 MdsMoE10/25MiniMaxSemi-ouvert
67
982
-12/+13329983 mWh
S - 21 MdsMoE8/25OpenAISemi-ouvert
68
981
-20/+2538382 mWh
S - 24 MdsMoE2/26LiquidSemi-ouvert
69
977
-15/+16151483 mWh
S - 30 MdsMoE5/25AlibabaSemi-ouvert
70
974
-14/+1613991524 mWh
L - 398 MdsMoE1/26ArceeSemi-ouvert
71
971
-13/+16214881 mWh
XS - 8 MdsMoE10/25LiquidSemi-ouvert
72
967
-17/+18870112 mWh
S - 27 MdsDense6/24GoogleSemi-ouvert
73
965
-11/+910408658 mWh
M - 70 MdsDense12/24MetaSemi-ouvert
74
965
-10/+124995118 mWh
S - 32 MdsDense12/24CohereSemi-ouvert
75
962
-13/+171643N/AS - (estimation)Propriétaire11/24OpenAIPropriétaire
76
961
-10/+123670109 mWh
S - 24 MdsDense1/25Mistral AISemi-ouvert
77
958
-8/+107517N/AS - (estimation)Propriétaire7/24OpenAIPropriétaire
78
958
-18/+2628989 mWh
XS - 8 MdsDense7/25AlibabaSemi-ouvert
79
953
-9/+115661N/AS - (estimation)Propriétaire4/25OpenAIPropriétaire
80
953
-8/+126453N/AXL - (estimation)Propriétaire10/24AnthropicPropriétaire
81
949
-9/+133096658 mWh
M - 70 MdsDense9/25Swiss AIOpen source
82
942
-12/+141630N/AXS - (estimation)Propriétaire4/25OpenAIPropriétaire
83
941
-10/+96237658 mWh
M - 70 MdsDense7/24MetaSemi-ouvert
84
938
-9/+96322N/AXL - (estimation)Propriétaire8/24OpenAIPropriétaire
85
934
-8/+61033196 mWh
XS - 14 MdsDense12/24MicrosoftSemi-ouvert
86
930
-10/+121505118 mWh
S - 32 MdsDense4/25AlibabaSemi-ouvert
87
928
-7/+7112369134 mWh
XL - 405 MdsDense7/24MetaSemi-ouvert
88
922
-6/+11154989 mWh
XS - 8 MdsDense10/24CohereSemi-ouvert
89
917
-5/+8571690 mWh
XS - 9 MdsDense6/24GoogleSemi-ouvert
90
916
-8/+203243096 mWh
XL - 400 MdsMoE8/24AI21Semi-ouvert
91
915
-4/+132770658 mWh
M - 70 MdsDense1/25DeepSeekSemi-ouvert
92
912
-3/+1074199134 mWh
XL - 405 MdsDense7/24NousSemi-ouvert
93
904
-4/+93702658 mWh
M - 70 MdsDense8/25NousSemi-ouvert
94
890
-2/+61082389 mWh
XS - 8 MdsDense7/24MetaSemi-ouvert
95
886
-1/+9179088 mWh
XS - 7 MdsDense9/24AlibabaSemi-ouvert
96
861
-3/+6765118 mWh
S - 32 MdsDense11/25Ai2Open source
97
851
-1/+22985193 mWh
S - 56 MdsMoE12/23Mistral AISemi-ouvert
98
843
-1/+34219N/AS - (estimation)Propriétaire9/24LiquidPropriétaire
99
821
-3/+2286383 mWh
XS - 3.8 MdsDense8/24MicrosoftSemi-ouvert
100
810
-2/+1718294 mWh
XS - 12 MdsDense7/24Mistral AISemi-ouvert
101
803
-1/+263681063 mWh
L - 176 MdsMoE4/24Mistral AISemi-ouvert
102
772
-3/+0210288 mWh
XS - 14 MdsDense2/25jpacificoSemi-ouvert
103
730
-2/+46590 mWh
XS - 9 MdsDense5/2401-aiSemi-ouvert
104
711
-1/+231096 mWh
XS - 14 MdsDense9/24jpacificoSemi-ouvert
105
693
-0/+38188 mWh
XS - 7 MdsDense7/24AlibabaSemi-ouvert

Les modèles les plus appréciés sont-ils économes en énergie ?

Ce graphique représente pour chaque modèle le score de satisfaction (score Bradley Terry) en fonction de l’estimation de la consommation énergétique moyenne pour 1000 tokens. La consommation énergétique est estimée à partir de la méthodologie Ecologits et repose sur la prise en compte de deux paramètres: la taille des modèles (nombre de paramètres) et leur architecture. Pour les modèles propriétaires, ces informations ne sont pas ou que partiellement communiquées. C’est pourquoi ils sont exclus du graphique ci-dessous.

Score de satisfaction Bradley-Terry (BT) VS Consommation moyenne pour 1000 tokens

Sélectionnez un modèle pour connaitre son score Bradley-Terry (BT) et sa consommation énergétique

Score Bradley-Terry (BT)
70075080085090095010001050110011505001000150020002500300035004000
Consommation moyenne pour 1000 tokens (mWh)
Filtre par consommation énergétique moyenne pour 1000 tokens
Taille (paramètres)

Architecture du modèle

  • MoE Infobulle L’architecture Mixture of Experts (MoE) utilise un mécanisme de routage pour n’activer, en fonction de l’entrée, que certains sous-ensembles spécialisés (“experts”) du réseau de neurones. Cela permet de construire des modèles très grands tout en gardant un coût de calcul réduit, car seule une partie du réseau est utilisée à chaque étape.
  • Dense Infobulle L’architecture dense désigne un type de réseau de neurones dans lequel chaque neurone d’une couche est connecté à tous les neurones de la couche suivante. Cela permet à tous les paramètres de la couche de contribuer au calcul de la sortie.
  • Matformer Infobulle Imaginez des poupées russes (matryoshkas → matryoshka transformer → Matformer) : chaque bloc contient plusieurs sous-modèles imbriqués de tailles croissantes, partageant les mêmes paramètres. Cela permet, à chaque requête, de sélectionner un modèle de capacité adaptée, selon la mémoire ou la latence disponibles, sans avoir besoin de ré-entraîner différents modèles.

Comment trouver le bon équilibre entre performance perçue et sobriété énergétique ? Exemples de lecture du graphique

  • Plus un modèle est situé en haut du graphique, plus son score de satisfaction Bradley-Terry est élevé. Plus un modèle est situé sur la gauche du graphique, moins il consomme d’énergie par rapport aux autres modèles.
  • En haut à gauche se trouvent les modèles qui plaisent et qui consomment peu d’énergie par rapport aux autres modèles.
  • Au-delà de la taille, l’architecture a un impact sur la consommation énergétique moyenne des modèles: par exemple, à gabarit similaire, le modèle Llama 3 405B (architecture dense, 405 milliards de paramètres) consomme 10 fois plus d’énergie en moyenne que le modèle GLM 4.5 (architecture MOE, 355 milliards de paramètres et 32 milliards de paramètres actifs).

Pourquoi les modèles propriétaires ne sont-ils pas affichés sur le graphique ?

L’estimation de la consommation énergétique pour l’inférence des modèles repose sur la méthodologie Ecologits qui prend en compte la taille et l’architecture des modèles. Or ces informations ne sont pas rendues publiques par les éditeurs de modèles pour les modèles dits « propriétaires ».

Nous prenons ainsi le parti de ne pas intégrer les modèles propriétaires au graphique tant que les informations contribuant au calcul de consommation énergétique ne sont pas transparentes.

Comment est calculé l’impact énergétique des modèles ?

compar:IA utilise la méthodologie développée par Ecologits (GenAI Impact) pour fournir une estimation du bilan énergétique lié à l’inférence des modèles d’IA générative conversationnelle. Cette estimation permet aux utilisateurs de comparer l'impact environnemental de différents modèles d'IA pour une même requête. Cette transparence est essentielle pour encourager le développement et l'adoption de modèles d'IA plus éco-responsables.

Ecologits applique les principes de l'analyse du cycle de vie (ACV) conformément à la norme ISO 14044 en se concentrant pour le moment sur l'impact de l'inférence (c'est-à-dire l'utilisation des modèles pour répondre aux requêtes) et de la fabrication des cartes graphiques (extraction des ressources, fabrication et transport).

La consommation électrique du modèle est estimée en tenant compte de divers paramètres tels que la taille et l’architecture du modèle d'IA utilisé, la localisation des serveurs où sont déployés les modèles et le nombre de tokens de sortie. Le calcul de l’indicateur de potentiel de réchauffement climatique exprimé en équivalent CO2 est dérivé de la mesure de consommation électrique du modèle.

Il est important de noter que les méthodologies d'évaluation de l'impact environnemental de l'IA sont encore en développement.

Données du graphique en tableau

Mise à jour le 5/14/2026

Télécharger les données
Des votes… au classement des modèles
Modèle
Score de
satisfaction BT
Infobulle Score statistique estimé selon le modèle Bradley-Terry reflétant la probabilité qu'un modèle soit préféré à un autre. Ce score est calculé à partir de l'ensemble des votes et réactions des utilisateurs. Pour en savoir plus, rendez-vous sur l’onglet méthodologie.
Conso. moyenne
(1000 tokens)
Infobulle Mesurée en milliwattheures, l’énergie consommée représente l'électricité utilisée par le modèle pour traiter une requête et générer la réponse correspondante. La consommation énergétique des modèles dépend de leur taille et de leur architecture. Nous prenons le parti d’afficher en grisé non analysés (N/A) les modèles propriétaires pour lesquels nous ne disposons pas d’information transparente sur la taille et l’architecture.
Taille
(paramètres)
Infobulle Taille du modèle en milliards de paramètres, catégorisée selon cinq classes. Pour les modèles propriétaires, cette taille n’est pas communiquée.
Architecture Infobulle L'architecture d'un modèle LLM désigne les principes de conception qui définissent comment les composants d'un réseau de neurones sont agencés et interagissent pour transformer les données d'entrée en sorties prédictives, incluant le mode d'activation des paramètres (dense vs. sparse), la spécialisation des composants et les mécanismes de traitement de l'information (transformers, réseaux convolutifs, architectures hybrides).
Organisation
Licence
97181 mWh XS - 8 MdsMoELiquidSemi-ouvert
98182 mWh S - 24 MdsMoELiquidSemi-ouvert
98283 mWh S - 21 MdsMoEOpenAISemi-ouvert
97783 mWh S - 30 MdsMoEAlibabaSemi-ouvert
82183 mWh XS - 3.8 MdsDenseMicrosoftSemi-ouvert
110184 mWh S - 26 MdsMoEGoogleSemi-ouvert
102184 mWh XS - 4 MdsDenseGoogleSemi-ouvert
102084 mWh XS - 8 MdsMatformerGoogleSemi-ouvert
88688 mWh XS - 7 MdsDenseAlibabaSemi-ouvert
77288 mWh XS - 14 MdsDensejpacificoSemi-ouvert
69388 mWh XS - 7 MdsDenseAlibabaSemi-ouvert
95889 mWh XS - 8 MdsDenseAlibabaSemi-ouvert
92289 mWh XS - 8 MdsDenseCohereSemi-ouvert
89089 mWh XS - 8 MdsDenseMetaSemi-ouvert
91790 mWh XS - 9 MdsDenseGoogleSemi-ouvert
73090 mWh XS - 9 MdsDense01-aiSemi-ouvert
105694 mWh XS - 12 MdsDenseGoogleSemi-ouvert
81094 mWh XS - 12 MdsDenseMistral AISemi-ouvert
93496 mWh XS - 14 MdsDenseMicrosoftSemi-ouvert
71196 mWh XS - 14 MdsDensejpacificoSemi-ouvert
994106 mWh S - 22 MdsDenseEuroLLMSemi-ouvert
1056109 mWh S - 24 MdsDenseMistral AISemi-ouvert
1040109 mWh S - 24 MdsDenseMistral AISemi-ouvert
992109 mWh S - 24 MdsDenseMistral AISemi-ouvert
961109 mWh S - 24 MdsDenseMistral AISemi-ouvert
1079112 mWh S - 27 MdsDenseGoogleSemi-ouvert
967112 mWh S - 27 MdsDenseGoogleSemi-ouvert
1105117 mWh S - 31 MdsDenseGoogleSemi-ouvert
1029118 mWh S - 32 MdsDenseAlibabaSemi-ouvert
965118 mWh S - 32 MdsDenseCohereSemi-ouvert
930118 mWh S - 32 MdsDenseAlibabaSemi-ouvert
861118 mWh S - 32 MdsDenseAi2Open source
1036166 mWh S - 35 MdsMoEAlibabaSemi-ouvert
851193 mWh S - 56 MdsMoEMistral AISemi-ouvert
1085332 mWh M - 80 MdsMoEAlibabaSemi-ouvert
1059342 mWh L - 117 MdsMoEOpenAISemi-ouvert
1118347 mWh L - 119 MdsMoEMistral AISemi-ouvert
1032376 mWh L - 120 MdsMoENvidiaSemi-ouvert
991400 mWh L - 109 MdsMoEMetaSemi-ouvert
1025658 mWh M - 70 MdsDenseNvidiaSemi-ouvert
965658 mWh M - 70 MdsDenseMetaSemi-ouvert
949658 mWh M - 70 MdsDenseSwiss AIOpen source
941658 mWh M - 70 MdsDenseMetaSemi-ouvert
915658 mWh M - 70 MdsDenseDeepSeekSemi-ouvert
904658 mWh M - 70 MdsDenseNousSemi-ouvert
997733 mWh L - 229 MdsMoEMiniMaxSemi-ouvert
990733 mWh L - 230 MdsMoEMiniMaxSemi-ouvert
1049857 mWh L - 111 MdsDenseCohereSemi-ouvert
8031063 mWh L - 176 MdsMoEMistral AISemi-ouvert
9741524 mWh L - 398 MdsMoEArceeSemi-ouvert
10491601 mWh L - 397 MdsMoEAlibabaSemi-ouvert
9931601 mWh XL - 400 MdsMoEMetaSemi-ouvert
11011892 mWh L - 355 MdsMoEZhipuSemi-ouvert
10761892 mWh L - 357 MdsMoEZhipuSemi-ouvert
10251892 mWh L - 357 MdsMoEZhipuSemi-ouvert
10481951 mWh XL - 480 MdsMoEAlibabaSemi-ouvert
9163096 mWh XL - 400 MdsMoEAI21Semi-ouvert
10593785 mWh XL - 1000 MdsMoEMoonshot AISemi-ouvert
10593785 mWh XL - 1000 MdsMoEMoonshot AISemi-ouvert
10513785 mWh XL - 1000 MdsMoEMoonshot AISemi-ouvert
10933979 mWh XL - 685 MdsMoEDeepSeekSemi-ouvert
10823979 mWh XL - 685 MdsMoEDeepSeekSemi-ouvert
10563979 mWh XL - 671 MdsMoEDeepSeekSemi-ouvert
10493979 mWh XL - 685 MdsMoEDeepSeekSemi-ouvert
10453979 mWh XL - 685 MdsMoEDeepSeekSemi-ouvert
10283979 mWh XL - 671 MdsMoEDeepSeekSemi-ouvert
10374095 mWh XL - 744 MdsMoEZhipuSemi-ouvert
11244134 mWh XL - 675 MdsMoEMistral AISemi-ouvert
9289134 mWh XL - 405 MdsDenseMetaSemi-ouvert
9129134 mWh XL - 405 MdsDenseNousSemi-ouvert

Comment choisir la méthode de classement des modèles ?

Depuis 2024, des milliers d’utilisateurs ont utilisé compar:IA pour comparer les réponses de différents modèles, générant ainsi des centaines de milliers de votes. Compter simplement le nombre de victoires ne suffit pas pour établir un classement. Un système équitable doit être statistiquement robuste, s’ajuster après chaque confrontation, et refléter réellement la valeur des performances obtenues.

C’est dans cette perspective qu’a été mis en place un classement basé sur le modèle Bradley-Terry, élaboré en collaboration avec les équipes du Pôle d’Expertise de la Régulation numérique (PEReN), à partir de l’ensemble des votes et réactions collectés sur la plateforme. Pour aller plus loin, consultez notre carnet méthodologique.

Deux manières de classer les modèles

Classement par taux de victoire

Définition : Système de classement empirique des modèles reposant sur le pourcentage de parties gagnées par un modèle contre tous les autres modèles.

Problèmes principaux

  • Biais du nombre de parties : un modèle ayant remporté trois victoires sur trois “matchs” affiche un taux de victoire de 100 %, mais ce score est peu significatif étant basé sur très peu de données.
  • Aucune prise en compte de la difficulté des matchs : battre un modèle “débutant” ou un “expert” compte pareil. Les taux de victoire ne sont pas équitables puisqu’ils ne tiennent pas compte de la difficulté des matchs.
  • Stagnation : à long terme, beaucoup de bons modèles finissent autour de 50 % de taux de victoire car ils affrontent des modèles de leur niveau, ce qui rend le classement peu discriminant.

Classement Bradley-Terry (BT)

Définition : Système de classement où le gain ou la perte de points dépend du résultat (victoire/défaite/nul et du niveau estimé de l’adversaire : si un modèle plus faible bat un modèle plus fort, sa progression dans le classement est plus importante.

Avantages

  • Modèle probabiliste : on peut estimer le résultat probable de n'importe quelle confrontation, même entre des modèles n'ayant jamais été directement comparés.
  • Prise en compte de la difficulté des matchs : les scores estimés à partir du modèle Bradley Terry tiennent compte du niveau des adversaires rencontrés, permettant une comparaison équitable entre modèles.
  • Meilleure gestion de l’incertitude : l'intervalle de confiance intègre l'ensemble du réseau de comparaisons. Cela permet une estimation plus précise de l'incertitude, surtout pour les modèles ayant peu de confrontations directes mais beaucoup d'adversaires communs.

Impact du choix de la méthode sur le classement des modèles

10 premiers modèles du classement selon de taux de victoire « empirique »

56%58%60%62%64%66%68%mistral-medium-2508gemini-2.5-flashgemini-3-flash-previewgemini-3.1-flash-lite-previewgemini-3.1-pro-previewmistral-large-2512mistral-small-2603gemma-4-31b-itgemini-3-pro-previewgpt-5.5

En se basant uniquement sur le taux de victoire moyen, on peut obtenir un classement global, mais ce calcul suppose que chaque modèle ait joué contre tous les autres.

Cette méthode n'est pas idéale car elle nécessite les données de toutes les combinaisons de modèles et ès qu’on augmente le nombre de modèles, cela devient vite coûteux et lourd à maintenir.

10 premiers modèles du classement selon de taux de victoire estimé avec le modèle Bradley-Terry

56%58%60%62%64%66%68%gemini-3-flash-previewgemini-3.1-pro-previewmistral-medium-2508gemini-3.1-flash-lite-previewmistral-large-2512mistral-small-2603gemini-2.5-flashgemini-3-pro-previewgpt-5.5gemma-4-31b-it

Le modèle Bradley-Terry transforme un ensemble de comparaisons locales et potentiellement incomplètes en un système de classement global cohérent et statistiquement robuste, là où le taux de victoire empirique reste limité aux observations directes.