Des votes… au classement des modèles

Merci pour vos contributions !
Le classement compar:IA repose sur l’ensemble des votes et réactions collectés depuis l’ouverture du service au public en octobre 2024.
Construit en partenariat avec le Pôle d'Expertise de la Régulation Numérique (PEReN), le classement des modèles est établi en fonction du score de satisfaction calculé à partir du modèle statistique Bradley Terry, méthode largement répandue pour convertir des votes binaires en classement probabiliste.
Le classement compar:IA n’a pas vocation à constituer une recommandation officielle ni à évaluer la performance technique des modèles. Il reflète les préférences subjectives des utilisateurs de la plateforme et non la factualité ou la véracité des réponses.

Des votes… au classement des modèles
Rang Infobulle	Modèle	Score de satisfaction BT Infobulle	Confiance (±) Infobulle	Total votes	Conso. moyenne (1000 tokens) Infobulle	Taille (paramètres) Infobulle	Architecture Infobulle	Date sortie	Organisation	Licence
1	mistral-medium-3.1	1154	-0/+0	912	N/A	M - (estimation)	Propriétaire	8/25	Mistral AI	Propriétaire
2	gemini-2.5-flash	1122	-2/+0	1316	N/A	XL - (estimation)	Propriétaire	6/25	Google	Propriétaire
3	gemini-2.0-flash	1106	-4/+0	8684	N/A	XL - (estimation)	Propriétaire	12/24	Google	Propriétaire
4	qwen3-max-2025-09-23	1106	-10/+2	421	N/A	XL - (estimation)	Propriétaire	9/25	Alibaba	Propriétaire
5	deepseek-v3-0324	1099	-6/+1	4385	47 Wh	XL - 685 Mds	MoE	3/25	DeepSeek	Semi-ouvert
6	gemma-3-27b	1097	-5/+2	5454	6 Wh	S - 27 Mds	Dense	3/25	Google	Semi-ouvert
7	gpt-oss-120b	1095	-10/+4	736	3 Wh	L - 117 Mds	MoE	8/25	OpenAI	Semi-ouvert
8	deepseek-chat-v3.1	1091	-10/+7	470	47 Wh	XL - 685 Mds	MoE	8/25	DeepSeek	Semi-ouvert
9	magistral-medium	1090	-7/+7	866	N/A	M - (estimation)	Propriétaire	6/25	Mistral AI	Propriétaire
10	deepseek-v3-chat	1085	-5/+4	5388	47 Wh	XL - 671 Mds	MoE	12/24	DeepSeek	Semi-ouvert
11	claude-4-5-sonnet	1078	-7/+6	1165	N/A	XL - (estimation)	Propriétaire	9/25	Anthropic	Propriétaire
12	gemma-3-12b	1077	-4/+4	5096	4 Wh	XS - 12 Mds	Dense	3/25	Google	Semi-ouvert
13	mistral-small-2506	1074	-7/+7	1071	6 Wh	S - 24 Mds	Dense	6/25	Mistral AI	Semi-ouvert
14	grok-3-mini-beta	1072	-5/+7	1537	N/A	L - (estimation)	Propriétaire	4/25	xAI	Propriétaire
15	claude-4-sonnet	1067	-5/+7	1388	N/A	XL - (estimation)	Propriétaire	5/25	Anthropic	Propriétaire
16	command-a	1065	-3/+5	5085	18 Wh	L - 111 Mds	Dense	3/25	Cohere	Semi-ouvert
17	grok-4-fast	1063	-5/+9	899	N/A	XL - (estimation)	Propriétaire	9/25	xAI	Propriétaire
18	magistral-small-2506	1060	-4/+7	1488	6 Wh	S - 24 Mds	Dense	6/25	Mistral AI	Semi-ouvert
19	llama-3.1-nemotron-70b-instruct	1050	-3/+4	6709	12 Wh	M - 70 Mds	Dense	10/24	Nvidia	Semi-ouvert
20	gemma-3-4b	1047	-2/+3	6053	3 Wh	XS - 4 Mds	Dense	3/25	Google	Semi-ouvert
21	qwen3-32b	1047	-5/+7	882	7 Wh	S - 32 Mds	Dense	4/25	Alibaba	Semi-ouvert
22	gpt-4.1-mini	1039	-4/+2	6297	N/A	M - (estimation)	Propriétaire	4/25	OpenAI	Propriétaire
23	gemini-1.5-pro	1036	-4/+2	7387	N/A	XL - (estimation)	Propriétaire	9/24	Google	Propriétaire
24	gpt-oss-20b	1034	-6/+6	1065	3 Wh	S - 21 Mds	MoE	8/25	OpenAI	Semi-ouvert
25	deepseek-r1	1034	-3/+4	3510	47 Wh	XL - 671 Mds	MoE	1/25	DeepSeek	Semi-ouvert
26	gpt-5-mini	1031	-7/+8	740	N/A	S - (estimation)	Propriétaire	8/25	OpenAI	Propriétaire
27	gemma-3n-e4b-it	1024	-6/+6	1391	3 Wh	XS - 8 Mds	Matformer	5/25	Google	Semi-ouvert
28	llama-4-scout	1020	-5/+3	3631	5 Wh	L - 109 Mds	MoE	4/25	Meta	Semi-ouvert
29	llama-maverick	1017	-8/+6	771	15 Wh	XL - 400 Mds	MoE	4/25	Meta	Semi-ouvert
30	gpt-5	1015	-5/+5	1682	N/A	L - (estimation)	Propriétaire	8/25	OpenAI	Propriétaire
31	mistral-saba	1013	-4/+3	4142	N/A	S - (estimation)	Propriétaire	2/25	Mistral AI	Propriétaire
32	mistral-small-3.1-24b	1012	-3/+4	5079	6 Wh	S - 24 Mds	Dense	3/25	Mistral AI	Semi-ouvert
33	o4-mini	1011	-3/+5	2576	N/A	S - (estimation)	Propriétaire	4/25	OpenAI	Propriétaire
34	gemma-2-27b-it-q8	1006	-9/+9	762	6 Wh	S - 27 Mds	Dense	6/24	Google	Semi-ouvert
35	aya-expanse-32b	996	-6/+1	4304	7 Wh	S - 32 Mds	Dense	12/24	Cohere	Semi-ouvert
36	qwen3-30b-a3b	994	-9/+6	770	3 Wh	S - 30 Mds	MoE	5/25	Alibaba	Semi-ouvert
37	mistral-small-24b-instruct-2501	991	-6/+3	3318	6 Wh	S - 24 Mds	Dense	1/25	Mistral AI	Semi-ouvert
38	o3-mini	989	-7/+5	1619	N/A	S - (estimation)	Propriétaire	11/24	OpenAI	Propriétaire
39	llama-3.3-70b	987	-4/+3	7276	12 Wh	M - 70 Mds	Dense	12/24	Meta	Semi-ouvert
40	gpt-4o-mini-2024-07-18	987	-4/+4	6990	N/A	S - (estimation)	Propriétaire	7/24	OpenAI	Propriétaire
41	gpt-4.1-nano	983	-5/+4	4858	N/A	S - (estimation)	Propriétaire	4/25	OpenAI	Propriétaire
42	aya-expanse-8b	978	-8/+7	1302	4 Wh	XS - 8 Mds	Dense	10/24	Cohere	Semi-ouvert
43	llama-3.1-70b	977	-5/+4	5583	12 Wh	M - 70 Mds	Dense	7/24	Meta	Semi-ouvert
44	claude-3-5-sonnet-v2	976	-4/+4	5683	N/A	XL - (estimation)	Propriétaire	10/24	Anthropic	Propriétaire
45	phi-4	971	-3/+4	8558	5 Wh	XS - 14 Mds	Dense	12/24	Microsoft	Semi-ouvert
46	gpt-4o-2024-08-06	967	-4/+4	5896	N/A	XL - (estimation)	Propriétaire	8/24	OpenAI	Propriétaire
47	llama-3.1-405b	962	-2/+4	9973	238 Wh	XL - 405 Mds	Dense	7/24	Meta	Semi-ouvert
48	deepseek-r1-distill-llama-70b	957	-3/+5	2813	12 Wh	M - 70 Mds	Dense	1/25	DeepSeek	Semi-ouvert
49	gemma-2-9b-it	957	-2/+5	5115	4 Wh	XS - 9 Mds	Dense	6/24	Google	Semi-ouvert
50	qwq-32b	956	-2/+8	1566	7 Wh	S - 32 Mds	Dense	4/25	Alibaba	Semi-ouvert
51	gpt-5-nano	948	-5/+9	689	N/A	XS - (estimation)	Propriétaire	4/25	OpenAI	Propriétaire
52	llama-3.1-8b	931	-3/+2	8913	4 Wh	XS - 8 Mds	Dense	7/24	Meta	Semi-ouvert
53	qwen2.5-7b-instruct	930	-1/+6	1417	4 Wh	XS - 7 Mds	Dense	9/24	Alibaba	Semi-ouvert
54	hermes-4-70b	915	-1/+4	661	12 Wh	M - 70 Mds	Dense	8/25	Nous	Semi-ouvert
55	mixtral-8x7b-instruct-v0.1	888	-1/+1	2560	5 Wh	S - 56 Mds	MoE	12/23	Mistral AI	Semi-ouvert
56	lfm-40b	886	-0/+1	3578	N/A	S - (estimation)	Propriétaire	9/24	Liquid	Propriétaire
57	phi-3.5-mini-instruct	865	-1/+0	2535	3 Wh	XS - 3.8 Mds	Dense	8/24	Microsoft	Semi-ouvert
58	mistral-nemo-2407	856	-1/+1	6251	4 Wh	XS - 12 Mds	Dense	7/24	Mistral AI	Semi-ouvert
59	mixtral-8x22b-instruct-v0.1	846	-1/+1	5455	18 Wh	L - 176 Mds	MoE	4/24	Mistral AI	Semi-ouvert
60	chocolatine-2-14b-instruct-v2.0.3-q8	823	-1/+0	1796	4 Wh	XS - 14 Mds	Dense	2/25	jpacifico	Semi-ouvert
61	Yi-1.5-9B-Chat	771	-2/+3	65	4 Wh	XS - 9 Mds	Dense	5/24	01-ai	Semi-ouvert
62	chocolatine-14b-instruct-dpo-v1.2-q4	754	-1/+1	309	5 Wh	XS - 14 Mds	Dense	9/24	jpacifico	Semi-ouvert
63	qwen2-7b-instruct	733	-0/+2	80	4 Wh	XS - 7 Mds	Dense	7/24	Alibaba	Semi-ouvert

Les modèles les plus appréciés sont-ils économes en énergie ?

Ce graphique représente pour chaque modèle le score de satisfaction (score Bradley Terry) en fonction de l’estimation de la consommation énergétique moyenne pour 1000 tokens. La consommation énergétique est estimée à partir de la méthodologie Ecologits et repose sur la prise en compte de deux paramètres: la taille des modèles (nombre de paramètres) et leur architecture. Pour les modèles propriétaires, ces informations ne sont pas ou que partiellement communiquées. C’est pourquoi ils sont exclus du graphique ci-dessous.

Comment trouver le bon équilibre entre performance perçue et sobriété énergétique ? Exemples de lecture du graphique

Plus un modèle est situé en haut du graphique, plus son score de satisfaction Bradley-Terry est élevé. Plus un modèle est situé sur la gauche du graphique, moins il consomme d’énergie par rapport aux autres modèles.
En haut à gauche se trouvent les modèles qui plaisent et qui consomment peu d’énergie par rapport aux autres modèles.
Au-delà de la taille, l’architecture a un impact sur la consommation énergétique moyenne des modèles: par exemple, à gabarit similaire, le modèle Llama 3 405B (architecture dense, 405 milliards de paramètres) consomme 10 fois plus d’énergie en moyenne que le modèle GLM 4.5 (architecture MOE, 355 milliards de paramètres et 32 milliards de paramètres actifs).

Pourquoi les modèles propriétaires ne sont-ils pas affichés sur le graphique ?

L’estimation de la consommation énergétique pour l’inférence des modèles repose sur la méthodologie Ecologits qui prend en compte la taille et l’architecture des modèles. Or ces informations ne sont pas rendues publiques par les éditeurs de modèles pour les modèles dits « propriétaires ».

Nous prenons ainsi le parti de ne pas intégrer les modèles propriétaires au graphique tant que les informations contribuant au calcul de consommation énergétique ne sont pas transparentes.

Pourquoi les modèles propriétaires ne sont-ils pas affichés sur le graphique ?

compar:IA utilise la méthodologie développée par Ecologits (GenAI Impact) pour fournir une estimation du bilan énergétique lié à l’inférence des modèles d’IA générative conversationnelle. Cette estimation permet aux utilisateurs de comparer l'impact environnemental de différents modèles d'IA pour une même requête. Cette transparence est essentielle pour encourager le développement et l'adoption de modèles d'IA plus éco-responsables.

Ecologits applique les principes de l'analyse du cycle de vie (ACV) conformément à la norme ISO 14044 en se concentrant pour le moment sur l'impact de l'inférence (c'est-à-dire l'utilisation des modèles pour répondre aux requêtes) et de la fabrication des cartes graphiques (extraction des ressources, fabrication et transport).

La consommation électrique du modèle est estimée en tenant compte de divers paramètres tels que la taille et l’architecture du modèle d'IA utilisé, la localisation des serveurs où sont déployés les modèles et le nombre de tokens de sortie. Le calcul de l’indicateur de potentiel de réchauffement climatique exprimé en équivalent CO2 est dérivé de la mesure de consommation électrique du modèle.

Il est important de noter que les méthodologies d'évaluation de l'impact environnemental de l'IA sont encore en développement.

Données du graphique en tableau

Des votes… au classement des modèles
Modèle	Score de satisfaction BT Infobulle	Conso. moyenne (1000 tokens) Infobulle	Taille (paramètres) Infobulle	Architecture Infobulle	Organisation	Licence
gpt-oss-120b	1095	3 Wh	L - 117 Mds	MoE	OpenAI	Semi-ouvert
gemma-3-4b	1047	3 Wh	XS - 4 Mds	Dense	Google	Semi-ouvert
gpt-oss-20b	1034	3 Wh	S - 21 Mds	MoE	OpenAI	Semi-ouvert
gemma-3n-e4b-it	1024	3 Wh	XS - 8 Mds	Matformer	Google	Semi-ouvert
qwen3-30b-a3b	994	3 Wh	S - 30 Mds	MoE	Alibaba	Semi-ouvert
phi-3.5-mini-instruct	865	3 Wh	XS - 3.8 Mds	Dense	Microsoft	Semi-ouvert
gemma-3-12b	1077	4 Wh	XS - 12 Mds	Dense	Google	Semi-ouvert
aya-expanse-8b	978	4 Wh	XS - 8 Mds	Dense	Cohere	Semi-ouvert
gemma-2-9b-it	957	4 Wh	XS - 9 Mds	Dense	Google	Semi-ouvert
llama-3.1-8b	931	4 Wh	XS - 8 Mds	Dense	Meta	Semi-ouvert
qwen2.5-7b-instruct	930	4 Wh	XS - 7 Mds	Dense	Alibaba	Semi-ouvert
mistral-nemo-2407	856	4 Wh	XS - 12 Mds	Dense	Mistral AI	Semi-ouvert
chocolatine-2-14b-instruct-v2.0.3-q8	823	4 Wh	XS - 14 Mds	Dense	jpacifico	Semi-ouvert
Yi-1.5-9B-Chat	771	4 Wh	XS - 9 Mds	Dense	01-ai	Semi-ouvert
qwen2-7b-instruct	733	4 Wh	XS - 7 Mds	Dense	Alibaba	Semi-ouvert
llama-4-scout	1020	5 Wh	L - 109 Mds	MoE	Meta	Semi-ouvert
phi-4	971	5 Wh	XS - 14 Mds	Dense	Microsoft	Semi-ouvert
mixtral-8x7b-instruct-v0.1	888	5 Wh	S - 56 Mds	MoE	Mistral AI	Semi-ouvert
chocolatine-14b-instruct-dpo-v1.2-q4	754	5 Wh	XS - 14 Mds	Dense	jpacifico	Semi-ouvert
gemma-3-27b	1097	6 Wh	S - 27 Mds	Dense	Google	Semi-ouvert
mistral-small-2506	1074	6 Wh	S - 24 Mds	Dense	Mistral AI	Semi-ouvert
magistral-small-2506	1060	6 Wh	S - 24 Mds	Dense	Mistral AI	Semi-ouvert
mistral-small-3.1-24b	1012	6 Wh	S - 24 Mds	Dense	Mistral AI	Semi-ouvert
gemma-2-27b-it-q8	1006	6 Wh	S - 27 Mds	Dense	Google	Semi-ouvert
mistral-small-24b-instruct-2501	991	6 Wh	S - 24 Mds	Dense	Mistral AI	Semi-ouvert
qwen3-32b	1047	7 Wh	S - 32 Mds	Dense	Alibaba	Semi-ouvert
aya-expanse-32b	996	7 Wh	S - 32 Mds	Dense	Cohere	Semi-ouvert
qwq-32b	956	7 Wh	S - 32 Mds	Dense	Alibaba	Semi-ouvert
llama-3.1-nemotron-70b-instruct	1050	12 Wh	M - 70 Mds	Dense	Nvidia	Semi-ouvert
llama-3.3-70b	987	12 Wh	M - 70 Mds	Dense	Meta	Semi-ouvert
llama-3.1-70b	977	12 Wh	M - 70 Mds	Dense	Meta	Semi-ouvert
deepseek-r1-distill-llama-70b	957	12 Wh	M - 70 Mds	Dense	DeepSeek	Semi-ouvert
hermes-4-70b	915	12 Wh	M - 70 Mds	Dense	Nous	Semi-ouvert
llama-maverick	1017	15 Wh	XL - 400 Mds	MoE	Meta	Semi-ouvert
command-a	1065	18 Wh	L - 111 Mds	Dense	Cohere	Semi-ouvert
mixtral-8x22b-instruct-v0.1	846	18 Wh	L - 176 Mds	MoE	Mistral AI	Semi-ouvert
deepseek-v3-0324	1099	47 Wh	XL - 685 Mds	MoE	DeepSeek	Semi-ouvert
deepseek-chat-v3.1	1091	47 Wh	XL - 685 Mds	MoE	DeepSeek	Semi-ouvert
deepseek-v3-chat	1085	47 Wh	XL - 671 Mds	MoE	DeepSeek	Semi-ouvert
deepseek-r1	1034	47 Wh	XL - 671 Mds	MoE	DeepSeek	Semi-ouvert
llama-3.1-405b	962	238 Wh	XL - 405 Mds	Dense	Meta	Semi-ouvert

Comment choisir la méthode de classement des modèles ?

Depuis 2024, des milliers d’utilisateurs ont utilisé compar:IA pour comparer les réponses de différents modèles, générant ainsi des centaines de milliers de votes. Compter simplement le nombre de victoires ne suffit pas pour établir un classement. Un système équitable doit être statistiquement robuste, s’ajuster après chaque confrontation, et refléter réellement la valeur des performances obtenues.

C’est dans cette perspective qu’a été mis en place un classement basé sur le modèle Bradley-Terry, élaboré en collaboration avec les équipes du Pôle d’Expertise de la Régulation numérique (PEReN), à partir de l’ensemble des votes et réactions collectés sur la plateforme. Pour aller plus loin, consultez notre carnet méthodologique.

Deux manières de classer les modèles

Classement par taux de victoire

Définition : Système de classement empirique des modèles reposant sur le pourcentage de parties gagnées par un modèle contre tous les autres modèles.

Problèmes principaux

Biais du nombre de parties : un modèle ayant remporté trois victoires sur trois “matchs” affiche un taux de victoire de 100 %, mais ce score est peu significatif étant basé sur très peu de données.
Aucune prise en compte de la difficulté des matchs : battre un modèle “débutant” ou un “expert” compte pareil. Les taux de victoire ne sont pas équitables puisqu’ils ne tiennent pas compte de la difficulté des matchs.
Stagnation : à long terme, beaucoup de bons modèles finissent autour de 50 % de taux de victoire car ils affrontent des modèles de leur niveau, ce qui rend le classement peu discriminant.

Classement Bradley-Terry (BT)

Définition : Système de classement où le gain ou la perte de points dépend du résultat (victoire/défaite/nul et du niveau estimé de l’adversaire : si un modèle plus faible bat un modèle plus fort, sa progression dans le classement est plus importante.

Avantages

Modèle probabiliste : on peut estimer le résultat probable de n'importe quelle confrontation, même entre des modèles n'ayant jamais été directement comparés.
Prise en compte de la difficulté des matchs : les scores estimés à partir du modèle Bradley Terry tiennent compte du niveau des adversaires rencontrés, permettant une comparaison équitable entre modèles.
Meilleure gestion de l’incertitude : l'intervalle de confiance intègre l'ensemble du réseau de comparaisons. Cela permet une estimation plus précise de l'incertitude, surtout pour les modèles ayant peu de confrontations directes mais beaucoup d'adversaires communs.

Impact du choix de la méthode sur le classement des modèles

10 premiers modèles du classement selon de taux de victoire « empirique »

Télécharger les données

En se basant uniquement sur le taux de victoire moyen, on peut obtenir un classement global, mais ce calcul suppose que chaque modèle ait joué contre tous les autres.

Cette méthode n'est pas idéale car elle nécessite les données de toutes les combinaisons de modèles et ès qu’on augmente le nombre de modèles, cela devient vite coûteux et lourd à maintenir.

10 premiers modèles du classement selon de taux de victoire estimé avec le modèle Bradley-Terry

Télécharger les données

Le modèle Bradley-Terry transforme un ensemble de comparaisons locales et potentiellement incomplètes en un système de classement global cohérent et statistiquement robuste, là où le taux de victoire empirique reste limité aux observations directes.

Des votes… au classement des modèles

Les modèles les plus appréciés sont-ils économes en énergie ?

Score de satisfaction Bradley-Terry (BT) VS Consommation moyenne pour 1000 tokens

Comment trouver le bon équilibre entre performance perçue et sobriété énergétique ? Exemples de lecture du graphique

Pourquoi les modèles propriétaires ne sont-ils pas affichés sur le graphique ?

Pourquoi les modèles propriétaires ne sont-ils pas affichés sur le graphique ?

Données du graphique en tableau

Comment choisir la méthode de classement des modèles ?

Deux manières de classer les modèles

Classement par taux de victoire

Problèmes principaux

Classement Bradley-Terry (BT)

Avantages

Impact du choix de la méthode sur le classement des modèles

10 premiers modèles du classement selon de taux de victoire « empirique »

10 premiers modèles du classement selon de taux de victoire estimé avec le modèle Bradley-Terry

Les modèles les plus appréciés sont-ils économes en énergie ?

Comment trouver le bon équilibre entre performance perçue et sobriété énergétique ? Exemples de lecture du graphique

Pourquoi les modèles propriétaires ne sont-ils pas affichés sur le graphique ?

Pourquoi les modèles propriétaires ne sont-ils pas affichés sur le graphique ?

Comment choisir la méthode de classement des modèles ?

10 premiers modèles du classement selon de taux de victoire « empirique »