Benchmark AGI Google mesure-t-il vraiment l’IA générale ?

Un benchmark AGI utile ne donne pas un verdict unique. Il montre un profil cognitif, capacité par capacité, comparé à l’humain. C’est l’intérêt du cadre proposé par Google DeepMind : repérer les forces, les angles morts et les limites que les scores globaux masquent.

Pourquoi le score unique trompe-t-il ?

Un score unique trompe parce qu’il agrège des capacités très différentes et peut masquer des faiblesses critiques. Un modèle peut être excellent en rappel de connaissances, correct en raisonnement logique, mais fragile en perception visuelle, en attention longue ou en compréhension d’une consigne ambiguë. Pourtant, une moyenne globale peut donner une impression rassurante.

C’est le problème classique des benchmarks. MMLU, pour Massive Multitask Language Understanding, évalue 57 domaines académiques selon l’article de Dan Hendrycks et al., Measuring Massive Multitask Language Understanding, publié en 2021. Le test couvre des sujets comme les mathématiques, le droit, la médecine ou l’histoire. C’est utile pour comparer des modèles sur un socle commun. Mais cela ne suffit pas à qualifier une intelligence générale, car une intelligence générale doit aussi s’adapter à des situations nouvelles, gérer l’incertitude, percevoir correctement son environnement et reconnaître ses propres limites.

La notion de jagged frontier aide à comprendre ce décalage. Elle désigne une frontière irrégulière des capacités : un modèle peut dépasser beaucoup d’humains sur une tâche donnée, puis échouer sur une tâche voisine qui semble presque identique. Les travaux de Dell’Acqua et al. sur l’usage de l’IA au travail, notamment autour de cette “frontière technologique irrégulière”, ont popularisé cette idée avec prudence : l’IA peut augmenter fortement la performance sur certaines tâches, tout en dégradant le résultat quand l’utilisateur lui confie une tâche située hors de sa zone fiable.

Un autre risque vient de la contamination des jeux de test. Si des exemples de benchmark, ou des variantes très proches, apparaissent dans les données d’entraînement, le score peut mesurer une forme de mémorisation plutôt qu’une compétence généralisable. Ce n’est pas forcément de la triche volontaire. Les grands modèles sont entraînés sur d’immenses corpus web, où des questions, corrigés et discussions autour des benchmarks peuvent circuler.

Score agrégé. Mesure une performance moyenne sur un ensemble de tâches.	Cache les écarts entre capacités fortes et capacités faibles.	Rend l’évaluation AGI trop rassurante si les faiblesses critiques disparaissent dans la moyenne.
Profil cognitif. Mesure plus finement les compétences : mémoire, raisonnement, perception, planification, attention.	Cache moins les ruptures de performance entre tâches proches.	Permet de voir si le modèle est réellement général ou seulement très bon sur certaines zones.
Contamination des tests. Mesure parfois la familiarité avec des exemples déjà vus.	Cache la différence entre mémorisation et généralisation.	Oblige à utiliser des tests récents, privés ou dynamiques pour évaluer sérieusement l’AGI.

Que change le cadre de Google DeepMind ?

Le Cadre de Google DeepMind change l’évaluation en remplaçant le classement global par un profil cognitif multidimensionnel. Le Sujet n’est plus seulement de savoir quel modèle “gagne” un benchmark, mais de comprendre où il réussit, où il échoue et à quel niveau il se situe par rapport à une performance humaine moyenne.

Le Principe central tient dans une normalisation simple : La référence humaine moyenne est fixée à 1.0. Un Score supérieur à 1.0 indique une performance au-dessus de cette référence. Un Score proche de 1.0 indique une performance comparable. Un Score inférieur à 1.0 signale une faiblesse relative sur la capacité mesurée.

Score inférieur à 1.0	Performance sous la référence humaine moyenne sur la dimension évaluée.
Score proche de 1.0	Performance comparable à la référence humaine moyenne.
Score supérieur à 1.0	Performance au-dessus de la référence humaine moyenne.

Cette Normalisation rend les résultats plus lisibles. Un Pourcentage brut sur un test isolé parle surtout aux spécialistes du benchmark. Un Profil rapporté à une référence humaine parle aux décideurs, aux équipes produit, aux chercheurs et aux entreprises. Il devient possible de dire : Ce modèle est très fort sur telle capacité, moyen sur telle autre, fragile dans ce contexte précis. C’est beaucoup plus exploitable pour choisir un modèle, définir un cas d’usage ou identifier un risque.

Le Cadre se rapproche aussi de la psychologie cognitive humaine. La Cognition désigne l’ensemble des processus mentaux impliqués dans la perception, l’attention, la mémoire, le raisonnement ou la compréhension. Au lieu d’empiler des tests hétérogènes, l’évaluation cherche donc à mesurer des dimensions de cognition.

Google DeepMind annonce dix dimensions cognitives dans ce cadre. Les Informations disponibles permettent toutefois de documenter clairement seulement certaines d’entre elles, sans inventer les autres.

Perception : Capacité à interpréter des informations issues d’entrées comme du texte, des images, de l’audio ou de la vidéo.
Attention sélective : Capacité à se concentrer sur les informations pertinentes tout en ignorant le bruit ou les distracteurs.
Mémoire de travail : Capacité à conserver et manipuler temporairement des informations pour résoudre une tâche.

Le Changement est donc important : L’AGI n’est plus traitée comme une médaille d’or à attribuer au meilleur score global, mais comme une carte de compétences à lire dimension par dimension.

Quelles capacités sont déjà visibles ?

Les capacités déjà visibles sont la perception, l’attention sélective et la mémoire de travail. Ces trois briques sont nécessaires pour parler d’AGI, c’est-à-dire d’intelligence générale artificielle, mais elles ne suffisent pas à prouver qu’un système possède une intelligence générale.

La perception mesure la capacité à interpréter des entrées sensorielles, surtout visuelles et auditives. Un modèle peut, par exemple, reconnaître un objet partiellement masqué, comprendre une scène dans une image dégradée ou interpréter une parole couverte par du bruit de fond. Les modèles multimodaux, capables de traiter plusieurs types de données comme le texte, l’image ou l’audio, atteignent déjà un niveau proche de l’humain sur certaines images statiques. En revanche, l’audio en environnement bruité reste plus difficile, car le signal utile est mélangé à des distracteurs très variables.

Quelques tâches typiques permettent de voir ce que le benchmark cherche à mesurer :

Identifier un objet malgré une occlusion partielle.
Déduire ce qui se passe dans une scène visuellement dégradée.
Comprendre une phrase prononcée avec du bruit de fond.

L’attention sélective mesure la capacité à filtrer les distracteurs et à garder le focus sur l’information pertinente. Chez l’humain, des tests comme le Stroop, publié en 1935, ou l’Attention Network Test de Fan et al., publié en 2002, observent cette résistance à une information parasite. Exemple simple : le mot “rouge” écrit en bleu force le cerveau à inhiber une réponse automatique. Côté IA, le parallèle est clair avec les modèles à long contexte. Ils savent traiter des documents très longs, parfois jusqu’à plusieurs centaines de milliers de tokens, mais leurs performances peuvent baisser quand la tâche s’allonge ou quand l’information utile est noyée au milieu du texte, un phénomène documenté notamment par les travaux “Lost in the Middle” de Liu et al. en 2024.

La mémoire de travail désigne la capacité à maintenir et manipuler temporairement des informations. Elle sert à comprendre une phrase longue, suivre une consigne en plusieurs étapes ou résoudre un raisonnement complexe. Les travaux d’Alan Baddeley, notamment son modèle de 1974 avec Graham Hitch puis ses mises à jour en 2000, restent une référence solide pour comprendre ce rôle central.

Ces dimensions montrent pourquoi un benchmark AGI doit être lu comme un bilan de santé cognitif, pas comme un podium.

Comment lire un profil cognitif ?

Un profil cognitif se lit comme une carte des forces et faiblesses d’un modèle, pas comme une note finale. Un score normalisé autour de 1.0 signifie que la référence humaine sert de point d’ancrage : au-dessus de 1.0, le modèle dépasse cette référence sur la dimension mesurée ; autour de 1.0, il s’en rapproche ; sous 1.0, il reste en retrait.

Cette lecture évite un piège classique : confondre moyenne globale et aptitude réelle à un usage donné. Un modèle peut afficher un bon niveau général tout en échouant sur une capacité critique pour votre métier. Si cette capacité conditionne la qualité du service, la faiblesse ciblée compte davantage que le score moyen.

La méthode pratique tient en trois étapes simples :

Identifier les dimensions au-dessus de 1.0, car elles indiquent les zones où le modèle possède un avantage relatif.
Repérer les dimensions proches de 1.0, car elles suggèrent une performance comparable à la référence humaine, mais pas forcément stable en production.
Isoler les dimensions sous 1.0, car elles signalent les risques à tester en priorité avant un déploiement.

Niveau	Interprétation	Vigilance	Décision possible
Au-dessus de 1.0	Capacité supérieure à la référence humaine du benchmark.	Vérifier que l’avantage tient avec vos données réelles.	Prioriser les cas d’usage qui exploitent cette force.
Autour de 1.0	Capacité proche de la référence humaine.	Tester la stabilité sur des entrées longues, ambiguës ou bruitées.	Déployer avec garde-fous et mesures de contrôle.
Sous 1.0	Capacité plus faible que la référence humaine du benchmark.	Évaluer l’impact métier si cette dimension est critique.	Limiter l’usage, ajouter une supervision humaine ou choisir un autre modèle.

Les exemples rendent cette lecture plus concrète. Un assistant vocal en environnement bruyant dépend fortement de la perception auditive, c’est-à-dire de la capacité à distinguer un signal utile dans du bruit. Un agent qui analyse de longs dossiers dépend de l’attention sélective, soit la capacité à se concentrer sur les informations pertinentes, et de la mémoire de travail, qui sert à maintenir des éléments actifs pendant le raisonnement. Un outil de vision industrielle dépend de la perception visuelle en conditions dégradées, par exemple avec reflets, faible luminosité ou objets partiellement masqués.

La performance de laboratoire mesure une réussite dans un cadre contrôlé. La robustesse opérationnelle mesure la fiabilité quand les entrées deviennent longues, bruitées, ambiguës ou inhabituelles. C’est souvent là que la vraie différence apparaît.

Quelles limites garder en tête ?

Ce cadre améliore la lecture des capacités IA, mais il ne règle pas tout. Mesurer dix dimensions cognitives donne une vision plus fine qu’un score unique, surtout quand un modèle peut être excellent en raisonnement logique et moyen en planification, en mémoire ou en interaction sociale. Mais cela reste une approximation de l’intelligence, pas une mesure complète de ce qu’un système comprend, décide ou maîtrise réellement.

Trois limites méritent d’être gardées en tête avant d’en faire un outil de décision trop rigide.

La référence humaine moyenne à 1.0 simplifie la comparaison, mais elle masque beaucoup de variance. Une personne ne performe pas de la même façon selon son expertise, son niveau de fatigue, la clarté de la consigne ou le contexte culturel. Comparer une IA à une “moyenne humaine” aide à situer un niveau, mais cette moyenne n’est pas une vérité stable.
Les tâches de test restent artificielles. Même lorsqu’elles s’inspirent de la cognition humaine, elles ne reproduisent pas toujours les contraintes réelles : données incomplètes, objectifs ambigus, pression temporelle, arbitrages politiques, qualité variable des sources. Un modèle peut réussir un test calibré et échouer dans un workflow métier mal cadré.
La contamination des données ne disparaît jamais totalement. Des suites de tâches plus variées réduisent le risque qu’un modèle ait déjà vu les réponses pendant son entraînement. Mais avec des modèles entraînés sur d’immenses volumes de texte, de code et de contenus web, il reste difficile de prouver qu’un test est entièrement inédit.

Pour une entreprise, la bonne question n’est donc pas : “Ce modèle est-il officiellement général ?”. La question utile est plus concrète : “Possède-t-il les capacités nécessaires pour mon usage précis, avec un niveau de risque acceptable ?”. Cette différence change tout. Elle guide le choix d’un modèle, le cadrage d’un POC, c’est-à-dire une preuve de concept limitée, l’audit des risques avant déploiement et le monitoring en production.

Le bon réflexe consiste à combiner trois niveaux d’évaluation : benchmark cognitif, tests métier internes et supervision humaine. Le benchmark AGI peut aider à comparer des modèles et à repérer des forces ou faiblesses générales. Il ne doit pas être lu comme une preuve définitive d’intelligence générale, mais comme un outil d’aide à la décision.

Alors, que faut-il vraiment mesurer avant de faire confiance à une IA ?

Le vrai progrès n’est pas de remplacer un ancien classement par un nouveau classement. Un benchmark AGI sérieux doit montrer un profil : perception, attention, mémoire de travail et autres dimensions cognitives, avec une comparaison lisible à la performance humaine moyenne. C’est plus utile qu’un score global, parce que les modèles restent irréguliers : très forts sur certains usages, fragiles sur d’autres. Pour choisir une IA, je regarderais donc moins le podium que l’adéquation entre ses capacités et votre contexte réel. Le bénéfice pour vous : décider plus vite, avec moins d’illusions et moins de risques opérationnels.

FAQ

Qu’est-ce qu’un benchmark AGI ?
Un benchmark AGI est un cadre de test destiné à évaluer des capacités proches de l’intelligence générale : perception, attention, mémoire, raisonnement ou adaptation. L’enjeu n’est pas seulement de donner une note, mais de comprendre quelles compétences un modèle maîtrise vraiment.
Pourquoi un score unique ne suffit-il pas pour mesurer une IA ?
Un score unique mélange plusieurs capacités et peut cacher des faiblesses importantes. Un modèle peut réussir un test de connaissances tout en étant moins fiable sur une tâche longue, bruitée ou ambiguë. Pour l’usage réel, le détail par capacité compte souvent plus que la moyenne.
Que signifie une référence humaine à 1.0 ?
Dans le cadre décrit, 1.0 correspond à une performance humaine moyenne. Un score supérieur indique une performance au-dessus de cette référence, un score proche indique un niveau comparable, et un score inférieur signale une limite relative sur la dimension testée.
Quelles dimensions cognitives sont mentionnées ?
Le contenu disponible détaille surtout trois dimensions : la perception, l’attention sélective et la mémoire de travail. Le cadre complet annoncé couvre dix dimensions cognitives, mais il faut éviter de nommer les autres sans source vérifiable.
Comment utiliser ce type de benchmark en entreprise ?
Il faut le relier à un cas d’usage précis. Pour un assistant vocal, la perception auditive en bruit est critique. Pour l’analyse de longs documents, l’attention et la mémoire de travail comptent davantage. Le benchmark aide donc à choisir un modèle, mais doit être complété par des tests métier internes.

A propos de l’auteur

Je suis Franck Scandolera, responsable de l’agence webAnalyste et de l’organisme Formations Analytics. J’accompagne les entreprises sur le tracking avancé server-side, l’Analytics Engineering, l’automatisation No/Low Code avec n8n, l’intégration de l’IA, le SEO et le GEO. J’ai travaillé pour des acteurs comme Logis Hôtel, Yelloh Village, BazarChic, la Fédération Française de Football ou Texdecor. Si vous voulez évaluer, intégrer ou industrialiser l’IA dans vos process business avec une approche fiable, contactez-moi.

Franck Scandolera

⭐ Analytics engineer, Data Analyst et Automatisation IA indépendant ⭐

Ref clients : Logis Hôtel, Yelloh Village, BazarChic, Fédération Football Français, Texdecor…

Mon terrain de jeu :

Data Analyst & Analytics engineering : tracking avancé (GTM server, e-commerce, CAPI, RGPD), entrepôt de données (BigQuery, Snowflake, PostgreSQL, ClickHouse), modèles (Airflow, dbt, Dataform), dashboards décisionnels (Looker, Power BI, Metabase, SQL, Python).
Automatisation IA des taches Data, Marketing, RH, compta etc : conception de workflows intelligents robustes (n8n, App Script, scraping) connectés aux API de vos outils et LLM (OpenAI, Mistral, Claude…).
Engineering IA pour créer des applications et agent IA sur mesure : intégration de LLM (OpenAI, Mistral…), RAG, assistants métier, génération de documents complexes, APIs, backends Node.js/Python.