Harness-1 améliore la recherche IA en sortant la mémoire, le suivi des preuves et la déduplication du modèle. Le modèle se concentre sur les actions utiles. C’est là que ça devient intéressant pour les agents de recherche, surtout quand le RL plafonne trop vite.
Pourquoi les agents de recherche plafonnent-ils ?
Les agents de recherche plafonnent parce qu’ils apprennent trop de choses en même temps. Au début, ça donne l’impression que tout marche bien : le modèle trouve des sources, reformule des requêtes, suit quelques pistes intéressantes. Puis assez vite, il tourne en rond, il répète des infos, il oublie pourquoi il a ouvert telle page, ou il s’arrête trop tôt.
Le problème, c’est qu’on demande souvent au même modèle de tout gérer. Il doit produire les bonnes requêtes, choisir la stratégie de recherche, lire les résultats, garder les preuves utiles, éviter les doublons, décider quoi explorer ensuite, puis savoir quand il a assez d’éléments pour répondre. Ça fait beaucoup. Trop, même.
Dans un agent classique, ces tâches sont mélangées dans une seule boucle. Le modèle doit réfléchir à la question de fond, mais aussi faire du bookkeeping, c’est-à-dire toute la petite gestion interne : noter ce qui a déjà été vu, comparer des sources, maintenir un état propre, ne pas refaire trois fois la même recherche. Ce n’est pas très noble, mais c’est essentiel. Et c’est justement là que ça casse souvent.
Avec le Reinforcement Learning, ou apprentissage par renforcement, le souci devient encore plus visible. Le modèle apprend par récompense : il tente une action, il reçoit un signal, il ajuste sa politique. La politique, c’est simplement sa manière de décider quoi faire ensuite. Mais si la récompense dépend à la fois de la qualité du raisonnement, de la bonne requête Google-like, de la gestion des preuves et de l’arrêt au bon moment, le signal devient flou.
J’ai vu ça chez un client qui voulait automatiser des recherches marché. Les premières démos étaient bluffantes. Puis dès qu’on ajoutait plus de sources et plus de contraintes, l’agent devenait moins stable. Pas parce qu’il était “bête”. Parce qu’il devait apprendre la stratégie et l’intendance en même temps.
Harness-1 part d’une idée beaucoup plus saine : ne pas tout demander au modèle. On garde le modèle là où il est fort, sur le raisonnement et les choix sémantiques, et on délègue le reste à un cadre plus structuré.
Que fait vraiment le harness ?
Le harness gère l’état persistant que le modèle ne devrait pas porter dans son prompt. C’est vraiment ça le point clé. Harness-1 sépare le modèle d’un côté, et une machine d’état externe de l’autre. Le modèle raisonne, choisit, demande, compare. Le harness garde la mémoire proprement, sans bourrer le contexte avec tout l’historique.
J’aime bien voir ça comme une équipe de recherche bien organisée. Le modèle est la personne qui réfléchit. Le harness, c’est le bureau, les dossiers, les post-it, les références croisées. Sans ça, le modèle doit tout garder dans sa tête. Et très vite, il oublie, il répète, ou il se trompe sur ce qu’il a déjà vu.
Harness-1 maintient quatre structures persistantes, et chacune a un rôle assez précis :
- Le candidate pool garde des documents compressés et dédupliqués. Compressés, ça veut dire qu’on conserve une version plus courte et utile. Dédupliqués, ça évite de compter trois fois le même contenu sous des formes légèrement différentes.
- Le curated set est une sélection limitée à 30 documents, avec des flags d’importance. Les flags servent à marquer ce qui mérite plus d’attention, sans demander au modèle de refaire ce tri en permanence.
- Le full-text store conserve le texte intégral hors du prompt. C’est important. Le modèle peut travailler avec des résumés ou des extraits, mais le texte complet reste disponible quand il faut vérifier.
- L’evidence graph extrait des entités et des liens entre les documents. C’est le graphe de preuves, celui qui aide à voir ce qui connecte vraiment les sources.
Le graphe de preuves est particulièrement utile dans une recherche IA. Il repère les noms propres, les années et les dates avec des regex, c’est-à-dire des règles de détection de motifs dans du texte. Par exemple, une année comme 2021, une date comme 14 mars 2023, ou un nom d’organisation.
Ensuite, il fait ressortir les documents-ponts. Ce sont les documents qui relient plusieurs zones du sujet. Souvent, ce sont eux qui débloquent une recherche. Il repère aussi les singletons, les éléments isolés qu’on ne retrouve qu’une fois. Là, je suis toujours prudent. Un singleton peut être une pépite, ou juste une info faible qui demande vérification.
Le bénéfice concret est simple : le modèle ne gaspille plus son contexte à se souvenir de tout. Il décide mieux parce que le système garde une mémoire propre pour lui. Et dans la pratique, c’est souvent ça qui fait la différence entre une recherche qui tourne en rond et une recherche qui avance vraiment.
Comment l’agent choisit-il ses actions ?
L’agent choisit une seule action à chaque tour via une interface de huit outils, et c’est justement cette contrainte qui rend son comportement plus lisible et plus pilotable.
Ça peut paraître limité au début. Un seul choix, parmi huit possibilités. Mais en pratique, c’est une bonne chose. L’agent ne part pas dans tous les sens. Il doit décider clairement : chercher, lire, comparer, reformuler, vérifier, ou avancer vers une réponse. On peut donc mieux comprendre pourquoi il fait telle action, et surtout corriger le système quand il se trompe.
Avant même que le modèle voie l’information, Harness-1 fait déjà un gros travail de préparation. Il ne lui envoie pas une pile de résultats bruts. Il commence par sélectionner les meilleures phrases avec Sentence-BM25. BM25, c’est une méthode de recherche lexicale assez classique, qui donne un score aux textes selon leur proximité avec la requête. Ici, elle est appliquée au niveau des phrases, pas seulement des documents.
Ensuite, le système garde les 4 meilleures phrases par chunk. Un chunk, c’est un morceau de document découpé pour être plus facile à traiter. Puis il déduplique en deux temps :
- D’abord par chunk ID, pour éviter de répéter plusieurs fois le même morceau.
- Ensuite par empreinte de contenu, une sorte de signature du texte, pour supprimer les doublons même quand ils viennent de sources différentes.
Cette compression change complètement le problème. Le modèle ne lit plus une masse floue de résultats redondants. Il reçoit des signaux courts, nettoyés, mieux ciblés. Et franchement, dans les projets d’automatisation IA que je vois passer, le gain vient souvent moins d’un modèle plus gros que d’un meilleur contexte. J’ai vu des assistants moyens devenir très bons juste parce qu’on avait arrêté de leur donner du bruit.
| Recherche brute | Recherche pilotée par harness |
| Beaucoup de résultats, souvent redondants | Peu de signaux, mais mieux sélectionnés |
| Le modèle doit trier lui-même le bruit | Le contexte est préparé avant lecture |
| Comportement plus difficile à comprendre | Actions plus lisibles et plus contrôlables |
Comment Harness-1 évite-t-il le démarrage à froid ?
Harness-1 évite le démarrage à froid avec un warm-start seeding après la première recherche réussie.
Le problème est assez simple. Au début, la politique, c’est-à-dire le mécanisme qui décide quels résultats garder, relancer, comparer ou curer, ne sait pas encore ce qui est bon. Elle part presque dans le vide. Donc elle teste beaucoup de directions, parfois trop. Elle varie fort, elle change d’avis, et l’entraînement devient instable.
J’ai vu ce genre de souci chez des clients qui construisaient des agents de veille ou de recherche interne. Le modèle avait accès à plein de documents, plein de signaux, plein de sources. Sur le papier, c’était puissant. En pratique, au début, il passait son temps à hésiter entre des résultats moyens, des doublons, des contenus hors sujet mais bien formulés, et quelques vraies pépites perdues au milieu. C’est là que le démarrage à froid fait mal.
Harness-1 contourne ça avec une idée très pragmatique. Dès qu’une première recherche réussit, le harness crée automatiquement un premier jeu curé à partir des 8 meilleurs résultats rerankés. Le reranking, c’est le fait de reprendre les résultats initiaux et de les reclasser selon leur vraie pertinence, pas juste selon le score brut du moteur de recherche. Harness-1 ajoute aussi une notation de fairness, donc une mesure qui aide à éviter que le système favorise toujours les mêmes types de réponses, sources ou angles.
Ça change la dynamique d’apprentissage.
- La politique ne part plus d’une page blanche.
- Elle reçoit une base déjà raisonnable, issue de résultats qui ont prouvé quelque chose.
- Elle peut apprendre à affiner, plutôt qu’à inventer toute la curation dès le départ.
- Elle réduit les variations inutiles, donc l’entraînement devient plus stable.
Pour un agent de recherche, c’est énorme. Créer une bonne sélection depuis zéro, c’est dur. Raffiner une sélection déjà propre, c’est beaucoup plus réaliste. Le modèle travaille dans un espace plus borné, avec moins de bruit, moins de mauvaises pistes, et plus de signaux utiles. On passe d’un agent qui explore un peu partout à un agent qui améliore progressivement une base solide. Et franchement, en productivité réelle, c’est souvent ça qui fait la différence entre une démo impressionnante et un système utilisable tous les jours.
Pourquoi entraîner en SFT puis en RL ?
Harness-1 combine SFT puis RL pour séparer l’apprentissage guidé et l’optimisation par récompense.
Dans les éléments disponibles, le pipeline est assez clair sur l’intention générale : Une première phase de Supervised Fine Tuning, ou SFT, utilise un modèle enseignant, GPT-5.4, puis une phase de Reinforcement Learning, ou RL, prend le relais.
Le SFT sert à donner au modèle un comportement initial exploitable. En gros, on ne part pas d’un modèle qui explore n’importe comment. On lui montre d’abord une direction. Le modèle apprend à imiter des réponses ou des décisions produites par un enseignant plus fort. C’est une manière de poser les rails avant de demander au modèle de s’améliorer.
Le RL arrive après, et c’est logique. Le Reinforcement Learning consiste à améliorer une politique de décision avec un signal de récompense. Une “politique”, ici, c’est simplement la manière dont le modèle choisit quoi faire à un moment donné. Si le modèle a déjà une base correcte grâce au SFT, le RL peut travailler dans un espace moins chaotique. Il ne sert plus à tout découvrir depuis zéro, mais à affiner.
Ce choix a du sens surtout dans un système comme Harness-1, où l’environnement semble déjà structuré par le harness. Le harness, c’est la couche qui encadre l’exécution, les outils, le contexte, et la mémoire système. Le modèle ne porte pas tout sur ses épaules. Il décide dans un cadre déjà organisé.
Je le vois souvent chez des clients qui veulent “mettre du RL partout”. Si la base comportementale est mauvaise, le RL devient vite une usine à gaz. Il optimise parfois des raccourcis bizarres au lieu d’améliorer vraiment le raisonnement. Le SFT avant le RL réduit ce risque, au moins dans la logique générale.
Je reste prudent sur le reste. Les parties détaillées sur le RL, l’exécution locale et les benchmarks ne sont pas suffisamment documentées dans les éléments disponibles, donc je préfère ne pas broder.
La vraie idée forte, à mes yeux, reste là : Séparer la mémoire système de la décision modèle.
Et si le vrai sujet n’était pas le modèle ?
Harness-1 montre un point que je vois souvent sur les projets IA : le modèle n’a pas toujours besoin d’être plus gros, il a surtout besoin d’un meilleur cadre de travail. Ici, le harness garde l’état, les preuves, les textes complets et la déduplication. Le modèle, lui, choisit ses actions sur des signaux propres. Le warm-start réduit le chaos du départ, puis le SFT et le RL viennent entraîner une politique plus stable. Pour vous, le bénéfice est clair : des agents de recherche plus fiables, plus lisibles, et moins dépendants d’un prompt qui essaie de tout faire.
FAQ
- Qu’est-ce que Harness-1 ?
Harness-1 est un agent de recherche qui sépare la décision du modèle et la gestion d’état. Le modèle choisit les actions, tandis que le harness conserve les documents, les preuves, les textes complets et les informations dédupliquées. - Pourquoi Harness-1 utilise-t-il un harness externe ?
Le harness externe évite de faire porter toute la mémoire au modèle. C’est plus propre : le système garde les éléments persistants, et le modèle travaille sur des signaux compressés, plus utiles et moins redondants. - À quoi sert le candidate pool dans Harness-1 ?
Le candidate pool stocke des documents compressés et dédupliqués. Il sert de réserve de résultats propres, avant que certains documents soient sélectionnés dans le curated set final. - Comment Harness-1 réduit-il le bruit dans les résultats ?
Le système applique une compression en deux phases. Il sélectionne les meilleures phrases avec Sentence-BM25, puis il déduplique les contenus par chunk ID et par empreinte de contenu. Le modèle reçoit donc moins de répétitions et plus de signal. - Pourquoi le warm-start seeding est important ?
Le warm-start seeding évite que l’agent démarre depuis le vide. Après une première recherche réussie, le harness crée un premier ensemble curé à partir des 8 meilleurs résultats rerankés. La politique peut ensuite affiner au lieu de tout construire seule.
A propos de l’auteur
Je suis Franck Scandolera, expert et formateur en tracking avancé server-side, Analytics Engineering, automatisation No/Low Code avec n8n, intégration de l’IA en entreprise et SEO/GEO. J’accompagne des équipes qui veulent rendre leurs systèmes data et IA plus propres, plus mesurables et plus automatisables, avec des références comme Logis Hôtel, Yelloh Village, BazarChic, la Fédération Française de Football ou Texdecor. Je dirige l’agence webAnalyste et l’organisme Formations Analytics. Si vous voulez mettre en place des agents IA utiles, fiables et connectés à vos données business, contactez-moi.
⭐ Analytics engineer, Data Analyst et Automatisation IA indépendant ⭐
- Ref clients : Logis Hôtel, Yelloh Village, BazarChic, Fédération Football Français, Texdecor…
Mon terrain de jeu :
- Data Analyst & Analytics engineering : tracking avancé (GTM server, e-commerce, CAPI, RGPD), entrepôt de données (BigQuery, Snowflake, PostgreSQL, ClickHouse), modèles (Airflow, dbt, Dataform), dashboards décisionnels (Looker, Power BI, Metabase, SQL, Python).
- Automatisation IA des taches Data, Marketing, RH, compta etc : conception de workflows intelligents robustes (n8n, App Script, scraping) connectés aux API de vos outils et LLM (OpenAI, Mistral, Claude…).
- Engineering IA pour créer des applications et agent IA sur mesure : intégration de LLM (OpenAI, Mistral…), RAG, assistants métier, génération de documents complexes, APIs, backends Node.js/Python.






