Tous les articles

OSWorld 2.0 : un benchmark pour mesurer les agents IA sur des workflows informatiques complexes

OSWorld 2.0 propose un benchmark inédit de 108 workflows informatiques longs et réalistes, révélant les limites des agents IA actuels dans des contextes professionnels et quotidiens exigeants.

François Mari

Fondateur, ligne8 Studio

Publié le 2 juillet 2026 · Mis à jour le 2 juillet 2026

Abstract editorial image representing complex AI workflows and long-horizon computer tasks, premium style, no real faces or screenshots, futuristic and minimali

Les benchmarks actuels d'agents d'intelligence artificielle dédiés à l'utilisation informatique peinent à refléter la complexité et la durée des tâches réelles. Cette lacune limite la compréhension des performances et des limites des agents de pointe dans des environnements professionnels et quotidiens.

Présentation d'OSWorld 2.0

OSWorld 2.0 est un nouveau benchmark conçu pour évaluer les agents IA sur 108 workflows informatiques longs, couvrant des tâches variées allant du quotidien professionnel à des scénarios complexes. Chaque tâche représente un workflow réaliste nécessitant en moyenne 1,6 heure de travail humain et environ 318 appels d'outils pour Claude Opus 4.7 en mode réflexion maximale, contre environ 30 appels dans la version précédente OSWorld 1.0.

L'importance d'un benchmark réaliste et exigeant

En intégrant des phénomènes peu représentés dans les benchmarks antérieurs, tels que les interactions en streaming et les environnements dynamiques, OSWorld 2.0 met en lumière des défis concrets rencontrés par les agents IA dans des workflows longs et complexes. Cela permet d'identifier précisément les faiblesses actuelles des agents et d'orienter leur développement futur.

Impacts pour les produits, applications et workflows IA

Pour les entreprises et développeurs, OSWorld 2.0 offre un outil précieux pour tester et améliorer les agents IA destinés à automatiser des tâches informatiques complexes et longues. La capacité à gérer efficacement des workflows étendus avec de multiples appels d'outils est cruciale pour déployer des solutions fiables en milieu professionnel, augmentant ainsi la productivité et la qualité des services numériques.

Points à surveiller

  • L'évolution des capacités des agents IA à gérer des environnements dynamiques et des interactions en temps réel.
  • L'adaptation des outils et plateformes pour intégrer les exigences d'OSWorld 2.0.
  • L'impact de benchmarks plus réalistes sur la conception des agents et leur intégration dans les workflows métiers.

Sources

Articles et annonces consultés

Passer à l'action

Vous voulez identifier les workflows IA qui peuvent transformer votre entreprise ? Parlons-en.

Identifier mes workflows IA