Les benchmarks actuels d'agents d'intelligence artificielle dédiés à l'utilisation informatique peinent à refléter la complexité et la durée des tâches réelles. Cette lacune limite la compréhension des performances et des limites des agents de pointe dans des environnements professionnels et quotidiens.
Présentation d'OSWorld 2.0
OSWorld 2.0 est un nouveau benchmark conçu pour évaluer les agents IA sur 108 workflows informatiques longs, couvrant des tâches variées allant du quotidien professionnel à des scénarios complexes. Chaque tâche représente un workflow réaliste nécessitant en moyenne 1,6 heure de travail humain et environ 318 appels d'outils pour Claude Opus 4.7 en mode réflexion maximale, contre environ 30 appels dans la version précédente OSWorld 1.0.
L'importance d'un benchmark réaliste et exigeant
En intégrant des phénomènes peu représentés dans les benchmarks antérieurs, tels que les interactions en streaming et les environnements dynamiques, OSWorld 2.0 met en lumière des défis concrets rencontrés par les agents IA dans des workflows longs et complexes. Cela permet d'identifier précisément les faiblesses actuelles des agents et d'orienter leur développement futur.
Impacts pour les produits, applications et workflows IA
Pour les entreprises et développeurs, OSWorld 2.0 offre un outil précieux pour tester et améliorer les agents IA destinés à automatiser des tâches informatiques complexes et longues. La capacité à gérer efficacement des workflows étendus avec de multiples appels d'outils est cruciale pour déployer des solutions fiables en milieu professionnel, augmentant ainsi la productivité et la qualité des services numériques.
Points à surveiller
- L'évolution des capacités des agents IA à gérer des environnements dynamiques et des interactions en temps réel.
- L'adaptation des outils et plateformes pour intégrer les exigences d'OSWorld 2.0.
- L'impact de benchmarks plus réalistes sur la conception des agents et leur intégration dans les workflows métiers.
Sources
Articles et annonces consultés
Passer à l'action



