Le 17 février, les données de Jinshi ont annoncé que Microsoft avait publié la dernière version V2.0 du framework d'analyse visuelle OmniParser sur son site officiel, qui peut transformer des modèles tels que DeepSeek-R1, GPT-4o, Qwen-2.5VL en agents IA utilisables sur ordinateur. Par rapport à la version V1, la V2 présente une précision plus élevée et une vitesse de raisonnement plus rapide lors de la détection d'éléments d'interface utilisateur interactifs plus petits, réduisant la latence de 60%. Dans le test ScreenSpot Pro Benchmark de haute résolution de l'agent, la précision de V2+GPT-4o a atteint un impressionnant 39,6%, alors que la précision d'origine de GPT-4o n'était que de 0,8%, ce qui représente une amélioration considérable dans l'ensemble. En plus de la V2, Microsoft a également Open Source omnitool, qui est un système Windows basé sur Docker, couvrant des fonctionnalités telles que la compréhension de l'écran, la localisation, la planification et l'exécution des actions, et constitue un outil clé pour transformer de grands modèles en agents.
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
2 J'aime
Récompense
2
4
Partager
Commentaire
0/400
GateUser-d6ca73f1
· 02-23 07:30
Pouvez-vous accéder à la zone au comptant ?
Répondre0
GateUser-50c1e0dd
· 02-17 03:19
Bull Run 🐂
Répondre0
GateUser-50c1e0dd
· 02-17 02:39
Bull Run 🐂
Répondre0
Mmhreyan8513
· 02-17 00:26
Ape In 🚀Bull Run 🐂HODL Tight 💪1000x Vibes 🤑1000x Vibes 🤑HODL Tight 💪Bull Run 🐂Ape In 🚀
Cadre d'innovation Open Source de Microsoft : transformez DeepSeek en agent IA
Le 17 février, les données de Jinshi ont annoncé que Microsoft avait publié la dernière version V2.0 du framework d'analyse visuelle OmniParser sur son site officiel, qui peut transformer des modèles tels que DeepSeek-R1, GPT-4o, Qwen-2.5VL en agents IA utilisables sur ordinateur. Par rapport à la version V1, la V2 présente une précision plus élevée et une vitesse de raisonnement plus rapide lors de la détection d'éléments d'interface utilisateur interactifs plus petits, réduisant la latence de 60%. Dans le test ScreenSpot Pro Benchmark de haute résolution de l'agent, la précision de V2+GPT-4o a atteint un impressionnant 39,6%, alors que la précision d'origine de GPT-4o n'était que de 0,8%, ce qui représente une amélioration considérable dans l'ensemble. En plus de la V2, Microsoft a également Open Source omnitool, qui est un système Windows basé sur Docker, couvrant des fonctionnalités telles que la compréhension de l'écran, la localisation, la planification et l'exécution des actions, et constitue un outil clé pour transformer de grands modèles en agents.