金十データ2月17日、マイクロソフトは公式ウェブサイトで、ビジュアルエージェント解析フレームワークOmniParserの最新バージョンV2.0をリリースしました。DeepSeek-R1、GPT-4o、Qwen-2.5VLなどのモデルをコンピュータで使用可能なAI Agentに変換できます。V1と比較して、V2はより小さな対話型UI要素を検出する際の精度が向上し、推論速度が向上しており、レイテンシーが60%低下しました。高解像度AgentベンチマークテストのScreenSpot Proでは、V2+GPT-4oの精度が驚異的な39.6%に達しました。一方、GPT-4oの元の精度はわずか0.8%でした。V2に加えて、マイクロソフトはomnitoolをオープンソース化しました。これはDockerベースのWindowsシステムで、画面理解、位置特定、アクションプランニング、実行などの機能を備え、大規模モデルをAgent化するための重要なツールです。
マイクロソフトオープンソースイノベーションフレームワーク:DeepSeekをAIエージェントに変換可能
金十データ2月17日、マイクロソフトは公式ウェブサイトで、ビジュアルエージェント解析フレームワークOmniParserの最新バージョンV2.0をリリースしました。DeepSeek-R1、GPT-4o、Qwen-2.5VLなどのモデルをコンピュータで使用可能なAI Agentに変換できます。V1と比較して、V2はより小さな対話型UI要素を検出する際の精度が向上し、推論速度が向上しており、レイテンシーが60%低下しました。高解像度AgentベンチマークテストのScreenSpot Proでは、V2+GPT-4oの精度が驚異的な39.6%に達しました。一方、GPT-4oの元の精度はわずか0.8%でした。V2に加えて、マイクロソフトはomnitoolをオープンソース化しました。これはDockerベースのWindowsシステムで、画面理解、位置特定、アクションプランニング、実行などの機能を備え、大規模モデルをAgent化するための重要なツールです。