Ngày 17 tháng 2, dữ liệu của Kim Tám cho biết, Microsoft đã phát hành phiên bản mới nhất V2.0 của khung giải mã Agent thị giác OmniParser trên trang web chính thức, có thể biến các mô hình như DeepSeek-R1, GPT-4o, Qwen-2.5VL thành AI Agent có thể sử dụng trên máy tính. So với phiên bản V1, V2 có độ chính xác cao hơn và tốc độ suy luận nhanh hơn khi phát hiện các yếu tố giao diện người dùng nhỏ hơn, TrễThả 60%. Trong bài kiểm tra Điểm chuẩn Agent độ phân giải cao ScreenSpot Pro, độ chính xác của V2 + GPT-4o đạt 39,6%, trong khi độ chính xác ban đầu của GPT-4o chỉ là 0,8%, có bước tiến lớn. Ngoài V2, Microsoft còn Mã nguồn mở omnitool, đây là một hệ thống Windows dựa trên Docker, bao gồm các chức năng như hiểu màn hình, xác định vị trí, lập kế hoạch hành động và thực thi, cũng là công cụ quan trọng để biến các mô hình lớn thành Agent.
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
2 thích
Phần thưởng
2
4
Chia sẻ
Bình luận
0/400
GateUser-d6ca73f1
· 02-23 07:30
Có thể truy cập khu vực hàng hóa sẵn có không
Trả lời0
GateUser-50c1e0dd
· 02-17 03:19
thị trường tăng 🐂
Trả lời0
GateUser-50c1e0dd
· 02-17 02:39
thị trường tăng 🐂
Trả lời0
Mmhreyan8513
· 02-17 00:26
APE tham gia 🚀 thị trường tăng 🐂 HODL chặt 💪 1000x Vibes 🤑 1000x Vibes 🤑 HODL chặt 💪 thị trường tăng 🐂 APE tham gia 🚀
Microsoft's open source innovation framework: turning DeepSeek into an AI Agent
Ngày 17 tháng 2, dữ liệu của Kim Tám cho biết, Microsoft đã phát hành phiên bản mới nhất V2.0 của khung giải mã Agent thị giác OmniParser trên trang web chính thức, có thể biến các mô hình như DeepSeek-R1, GPT-4o, Qwen-2.5VL thành AI Agent có thể sử dụng trên máy tính. So với phiên bản V1, V2 có độ chính xác cao hơn và tốc độ suy luận nhanh hơn khi phát hiện các yếu tố giao diện người dùng nhỏ hơn, TrễThả 60%. Trong bài kiểm tra Điểm chuẩn Agent độ phân giải cao ScreenSpot Pro, độ chính xác của V2 + GPT-4o đạt 39,6%, trong khi độ chính xác ban đầu của GPT-4o chỉ là 0,8%, có bước tiến lớn. Ngoài V2, Microsoft còn Mã nguồn mở omnitool, đây là một hệ thống Windows dựa trên Docker, bao gồm các chức năng như hiểu màn hình, xác định vị trí, lập kế hoạch hành động và thực thi, cũng là công cụ quan trọng để biến các mô hình lớn thành Agent.