OpenCUA: framework nguồn mở từ Đại học Hồng Kông thách thức AI agent của OpenAI và Anthropic

  • Các nhà nghiên cứu từ Đại học Hồng Kông (HKU) cùng đối tác giới thiệu OpenCUA – framework nguồn mở cho computer-use agents (CUA), bao gồm công cụ, dữ liệu và công thức mở rộng huấn luyện.

  • CUAs là agent AI có thể tự vận hành máy tính, điều hướng website, quản lý phần mềm phức tạp và tự động hóa quy trình doanh nghiệp. Cho tới nay, các hệ thống mạnh mẽ nhất chủ yếu thuộc OpenAI và Anthropic, với dữ liệu và kiến trúc khép kín.

  • OpenCUA giải quyết các hạn chế lớn của nguồn mở: thiếu dữ liệu GUI quy mô lớn, khó tái tạo phương pháp. Công cụ AgentNet cho phép ghi lại thao tác người dùng (video màn hình, chuột, bàn phím, accessibility tree), chuyển thành trajectory “state–action”.

  • Dataset AgentNet: hơn 22.600 bản ghi tác vụ trên Windows, macOS, Ubuntu, bao phủ hơn 200 ứng dụng và website. Quy trình bảo mật nhiều lớp đảm bảo tính riêng tư dữ liệu trước khi công khai.

  • Benchmark AgentNetBench giúp đánh giá nhanh hiệu suất agent bằng cách cho phép nhiều hành động đúng tại mỗi bước.

  • Pipeline huấn luyện mới bổ sung chain-of-thought (CoT), tạo “nội tâm suy luận” gồm quan sát màn hình, phân tích – lập kế hoạch, và hành động cụ thể. Cách này nâng cao khả năng tổng quát và nhận thức của agent.

  • Thử nghiệm trên nhiều VLM (Qwen, Kimi-VL, 3B–32B tham số): mô hình OpenCUA-32B lập kỷ lục mới trong OSWorld-Verified benchmark, vượt GPT-4o-CUA và tiệm cận Anthropic.

  • OpenCUA cho thấy tính ứng dụng rộng rãi: từ khởi chạy EC2 trên AWS đến cấu hình MTurk. Tuy nhiên, triển khai thực tế vẫn đối mặt thách thức về an toàn và độ tin cậy.

  • OpenCUA định hình mô hình làm việc tương lai: offline automation (agent tự động hoàn tất tác vụ) và online collaboration (agent làm việc song song như đồng nghiệp).


📌 OpenCUA từ Đại học Hồng Kông (HKU) đưa nguồn mở lên ngang hàng với hệ thống AI agent khép kín: 22.600 tác vụ, mô hình 32 tỷ tham số vượt GPT-4o-CUA và gần đạt Anthropic. Với pipeline chain-of-thought và AgentNetBench, framework này giúp doanh nghiệp tự huấn luyện agent trên quy trình nội bộ, tăng cường tự động hóa. Nếu giải quyết được thách thức an toàn, OpenCUA có thể trở thành nền tảng AI agent phổ biến nhất cho doanh nghiệp toàn cầu.

https://venturebeat.com/ai/opencuas-open-source-computer-use-agents-rival-proprietary-models-from-openai-and-anthropic/

Không có file đính kèm.

50

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo