Codex Computer Use: Cách AI OpenAI Tự Động Hóa Mọi Tác Vụ Máy Tính
Trang chủ/Tài Viết/AI
AI

Codex Computer Use: Cách AI OpenAI Tự Động Hóa Mọi Tác Vụ Máy Tính

Quay lại Tài Viết

Không còn cách nào để lại: OpenAI vừa đưa Computer Use vào Codex, và AI giờ có thể điều khiển máy tính của bạn nhanh hơn chính bạn. Trong demo gần đây, kỹ sư Ari đã cho AI tự mở ứng dụng, bấm nút, gõ chữ trên ba ứng dụng khác nhau cùng lúc, trong khi anh vẫn làm việc bình thường.

Đây không phải là điều tưởng tượng hoặc quản lý API. Đây là AI thực sự tiếp quản giao diện đồ họa, chính xác như con người—chỉ nhanh hơn rất nhiều.

▶ Xem video: Computer Use in Codex - OpenAI

Từ Agent Viết Code Đến Teammate Thực Sự

Roma từ OpenAI mở đầu bằng một tuyên bố đơn giản nhưng mạnh mẽ: "Codex đã tiến hóa từ một công cụ viết code, thành một người đồng đội thực sự." Trước đây, AI chỉ làm được những gì hạn chế—chạy lệnh command line, đọc file, hoặc viết code. Nhưng những ứng dụng bình thường trên máy tính, những thứ có giao diện đồ họa, yêu cầu bấm chuột, kéo thả, hay nhập liệu? AI hoàn toàn bó tay.

Computer Use thay đổi điều đó. Codex giờ có thể nhìn vào màn hình, di chuột, bấm nút, gõ chữ—tất cả những hành động mà một người dùng thật sẽ làm, nhưng với tốc độ siêu hạng.

Demo Thực Tế: Ba Ứng Dụng, Cùng Lúc

Ari đưa ra ví dụ cụ thể mà bất kỳ người làm việc trên máy tính nào cũng có thể liên tưởng ngay. Anh cần tạo một máy ảo Mac mới trong ứng dụng UTM—một tác vụ thường phải bấm qua chục bước. Thay vì tự mở, bấm từng nút, thiết lập từng tùy chọn, anh chỉ nói: "Tạo cho tôi một máy ảo Mac mới."

Codex tự làm hết. Nhưng đó chưa phải điều đáng chú ý nhất.

Không Chiếm Toàn Bộ Màn Hình

Điểm khác biệt quan trọng: con trỏ chuột của Codex độc lập với con trỏ của bạn. Codex chạy song song, không chiếm toàn bộ màn hình, không gián đoạn công việc của bạn. Điều này vô cùng quan trọng vì những công cụ computer use trước đây đều lấy độc quyền giao diện. Bạn phải ngồi chờ AI xong việc mới có thể tiếp tục.

Ari thậm chí demo cùng lúc ba ứng dụng: tạo máy ảo Mac (đang tải hệ điều hành), phát nhạc trên Spotify, và thêm nhắc nhở vào Reminders. Codex xử lý cả ba, song hành cùng người dùng.

Con Trỏ Bơi Qua Màn Hình

Có một chi tiết thiết kế nhỏ nhưng chủ đích: cách con trỏ di chuyển. Thay vì di chuyển theo đường thẳng cứng nhắc như máy, con trỏ "bơi" qua màn hình, đầu mũi tên xoay theo hướng di chuyển. Đây là cách tối ưu hóa cảm giác tin tưởng—khi bạn nhìn vào, bạn hiểu Codex đang làm gì, thay vì cảm thấy bị kiểm soát bởi một thứ máy móc vô hồn.

Kỹ Thuật Phía Sau: Từ Ảnh Chụp Đến Accessibility Framework

Giải pháp cũ hoạt động bằng cách chụp ảnh màn hình, rồi cho AI nhìn vào ảnh và quyết định bấm ở đâu. Cách này có vấn đề căn bản: AI chỉ thấy những gì đang hiển thị. Mọi thứ bị cuộn ra khỏi khung nhìn đều bị bỏ sót. Hơn nữa, mỗi hành động đều cần một vòng đầy đủ—chụp ảnh, xử lý, quyết định—rất chậm.

OpenAI Khai Thác Accessibility Framework

OpenAI giải quyết bằng cách không reinvent bánh xe, mà tận dụng cái gì đã tồn tại trong MacOS: accessibility framework. Ban đầu, công cụ này được thiết kế để hỗ trợ người dùng khuyết tật, cung cấp mô tả chữ của giao diện. AI có thể đọc được thông tin này mà không cần chụp ảnh.

Thay vì nhìn bằng mắt qua ảnh chụp, Codex đọc bản mô tả chữ toàn bộ màn hình, bao gồm cả phần bị cuộn. Nhanh hơn, chính xác hơn, không cần xử lý hình ảnh.

Vì không cần xử lý hình ảnh, Codex dùng một model nhỏ hơn, nhanh hơn, rẻ hơn—gọi là Codex Spark. Thực tế, nó nhanh hơn cả người dùng thật. Ari demo soạn và gửi tin nhắn trong ứng dụng Messages; tốc độ siêu nhân, không phải "nhanh hơn một chút" mà "nhanh hơn theo cách không tưởng."


Vấn Đề Bảo Mật: Quyền Hạn Từng Ứng Dụng

Roma thẳng thắn hỏi: đây là công nghệ có thể gây khó chịu. AI có quyền truy cập máy tính thật của bạn, và có thể làm rất nhiều thứ. Làm sao đảm bảo an toàn?

OpenAI xử lý qua cơ chế phân quyền từng ứng dụng. Lần đầu tiên Codex muốn dùng một ứng dụng, nó hỏi xin phép bạn. Bạn cho phép ứng dụng nào, Codex chỉ thấy và tương tác với ứng dụng đó. Nếu bạn cho Codex dùng ứng dụng lập trình và bảng tính, nó không thể tự ý mò sang ứng dụng ngân hàng hay email cá nhân.

Roma đúc kết gọn: không phải stream toàn bộ màn hình, không phải truy cập tất cả file. Mà là từng trường hợp, từng ứng dụng, bạn chủ động cho phép.

Setup Ban Đầu Xây Dựng Niềm Tin

Onboarding cũng được thiết kế kỹ lưỡng. Khi bật tính năng lần đầu, giao diện hướng dẫn từng bước cụ thể, chỉ cần hai thao tác kéo để hoàn tất setup. Điểm này khác biệt so với nhiều công cụ AI khác—khi giao quyền cho AI làm việc trên máy tính thật, trải nghiệm onboarding phải xây dựng niềm tin ngay từ đầu.

Tầm Nhìn: AI Siêu Nhân Trên Máy Tính

Ari chia sẻ tầm nhìn cụ thể: "Computer use có thể vận hành máy tính nhanh gấp hai, năm, thậm chí mười lần, so với người thật." Khi đến điểm đó, anh tin nó sẽ trở nên không thể thiếu, không chỉ với lập trình mà với mọi tác vụ máy tính trong cuộc sống.

Có thể hình dung thế nào về tương lai không xa? Roma nói: ngày nay khi muốn bắt đầu một tác vụ gì đó—dù lập trình hay chỉ là công việc thông thường trên máy—phản xạ tự nhiên là muốn hỏi Codex trước. Đây là dấu hiệu của một thói quen đang hình thành, không phải vì ép buộc mà vì nó thực sự tiết kiệm thời gian.

Với người Việt đang bouncing qua lại giữa năm sáu ứng dụng mỗi ngày, tốn mấy tiếng chỉ để chuyển dữ liệu qua lại, Computer Use chính xác là loại công nghệ được tạo ra để giải quyết vấn đề đó.


Q: Computer Use chỉ hoạt động trên Mac hay hỗ trợ Windows?

Theo demo, Codex Computer Use hiện đang hỗ trợ MacOS qua accessibility framework. Hiện chưa có thông tin chính thức về Windows, nhưng với cách OpenAI tiếp cận (tận dụng cơ chế bảo mật sẵn có), có khả năng sẽ mở rộng sang các hệ điều hành khác.

Q: Liệu Codex có thể truy cập email hay thông tin cá nhân nếu tôi không cho phép?

Không. Cơ chế phân quyền từng ứng dụng đảm bảo Codex chỉ truy cập những ứng dụng bạn cho phép. Nó không thể tự ý di chuyển sang ứng dụng khác mà không có sự đồng ý trước.

Q: Nếu Codex làm được mọi thứ nhanh hơn con người, con người có vai trò gì còn lại?

Codex hoạt động theo hướng dẫn của bạn—bạn vẫn là người quyết định, người đặt mục tiêu, người kiểm tra kết quả. AI là công cụ thực thi, nhanh chóng và chính xác, nhưng bạn vẫn giữ quyền kiểm soát và trách nhiệm cuối cùng.

← Bài trước

Tại sao AI Agent thất bại: Context quan trọng hơn Prompt