Liệu Agentic AI có phải là ngôi nhà hoàn hảo cho trình duyệt của bạn không?

Tác giả Starlink, T.Tư 26, 2025, 11:45:08 CHIỀU

« Chủ đề trước - Chủ đề tiếp »

0 Thành viên và 1 Khách đang xem chủ đề.

Đây là lý do.

    AI của Agentic trong trình duyệt có thể tự động hóa các tác vụ như mua vé sự kiện, đặt phòng khách sạn và điền biểu mẫu.
    Trình điều khiển từ xa của ChatGPT chạy trên máy chủ, trong khi phiên bản của Opera hoạt động trực tiếp trên trình duyệt của bạn.
    Mặc dù có một số nhược điểm, một Operator được cải tiến có khả năng trở thành một công cụ sử dụng hàng ngày cho nhiều tác vụ duyệt web khác nhau.

Những ai biết tôi đều biết rằng tôi là người hoài nghi về nhiều thứ đi kèm với từ "AI". Nhiều thứ trong số đó chỉ là mánh lới quảng cáo, và một số công ty chắc chắn đang sử dụng AI như một cách dễ dàng để kiếm điểm cookie của nhà đầu tư.


Agentic AI sẽ đi theo con đường tương tự, nhưng ứng dụng thực tế nhất của nó cho đến nay có thể lại là ứng dụng mà bạn đã bỏ qua—trình duyệt.

1. Cách thức hoạt động của Agentic AI trong trình duyệt

Gần đây tôi được mời tham dự sự kiện Opera's Browser Days tại Lisbon, Bồ Đào Nha. Tại đó, tôi được xem, trong số những thứ khác, bản demo trực tiếp về tính năng Operator mới của công ty. Theo một cách nào đó, đây là phần mở rộng của chatbot Aria tích hợp sẵn của trình duyệt và cách thức hoạt động của nó là có thể thực hiện các hành động trong trình duyệt và trong các trang web từ lời nhắc văn bản của bạn.

Bạn có thể yêu cầu nó mua thứ gì đó cho bạn trên một trang web, tìm và đặt phòng khách sạn hoặc Airbnb, điền vào biểu mẫu, mua vé máy bay... Bất cứ điều gì "tẻ nhạt" trong trải nghiệm duyệt web hàng ngày của bạn, bạn đều có thể chuyển giao cho Nhà điều hành bất cứ khi nào nó hoạt động.

Tất cả những gì bạn cần làm là cho nó biết chính xác những gì bạn cần nó làm và cung cấp cho nó càng nhiều chi tiết càng tốt. Ví dụ, nếu bạn muốn mua vé cho một sự kiện, bạn nên cho Nhà điều hành biết chính xác trang web nào để truy cập, bạn muốn ngồi ở đâu và bạn sẵn sàng chi bao nhiêu.

Tương tự như cách bạn không nên ngủ gật khi lái xe tự lái, bạn nên để mắt và sẵn sàng kiểm soát bất cứ lúc nào khi Người vận hành đang làm gì đó. Nếu nó đến màn hình thanh toán và không thể thực hiện vì thiếu thông tin chi tiết về thẻ tín dụng của bạn, bạn chỉ nên đợi nó từ bỏ và tự nhập thông tin, thay vì chỉ cung cấp cho AI số thẻ tín dụng của bạn, vì những lý do hiển nhiên. Tuy nhiên, nó khá gọn gàng.

Trong bản demo trực tiếp được trình chiếu, nhóm Opera đã yêu cầu Người vận hành truy cập vào một trang web giao hoa, chọn một số bông hoa màu vàng, mua chúng và giao chúng đến phòng khách sạn của một trong những nhà báo tham dự. Những bông hoa đã được giao vào ngày hôm sau, giống như chúng sẽ được giao nếu một con người mua chúng.

Theo công ty, Operator đi sâu vào cấu trúc cơ bản của trang web và tách nó ra bên trong thay vì chỉ nhìn vào bố cục và nút giao diện và cố gắng đoán xem chúng có chức năng gì. Nó "đọc" cấu trúc trang để tìm ra cách thực hiện các hành động như nhấp, nhập và điều hướng.

Bây giờ, bạn lưu ý, Operator này vẫn còn nhiều điểm chưa hoàn thiện, có lẽ đó là lý do tại sao Opera vẫn chưa cam kết về khung thời gian phát hành cụ thể cho tính năng này. Bản demo cũng gặp trục trặc đôi lần khiến nó không thực hiện tốt một số tác vụ hoặc không hoàn thành một tác vụ cụ thể. Đây là một vấn đề lớn hơn với AI đại lý nói chung hiện nay—sẽ nói thêm về vấn đề này sau. Nhưng khi thực sự là thứ gì đó đã sẵn sàng cho thời điểm quan trọng, tôi cảm thấy trình duyệt là điểm dừng chân tốt cho công nghệ này.

2. So sánh với các AI Agentic khác như thế nào

Mặc dù điều này rất thú vị, nhưng những người tinh mắt có lẽ sẽ biết rằng nó không hẳn là "mới". Một ứng dụng gần như giống hệt của AI là Operator cùng tên của ChatGPT, hiện chỉ khả dụng ở gói 200 đô la/tháng của chatbot.

Giống như cách triển khai của Opera, ChatGPT có thể duyệt web và thực hiện các hành động trên web cho bạn. Nhưng có một điểm khác biệt chính, đó là ChatGPT chạy trên máy chủ từ xa, trong khi Opera chạy ngay trong trình duyệt của bạn, với cùng cookie và dữ liệu duyệt web mà bạn đã có—và công ty cho biết dữ liệu này không bao giờ rời khỏi trình duyệt của bạn trong khi bạn đang sử dụng.

Cần lưu ý rằng việc triển khai ChatGPT cũng có xu hướng gây ra nhiều rắc rối. Cách tốt nhất để các loại tác nhân này hoạt động tốt có lẽ là đào tạo chúng trên các trang web cụ thể, đó là lý do tại sao các chương trình thí điểm như tính năng Buy For Me của Amazon hoặc Actions của Microsoft Copilot chỉ hoạt động với một số ít trang web tại thời điểm đó. Tôi đoán rằng mục tiêu cuối cùng là đưa mọi thứ vào cùng một chế độ "bắt tất cả" mà ChatGPT và Opera hiện đang sử dụng, nhưng nếu bạn cho phép đầy đủ chức năng ngay từ đầu, thì việc chọc thủng nó sẽ dễ dàng hơn nhiều.

AI đại lý cũng là một thuật ngữ khá rộng. AI đại lý chỉ là AI có thể tự động đưa ra quyết định và thực hiện nhiệm vụ mà không nhất thiết phải cần đến sự can thiệp của người dùng. Sau khi thiết lập điều đó, chúng ta cũng có vô số ứng dụng AI đại lý khác nhau—"Các nhà điều hành" có thể thực hiện nhiệm vụ cho bạn trong trình duyệt chỉ là một loại AI đại lý. Đây cũng là điều tôi muốn nói ở đầu bài viết khi tôi nói rằng nó sẽ đi theo cùng một con đường mánh khóe mà các AI khác đã đi—một số trong số đó hữu ích, nhưng phần lớn trong số đó không phải là thứ mà mọi người sẽ sử dụng nhiều hơn một hoặc hai lần.

Ngoài ra còn có những cách để chạy các mô hình AI cục bộ có thể thực hiện các hành động tự động, chẳng hạn như với AnythingLLM. Tuy nhiên, phần lớn mọi người có lẽ sẽ không đi xa đến mức cài đặt LLM cục bộ trên máy tính hoặc điện thoại thông minh của họ, vì vậy đây có lẽ là một điểm trung gian tốt.

3. Liệu nó có thực sự đáng giá không?

Có "đáng giá" hay không sẽ phụ thuộc vào việc triển khai cuối cùng của tính năng này trông như thế nào. Sau cùng, tất cả những gì chúng ta có bây giờ là bản mẫu. Opera vẫn chưa cam kết về khung thời gian phát hành cụ thể cho tính năng này—mặc dù nó có thể được phát hành trong những tháng tới, nhưng rõ ràng là nó vẫn cần thêm thời gian để hoàn thiện. Nhưng tôi nghĩ nó có thể trở thành thứ mà mọi người sẽ sử dụng hàng ngày.

Trong một triển khai nhanh hơn và chính xác hơn, bạn có thể để một Nhà điều hành đấu tranh với một trang web bán vé hòa nhạc để có được vé hòa nhạc với giá bán thông thường hoặc một người lớn tuổi có thể sử dụng một trang web để thực hiện các nhiệm vụ mà họ không biết cách tự mình thực hiện đúng cách. Tất nhiên, điều này phụ thuộc vào việc nó thực sự cải thiện.

Tôi tin rằng điều này có tiềm năng trở thành một công cụ thực sự hữu ích nếu được phát triển đúng cách, và tôi sẽ không loại trừ các trình duyệt khác—ít nhất là một số trình duyệt nhỏ—sẽ cố gắng triển khai phiên bản này trong tương lai. Tuy nhiên, tôi sẽ không nói rằng nó thực sự là một công cụ thay đổi cuộc chơi đối với tôi, ít nhất là trong quá trình triển khai hiện tại. Nó không làm bất cứ điều gì nhanh hơn những gì tôi tự làm, và nếu có, tôi sẽ dành nhiều thời gian hơn để vượt qua những trục trặc thường gặp mà nó sẽ gặp phải. Nhưng nó có tiềm năng. Hy vọng rằng, khi điều này thực sự ra mắt, nó sẽ là một sản phẩm được hoàn thiện hơn.