"Hệ điều hành tác nhân" thực sự có nghĩa là gì đối với Windows?

Tác giả T-X, T.M.Hai 18, 2025, 09:00:07 CHIỀU

« Chủ đề trước - Chủ đề tiếp »

0 Thành viên và 1 Khách đang xem chủ đề.

Một hệ điều hành chủ động thực hiện các tác vụ thay cho bạn, được hướng dẫn bởi các tác nhân trí tuệ nhân tạo. Nhưng điều đó có ý nghĩa gì đối với tương lai của Windows?

Dù yêu thích hay không, trí tuệ nhân tạo (AI) hiện diện ở khắp mọi nơi, và rất có thể bạn đang sử dụng nó mỗi ngày. Các công cụ mới xuất hiện hàng tuần, và có một ý tưởng lớn mới: Hệ điều hành tác nhân (Agentic OS). Microsoft đang sử dụng thuật ngữ này để mô tả một tương lai nơi AI không chỉ hỗ trợ bạn, mà còn thực sự làm việc thay bạn. Vậy tại sao Microsoft lại nhìn nhận vấn đề theo cách này?


1. Giới thiệu về khái niệm hệ điều hành tác nhân (agentic OS)

Trước khi thảo luận về những thay đổi lớn sắp diễn ra trên Windows, tôi muốn trang bị cho bạn một số kiến thức nền tảng.

Chắc hẳn bạn đã quen thuộc với nhiều hệ điều hành khác nhau, như Windows, Linux hay macOS. Nhưng câu hỏi đặt ra là: điều gì làm cho một hệ điều hành trở nên "có khả năng hoạt động độc lập"? Liệu đây có phải là một loại hệ điều hành mới?

Nói một cách đơn giản, hệ điều hành dựa trên tác nhân là hệ điều hành được thiết kế từ đầu, hoặc được sửa đổi mạnh mẽ, để tích hợp và quản lý đầy đủ các tác nhân trí tuệ nhân tạo.

1.1. Trí tuệ nhân tạo (AI) là gì?

Chắc hẳn bạn đã từng sử dụng ChatGPT hoặc Gemini, cả hai đều là chatbot đơn giản. Bạn đặt câu hỏi, và nó sẽ trả lời lại.

Nhưng trí tuệ nhân tạo tác nhân (agentic AI) thì khác. Trí tuệ nhân tạo tác nhân có tính tự chủ, khả năng suy luận và khả năng hành động để đạt được mục tiêu phức tạp, cấp cao. Ví dụ, bạn có thể yêu cầu nó đặt vé máy bay hoặc gửi email cho một danh sách người. Những hành động này bao gồm nhiều bước, và một tác nhân AI có khả năng thực hiện nhiệm vụ phức tạp này.

Cách thực hiện như sau:

    Phân tích nhiệm vụ: Nhân viên hỗ trợ bắt đầu bằng cách tiếp nhận một nhiệm vụ lớn, phức tạp và chia nhỏ nó thành một loạt các bước nhỏ hơn, tuần tự.
    Hành động và sử dụng công cụ: Đối với mỗi bước trong kế hoạch, hệ thống sẽ lựa chọn và sử dụng các công cụ phù hợp (chẳng hạn như API bên ngoài, công cụ tìm kiếm hoặc trình thông dịch mã) để thực hiện hành động cần thiết.
    Quan sát và đánh giá: Sau khi thực hiện một hành động, tác nhân quan sát kết quả hoặc trạng thái hiện tại của môi trường.
    Phản ánh và điều chỉnh: Sau đó, người thực hiện sẽ đánh giá kết quả so với kế hoạch. Nếu kết quả không như mong đợi, không như kỳ vọng hoặc không chính xác, người thực hiện sẽ sửa đổi kế hoạch và cố gắng thực hiện hành động theo kế hoạch mới.

Chu trình hành động, quan sát và điều chỉnh này tiếp tục cho đến khi mục tiêu ban đầu được hoàn thành thành công.

Một số ví dụ về điều này là Google Workspace Duet, giúp xử lý việc theo dõi, tóm tắt các cuộc hội thoại, nhắc nhở bạn về các nhiệm vụ. Hoặc Microsoft Copilot trong Outlook. GitHub Copilot Workspace hoặc Antigravity mới của Google thuộc loại trợ lý AI, nhưng được tinh chỉnh cho lĩnh vực lập trình.

1.2. Vậy, hệ điều hành tác nhân (agentic OS) là gì?

Thuật ngữ "hệ điều hành tác nhân" (agentic OS) khá mới, nhưng đây là ý nghĩa của nó. Đó là một hệ điều hành mà kiến trúc nền tảng được thiết kế để hỗ trợ, quản lý và điều phối nhiều tác nhân AI. Nó hoạt động như một bộ điều phối trung tâm, cho phép các tác nhân truy cập vào các tài nguyên hệ thống, như tệp, ứng dụng, mạng và cài đặt. Đồng thời, nó cũng đảm bảo tính bảo mật và tính hệ thống.

Đây là nơi bạn có thể thấy một tương lai mà trí tuệ nhân tạo (AI) chuyển mình từ một tập hợp các tiện ích/công cụ bổ sung trở thành một phần cốt lõi trong thiết kế của hệ điều hành.

Nhưng có một điều quan trọng cần lưu ý. Một hệ điều hành như Windows hay Linux có tính phản hồi. Ví dụ, khi bạn nhấp vào một nút, di chuyển chuột hoặc khởi chạy một ứng dụng, hệ thống sẽ phản hồi theo một cách đã được lập trình sẵn. Nó đã được mã hóa theo cách mà việc nhấp chuột phải vào màn hình nền sẽ mở ra một loạt các tùy chọn.

Mặt khác, hệ điều hành dựa trên tác nhân (agentic OS) lại mang tính chủ động. Nó thực hiện các tác vụ thay cho bạn, giảm thiểu nhu cầu thao tác thủ công.

Ví dụ, hãy tưởng tượng bạn muốn sắp xếp lại các tệp trong một thư mục: bạn muốn chúng được phân loại vào các thư mục dựa trên loại tệp (ảnh JPEG trong một thư mục, nhạc trong một thư mục khác), và bạn muốn tất cả các tệp cũ hơn một tuần được lưu trữ trong một thư mục Lưu trữ riêng biệt, trong khi các tệp mới hơn vẫn nằm trong thư mục có tên là Hiện tại.

Trên hệ thống hiện tại của bạn, việc thực hiện điều này đòi hỏi phải thao tác nhấp chuột và sắp xếp thủ công rất nhiều, hoặc có thể phải viết và chạy một tập lệnh chuyên dụng nếu bạn có kỹ năng lập trình.

Với hệ điều hành dựa trên tác nhân, bạn chỉ cần mô tả toàn bộ kết quả mong muốn bằng ngôn ngữ tự nhiên, và tác nhân sẽ truy cập vào các tệp cục bộ của bạn, thực hiện các thay đổi cho bạn, mà bạn không cần phải làm gì cả.

2. Tầm nhìn của Microsoft về Windows có khả năng tương tác với tác nhân

Tôi nghĩ điều quan trọng là phải khẳng định rõ ràng: Microsoft hoàn toàn cam kết và kiên quyết chuyển đổi hệ điều hành của mình thành một hệ điều hành có khả năng tương tác với các tác nhân.

Ông Pavan Davuluri, Chủ tịch bộ phận Windows và Thiết bị của Microsoft, đã đăng bài viết này.

Điều này cũng không có gì đáng ngạc nhiên. Quá trình chuyển đổi đã diễn ra rõ rệt trong một thời gian dài. Đầu tiên là sự ra mắt của Copilot, tiếp theo là khái niệm về Copilot PC, và các tính năng như Recall. Sự thúc đẩy mạnh mẽ này đã được tiến hành trong một thời gian và nhận được sự giám sát và phản ứng trái chiều đáng kể từ công chúng.

Hiện tại, tôi rất tò mò không biết Microsoft sẽ phải đối mặt với bao nhiêu sự phản kháng khi họ tiếp tục tích hợp thêm nhiều tác nhân AI vào lõi hệ điều hành. Bởi vì dường như họ không có ý định dừng lại sớm.

Dù người dùng có muốn các tính năng AI mới hay không, Microsoft đang tạo đà phát triển, và bạn có thể sớm thấy những phiên bản hoàn chỉnh đầu tiên của một hệ điều hành dựa trên tác nhân. Điều này thể hiện rõ qua việc phát hành Copilot Actions, một tính năng mới cho phép Copilot thực hiện các tác vụ trực tiếp trên các tệp Windows cục bộ.

Như vậy, theo tôi thấy, Windows 11 đang nhanh chóng trở thành một hệ điều hành cho phép bạn sử dụng lệnh thoại hoặc văn bản, và máy tính sẽ tự động thực hiện một số tác vụ nhất định.

Microsoft muốn bạn bỏ chuột và bàn phím xuống, và sử dụng máy tính của mình như thế này: Bạn mô tả một tác vụ bằng ngôn từ tự nhiên; Copilot Voice sẽ phân tích nó thành các hướng dẫn cụ thể; nó sử dụng Copilot Vision, nếu cần, để hiểu ngữ cảnh màn hình; nó truy cập các tập tin; và tương tác với các ứng dụng máy tính để bàn và ứng dụng web.

Đây không phải là điều bí mật. Trong tầm nhìn về Windows 2030 mà Microsoft đã công bố, họ tin rằng bàn phím và chuột sẽ trở nên thứ yếu so với giọng nói tự nhiên, cử chỉ và tương tác theo ngữ cảnh.

3. Cơ chế hoạt động: Điều gì đang diễn ra bên dưới?

Một câu hỏi khác là làm thế nào Microsoft thực sự hiện thực hóa tầm nhìn về hệ điều hành dựa trên tác nhân (agentic OS), và nó sẽ trông như thế nào trong thực tế? Điều này khiến tôi thực sự tò mò, vì vậy tôi đã tìm hiểu sâu và đây là những gì tôi tìm thấy.

Có ba yếu tố kiến trúc thiết yếu thúc đẩy sự thay đổi này:

    Hành động của phi công phụ
    Giao thức ngữ cảnh mô hình (MCP)
    Không gian làm việc của nhân viên

Microsoft đã phát hành Copilot Actions cho người dùng Windows Insider. Copilot Actions đóng vai trò là lớp tương tác, một tác nhân đa năng. Bạn mô tả nhiệm vụ muốn hoàn thành bằng ngôn từ của riêng mình, và tác nhân sẽ cố gắng hoàn thành nhiệm vụ đó bằng cách tương tác với các ứng dụng máy tính để bàn và ứng dụng web trong một môi trường khép kín. Đây sẽ là cách bạn tương tác với hệ điều hành. Copilot Actions sẽ nhận yêu cầu của bạn và cố gắng hoàn thành nó, hoặc tự động hoặc bằng cách ủy thác nhiệm vụ cho một tác nhân khác.

Thành phần thứ hai là máy chủ MCP, và đây là phần quan trọng nhất. Đây là một tiêu chuẩn mở cho phép các tác nhân AI tương tác với các công cụ và nguồn dữ liệu bên ngoài theo cách chuẩn hóa. Tiêu chuẩn này được phát minh bởi các kỹ sư tại Anthropic. Bạn có thể tìm hiểu thêm về điều này trên Wikipedia. Microsoft đã áp dụng rộng rãi giao thức MCP này vào hệ điều hành của mình.

Ví dụ, Microsoft đã tuyên bố rằng trình kết nối MCP của Windows File Explorer tích hợp các công cụ máy chủ MCP vào menu ngữ cảnh để làm việc với các tệp và thư mục trong File Explorer. Ngoài ra, còn có trình kết nối Cài đặt Windows dành cho máy chủ MCP.

Vậy, mục đích của việc này là gì? Hãy tưởng tượng một tác nhân AI muốn xem các tệp trong một thư mục cụ thể. Có hai cách nó có thể làm điều này. Một cách là tác nhân sử dụng thị giác AI để phân tích ảnh chụp màn hình máy tính của bạn và tìm ra các tệp trong thư mục đó. Cách này tốn thời gian và không hiệu quả. Cách tốt hơn là ứng dụng File Explorer trực tiếp cung cấp cho tác nhân một tệp văn bản chứa tên của tất cả các tệp.

Đây chính xác là những gì MCP thực hiện. Nó cho phép một tác nhân AI giao tiếp với ứng dụng bên ngoài một cách hiệu quả, mà không cần đến các giải pháp tạm thời chậm chạp và dễ xảy ra lỗi.

Thành phần thứ ba là Không gian làm việc của Tác nhân. Microsoft cho biết Agent Workspace là một môi trường khép kín, biệt lập bên trong Windows, nơi các tác nhân AI có thể hoạt động độc lập với phiên làm việc chính của người dùng. Các không gian làm việc này chỉ cấp cho AI quyền truy cập vào các ứng dụng và tệp mà bạn chọn cấp quyền một cách rõ ràng, do đó màn hình chính của bạn vẫn gọn gàng và không bị gián đoạn.

Một hoặc nhiều tác nhân như vậy sẽ chạy song song, hoạt động thông qua phiên Windows nhẹ riêng biệt, được quản lý bởi tài khoản riêng và bị giới hạn trong phạm vi màn hình ảo của riêng chúng. Đây là giải pháp của Microsoft đối với các mối đe dọa bảo mật do trí tuệ nhân tạo gây ra.

4. Liệu Windows có bao giờ có thể làm việc thay bạn không?

Câu trả lời ngắn gọn là Có. Windows sẽ sớm có khả năng thực hiện một số tác vụ thay cho bạn. Nhưng đồng thời, tôi nghĩ câu hỏi quan trọng không chỉ là liệu Windows có thể làm việc thay bạn hay không, mà là liệu bạn có thực sự muốn nó làm vậy hay không.

Từ góc độ kỹ thuật, hệ điều hành dựa trên tác nhân (agentic OS) thực sự có thể tự động hóa rất nhiều tác vụ. Điều đó hoàn toàn khả thi. Nhưng vấn đề lớn hơn là khoảng cách giữa những gì Microsoft muốn và những gì người dùng cần.

Đối với môi trường doanh nghiệp, khả năng của tác nhân có thể cải thiện hiệu quả quy trình làm việc. Đó là giá trị thực sự. Nhưng đối với người tiêu dùng thông thường, giá trị đó ít hơn nhiều.

Đối với người dùng phổ thông, việc cài đặt quá nhiều trợ lý AI, bot và hàng tá công cụ tự động vào Windows không chỉ là sự lãng phí mà còn gây choáng ngợp. Nó tiềm ẩn nguy cơ xâm phạm quyền riêng tư, gây nhầm lẫn và thất vọng, đồng thời ép buộc AI vào những không gian mà bạn không hề mong muốn. Nó đang nhồi nhét AI vào mọi thứ có thể.

Hãy tưởng tượng một hệ điều hành liên tục đề xuất các tính năng mới hoặc quy trình làm việc tự động. Một hệ thống chủ động như vậy không nhất thiết hữu ích. Nó có thể làm gián đoạn công việc của bạn nhiều hơn là hỗ trợ. Tôi đã từng chứng kiến điều này. Ví dụ, các lời nhắc nâng cấp liên tục cho Windows 11 và các thông báo Copilot không thể tránh khỏi.

Vấn đề bảo mật cũng là một mối quan ngại khác. Các tác nhân AI chạy với quyền truy cập hệ thống có thể bị khai thác. Một lỗi cấu hình hoặc vi phạm duy nhất có thể dẫn đến mất dữ liệu nghiêm trọng hoặc những thay đổi hệ thống không mong muốn trước khi bạn kịp nhận ra.

Vậy nên, tôi tin rằng trong tương lai, một hệ điều hành Windows có khả năng tự động hóa sẽ có thể làm việc thay bạn, nếu bạn muốn nhìn nhận theo cách đó. Nhưng cái giá phải trả là gì? Có lẽ là sự riêng tư, sự đơn giản và sự an tâm.