Copilot, Gemini hay ChatGPT: AI đàm thoại nào tốt nhất cho bạn?

Tác giả ChatGPT, T.Mười 15, 2024, 06:35:32 CHIỀU

« Chủ đề trước - Chủ đề tiếp »

0 Thành viên và 4 Khách đang xem chủ đề.

Bạn đang sử dụng chatbot nào?

  • Chế độ giọng nói nâng cao của ChatGPT cho phép trò chuyện tự nhiên và thảo luận sâu sắc với người dùng bằng cách tận dụng sức mạnh suy luận của GPT-4o.
  • Gemini Live của Google cung cấp quyền truy cập miễn phí bằng hơn 40 ngôn ngữ và có sẵn thông qua ứng dụng di động Gemini.
  • Tính năng Copilot Voice Interactions của Microsoft cũng miễn phí nhưng hiện chỉ khả dụng ở Úc, Canada, New Zealand, Vương quốc Anh và Hoa Kỳ.


Ai cần lời nhắc dạng văn bản khi bạn có thể chỉ cần nói chuyện với AI yêu thích của mình? Tương tác bằng giọng nói là tính năng mới hấp dẫn mà các nhà phát triển đang cố gắng thêm vào mô hình của họ, với Chế độ giọng nói nâng cao của ChatGPT, Tương tác giọng nói tự nhiên của Copilot và Gemini Live dẫn đầu.

1. Chatbot đang phát triển nhanh chóng

Chưa đầy hai năm kể từ khi ChatGPT ra mắt, và chúng ta đã chứng kiến các chatbot AI trải qua một sự thay đổi cơ bản trong cách chúng giao tiếp với con người. Khi các mô hình này phát triển nhanh chóng và đạt được khả năng đa phương thức, chúng không còn bị ràng buộc chặt chẽ với các lời nhắc và phản hồi dựa trên văn bản nữa. Ngày nay, chúng có thể trò chuyện với bạn như bạn trò chuyện với một người khác và, trong trường hợp của Gemini Live, chúng có thể làm như vậy bằng hơn 40 ngôn ngữ. Rõ ràng, các lời nhắc bằng văn bản truyền thống vẫn có chỗ đứng của chúng—ý tôi là, không ai ngồi xuống và đọc hàng nghìn dòng mã Python cho một chatbot—nhưng tương tác bằng giọng nói và AI đàm thoại đang sẵn sàng cách mạng hóa hơn nữa cách chúng ta tương tác với thế giới hiện đại.

OpenAI là công ty đầu tiên đưa công nghệ này ra thị trường với Advanced Voice Mode, nhưng sau đó nhanh chóng được Gemini Live của Google và gần đây hơn là Natural Voice Interactions của Meta theo sau. Mỗi hệ thống đều có bộ khả năng và hạn chế riêng. Hướng dẫn này sẽ giúp bạn có được thông tin và hiểu biết cần thiết để lựa chọn hệ thống tốt nhất cho nhu cầu cụ thể của mình.

2. Chế độ giọng nói nâng cao ChatGPT

Chế độ giọng nói nâng cao (AVM) của ChatGPT tận dụng mô hình ngôn ngữ lớn mới nhất của OpenAI, GPT-4o, để tạo điều kiện cho các cuộc trò chuyện qua lại tự nhiên hơn với bạn, người dùng. Điều này làm cho nó trở nên lý tưởng cho các tác vụ đòi hỏi tương tác thời gian thực, chẳng hạn như động não hoặc thảo luận về các chủ đề phức tạp. Và, vì nó có GPT-4o bên dưới, AVM có khả năng thảo luận thành thạo về nhiều chủ đề, từ hóa sinh đến triết học Nhật Bản thế kỷ 14. Hơn nữa, nó có thể cung cấp các phản hồi chuyên sâu về các chủ đề đó trong khi các AI khác sẽ cung cấp các bản tóm tắt ngắn gọn. Cá nhân tôi thấy rằng nó cung cấp sự kết hợp mạnh mẽ giữa khả năng hiểu ngôn ngữ tự nhiên, khả năng thích ứng và cá nhân hóa, cùng với cơ sở kiến thức rộng lớn.

AVM là tính năng AI đàm thoại đầu tiên ra mắt thị trường. Lần đầu tiên ra mắt vào tháng 5 tại sự kiện Spring Update của OpenAI trước khi được phát hành dưới dạng bản beta cho một số thuê bao ChatGPT Plus vào tháng 7 để thử nghiệm và phản hồi. Cuối cùng, nó đã được triển khai vào cuối tháng 9 cho những thuê bao Plus và Teams. Có thể truy cập thông qua ứng dụng di động ChatGPT cũng như cổng thông tin dành cho máy tính để bàn, nhưng thật không may, tính năng này vẫn chưa khả dụng nếu bạn sử dụng gói miễn phí của ChatGPT. Tính năng này cũng chưa khả dụng ở EU, Vương quốc Anh, Thụy Sĩ, Iceland, Na Uy và Liechtenstein. Nếu bạn sống ở một trong những khu vực đó, bạn sẽ phải tiếp tục nhập.

3. Gemini Live

Gemini Live là câu trả lời của Google cho Advanced Voice Mode. Nó được xây dựng trên mẫu Gemini 1.5 Pro, mẫu tiên tiến nhất của Google cho đến nay. Công ty đã ra mắt Live vào tháng 5 tại I/O 2024 và ban đầu dùng thử với những người đăng ký Gemini Advanced vào tháng 8 trước khi phát hành miễn phí cho tất cả người dùng vào cuối tháng 9. Chỉ riêng điều đó đã giúp Gemini Live vượt trội hơn AVM theo ý kiến của tôi, vì tôi không phải trả 20 đô la một tháng để dùng thử.

Mặc dù Gemini 1.5 Pro không thể đăng cùng điểm chuẩn như GPT-4o, nhưng nó cung cấp nhiều khả năng mà AVM không có. Tôi không thể nói quá về điều này, nó miễn phí khi sử dụng thông qua ứng dụng Google hoặc các ứng dụng Gemini iOS và Android chuyên dụng. Không có giới hạn khu vực nào đối với nó vì có AVM. Nơi duy nhất bạn không thể tải Gemini Live là trên máy tính để bàn, mặc dù Google được cho là đang nỗ lực bổ sung khả năng đó trong tương lai. Gemini Live hiện có sẵn bằng năm ngôn ngữ ngoài tiếng Anh: tiếng Pháp, tiếng Đức, tiếng Bồ Đào Nha, tiếng Hindi và tiếng Tây Ban Nha, và sẽ mở rộng sang gần bốn chục ngôn ngữ trong những tuần tới.

4. Copilot Voice

Copilot Voice là một trong số nhiều tính năng mới ra mắt gần đây cùng với giao diện cá nhân Copilot được cải tiến, chạy trên phiên bản tùy chỉnh của GPT-4. Giống như AVM và Live, nó cho phép bạn trò chuyện tự nhiên với AI thay vì phải nhập các truy vấn của mình. Giống như những tính năng khác, Voice chủ yếu được thiết kế để trả lời các câu hỏi chung và hoạt động như một trợ lý kỹ thuật số, mặc dù vì nó hoạt động trên GPT-4, nên nó có quyền truy cập vào kho dữ liệu đào tạo mở rộng của mô hình đó. Và không giống như Live, Voice có sẵn thông qua cổng thông tin máy tính để bàn Copilot.

Microsoft coi đây là "cách trực quan và tự nhiên nhất để động não khi đang di chuyển, đặt một câu hỏi nhanh hoặc thậm chí chỉ để trút bầu tâm sự vào cuối một ngày mệt mỏi". Bởi vì ai cần những người bạn thực sự khi bạn có thể hét vào máy tính bỏ túi của mình trên chuyến tàu điện ngầm về nhà?

Không giống như AVM, tính năng này miễn phí khi sử dụng, mặc dù hiện tại nó chỉ giới hạn ở các cuộc hội thoại bằng tiếng Anh và chỉ dành cho những người sống tại Úc, Canada, New Zealand, Vương quốc Anh hoặc Hoa Kỳ. Microsoft đang nỗ lực mở rộng cả khả năng ngôn ngữ và phạm vi địa lý của tính năng này trong những tuần tới.

5. AI giọng nói nào phù hợp với bạn?

Đó là một câu hỏi phụ thuộc vào một số biến số như bạn sẵn sàng trả bao nhiêu, bạn định làm gì với AI và bạn đăng ký hệ sinh thái thương hiệu nào. Đối với tôi, tôi thích Google Live. Không chỉ vì nó miễn phí, mà còn vì tôi đã tích hợp sâu vào hệ sinh thái Google. Ý tôi là, tôi sử dụng Gemini trên điện thoại Android và tôi đang viết bài đăng này trên Acer Chromebook.

Nếu tôi là người dùng Windows, tôi sẽ có nhiều khả năng sử dụng Voice hơn, dù chỉ để giảm thiểu các điểm ma sát tiềm ẩn với các ứng dụng còn lại mà tôi đã sử dụng. Nếu tôi chạy iOS, tôi sẽ kiên nhẫn chờ Apple Intelligence ra mắt với Siri được tăng cường AI và nâng cấp tối đa. Mặt khác, nếu bạn thực sự cần khả năng suy luận và hiệu suất tuyệt vời mà ChatGPT cung cấp và có 20 đô la đang đốt cháy túi của bạn, thì Advanced Voice Mode có lẽ là lựa chọn phù hợp.