AI đa phương thức là gì?

Tác giả sysadmin, T.Một 16, 2024, 10:42:05 SÁNG

« Chủ đề trước - Chủ đề tiếp »

0 Thành viên và 1 Khách đang xem chủ đề.

AI đa phương thức là gì?


Có một từ thông dụng AI mới trong thị trấn.

  • AI đa phương thức sử dụng nhiều nguồn đầu vào (văn bản, hình ảnh, âm thanh, cảm biến) để đạt được kết quả tốt hơn và ứng dụng nâng cao hơn.
  • AI đa phương thức có nhiều hiểu biết hơn và có thể liên kết các đầu vào khác nhau để mang lại kết quả nâng cao.
  • Ví dụ về các mô hình AI đa phương thức bao gồm Google Gemini, GPT-4V của OpenAI, Runway Gen-2 và Meta ImageBind.

Các mô hình AI ban đầu gây ấn tượng nhờ khả năng diễn giải lời nhắc bằng văn bản, nhưng AI đa phương thức còn có khả năng làm được nhiều hơn thế. Khi các mô hình hiện tại mở rộng để chấp nhận nhiều phương thức đầu vào hơn, các công cụ AI sẽ ngày càng tiên tiến hơn.

1. "Đa phương thức" nghĩa là gì?

Từ "đa phương thức" theo nghĩa đen đề cập đến việc sử dụng nhiều chế độ và trong bối cảnh AI, điều đó có nghĩa là việc sử dụng các nguồn đầu vào khác nhau cho cả quá trình đào tạo và để có được kết quả sáng suốt hơn. Chatbots đã gây bão trên toàn thế giới vào năm 2023 chỉ có khả năng sử dụng một chế độ nhập duy nhất là văn bản.


AI đa phương thức có khả năng chấp nhận hai hoặc nhiều phương thức nhập liệu. Điều này áp dụng cả khi đào tạo mô hình và khi tương tác với mô hình. Ví dụ: bạn có thể huấn luyện một mô hình để liên kết một số hình ảnh nhất định với một số âm thanh nhất định bằng cách sử dụng cả bộ dữ liệu hình ảnh và âm thanh. Đồng thời, bạn có thể yêu cầu mô hình kết hợp mô tả văn bản và tệp âm thanh để tạo ra hình ảnh đại diện cho cả hai.

Các chế độ đầu vào tiềm năng bao gồm văn bản, hình ảnh, âm thanh hoặc thông tin từ các cảm biến như nhiệt độ, áp suất, độ sâu, v.v. Các chế độ này có thể được ưu tiên trong mô hình, đánh giá kết quả dựa trên kết quả dự kiến.

Mô hình đa phương thức là sự phát triển của các mô hình đơn phương thức đã chứng kiến sự bùng nổ phổ biến trong năm 2023. Các mô hình đơn phương thức chỉ có khả năng nhận lời nhắc từ một đầu vào duy nhất (chẳng hạn như văn bản). Mô hình đa phương thức có thể kết hợp nhiều đầu vào như mô tả, hình ảnh và tệp âm thanh để cung cấp kết quả nâng cao hơn.

2. AI đa phương thức tốt hơn AI thông thường như thế nào?

AI đa phương thức là sự phát triển hợp lý của các mô hình AI hiện tại, cho phép tạo ra nhiều mô hình "hiểu biết" hơn. Ứng dụng của các mô hình này rộng hơn nhiều, cả về mục đích sử dụng của người tiêu dùng, học máy và triển khai theo từng ngành cụ thể.

Giả sử bạn muốn tạo một hình ảnh mới dựa trên ảnh bạn đã chụp. Bạn có thể cung cấp ảnh cho AI và mô tả những thay đổi mà bạn muốn thấy. Bạn cũng có thể đào tạo một mô hình để liên kết âm thanh với một loại hình ảnh cụ thể hoặc vẽ ra các liên kết như nhiệt độ. Những loại mô hình này sẽ có kết quả "tốt hơn" ngay cả khi bạn chỉ tương tác với chúng qua văn bản.

Các ví dụ khác bao gồm phụ đề video sử dụng cả âm thanh và video để đồng bộ hóa văn bản với những gì đang diễn ra trên màn hình hoặc thu thập thông tin tốt hơn bằng cách sử dụng biểu đồ và đồ họa thông tin để củng cố kết quả. Tất nhiên, bạn phải luôn duy trì mức độ hoài nghi lành mạnh khi trò chuyện với chatbot.

AI đa phương thức đang dần dần xâm nhập vào công nghệ hàng ngày. Trợ lý di động có thể được cải thiện đáng kể khi sử dụng các mô hình đa phương thức vì trợ lý sẽ có nhiều điểm dữ liệu hơn và ngữ cảnh bổ sung để đưa ra các giả định tốt hơn. Điện thoại thông minh của bạn đã có máy ảnh, micrô, cảm biến ánh sáng và độ sâu, con quay hồi chuyển và gia tốc kế, dịch vụ định vị địa lý và kết nối Internet. Tất cả những điều này có thể hữu ích cho trợ lý trong bối cảnh phù hợp.

Những tác động đối với ngành công nghiệp là rất lớn. Hãy tưởng tượng việc đào tạo một mô hình để thực hiện một số loại nhiệm vụ bảo trì bằng cách sử dụng một số đầu vào để có thể đưa ra phán đoán tốt hơn. Một bộ phận có bị nóng không? Thành phần này có bị mòn không? Nó có to hơn mức cần thiết không? Điều này có thể được kết hợp với thông tin cơ bản như tuổi thọ của thành phần và tuổi thọ trung bình của nó, sau đó các yếu tố đầu vào có thể được cân nhắc để đưa ra kết luận hợp lý.

3. Một số ví dụ về AI đa phương thức

Google Gemini có lẽ là một trong những ví dụ nổi tiếng nhất về AI đa phương thức. Mô hình này đã không gây tranh cãi, với một đoạn video chứng minh mô hình được phát hành vào cuối năm 2023 bị những người gièm pha mang nhãn hiệu "giả". Google thừa nhận rằng video đã được chỉnh sửa, kết quả dựa trên hình ảnh tĩnh và không diễn ra trong thời gian thực, đồng thời lời nhắc được cung cấp bằng văn bản thay vì nói to.


Các nhà phát triển có thể bắt đầu sử dụng Gemini ngay hôm nay chỉ bằng cách đăng ký khóa API trong Google AI Studio. Dịch vụ này đã được ra mắt ở cấp độ "miễn phí cho mọi người" với giới hạn lên tới 60 truy vấn mỗi phút. Bạn sẽ cần hiểu biết vững chắc về Python để thiết lập dịch vụ ( đây là hướng dẫn hay để bắt đầu).

Điều đó nói lên rằng, Gemini vẫn là một mô hình AI đa phương thức đầy hứa hẹn đã được đào tạo về âm thanh, hình ảnh, video, mã và văn bản bằng các ngôn ngữ khác nhau. Nó đối đầu với GPT-4 của OpenAI, có thể chấp nhận lời nhắc của cả văn bản và hình ảnh. Còn được gọi là GPT-4V (với chữ V là viết tắt của tầm nhìn), mẫu này có sẵn cho người dùng ChatGPT Plus thông qua trang web OpenAI, ứng dụng di động và API.

Bạn có thể sử dụng GPT-4V miễn phí qua Bing Chat để tải hình ảnh lên hoặc chụp ảnh từ máy ảnh hoặc webcam của thiết bị. Chỉ cần nhấp vào biểu tượng hình ảnh trong hộp "Hỏi tôi bất kỳ điều gì..." để đính kèm hình ảnh vào truy vấn của bạn.


Các mô hình đa phương thức khác bao gồm Runway Gen-2, một mô hình tạo video dựa trên lời nhắc bằng văn bản, hình ảnh và video hiện có. Hiện tại, các kết quả có vẻ rất do AI tạo ra, nhưng như một bằng chứng về khái niệm, nó vẫn là một công cụ thú vị để sử dụng.

Meta ImageBind là một mô hình đa phương thức khác chấp nhận văn bản, hình ảnh và âm thanh cùng với bản đồ nhiệt, thông tin độ sâu và quán tính. Bạn nên xem các ví dụ trên trang web ImageBind để biết một số kết quả thú vị hơn (chẳng hạn như cách kết hợp âm thanh nước đổ và ảnh quả táo thành hình ảnh táo đang được rửa trong bồn rửa).

Việc áp dụng các mô hình AI đa phương thức là tin xấu đối với những ai đã chán ngấy việc nghe tất cả về công nghệ và điều đó chắc chắn sẽ khiến các công ty như OpenAI được cập nhật tin tức lâu hơn một chút. Tuy nhiên, câu chuyện thực sự là làm thế nào các công ty như Apple, Google, Samsung và những ông lớn khác sẽ đưa công nghệ này về nhà và đến tay người tiêu dùng.

Cuối cùng, bạn không cần phải biết rằng mình đang tương tác với một từ thông dụng AI khác để thu được lợi ích. Và bên ngoài lĩnh vực điện tử tiêu dùng, tiềm năng trong các lĩnh vực như nghiên cứu y tế, phát triển thuốc, phòng chống dịch bệnh, kỹ thuật, v.v. có thể có tác động lớn nhất.