Bây giờ bạn có thể trò chuyện với tệp PDF của mình trong Google Drive

Tác giả Starlink, T.M.Hai 22, 2024, 02:24:35 CHIỀU

« Chủ đề trước - Chủ đề tiếp »

0 Thành viên và 3 Khách đang xem chủ đề.

Đây là cách thực hiện.

Một ứng dụng thực sự độc đáo của mô hình AI tạo sinh là quét một tài liệu dài và đưa ra lời nhắc dựa trên tài liệu đó. Theo một cách nào đó, bạn đang trò chuyện với PDF. Tôi muốn chỉ cho bạn cách bạn có thể thực hiện điều đó ngay trong Google Drive.


1. Tại sao nên trò chuyện bằng PDF?

Bạn có thể hỏi chatbot bất cứ điều gì và nó sẽ cung cấp cho bạn thông tin cụ thể và chính xác được trích từ tệp PDF mà bạn cung cấp.

Ví dụ, bạn có thể đưa cho nó một cuốn sách giáo khoa và yêu cầu nó tóm tắt một chương, giải thích sơ đồ, giải quyết vấn đề, vẽ bảng, tạo bảng hướng dẫn, thiết kế kế hoạch học tập hoặc tạo thẻ ghi nhớ. Bạn thậm chí có thể yêu cầu nó tạo bài kiểm tra thực hành. Chatbot có thể hoạt động như một gia sư và dạy bạn từ sách giáo khoa. Khả năng là vô tận.

Cảm giác giống như trong khoa học viễn tưởng vì những con bot này rất giỏi trong việc này. Khi trò chuyện với PDF, bot ít có khả năng bịa đặt thông tin và bạn luôn có thể yêu cầu nó giới thiệu cho bạn số trang để xác minh thông tin chi tiết.

Nhìn chung, các bot này không làm tốt với các tệp PDF lớn. Chúng có giới hạn về kích thước tệp hoặc bị khóa sau tường phí. Ngay cả khi chúng cho phép bạn tải lên một tệp lớn, chúng vẫn có thể mất ngữ cảnh sau một vài văn bản. Đó là vì các bot, được hỗ trợ bởi các mô hình ngôn ngữ lớn, dựa vào thứ gọi là mã thông báo để giữ lại "ngữ cảnh" của một cuộc trò chuyện. Mã thông báo là một đơn vị được tạo thành từ khoảng bốn ký tự văn bản. Một bot AI chỉ có một số lượng mã thông báo hạn chế để chơi.

Nói chung, bot hỗ trợ càng nhiều token thì nó có thể "ghi nhớ" cuộc trò chuyện đang diễn ra lâu hơn mà không mất ngữ cảnh. Khi bot mất ngữ cảnh, nó "quên" cuộc trò chuyện trước đó, nghĩa là bạn phải cung cấp lại cùng một thông tin. Và tài liệu của bạn càng dài thì bạn càng đến được điểm đó nhanh hơn.

Gemini của Google sẽ không dễ dàng mất ngữ cảnh vì nó hỗ trợ khoảng 1 triệu mã thông báo cho cửa sổ ngữ cảnh phân tích tài liệu. Theo Google, nó tốt hơn bất kỳ bot thương mại nào khác. Nếu bạn đang làm việc với các tài liệu dài, Gemini sẽ làm tốt hơn ChatGPT.

Gemini tích hợp với Google Drive là cách tốt nhất tôi tìm thấy để làm việc với PDF. Bạn có thể hỏi Gemini các câu hỏi về PDF, nhắc Gemini tạo nội dung dựa trên PDF hoặc kết hợp PDF với các tệp khác trong Google Drive của bạn để xây dựng ngữ cảnh tốt hơn. Tôi nói PDF, nhưng trò chuyện hoạt động với bất kỳ loại tài liệu nào, bao gồm cả Google Docs.

Các chatbot AI là công nghệ thông minh đáng kinh ngạc, nhưng chúng cũng đưa ra thông tin bịa đặt hoặc không chính xác (đôi khi thậm chí có thể là thông tin có hại). Bạn không nên tìm kiếm lời khuyên về tài chính, pháp lý hoặc y tế từ chúng. Google cảnh báo không nên nhận bất kỳ lời khuyên chuyên nghiệp nào từ Gemini. Tôi thậm chí không khuyên bạn nên tải tệp PDF nhạy cảm (ví dụ như hồ sơ y tế hoặc thông tin ngân hàng của bạn) lên các dịch vụ này.

2. Gemini trong Google Drive thật mạnh mẽ

Không quan trọng bạn đang làm việc với loại PDF nào. Gemini xử lý PDF được quét và PDF dài, phức tạp rất tốt. Tôi thậm chí còn gửi cho nó một bản PDF của bản nhạc và nó có thể hiểu được đó là gì và giải thích cho tôi. Ngay cả định dạng và hình ảnh phức tạp cũng không làm hỏng nó.

Nói rõ hơn, tôi không có ý nói rằng nó sẽ trả lời mọi câu hỏi về một bản nhạc—thỉnh thoảng bạn vẫn có thể nhận được câu trả lời "Tôi vẫn đang học và không thể giúp được gì", nhưng nó thực sự làm tốt một cách đáng ngạc nhiên.

Gemini cho Google Drive được đóng gói với các tài khoản Google cao cấp. Nếu bạn muốn sử dụng miễn phí trên tài khoản cá nhân, bạn sẽ cần kích hoạt Google Workspace Labs. Google đã khóa Workspace Labs sau một hệ thống chỉ dành cho người được mời, vì vậy bạn chỉ có thể kích hoạt khi Google mời bạn tham gia chương trình thử nghiệm beta. Bạn có thể đã thấy lời mời bật AI trong Google Docs hoặc các ứng dụng Workspace khác. Nếu bạn bật Labs ở bất kỳ đâu, bạn cũng sẽ thấy Gemini ngay trong Google Drive của mình.

Ứng dụng di động không có tính năng này. Thay vì ứng dụng Google Drive, bạn có thể sử dụng ứng dụng Gemini Android với tiện ích mở rộng Google Workspaces được bật. Tuy nhiên, đó chỉ là giải pháp tạm thời và không hiệu quả lắm.

Để có trải nghiệm tốt nhất, hãy đăng nhập vào Google Drive trên trình duyệt web trên máy tính để bàn.

Gemini trong Google Drive hỗ trợ bảy ngôn ngữ sau: Tây Ban Nha, Pháp, Đức, Ý, Nhật Bản, Hàn Quốc và Bồ Đào Nha.

3. Cách trò chuyện với tệp PDF của bạn trong Gemini

Bạn có thể truy cập tệp PDF trong Gemini theo hai cách:

Nhấp vào nút Gemini trên Google Drive (biểu tượng lấp lánh ở góc trên cùng). Một hộp trò chuyện sẽ mở ra yêu cầu nhắc nhở. Nhập " @ " ở đây, theo sau là tên tệp PDF. Gemini sẽ cung cấp cho bạn các gợi ý tự động điền khi bạn nhập. Sau khi bạn đã chọn đúng tệp, hãy nhập câu hỏi hoặc nhắc nhở của bạn và gửi.



Ngoài ra, bạn có thể nhấp chuột phải vào tệp bằng chuột và chọn "Hỏi Gemini" từ menu ngữ cảnh. Gemini sẽ tự động điền tên tệp với lời nhắc "Cho tôi biết về tệp này" cho bạn. Nó sẽ tạo ra một bản tóm tắt chi tiết về PDF. Các tệp PDF dài hơn sẽ có bản tóm tắt dài và chi tiết. Nếu tệp chưa có trong Google Drive của bạn, bạn sẽ phải kéo và thả tệp đó từ bộ nhớ máy tính của mình.

Nếu bạn cần đưa vào một tệp khác (không nhất thiết phải là PDF) để có thêm ngữ cảnh, hãy nhập lại " @ " và cung cấp cho Gemini tên tệp. Mỗi tệp phải có chip riêng.


Từ đây, bạn có thể theo dõi bất kỳ câu hỏi hoặc lời nhắc nào bạn có. Nếu Gemini mất ngữ cảnh, bạn có thể nhập lại " @ " theo sau là tên tệp để đưa bot trở lại đúng hướng. Bạn cũng sẽ tìm thấy một tab nguồn ở cuối phản hồi của Gemini. Tùy thuộc vào số lượng tệp bạn đang làm việc, bạn có thể có một nguồn duy nhất hoặc nhiều nguồn.

4. Đưa Gemini vào Google Drive để thử nghiệm

Cho phép tôi cho bạn thấy tất cả những điều này trông như thế nào với một ví dụ thực tế. Tôi bắt đầu cuộc trò chuyện với Gemini bằng cách hỏi về một cuốn sách giáo khoa sinh học dày 400 trang, nặng khoảng 50MB. Tôi yêu cầu Gemini dạy tôi một phần, và nó đã cho tôi biết toàn bộ nội dung. Nó đọc văn bản và thậm chí "nhìn thấy" hình ảnh.




Tôi đã theo dõi thêm nhiều câu hỏi nữa và nó đã trả lời rất tuyệt vời. Tôi đã yêu cầu nó sắp xếp thông tin thành một bảng để rõ ràng hơn. Nó cũng đã làm điều đó một cách tuyệt vời. Tôi thậm chí còn yêu cầu nó giải thích biểu đồ và sơ đồ chỉ bằng cách chỉ định số trang và số hình. Nó đã tìm thấy chính xác những gì tôi cần và giải thích rất chi tiết. Tôi kết thúc cuộc trò chuyện bằng cách yêu cầu thẻ ghi nhớ và một bài kiểm tra thử. Cả hai đều có vẻ hữu ích và không có lỗi.

Gemini trong Google Drive hỗ trợ tuyệt vời cho PDF. Và phần tuyệt nhất là bạn không phải lo lắng về việc tải lên nhiều tệp hoặc mất ngữ cảnh. Tất cả đều có sẵn trên Drive của bạn. Tôi nhấn mạnh PDF, nhưng nó cũng hoạt động tốt với các loại tài liệu khác. Nếu bạn đã làm việc với Google Docs trong một thời gian, giờ đây bạn có thể tìm kiếm và tương tác với toàn bộ thư viện đó bằng Gemini.