Cách tải xuống và duyệt toàn bộ trang web ngoại tuyến bằng tệp ZIM

Tác giả T-X, T.M.Hai 30, 2025, 09:00:10 CHIỀU

« Chủ đề trước - Chủ đề tiếp »

0 Thành viên và 2 Khách đang xem chủ đề.

Hãy tưởng tượng bạn có thể tải toàn bộ Wikipedia xuống và duyệt nó ngoại tuyến, giống như phiên bản thông thường.

    Sử dụng OpenZIM/Kiwix để lưu trữ và duyệt toàn bộ trang web ngoại tuyến thông qua các tệp.zim.
    Sử dụng Zimit (phiên bản web hoặc Docker) để 'in' các trang web vào tệp ZIM; Docker chạy nhiều tác vụ cục bộ, nhanh hơn.
    OpenZIM cung cấp các mô-đun ZIM có sẵn (Wikipedia, Gutenberg) cùng với các công cụ để tạo bản sao ngoại tuyến của bất kỳ trang web nào.


Khi muốn lưu một trang web để sử dụng ngoại tuyến, phản ứng đầu tiên của bạn có thể là nhấn nút "lưu trang web" trong trình duyệt. Cách này rất hiệu quả, nhưng chỉ dành cho các trang web riêng lẻ. Nếu bạn muốn lưu toàn bộ trang web, bạn sẽ phải mở từng trang một, lưu thủ công, và sau đó (khi cần truy cập trang web) tìm các tệp HTML riêng lẻ và mở chúng từng cái một. Có một cách tốt hơn để làm việc này.

1. Hãy cùng tìm hiểu dự án OpenZIM

OpenZIM là một dự án mã nguồn mở được thiết kế để lưu trữ bất kỳ trang web nào và cho phép truy cập ngoại tuyến. Để làm được điều đó, các nhà phát triển đã tạo ra một định dạng tệp mới có tên là '.zim', là phiên bản nén cao của một trang web. Bạn có thể đọc các tệp lưu trữ ZIM này ngoại tuyến bằng các ứng dụng như Kiwix, hoạt động giống như một trình duyệt, nhưng bạn chỉ có thể duyệt các phiên bản ngoại tuyến này của các trang web.



Dự án này có một thư viện nơi bạn có thể tìm và tải xuống các kho lưu trữ ZIM được xây dựng sẵn của các wiki và cổng thông tin tri thức phổ biến. Ví dụ, bạn có thể tải xuống Wikipedia, lưu trữ trên máy tính của mình và duyệt nó mà không cần internet bằng Kiwix. Toàn bộ Wikipedia tiếng Anh dạng ZIM có dung lượng khoảng 100GB. Cũng có một phiên bản Wikipedia "mini" rút gọn, có dung lượng khoảng 11GB. Bạn thậm chí có thể tải xuống và duyệt toàn bộ thư viện Project Gutenberg từ thư viện Kiwix.


Cũng có những file ZIM nhỏ hơn. Ví dụ, tôi đã tải trang web Doom Wiki dưới dạng file ZIM. Sau đó, tôi cài đặt trình đọc Kiwix và tải file ZIM của Doom Wiki vào đó. Cảm giác giống như duyệt Doom Wiki trên trình duyệt thông thường, chỉ khác là không bị giật lag hay hiện tượng vòng xoay tải trang.

Điều tuyệt vời nhất là bạn không bị giới hạn bởi thư viện Kiwix. Dự án OpenZIM cung cấp các công cụ cho phép bạn tạo kho lưu trữ ZIM từ bất kỳ URL trang web nào. Cộng đồng gọi đó là "in" một trang web. Tôi sẽ chỉ cho bạn hai cách để làm điều đó.

2. Cách đơn giản để 'in' một trang web

Cách dễ nhất để in một trang web và tải xuống phiên bản '.zim' của nó là sử dụng cổng thông tin Kiwix. Đó là một ứng dụng web có tên là Zimit. Nó yêu cầu URL của trang web mục tiêu và địa chỉ email của bạn (trang web sẽ gửi liên kết tải xuống đến địa chỉ email này). Sau khi bạn đã cung cấp URL của trang web và địa chỉ email, bạn có thể bắt đầu quá trình. Bạn có thể đóng tab tại bước này nếu muốn.


Zimit sẽ đóng gói trang web mục tiêu vào một tệp ZIM (bạn có thể thấy thanh tiến trình được lấp đầy theo thời gian thực) và gửi cho bạn một liên kết tải xuống qua email. Sau đó, bạn có thể tải xuống tệp ZIM và mở nó bằng Kiwix. Kiwix sẽ cho phép bạn duyệt trang web đó giống như một trang web thông thường, nhưng hoàn toàn ngoại tuyến.



Mặc dù phương pháp này dễ nhất, nhưng nó cũng có một số hạn chế. Ví dụ, bạn chỉ có thể chạy một tác vụ tại một thời điểm. Hệ thống của họ có thể mất đến 24 giờ để cung cấp cho bạn tệp ZIM, vì vậy nó khá chậm. Một tệp ZIM 2GB có thể mất khoảng 2 giờ để được cung cấp. Sau đó, bạn phải tải xuống tệp ZIM, việc này cũng có thể mất nhiều thời gian, tùy thuộc vào kích thước tệp.

Nếu bạn không muốn chờ lâu hoặc muốn 'in' nhiều trang web cùng một lúc, tốt hơn hết là nên thực hiện toàn bộ quy trình này trên máy tính của bạn. Việc ghi trực tiếp tệp vào thiết bị lưu trữ sẽ nhanh hơn rất nhiều, và bạn sẽ không cần phải tải tệp ZIM từ internet.

3. Cách nhanh hơn để 'in' một trang web bằng ZIMs

Bạn có thể chạy ứng dụng Zimit trên thiết bị của mình bằng Docker. Docker là một nền tảng mã nguồn mở cho phép bạn chạy các ứng dụng trong môi trường "container" cục bộ. Cộng đồng Docker cung cấp các "image" cho các ứng dụng cụ thể, giúp việc "container hóa" các ứng dụng đó và chạy chúng trên máy tính của bạn trở nên nhanh chóng và dễ dàng. Vì Zimit có image Docker chính thức, việc khởi chạy ứng dụng này và in ZIM bằng image đó rất đơn giản. Hãy để tôi hướng dẫn bạn cách thực hiện.

Trước tiên, bạn cần cài đặt Docker trên thiết bị của mình. Trên Windows, bạn có thể cài đặt Docker Desktop từ Microsoft Store hoặc tải gói cài đặt từ trang web chính thức. Cài đặt nó trên thiết bị của bạn như bất kỳ chương trình nào khác.

Bây giờ chúng ta hãy mở cửa sổ dòng lệnh và xác nhận xem Docker có đang hoạt động bình thường hay không. Chúng ta sẽ chạy một container thử nghiệm để đảm bảo điều đó.

Mã nguồn [Chọn]
docker run hello-world


Lệnh tạo tệp ZIM từ bất kỳ URL nào trông giống như thế này. Tôi đang cố gắng 'in' trang web Legible News, vì vậy tôi đã thêm URL của nó bên cạnh 'seeds' và đặt tên cho nó, như bạn thấy bên cạnh thẻ 'name'. Bạn có thể thay thế nó bằng URL của bất kỳ trang web nào và đặt tên cho tệp lưu trữ theo ý muốn.

Mã nguồn [Chọn]
docker run -v $PWD:/output ghcr.io/openzim/zimit zimit --seeds https://legiblenews.com --name tinynews

Chạy lệnh này sẽ tạo một bản lưu trữ từ mọi trang trên trang web Legible News. Tuy nhiên, để tiết kiệm dung lượng, bạn cũng có thể giới hạn số lượng trang được lưu trữ. Tất cả những gì bạn cần làm là thêm thẻ 'pagelimit' và thẻ 'depth' vào cuối lệnh. Thẻ 'depth' giới hạn số cấp độ mà trình thu thập thông tin sẽ đi qua sau dấu '/' đầu tiên trong URL.

Mã nguồn [Chọn]
docker run -v $PWD:/output ghcr.io/openzim/zimit zimit --seeds https://legiblenews.com --name tinynews --pageLimit 20 --depth 1

Vậy là xong. Tệp ZIM sẽ được tải xuống thư mục mà bạn đã chạy lệnh. Để tìm ra vị trí tệp ZIM được lưu, hãy chạy lệnh sau và mở vị trí đó trong File Explorer.

Mã nguồn [Chọn]
pwd

Giờ đây bạn có thể đọc tệp ZIM mới này bằng Kiwix. Tải xuống gói Kiwix từ trang web chính thức, giải nén vào một thư mục nào đó và nhấp vào biểu tượng khởi chạy ứng dụng 'kiwix-desktop'. Khi trình duyệt Kiwix khởi chạy, nhấp vào biểu tượng thư mục để tải tệp.zim. Trang web sẽ được tải ngay lập tức trong trình đọc.





Bạn có thể lưu trữ và sưu tầm bất kỳ trang web nào để tạo ra một thư viện kiến thức cá nhân mà bạn quan tâm. Khả năng là vô hạn như chính internet vậy. Ngay cả khi không có internet, bạn vẫn có thể xem lại nội dung của trang web yêu thích của mình.